このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240628となっている論文です。

PDF登録状況(公開日: 20240628)

TitleAuthorsAbstract論文公表日・翻訳日
# CodeWorkoutデータセットにおける異常なサブミッションの検出手法

An Approach to Detect Abnormal Submissions for CodeWorkout Dataset ( http://arxiv.org/abs/2407.17475v1 )

ライセンス: Link先を確認
Alex Hicks, Yang Shi, Arun-Balajiee Lekshmi-Narayanan, Wei Yan, Samiha Marwan, (参考訳) 学習環境(ログデータ)における問題解決における生徒の相互作用は、生徒の学習を支援するためにしばしば用いられる。 例えば、研究者はログデータを使用して、学生に自身の知識レベルに基づいてパーソナライズされた問題レコメンデーションを提供するシステムを開発する。 しかし、プログラミングの問題を解くために不正な不正行為など、学生のログデータの異常は、ログデータに隠れたバイアスをもたらす可能性がある。 結果として、これらのシステムは不正確な問題レコメンデーションを提供し、その結果、彼らの目的を損なう可能性がある。 MOSSのような古典的な不正検出手法は、コード盗作を検出するのに使うことができる。 しかし、これらの手法は、特定のプログラミング問題に対して複数の類似した解を試行する学生ゲームシステムなど、他の異常事象を検出することはできない。 本稿では,異常を伴うログデータを解析するための予備研究について述べる。 本研究の目的は、プログラミング学習環境におけるパーソナライズ可能なレコメンデーションをモデル化する際の異常な事例を克服することである。

Students interactions while solving problems in learning environments (i.e. log data) are often used to support students learning. For example, researchers use log data to develop systems that can provide students with personalized problem recommendations based on their knowledge level. However, anomalies in the students log data, such as cheating to solve programming problems, could introduce a hidden bias in the log data. As a result, these systems may provide inaccurate problem recommendations, and therefore, defeat their purpose. Classical cheating detection methods, such as MOSS, can be used to detect code plagiarism. However, these methods cannot detect other abnormal events such as a student gaming a system with multiple attempts of similar solutions to a particular programming problem. This paper presents a preliminary study to analyze log data with anomalies. The goal of our work is to overcome the abnormal instances when modeling personalizable recommendations in programming learning environments.
翻訳日:2024-07-28 18:09:38 公開日:2024-06-28
# ORCDF:オンライン教育システムにおける学生学習のための過度に平滑な認知診断フレームワーク

ORCDF: An Oversmoothing-Resistant Cognitive Diagnosis Framework for Student Learning in Online Education Systems ( http://arxiv.org/abs/2407.17476v1 )

ライセンス: Link先を確認
Hong Qian, Shuo Liu, Mingjia Li, Bingdong Li, Zhi Liu, Aimin Zhou, (参考訳) 認知診断モデル(CDM)は、生徒の反応ログを用いて、生徒の熟達度を学習するように設計されている。 CDMは、教師の指導やコンピュータ化された適応テストといった下流の応用に大きな影響を与えるため、オンライン教育システムにおいて基本的な役割を担っている。 既存のCDMによって達成された成功にもかかわらず、学習者の熟達レベルが似すぎているという厄介な問題に悩まされていることがわかった。 オーバースムーシング(oversmoothing)と呼ばれるこの問題は、下流タスクにおけるCDMの有効性を低下させる可能性がある。 CDMは、学生の熟達レベルを学習し、応答ログを適合させることで熟達レベルを評価する。 本論文は,既存のCDMでは,学習部における演習の応答信号をほとんど利用しないが,評価部におけるラベルとしてのみ使用することから,過度な問題が発生することを主張する。 そこで本研究では,学習部における応答信号を利用して既存のCDMを強化するための,過度に平滑な認知診断フレームワーク(ORCDF)を提案する。 具体的には、ORCDFは応答信号をエッジのタイプとして本質的に組み込む新しい応答グラフを導入している。 次に、ORCDFは、応答グラフ内の重要な応答信号を効果的にキャプチャする、応答対応グラフ畳み込みネットワーク(RGC)を設計する。 ORCDFにより、既存のCDMは、入力埋め込みをRCCの結果に置き換えることで強化され、学習部での演習における応答信号の考慮が可能となる。 実世界のデータセットに対する大規模な実験は、ORCDFが既存のCDMの過剰な問題を軽減するだけでなく、モデルの予測と解釈可能性のパフォーマンスを大幅に向上させることを示している。 さらに,計算機適応テストの下流タスクにおいて,ORCDFの有効性を検証した。

Cognitive diagnosis models (CDMs) are designed to learn students' mastery levels using their response logs. CDMs play a fundamental role in online education systems since they significantly influence downstream applications such as teachers' guidance and computerized adaptive testing. Despite the success achieved by existing CDMs, we find that they suffer from a thorny issue that the learned students' mastery levels are too similar. This issue, which we refer to as oversmoothing, could diminish the CDMs' effectiveness in downstream tasks. CDMs comprise two core parts: learning students' mastery levels and assessing mastery levels by fitting the response logs. This paper contends that the oversmoothing issue arises from that existing CDMs seldom utilize response signals on exercises in the learning part but only use them as labels in the assessing part. To this end, this paper proposes an oversmoothing-resistant cognitive diagnosis framework (ORCDF) to enhance existing CDMs by utilizing response signals in the learning part. Specifically, ORCDF introduces a novel response graph to inherently incorporate response signals as types of edges. Then, ORCDF designs a tailored response-aware graph convolution network (RGC) that effectively captures the crucial response signals within the response graph. Via ORCDF, existing CDMs are enhanced by replacing the input embeddings with the outcome of RGC, allowing for the consideration of response signals on exercises in the learning part. Extensive experiments on real-world datasets show that ORCDF not only helps existing CDMs alleviate the oversmoothing issue but also significantly enhances the models' prediction and interpretability performance. Moreover, the effectiveness of ORCDF is validated in the downstream task of computerized adaptive testing.
翻訳日:2024-07-28 18:09:38 公開日:2024-06-28
# OpenStreetMapのMLアップデート - 研究ギャップの分析と今後の方向性

ML Updates for OpenStreetMap: Analysis of Research Gaps and Future Directions ( http://arxiv.org/abs/2407.03365v1 )

ライセンス: Link先を確認
Lasith Niroshan, James D. Carswell, (参考訳) 正確な最新の地図を維持することは、あらゆる動的な都市景観において重要であり、都市計画、ナビゲーション、緊急対応といった現代の社会の様々な側面を支えている。 しかし、従来の(主に手動の)マップ生産とクラウドソースマッピング手法は、構築された環境の急速な変化とペースを維持するのに依然として苦労している。 このような手動マッピングのワークフローは時間を要するため、人間のエラーを招きやすいため、早期の陳腐化や広範囲な監査の必要性が生じる。 OpenStreetMapの現在のマップ更新プロセスはこの制限の例を提供し、オンラインマップ更新ワークフローにおける多数の手動ステップに依存している。 これを解決するには、エンドツーエンドのマップの更新プロセス全体を自動化することを検討する必要がある。 GoogleやMicrosoftのようなテクノロジーの巨人は、この現代のマッピング問題に対処するための機械学習(ML)技術の調査をすでに始まっている。 本稿では、これらのMLアプローチの分析を行い、特にOpen-StreetMapの更新に焦点をあてる。 この分野での現在の技術状況を分析することで,DeepMapperを将来的なオンライン地図の自動更新プロセスの実践的ソリューションとして紹介する。

Maintaining accurate, up-to-date maps is important in any dynamic urban landscape, supporting various aspects of modern society, such as urban planning, navigation, and emergency response. However, traditional (i.e. largely manual) map production and crowdsourced mapping methods still struggle to keep pace with rapid changes in the built environment. Such manual mapping workflows are time-consuming and prone to human errors, leading to early obsolescence and/or the need for extensive auditing. The current map updating process in OpenStreetMap provides an example of this limitation, relying on numerous manual steps in its online map updating workflow. To address this, there is a need to explore automating the entire end-to-end map up-dating process. Tech giants such as Google and Microsoft have already started investigating Machine Learning (ML) techniques to tackle this contemporary mapping problem. This paper offers an analysis of these ML approaches, focusing on their application to updating Open-StreetMap in particular. By analysing the current state-of-the-art in this field, this study identi-fies some key research gaps and introduces DeepMapper as a practical solution for advancing the automatic online map updating process in the future.
翻訳日:2024-07-22 22:09:04 公開日:2024-06-28
# ビーム変位法によるリーダーを用いた最適3Dポイントラベリング

Optimized 3D Point Labeling with Leaders Using the Beams Displacement Method ( http://arxiv.org/abs/2407.09552v1 )

ライセンス: Link先を確認
Zhiwei Wei, Nai Yang, Wenjia Xu, Su Ding, (参考訳) 3次元の地理的シーンでは、ポイント機能にリードラインのラベルを追加することで、その可視性を大幅に向上させることができる。 リーダーラベルは、位置共役において大きな自由度を持つが、既存の手法は主に限られた位置候補モデルに基づいており、これは地図空間を効果的に活用するだけでなく、ラベル間の相対関係を考えることも困難である。 そこで我々は,地図変位問題の解法に類似したラベル位置の動的構成過程を概念化する。 三角グラフを用いてラベル間の空間関係を記述し、点特徴ラベルに関連する制約を考慮したラベルに作用する力を計算する。 次に,ビーム変位法を用いてラベルの新しい位置を反復的に計算する。 実験結果から, 隣接ラベル間の平均方向ずれを最小限に抑えつつ, ラベルオーバーレイ問題を効果的に軽減できることが示唆された。 さらに、この方法は様々な種類のリードラインラベルに適用可能である。 また,ラベル構成の効率を向上させるブロック処理戦略についても論じ,近接グラフの違いによる影響を分析する。

In three-dimensional geographical scenes, adding labels with leader lines to point features can significantly improve their visibility. Leadered labels have a large degree of freedom in position con-figuration, but existing methods are mostly based on limited position candidate models, which not only fail to effectively utilize the map space but also make it difficult to consider the relative relationships between labels. Therefore, we conceptualize the dynamic configuration process of computing label positions as akin to solving a map displacement problem. We use a triangulated graph to delineate spatial relationships among labels and calculate the forces exerted on labels considering the constraints associated with point feature labels. Then we use the Beams Displacement Method to iteratively calculate new positions for the labels. Our experimental outcomes demonstrate that this method effectively mitigates label overlay issues while maintaining minimal average directional deviation between adjacent labels. Furthermore, this method is adaptable to various types of leader line labels. Meanwhile, we also discuss the block processing strategy to improve the efficiency of label configuration and analyze the impact of different proximity graphs.
翻訳日:2024-07-22 13:08:55 公開日:2024-06-28
# RESVMUNetX: VMambaをベースとした低照度拡張ネットワーク

RESVMUNetX: A Low-Light Enhancement Network Based on VMamba ( http://arxiv.org/abs/2407.09553v1 )

ライセンス: Link先を確認
Shuang Wang, Qingchuan Tao, Zhenming Tang, (参考訳) 本研究では、低照度環境のための新しい画像強調ネットワークであるResVMUNetXについて、長距離画像情報の取得における既存のディープラーニング手法の限界に対処する。 ResVMUNetXは、エラーレグレッションと効率的なVMambaアーキテクチャを活用し、輝度を高め、構造の詳細を復元し、直接ピクセルの追加と特殊なDenoise CNNモジュールを含む2段階のプロセスを通してノイズを取り除く。 LOLデータセット上での優れたパフォーマンスを示すために、ResVMUNetXは、計算要求を減らし、画像の明瞭さと品質を著しく改善し、毎秒70フレームのリアルタイム処理速度を実現する。 これにより、低照度画像の高精細化と、実用的でリアルタイムな応用の可能性を確認することができる。

This study presents ResVMUNetX, a novel image enhancement network for low-light conditions, addressing the limitations of existing deep learning methods in capturing long-range image information. Leveraging error regression and an efficient VMamba architecture, ResVMUNetX enhances brightness, recovers structural details, and removes noise through a two-step process involving direct pixel addition and a specialized Denoise CNN module. Demonstrating superior performance on the LOL dataset, ResVMUNetX significantly improves image clarity and quality with reduced computational demands, achieving real-time processing speeds of up to 70 frames per second. This confirms its effectiveness in enhancing low-light images and its potential for practical, real-time applications.
翻訳日:2024-07-22 13:08:55 公開日:2024-06-28
# 組み込みシステムにおける動的メモリマネージャ最適化のための並列進化アルゴリズム

A parallel evolutionary algorithm to optimize dynamic memory managers in embedded systems ( http://arxiv.org/abs/2407.09555v1 )

ライセンス: Link先を確認
José L. Risco-Martín, David Atienza, J. Manuel Colmenar, Oscar Garnica, (参考訳) 過去30年間、複数の動的メモリマネージャ(DMM)が提案されてきた。 このようなDMMには、ファーストフィット、ベストフィット、分離フィット、バディシステムが含まれる。 それぞれのDMMの性能、メモリ使用量、エネルギー消費が異なるため、ソフトウェアエンジニアはアプリケーションに最も適したアプローチを選択するのに難しい選択に直面します。 この問題は、ポータブルなコンシューマ組み込みシステムにおいて、限られた量のマルチメディアアプリケーション(例えば、3Dゲーム、ビデオプレーヤー、信号処理ソフトウェアなど)を実行し、低消費電力で高性能で広範なメモリ使用を必要とする、特別な影響を与える。 近年,DMMを自動的に設計し,性能,メモリ使用量,エネルギー消費を最適化する遺伝的プログラミングに基づく新しい手法が開発されている。 しかしながら、このプロセスは、最先端の最適化よりも自動化され、高速であるが、集中的な計算を必要とするため、時間を要する。 したがって、並列処理は、新しいアルゴリズムを実装するだけでなく、同時に多くのソリューションを探索するのに非常に有用である。 本稿では、サービス指向アーキテクチャ(SOA)フレームワーク上の離散イベント仕様(DEVS)形式に基づく、組み込みシステムにおけるDMM最適化のための新しい並列進化アルゴリズムを提案する。 並列性はシーケンシャルな探索アルゴリズムの性能を大幅に向上させる。 一方、両手法で世代数が異なる場合、並列最適化フレームワークは他の最先端手法と比較して86.40倍の高速化を実現することができる。 他方では、2つのよく知られた汎用DMMと2つの最先端最適化手法に関して、36.36%で得られた最終DMMのグローバル品質(性能レベル、低メモリ使用量、低エネルギー消費)を改善する。

For the last thirty years, several Dynamic Memory Managers (DMMs) have been proposed. Such DMMs include first fit, best fit, segregated fit and buddy systems. Since the performance, memory usage and energy consumption of each DMM differs, software engineers often face difficult choices in selecting the most suitable approach for their applications. This issue has special impact in the field of portable consumer embedded systems, that must execute a limited amount of multimedia applications (e.g., 3D games, video players and signal processing software, etc.), demanding high performance and extensive memory usage at a low energy consumption. Recently, we have developed a novel methodology based on genetic programming to automatically design custom DMMs, optimizing performance, memory usage and energy consumption. However, although this process is automatic and faster than state-of-the-art optimizations, it demands intensive computation, resulting in a time consuming process. Thus, parallel processing can be very useful to enable to explore more solutions spending the same time, as well as to implement new algorithms. In this paper we present a novel parallel evolutionary algorithm for DMMs optimization in embedded systems, based on the Discrete Event Specification (DEVS) formalism over a Service Oriented Architecture (SOA) framework. Parallelism significantly improves the performance of the sequential exploration algorithm. On the one hand, when the number of generations are the same in both approaches, our parallel optimization framework is able to reach a speed-up of 86.40x when compared with other state-of-the-art approaches. On the other, it improves the global quality (i.e., level of performance, low memory usage and low energy consumption) of the final DMM obtained in a 36.36% with respect to two well-known general-purpose DMMs and two state-of-the-art optimization methodologies.
翻訳日:2024-07-22 13:08:55 公開日:2024-06-28
# CNN-CNNアーキテクチャと階層的注意を用いた説明可能な画像キャプション

Explainable Image Captioning using CNN- CNN architecture and Hierarchical Attention ( http://arxiv.org/abs/2407.09556v1 )

ライセンス: Link先を確認
Rishi Kesav Mohan, Sanjay Sureshkumar, Vignesh Sivasubramaniam, (参考訳) 画像キャプションは、画像のテキストベースの記述を生成する技術である。 機能認識の上に構築されたディープラーニングベースのソリューションは、その目的を達成するのに非常に役立ちます。 しかし、他の機械学習ソリューションと同様に、キャプション生成のプロセスにおけるユーザ理解は貧弱であり、そのモデルには予測に関する説明がないため、従来の手法はBlack-Boxメソッドとも呼ばれる。 したがって、モデルの予測がユーザによって信頼されるアプローチは、相互運用性を高く評価するために必要である。 説明可能なAIは、モデルやアルゴリズムの予測が説明可能で正当化可能な方法で、従来の方法にアプローチするアプローチである。 そこで本論文では,モデルが生成したキャプションを説明・可視化できるように,説明可能なAIを用いた画像キャプションのアプローチを試みる。 CNNデコーダと階層型アテンションの概念を取り入れた新しいアーキテクチャが,キャプション生成の高速化と精度向上に利用されている。 また、モデルに説明可能性を導入することで、アプリケーションで使用する場合の信頼性も向上します。 本論文では,MSCOCOデータセットを用いてモデルのトレーニングと評価を行い,定量的および定性的な結果について述べる。

Image captioning is a technology that produces text-based descriptions for an image. Deep learning-based solutions built on top of feature recognition may very well serve the purpose. But as with any other machine learning solution, the user understanding in the process of caption generation is poor and the model does not provide any explanation for its predictions and hence the conventional methods are also referred to as Black-Box methods. Thus, an approach where the model's predictions are trusted by the user is needed to appreciate interoperability. Explainable AI is an approach where a conventional method is approached in a way that the model or the algorithm's predictions can be explainable and justifiable. Thus, this article tries to approach image captioning using Explainable AI such that the resulting captions generated by the model can be Explained and visualized. A newer architecture with a CNN decoder and hierarchical attention concept has been used to increase speed and accuracy of caption generation. Also, incorporating explainability to a model makes it more trustable when used in an application. The model is trained and evaluated using MSCOCO dataset and both quantitative and qualitative results are presented in this article.
翻訳日:2024-07-22 13:08:55 公開日:2024-06-28
# スマートコントラクト生成における大規模言語モデルの有効性

Efficacy of Various Large Language Models in Generating Smart Contracts ( http://arxiv.org/abs/2407.11019v1 )

ライセンス: Link先を確認
Siddhartha Chatterjee, Bina Ramamurthy, (参考訳) 本研究では,Ethereumブロックチェーン上での不変なSolidityスマートコントラクト生成におけるコード生成型大規模言語モデルの適用性について分析する。 コードでトレーニングされた大規模言語モデルを評価する、Mark Chen氏など。 al (2012)は以前、人工知能のコード生成能力を分析した。 本稿では,スマートコントラクトなどのセキュリティと効率性が最優先事項であるプログラムを含む,より広い範囲に拡張することを目的とする。 この研究に繋がる仮説は、一般的にLLMは、コードにセキュリティの詳細を厳格に実装することが困難である、というものだった。 また、新しいプロンプト戦略を通じてスマートコントラクトを生成する新しい方法を発見しました。

This study analyzes the application of code-generating Large Language Models in the creation of immutable Solidity smart contracts on the Ethereum Blockchain. Other works such as Evaluating Large Language Models Trained on Code, Mark Chen et. al (2012) have previously analyzed Artificial Intelligence code generation abilities. This paper aims to expand this to a larger scope to include programs where security and efficiency are of utmost priority such as smart contracts. The hypothesis leading into the study was that LLMs in general would have difficulty in rigorously implementing security details in the code, which was shown through our results, but surprisingly generally succeeded in many common types of contracts. We also discovered a novel way of generating smart contracts through new prompting strategies.
翻訳日:2024-07-22 12:20:02 公開日:2024-06-28
# ITERTL: RTLコード生成のための微調整LDMの反復フレームワーク

ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation ( http://arxiv.org/abs/2407.12022v1 )

ライセンス: Link先を確認
Peiyang Wu, Nan Guo, Xiao Xiao, Wenming Li, Xiaochun Ye, Dongrui Fan, (参考訳) 近年,大規模な言語モデル (LLM) は人間の指示やコード生成において優れた性能を示しており,研究者はLLMによるRTLコード生成の可能性を探究している。 しかし、RTL符号上での微調整 LLM への既存のアプローチは、通常、固定データセット上で行われ、LLM の能力を十分に刺激せず、大量の参照データを必要とする。 これらの問題を緩和するため,ITERTLというシンプルな反復訓練パラダイムを導入する。 各イテレーションにおいて、サンプルは前回のサイクルでトレーニングされたモデルから引き出される。 次に、これらの新しいサンプルをこのループでトレーニングするために使用します。 この反復的アプローチにより、モデルとトレーニングサンプル間の分布ミスマッチが低減される。 さらに、このモデルはより広範な生成空間を探索し、より包括的なフィードバックを受け取ることができる。 有効性のメカニズムを解明するために理論的解析を行った。 実験結果から,提案手法を用いてトレーニングしたモデルは,2つのVerilogEval評価データセットに対してそれぞれ42.9\%,62.2\%パス@1レートを達成し,最先端のSOTA(State-of-the-art(SOTA))オープンソースモデルと37.%近い参照サンプルで競合することを示す。 同じ量の参照サンプルを使用しても,非定位法と比較してパス@1の16.9\%と12.5\%の相対的な改善が達成できる。 本研究では,制限データを用いた実運用シナリオにおけるRTLコード生成にLLMを適用することを容易にする。

Recently, large language models (LLMs) have demonstrated excellent performance in understanding human instructions and generating code, which has inspired researchers to explore the feasibility of generating RTL code with LLMs. However, the existing approaches to fine-tune LLMs on RTL codes typically are conducted on fixed datasets, which do not fully stimulate the capability of LLMs and require large amounts of reference data. To mitigate these issues , we introduce a simple yet effective iterative training paradigm named ITERTL. During each iteration, samples are drawn from the model trained in the previous cycle. Then these new samples are employed for training in this loop. Through this iterative approach, the distribution mismatch between the model and the training samples is reduced. Additionally, the model is thus enabled to explore a broader generative space and receive more comprehensive feedback. Theoretical analyses are conducted to investigate the mechanism of the effectiveness. Experimental results show the model trained through our proposed approach can compete with and even outperform the state-of-the-art (SOTA) open-source model with nearly 37\% reference samples, achieving remarkable 42.9\% and 62.2\% pass@1 rate on two VerilogEval evaluation datasets respectively. While using the same amount of reference samples, our method can achieved a relative improvement of 16.9\% and 12.5\% in pass@1 compared to the non-iterative method. This study facilitates the application of LLMs for generating RTL code in practical scenarios with limited data.
翻訳日:2024-07-22 11:20:27 公開日:2024-06-28
# CMMaTH: 基礎モデルのための中国のマルチモーダル数学スキル評価ベンチマーク

CMMaTH: A Chinese Multi-modal Math Skill Evaluation Benchmark for Foundation Models ( http://arxiv.org/abs/2407.12023v1 )

ライセンス: Link先を確認
Zhong-Zhi Li, Ming-Liang Zhang, Fei Yin, Zhi-Long Ji, Jin-Feng Bai, Zhen-Ru Pan, Fan-Hu Zeng, Jian Xu, Jia-Xin Zhang, Cheng-Lin Liu, (参考訳) マルチモーダルな大規模言語モデルの急速な進歩により、多モーダルな数学的能力の評価はいまだ広く注目を集めている。 MathVistaのようなデータセットは、マルチモーダルシナリオの数学的能力を評価するためのベンチマークを提案しているが、中国語のK12教育の文脈で詳細な評価を行うための、対応する評価ツールとデータセットはいまだに存在しない。 中国におけるマルチモーダル数学問題の解法におけるマルチモーダル大モデルの有効性を体系的に評価するために,CMMaTHと命名された中国のマルチモーダル数学スキル評価ベンチマークを提案する。 小学校から高校までのCMMaTH質問は、問題タイプ、解決目標、視覚要素、詳細な知識ポイント、標準ソリューションアノテーションの多様性の向上を提供する。 我々は,CMMaTHデータセットと統合したオープンソースツール GradeGPT を構築し,安定,迅速,低コストなモデル評価を容易にする。 私たちのデータとコードは利用可能です。

Due to the rapid advancements in multimodal large language models, evaluating their multimodal mathematical capabilities continues to receive wide attention. Despite the datasets like MathVista proposed benchmarks for assessing mathematical capabilities in multimodal scenarios, there is still a lack of corresponding evaluation tools and datasets for fine-grained assessment in the context of K12 education in Chinese language. To systematically evaluate the capability of multimodal large models in solving Chinese multimodal mathematical problems, we propose a Chinese Multi-modal Math Skill Evaluation Benchmark, named CMMaTH, contraining 23k multimodal K12 math related questions, forming the largest Chinese multimodal mathematical problem benchmark to date. CMMaTH questions from elementary to high school levels, provide increased diversity in problem types, solution objectives, visual elements, detailed knowledge points, and standard solution annotations. We have constructed an open-source tool GradeGPT integrated with the CMMaTH dataset, facilitating stable, rapid, and cost-free model evaluation. Our data and code are available.
翻訳日:2024-07-22 11:20:27 公開日:2024-06-28
# スマートホームにおける個人化ユーザエクスペリエンス向上のための大規模言語モデルの活用

Leveraging Large Language Models for enhanced personalised user experience in Smart Homes ( http://arxiv.org/abs/2407.12024v1 )

ライセンス: Link先を確認
Jordan Rey-Jouanchicot, André Bottaro, Eric Campo, Jean-Léon Bouraoui, Nadine Vigouroux, Frédéric Vella, (参考訳) スマートホームオートメーションシステムは、生活環境におけるユーザの快適さと利便性を向上させることを目的としている。 しかしながら、自動化をユーザのニーズに適応させることは、依然として課題です。 実際、多くのシステムは、各スマートオブジェクトに対して手作りのルーチンに依存している。本稿では、大規模言語モデル(LLM)とユーザの好みを利用して、ホーム環境におけるパーソナライゼーションと直感性の境界を押し上げる、独自のスマートホームアーキテクチャを提示する。この記事では、LLMが提供する一般的な知識を用いて、環境とのインタラクションを学習し、促進する、人間中心のアプローチについて考察する。 いくつかの指標は、システムの快適さ、安全性、ユーザの好みを維持する能力を決定するために評価される。 提案手法は,Starling 7B Alpha LLMで平均52.3%,平均処理時間を35.6%削減する。 さらに、パフォーマンスは好みのない大型モデルの結果よりも26.4%向上し、処理時間が約20倍速くなった。

Smart home automation systems aim to improve the comfort and convenience of users in their living environment. However, adapting automation to user needs remains a challenge. Indeed, many systems still rely on hand-crafted routines for each smart object.This paper presents an original smart home architecture leveraging Large Language Models (LLMs) and user preferences to push the boundaries of personalisation and intuitiveness in the home environment.This article explores a human-centred approach that uses the general knowledge provided by LLMs to learn and facilitate interactions with the environment.The advantages of the proposed model are demonstrated on a set of scenarios, as well as a comparative analysis with various LLM implementations. Some metrics are assessed to determine the system's ability to maintain comfort, safety, and user preferences. The paper details the approach to real-world implementation and evaluation.The proposed approach of using preferences shows up to 52.3% increase in average grade, and with an average processing time reduced by 35.6% on Starling 7B Alpha LLM. In addition, performance is 26.4% better than the results of the larger models without preferences, with processing time almost 20 times faster.
翻訳日:2024-07-22 11:20:27 公開日:2024-06-28
# LLM4DESIGN:建築・環境設計のための自動マルチモーダルシステム

LLM4DESIGN: An Automated Multi-Modal System for Architectural and Environmental Design ( http://arxiv.org/abs/2407.12025v1 )

ライセンス: Link先を確認
Ran Chen, Xueqi Yao, Xuhui Jiang, (参考訳) 本研究では,建築・環境設計を高度に自動化したLLM4DESIGNを提案する。 LLM4DESIGNは、サイト条件と設計要件にのみ依存しており、創造性を育むためにマルチエージェントシステム、リアリズムにおけるデザインを基盤とする検索拡張生成(RAG)、全ての情報を同期するビジュアル言語モデル(VLM)を採用している。 このシステムはコヒーレント、マルチイリュージョン、マルチテキストの設計スキームをもたらす。 本システムは,建築・環境デザインの提案において,ストーリーテリングと客観的図面提示という2つのニーズを満たす。 大規模な比較・アブレーション実験により、LLM4DESIGNの物語の革新性と計画の適用性が確認され、都市再生設計の分野でその優れた性能を示している。 最後に,建築,ランドスケープ,インテリア,都市デザインをカバーする最初のクロスモーダルデザインスキームデータセットを作成し,今後の研究に豊富な資源を提供する。

This study introduces LLM4DESIGN, a highly automated system for generating architectural and environmental design proposals. LLM4DESIGN, relying solely on site conditions and design requirements, employs Multi-Agent systems to foster creativity, Retrieval Augmented Generation (RAG) to ground designs in realism, and Visual Language Models (VLM) to synchronize all information. This system resulting in coherent, multi-illustrated, and multi-textual design schemes. The system meets the dual needs of narrative storytelling and objective drawing presentation in generating architectural and environmental design proposals. Extensive comparative and ablation experiments confirm the innovativeness of LLM4DESIGN's narrative and the grounded applicability of its plans, demonstrating its superior performance in the field of urban renewal design. Lastly, we have created the first cross-modal design scheme dataset covering architecture, landscape, interior, and urban design, providing rich resources for future research.
翻訳日:2024-07-22 11:20:27 公開日:2024-06-28
# LLMの時代における出版の落とし穴--高速NLP誌による奇妙な冒険と驚きの冒険

The Pitfalls of Publishing in the Age of LLMs: Strange and Surprising Adventures with a High-Impact NLP Journal ( http://arxiv.org/abs/2407.12026v1 )

ライセンス: Link先を確認
Rakesh M. Verma, Nachum Dershowitz, (参考訳) 学術出版界の難解な側面を概説し,NLP誌による最近の事例研究を通して解説する。

We show the fraught side of the academic publishing realm and illustrate it through a recent case study with an NLP journal.
翻訳日:2024-07-22 11:20:27 公開日:2024-06-28
# Idleが新しいスリープ:FPGAベースのDLアクセラレータを非アクティブに駆動する代替設定対応

Idle is the New Sleep: Configuration-Aware Alternative to Powering Off FPGA-Based DL Accelerators During Inactivity ( http://arxiv.org/abs/2407.12027v1 )

ライセンス: Link先を確認
Chao Qian, Christopher Cichiwskyj, Tianheng Ling, Gregor Schiele, (参考訳) 急速に進化するIoT(Internet of Things)領域では,FPGAベースのヘテロジニアスプラットフォーム上でのDeep Learningアクセラレータのエネルギー効率向上に重点を置いて,持続可能なコンピューティングの原則に準拠しています。 推論フェーズではなく、FPGA設定フェーズのオーバーヘッドを最小限に抑えるために、革新的な最適化を導入する。 設定パラメータを正確に調整することで、構成エネルギーを40.13倍に削減した。 さらに、省電力化により、従来のオンオフ方式を499.06msまでの要求期間で上回り、特に4147Jのエネルギー予算内で40msの要求期間において、オンオフ方式の約12.39倍までシステム寿命を延長した。 ハードウェアの測定とシミュレーションを通じて実証的に検証されたこれらの最適化は、IoTにおけるエネルギー効率と持続可能なデプロイメントを実現するための貴重な洞察と実践的な方法を提供する。

In the rapidly evolving Internet of Things (IoT) domain, we concentrate on enhancing energy efficiency in Deep Learning accelerators on FPGA-based heterogeneous platforms, aligning with the principles of sustainable computing. Instead of focusing on the inference phase, we introduce innovative optimizations to minimize the overhead of the FPGA configuration phase. By fine-tuning configuration parameters correctly, we achieved a 40.13-fold reduction in configuration energy. Moreover, augmented with power-saving methods, our Idle-Waiting strategy outperformed the traditional On-Off strategy in duty-cycle mode for request periods up to 499.06 ms. Specifically, at a 40 ms request period within a 4147 J energy budget, this strategy extends the system lifetime to approximately 12.39x that of the On-Off strategy. Empirically validated through hardware measurements and simulations, these optimizations provide valuable insights and practical methods for achieving energy-efficient and sustainable deployments in IoT.
翻訳日:2024-07-22 11:20:27 公開日:2024-06-28
# TreeSeg: 大規模トランスクリプトの階層的なトピックセグメンテーション

TreeSeg: Hierarchical Topic Segmentation of Large Transcripts ( http://arxiv.org/abs/2407.12028v1 )

ライセンス: Link先を確認
Dimitrios C. Gklezakos, Timothy Misiak, Diamond Bishop, (参考訳) 記録されたビデオや会議を章にまとめることから、それらをコモディティ化されたLarge Language Models (LLM)のコンテキストウィンドウに適合させるために、大きなテキストのトピックセグメンテーションが重要度を高めるタスクとして出現する。 それでも正確なセグメンテーションには多くの課題がある。 (a)典型的には、自動音声認識(ASR)ソフトウェアの雑音性 b)多彩なラベル付きデータの欠如と (c) セグメントの接点・接点数をピンポイントすることの難しさ。 本研究では,市販の埋め込みモデルと分割クラスタリングを組み合わせるアプローチであるTreeSegを紹介し,バイナリツリーの形で,階層的で構造化されたトランスクリプトのセグメンテーションを生成する。 我々のアプローチはノイズに耐性があり、大きな文字を効率的に処理できる。 ICSIとAMIコーパスでTreeSegを評価し,すべてのベースラインを上回る性能を示した。 最後に,自己記録ビデオセッションから得られた手書き手書き文字の小さなコーパスであるTinyRecを紹介する。

From organizing recorded videos and meetings into chapters, to breaking down large inputs in order to fit them into the context window of commoditized Large Language Models (LLMs), topic segmentation of large transcripts emerges as a task of increasing significance. Still, accurate segmentation presents many challenges, including (a) the noisy nature of the Automatic Speech Recognition (ASR) software typically used to obtain the transcripts, (b) the lack of diverse labeled data and (c) the difficulty in pin-pointing the ground-truth number of segments. In this work we present TreeSeg, an approach that combines off-the-shelf embedding models with divisive clustering, to generate hierarchical, structured segmentations of transcripts in the form of binary trees. Our approach is robust to noise and can handle large transcripts efficiently. We evaluate TreeSeg on the ICSI and AMI corpora, demonstrating that it outperforms all baselines. Finally, we introduce TinyRec, a small-scale corpus of manually annotated transcripts, obtained from self-recorded video sessions.
翻訳日:2024-07-22 11:20:27 公開日:2024-06-28
# 自然言語処理における計算的ポリテネス:サーベイ

Computational Politeness in Natural Language Processing: A Survey ( http://arxiv.org/abs/2407.12814v1 )

ライセンス: Link先を確認
Priyanshu Priya, Mauajama Firdaus, Asif Ekbal, (参考訳) 丁寧さに対する計算的アプローチは、テキストの丁寧さを自動的に予測し、生成するタスクである。 これは、相互作用における丁寧さのユビキティと課題を考えると、会話分析の重要なタスクである。 丁寧さに対する計算的アプローチは、会話分析コミュニティから大きな関心を集めている。 本稿は、自然言語処理における計算の丁寧さに関する過去の研究のまとめである。 これまでに本研究の4つのマイルストーンとして,与えられたテキストにおける丁寧さを識別・誘導するための教師付きおよび弱教師付き特徴抽出,対象テキストを超えた文脈の取り込み,社会的要因の多義性の研究,多義性と様々な社会言語的手がかりの関係について検討している。 本稿では,計算の丁寧さ研究におけるデータセット,アプローチ,傾向,課題について述べる。 また、代表的なパフォーマンスの値についても議論し、先程の作業で述べたように、将来の作業へのポインタを提供する。 現状を理解するためのリソースに関して、この調査はいくつかの貴重なイラストを提示する。最も顕著なのは、過去の論文を様々な次元に沿って要約するテーブルである。

Computational approach to politeness is the task of automatically predicting and generating politeness in text. This is a pivotal task for conversational analysis, given the ubiquity and challenges of politeness in interactions. The computational approach to politeness has witnessed great interest from the conversational analysis community. This article is a compilation of past works in computational politeness in natural language processing. We view four milestones in the research so far, viz. supervised and weakly-supervised feature extraction to identify and induce politeness in a given text, incorporation of context beyond the target text, study of politeness across different social factors, and study the relationship between politeness and various sociolinguistic cues. In this article, we describe the datasets, approaches, trends, and issues in computational politeness research. We also discuss representative performance values and provide pointers to future works, as given in the prior works. In terms of resources to understand the state-of-the-art, this survey presents several valuable illustrations, most prominently, a table summarizing the past papers along different dimensions, such as the types of features, annotation techniques, and datasets used.
翻訳日:2024-07-22 08:47:38 公開日:2024-06-28
# SMLT-MUGC:Small, Medium, Large Texts -- マシン対ユーザ生成コンテンツ検出と比較

SMLT-MUGC: Small, Medium, and Large Texts -- Machine versus User-Generated Content Detection and Comparison ( http://arxiv.org/abs/2407.12815v1 )

ライセンス: Link先を確認
Anjali Rawal, Hui Wang, Youjia Zheng, Yu-Hsuan Lin, Shanu Sushmita, (参考訳) 大規模言語モデル(LLM)は、人間の言語を模倣する能力から注目されている。 LLMによって生成されたテキストを識別することは、それらの能力を理解し、潜在的な結果を軽減するために不可欠である。 本稿では,小,中,大のテキスト長のデータセットを解析する。 本研究では,(1)小規模(選挙,FIFA,ゲーム・オブ・スローンズからのツイート),(2)メディア(Wikipedia導入,PubMed要約),(3)大規模(OpenAI Webテキストデータセット)の4つのデータセットにおける機械学習アルゴリズムの性能を比較した。 この結果から,非常に大きなパラメータを持つLCM(例えば1542万パラメータを持つGPT2のXL-1542変種など)は,従来の機械学習手法による検出が困難(74%)であることが示唆された。 しかし、より小さいパラメータ(7億7200万以下)のLLMから様々な長さのテキストを検出することは、高精度(96%以上)で行うことができる。 言語学,人格,感情,偏見,道徳など,多次元にわたる人文・機械文の特徴について検討する。 以上の結果から,機械生成テキストは可読性が高く,人間の道徳的判断を忠実に模倣するが,性格的特徴が異なることが示唆された。 SVMとVoting Classifier(VC)モデルは、ほとんどのデータセットで一貫してハイパフォーマンスを実現していますが、Decision Tree(DT)モデルは、最低パフォーマンスを示しています。 言い換えられたテキスト、特にツイートのような短いテキストを扱う場合、モデルのパフォーマンスは低下する。 本研究は, LLM生成テキストの検出の課題と重要性を概説し, 検出方法の改善と, LLMのニュアンスド能力の理解に向けた今後の研究の方向性を提案する。

Large language models (LLMs) have gained significant attention due to their ability to mimic human language. Identifying texts generated by LLMs is crucial for understanding their capabilities and mitigating potential consequences. This paper analyzes datasets of varying text lengths: small, medium, and large. We compare the performance of machine learning algorithms on four datasets: (1) small (tweets from Election, FIFA, and Game of Thrones), (2) medium (Wikipedia introductions and PubMed abstracts), and (3) large (OpenAI web text dataset). Our results indicate that LLMs with very large parameters (such as the XL-1542 variant of GPT2 with 1542 million parameters) were harder (74%) to detect using traditional machine learning methods. However, detecting texts of varying lengths from LLMs with smaller parameters (762 million or less) can be done with high accuracy (96% and above). We examine the characteristics of human and machine-generated texts across multiple dimensions, including linguistics, personality, sentiment, bias, and morality. Our findings indicate that machine-generated texts generally have higher readability and closely mimic human moral judgments but differ in personality traits. SVM and Voting Classifier (VC) models consistently achieve high performance across most datasets, while Decision Tree (DT) models show the lowest performance. Model performance drops when dealing with rephrased texts, particularly shorter texts like tweets. This study underscores the challenges and importance of detecting LLM-generated texts and suggests directions for future research to improve detection methods and understand the nuanced capabilities of LLMs.
翻訳日:2024-07-22 08:47:38 公開日:2024-06-28
# AIシステムにおける故障解析と故障注入に関する調査

A Survey on Failure Analysis and Fault Injection in AI Systems ( http://arxiv.org/abs/2407.00125v1 )

ライセンス: Link先を確認
Guangba Yu, Gou Tan, Haojia Huang, Zhenyu Zhang, Pengfei Chen, Roberto Natella, Zibin Zheng, (参考訳) 人工知能(AI)の急速な進歩は、人工知能生成コンテンツ(AIGC)の能力を大幅に強化する大規模言語モデル(LLM)など、様々な分野への統合につながっている。 しかし、AIシステムの複雑さもその脆弱性を露呈し、レジリエンスと信頼性を確保するために、障害分析(FA)と障害注入(FI)の堅牢な方法を必要としている。 これらの技術の重要性にもかかわらず、AIシステムにおけるFAおよびFI方法論の包括的なレビューは欠落している。 この研究は、AIシステムの6層にわたる既存のFAとFIのアプローチを詳細に調査することで、このギャップを埋める。 我々は,(1)AIシステムでよく見られる障害とは何か,(2)現在のFIツールがシミュレートできる障害の種類は何か,(3)シミュレーションされた障害と実世界の障害の間にはどのようなギャップがあるのか,という3つの研究課題に答えるために,160の論文とリポジトリを体系的に分析した。 この結果から,AIシステム障害の分類,既存のFIツールの能力評価,実世界とシミュレーション失敗の相違点が明らかになった。 さらに、この調査は、故障診断のためのフレームワークを提供し、FIの最先端を評価し、AIシステムのレジリエンスを高めるためのFI技術を改善するための領域を特定することで、この分野に貢献する。

The rapid advancement of Artificial Intelligence (AI) has led to its integration into various areas, especially with Large Language Models (LLMs) significantly enhancing capabilities in Artificial Intelligence Generated Content (AIGC). However, the complexity of AI systems has also exposed their vulnerabilities, necessitating robust methods for failure analysis (FA) and fault injection (FI) to ensure resilience and reliability. Despite the importance of these techniques, there lacks a comprehensive review of FA and FI methodologies in AI systems. This study fills this gap by presenting a detailed survey of existing FA and FI approaches across six layers of AI systems. We systematically analyze 160 papers and repositories to answer three research questions including (1) what are the prevalent failures in AI systems, (2) what types of faults can current FI tools simulate, (3) what gaps exist between the simulated faults and real-world failures. Our findings reveal a taxonomy of AI system failures, assess the capabilities of existing FI tools, and highlight discrepancies between real-world and simulated failures. Moreover, this survey contributes to the field by providing a framework for fault diagnosis, evaluating the state-of-the-art in FI, and identifying areas for improvement in FI techniques to enhance the resilience of AI systems.
翻訳日:2024-07-04 06:20:13 公開日:2024-06-28
# 絶滅危惧種の個体群モニタリングのためのドローン画像における多種オブジェクト検出

Multi-Species Object Detection in Drone Imagery for Population Monitoring of Endangered Animals ( http://arxiv.org/abs/2407.00127v1 )

ライセンス: Link先を確認
Sowmya Sankaran, (参考訳) 世界中の動物の個体数は急速に減少しており、絶滅危惧種を正確に数えることができる技術は、数年にわたって個体数の変化を監視するのに欠かせない可能性がある。 本研究は,動物種を正確に数えるために,ドローン画像の微調整対象検出モデルに焦点を当てた。 ドローンを使って撮影した何百もの画像と、公開可能な大規模なドローン画像データセットを使用して、ベースラインのYOLOv8アーキテクチャで機械学習モデルを微調整した。 最大で4370万のパラメータと365のレイヤを持つ30の異なるモデルをトレーニングし、ハイパーパラメータチューニングとデータ拡張技術を使用して精度を向上しました。 最新のYOLOv8ベースラインはサファリ動物のデータセットでは0.7%の精度しか得られなかったが、我々のモデルは同じデータセットでは95%の精度であった。 最後に、Jetson Orin Nanoにモデルをデプロイし、ドローンでの推論を容易にするために、低消費電力のリアルタイム種検出のデモを行いました。

Animal populations worldwide are rapidly declining, and a technology that can accurately count endangered species could be vital for monitoring population changes over several years. This research focused on fine-tuning object detection models for drone images to create accurate counts of animal species. Hundreds of images taken using a drone and large, openly available drone-image datasets were used to fine-tune machine learning models with the baseline YOLOv8 architecture. We trained 30 different models, with the largest having 43.7 million parameters and 365 layers, and used hyperparameter tuning and data augmentation techniques to improve accuracy. While the state-of-the-art YOLOv8 baseline had only 0.7% accuracy on a dataset of safari animals, our models had 95% accuracy on the same dataset. Finally, we deployed the models on the Jetson Orin Nano for demonstration of low-power real-time species detection for easy inference on drones.
翻訳日:2024-07-04 06:20:13 公開日:2024-06-28
# 検索エンジンサービスが大規模言語モデルに合うとき:ビジョンと課題

When Search Engine Services meet Large Language Models: Visions and Challenges ( http://arxiv.org/abs/2407.00128v1 )

ライセンス: Link先を確認
Haoyi Xiong, Jiang Bian, Yuchen Li, Xuhong Li, Mengnan Du, Shuaiqiang Wang, Dawei Yin, Sumi Helal, (参考訳) 大規模言語モデル(LLM)と検索エンジンサービスを組み合わせることは、サービスコンピューティング分野における大きな変化であり、情報検索や検索方法、コンテンツ理解、インターネットサービスとの対話の方法を強化する新たな可能性を開く。 本稿では,LLMを検索エンジンに組み込むことによって,両技術が相互に有効であるかどうかを詳細に検討する。 LLM(Search4LLM)の改良と,LLM(LLM4Search)を用いた検索エンジン機能の向上という,2つの主要な領域に注目した。 検索4LLMでは、検索エンジンがLLMの事前学習のための多様な高品質なデータセットをどのように提供できるか、LLMがクエリーをより正確に答えるために最も関連性の高いドキュメントをどのように利用できるか、Learning-To-Rank(LTR)タスクによるLLMのトレーニングが、より精度の高い応答能力を向上し、最近の検索結果を組み込むことによって、LLM生成コンテンツをより正確かつ現在のものにする方法を検討する。 LLM4Searchでは,検索エンジンによるより良い索引付けのためのコンテンツ要約,最適化によるクエリ結果の改善,文書関連性の分析による検索結果のランク付けの強化,各種学習文脈における学習タスクのアノテート支援などについて検討する。 しかし、この有望な統合は、トレーニングモデルにおける潜在的なバイアスや倫理的な問題に対処すること、LLMを検索サービスに組み込む際の計算やその他のコストの管理、絶えず変化するWebコンテンツでLLMトレーニングを継続的に更新することなど、その課題を伴っている。 これらの課題を議論し、それらに取り組むために必要な研究の方向性をまとめる。 また,スケーラビリティやプライバシの懸念,高度なモデルに検索エンジンアーキテクチャを適用する必要性など,サービスコンピューティングに対する広範な影響についても論じる。

Combining Large Language Models (LLMs) with search engine services marks a significant shift in the field of services computing, opening up new possibilities to enhance how we search for and retrieve information, understand content, and interact with internet services. This paper conducts an in-depth examination of how integrating LLMs with search engines can mutually benefit both technologies. We focus on two main areas: using search engines to improve LLMs (Search4LLM) and enhancing search engine functions using LLMs (LLM4Search). For Search4LLM, we investigate how search engines can provide diverse high-quality datasets for pre-training of LLMs, how they can use the most relevant documents to help LLMs learn to answer queries more accurately, how training LLMs with Learning-To-Rank (LTR) tasks can enhance their ability to respond with greater precision, and how incorporating recent search results can make LLM-generated content more accurate and current. In terms of LLM4Search, we examine how LLMs can be used to summarize content for better indexing by search engines, improve query outcomes through optimization, enhance the ranking of search results by analyzing document relevance, and help in annotating data for learning-to-rank tasks in various learning contexts. However, this promising integration comes with its challenges, which include addressing potential biases and ethical issues in training models, managing the computational and other costs of incorporating LLMs into search services, and continuously updating LLM training with the ever-changing web content. We discuss these challenges and chart out required research directions to address them. We also discuss broader implications for service computing, such as scalability, privacy concerns, and the need to adapt search engine architectures for these advanced models.
翻訳日:2024-07-04 06:20:13 公開日:2024-06-28
# 放射線学におけるマルチモーダル学習と認知過程:胸部X線スキャンパス予測のためのMedGaze

Multimodal Learning and Cognitive Processes in Radiology: MedGaze for Chest X-ray Scanpath Prediction ( http://arxiv.org/abs/2407.00129v1 )

ライセンス: Link先を確認
Akash Awasthi, Ngan Le, Zhigang Deng, Rishi Agrawal, Carol C. Wu, Hien Van Nguyen, (参考訳) コンピュータビジョン内の人間の視線行動を予測することは、ユーザの注意を予測し、認知科学の基本的な問題に対処し、ヒューマン・コンピュータ・インタラクション(HCI)やAR/VR(AR/VR)システムといった分野に影響を及ぼすインタラクティブなシステムを開発する上で不可欠である。 ヒトの視線行動のモデル化のために導入された手法にもかかわらず、スキャンパス予測のための医療画像にこれらのモデルを適用することはいまだ解明されていない。 提案システムは,放射線学報告やCXR画像から視線シーケンスを予測し,データ収集の合理化や,より大きなデータセットを用いたAIシステムの強化を目的としている。 しかし, 医用画像上でのスキャンパスの予測は, 異常領域の多様性に起因して, 独特な課題を呈している。 本モデルでは, 医用スキャンパス予測において重要な固定座標と期間を予測し, コンピュータビジョンコミュニティにおける既存モデルよりも優れていた。 2段階のトレーニングプロセスと大規模な公開データセットを利用することで、ラジオグラフィーレポートに合わせた静的ヒートマップとアイアイアイビデオを生成し、包括的な分析を容易にする。 我々は,CXR画像診断における放射線技師の探索パターンをモデル化するための新しい手法を導入し,その性能を最先端の手法と比較し,その一般化性を評価することによって,そのアプローチを検証した。 放射線学者の評価に基づいて、MedGazeはCXR画像上の関連領域に高い焦点をあてたヒトのような視線配列を生成することができる。 また、スキャンパスの冗長性とランダム性という点で人間よりも優れることもある。

Predicting human gaze behavior within computer vision is integral for developing interactive systems that can anticipate user attention, address fundamental questions in cognitive science, and hold implications for fields like human-computer interaction (HCI) and augmented/virtual reality (AR/VR) systems. Despite methodologies introduced for modeling human eye gaze behavior, applying these models to medical imaging for scanpath prediction remains unexplored. Our proposed system aims to predict eye gaze sequences from radiology reports and CXR images, potentially streamlining data collection and enhancing AI systems using larger datasets. However, predicting human scanpaths on medical images presents unique challenges due to the diverse nature of abnormal regions. Our model predicts fixation coordinates and durations critical for medical scanpath prediction, outperforming existing models in the computer vision community. Utilizing a two-stage training process and large publicly available datasets, our approach generates static heatmaps and eye gaze videos aligned with radiology reports, facilitating comprehensive analysis. We validate our approach by comparing its performance with state-of-the-art methods and assessing its generalizability among different radiologists, introducing novel strategies to model radiologists' search patterns during CXR image diagnosis. Based on the radiologist's evaluation, MedGaze can generate human-like gaze sequences with a high focus on relevant regions over the CXR images. It sometimes also outperforms humans in terms of redundancy and randomness in the scanpaths.
翻訳日:2024-07-04 06:20:13 公開日:2024-06-28
# RepAct: Re-parameterizable Adaptive Activation Function

RepAct: The Re-parameterizable Adaptive Activation Function ( http://arxiv.org/abs/2407.00131v1 )

ライセンス: Link先を確認
Xian Wu, Qingchuan Tao, Shuang Wang, (参考訳) この研究は、IoTとエッジコンピューティングにおける効率的な人工知能の必須ニーズに対処するため、エッジデバイスの計算限界内で軽量ニューラルネットワークを最適化するための、再パラメータ化可能な適応アクティベーション関数RepActを提案する。 学習可能な適応重みを持つマルチブランチ構造を用いることで、RepActは特徴処理を強化し、層間解釈性を高める。 RepActは画像分類やオブジェクト検出などのタスクで評価すると、軽量ネットワークにおける従来のアクティベーション機能を超え、画像Net100データセットのMobileNetV3-Smallの精度を最大7.92%向上させ、HardSwishと同等の複雑性を維持した。 この革新的なアプローチは、モデルパラメータ効率を最大化するだけでなく、軽量ニューラルネットワークの性能と理解能力を大幅に改善し、リアルタイムエッジコンピューティングアプリケーションの可能性を示している。

Addressing the imperative need for efficient artificial intelligence in IoT and edge computing, this study presents RepAct, a re-parameterizable adaptive activation function tailored for optimizing lightweight neural networks within the computational limitations of edge devices. By employing a multi-branch structure with learnable adaptive weights, RepAct enriches feature processing and enhances cross-layer interpretability. When evaluated on tasks such as image classification and object detection, RepAct notably surpassed conventional activation functions in lightweight networks, delivering up to a 7.92% accuracy boost on MobileNetV3-Small for the ImageNet100 dataset, while maintaining computational complexity on par with HardSwish. This innovative approach not only maximizes model parameter efficiency but also significantly improves the performance and understanding capabilities of lightweight neural networks, demonstrating its potential for real-time edge computing applications.
翻訳日:2024-07-04 06:20:13 公開日:2024-06-28
# ShortcutsBench: APIベースのエージェントのための大規模実世界のベンチマーク

ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents ( http://arxiv.org/abs/2407.00132v1 )

ライセンス: Link先を確認
Haiyang Shen, Yue Li, Desong Meng, Dongqi Cai, Sheng Qi, Li Zhang, Mengwei Xu, Yun Ma, (参考訳) 大規模言語モデル(LLM)とアプリケーションプログラミングインターフェース(API)の統合の最近の進歩は、アカデミックと産業の両方において大きな関心を集めている。 これらのAPIベースのエージェントは、LSMの強力な自律性と計画能力を活用し、マルチステップアクションを必要とする問題を効率的に解決することができる。 しかし、多次元の難易度、多様なタスクタイプ、APIによる実世界の要求を処理する能力は、まだ不明である。 本稿では, タスクの難易度, タスクタイプ, 実世界の要求に応じて, API ベースのエージェントを包括的に評価するための大規模ベンチマークである \textsc{ShortcutsBench} を紹介する。 関連スポンサーコンテンツ \textsc{ShortcutsBench} には、Apple Inc. のオペレーティングシステムからの豊富な実API、ショートカットからの洗練されたユーザクエリ、ショートカット開発者からの人間のアノテーションによる高品質なアクションシーケンス、プリミティブパラメータタイプ、エヌムパラメータタイプ、以前のアクションからの出力、システムやユーザから必要な情報を要求するパラメータに関する正確なパラメータが含まれている。 5ドルのオープンソース(サイズ >=57B)と4ドルのクローズドソースLCM(例:Gemini-1.5-ProとGPT-3.5)で構築されたエージェントの広範な評価は、APIの選択、パラメータフィリング、システムやユーザからの必要な情報要求に関する複雑なクエリの処理において、重大な制限を明らかにします。 これらの発見は、実際の複雑なユーザクエリを効果的に実行する上で、APIベースのエージェントが直面する課題を浮き彫りにする。 すべてのデータセット、コード、実験結果は、 \url{https://github.com/eachsheep/shortcutsbench}で確認できる。

Recent advancements in integrating large language models (LLMs) with application programming interfaces (APIs) have gained significant interest in both academia and industry. These API-based agents, leveraging the strong autonomy and planning capabilities of LLMs, can efficiently solve problems requiring multi-step actions. However, their ability to handle multi-dimensional difficulty levels, diverse task types, and real-world demands through APIs remains unknown. In this paper, we introduce \textsc{ShortcutsBench}, a large-scale benchmark for the comprehensive evaluation of API-based agents in solving tasks with varying levels of difficulty, diverse task types, and real-world demands. \textsc{ShortcutsBench} includes a wealth of real APIs from Apple Inc.'s operating systems, refined user queries from shortcuts, human-annotated high-quality action sequences from shortcut developers, and accurate parameter filling values about primitive parameter types, enum parameter types, outputs from previous actions, and parameters that need to request necessary information from the system or user. Our extensive evaluation of agents built with $5$ leading open-source (size >= 57B) and $4$ closed-source LLMs (e.g. Gemini-1.5-Pro and GPT-3.5) reveals significant limitations in handling complex queries related to API selection, parameter filling, and requesting necessary information from systems and users. These findings highlight the challenges that API-based agents face in effectively fulfilling real and complex user queries. All datasets, code, and experimental results will be available at \url{https://github.com/eachsheep/shortcutsbench}.
翻訳日:2024-07-04 06:20:13 公開日:2024-06-28
# バイモーダル感情分類のための簡単な注意に基づくメカニズム

A Simple Attention-Based Mechanism for Bimodal Emotion Classification ( http://arxiv.org/abs/2407.00134v1 )

ライセンス: Link先を確認
Mazen Elabd, Sardar Jaf, (参考訳) ビッグデータには、機械学習アルゴリズムが、分類タスク中に重要な特徴を学習する際に利用する、豊富な情報が含まれている。 人間は特定の言葉(声、ピッチ、スピード)、表情を使って感情を表現する。 感情分類への人工知能のアプローチは、主にテキスト情報からの学習に基づいている。 しかし、テキストと音声データを含む公開データセットは、感情分類のタックのために機械学習アルゴリズムを訓練するのに十分なリソースを提供する。 本稿では,感情分類のためのテキストデータと音声データに基づいて,注意機構を訓練し,テストしたバイモーダル深層学習に基づく新しいアーキテクチャを提案する。 深層学習に基づくアーキテクチャの詳細を報告し、厳密なエラー解析を含む各アーキテクチャの性能を示す。 我々の発見は、深層学習に基づくアーキテクチャは、異なるタイプのデータ(テキストと音声)に基づいて訓練され、テキストと音声だけで訓練されたアーキテクチャよりも優れていたことを示唆している。 注意に基づくバイモーダルアーキテクチャは感情分類の最先端システムよりも優れています。

Big data contain rich information for machine learning algorithms to utilize when learning important features during classification tasks. Human beings express their emotion using certain words, speech (tone, pitch, speed) or facial expression. Artificial Intelligence approach to emotion classification are largely based on learning from textual information. However, public datasets containing text and speech data provide sufficient resources to train machine learning algorithms for the tack of emotion classification. In this paper, we present novel bimodal deep learning-based architectures enhanced with attention mechanism trained and tested on text and speech data for emotion classification. We report details of different deep learning based architectures and show the performance of each architecture including rigorous error analyses. Our finding suggests that deep learning based architectures trained on different types of data (text and speech) outperform architectures trained only on text or speech. Our proposed attention-based bimodal architecture outperforms several state-of-the-art systems in emotion classification.
翻訳日:2024-07-04 06:10:29 公開日:2024-06-28
# テキスト・画像生成モデルにおける品質・バイアス・性能の解析

Analyzing Quality, Bias, and Performance in Text-to-Image Generative Models ( http://arxiv.org/abs/2407.00138v1 )

ライセンス: Link先を確認
Nila Masrourisaadat, Nazanin Sedaghatkish, Fatemeh Sarshartehrani, Edward A. Fox, (参考訳) 生成モデルの進歩は画像合成に大きな関心を惹き付け、多様なテキストプロンプトに対して高品質な画像を生成する能力を示した。 この進歩にもかかわらず、ほとんどの研究はバイアスの存在を無視している。 本稿では,人間の顔,グループ,特定対象物の正確な画像を生成する上で,その性能を定性的に評価するだけでなく,社会的バイアス分析を行うことにより,複数のテキスト・画像モデルについて検討する。 予想通り、キャパシティが大きいモデルは高品質な画像を生成する。 しかし、これらのモデルが持つ本質的な性別や社会的偏見も文書化しており、その影響や限界をより完全に理解している。

Advances in generative models have led to significant interest in image synthesis, demonstrating the ability to generate high-quality images for a diverse range of text prompts. Despite this progress, most studies ignore the presence of bias. In this paper, we examine several text-to-image models not only by qualitatively assessing their performance in generating accurate images of human faces, groups, and specified numbers of objects but also by presenting a social bias analysis. As expected, models with larger capacity generate higher-quality images. However, we also document the inherent gender or social biases these models possess, offering a more complete understanding of their impact and limitations.
翻訳日:2024-07-04 06:10:29 公開日:2024-06-28
# ModeConv: 異常の解消と正常な構造行動のための新しい畳み込み

ModeConv: A Novel Convolution for Distinguishing Anomalous and Normal Structural Behavior ( http://arxiv.org/abs/2407.00140v1 )

ライセンス: Link先を確認
Melanie Schaller, Daniel Schlör, Andreas Hotho, (参考訳) 交通や環境要因などの外部の影響は構造物の振動を誘発し、時間の経過とともに材料劣化を引き起こす。 これらの振動は、材料の塑性の欠如によってひび割れが生じ、構造的整合性が損なわれる。 このような損傷を検知するには、内部の力学を捉えるための振動センサーを設置する必要がある。 しかし、関連する固有モードと外部ノイズを区別するには、ディープラーニングモデルを使用する必要がある。 固有モードの変化の検出は、これらの物質特性の変化を予測し、正常な構造的挙動と異常な構造的挙動を区別するために用いられる。 固有モード(固有振動パターン)は、構造力学と期待状態からの偏差に関する洞察を与える。 そこで本研究では,固有モードの変化を自動的に捕捉・解析するModeConvを提案し,構造や材料特性の効果的な異常検出を容易にする。 実験では、ModeConvが計算効率の向上を示し、結果としてモデル計算のランタイムが減少する。 新たなModeConvニューラルネットワーク層は、各ノードが1つのセンサーを表す時間グラフニューラルネットワーク用に調整されている。 ModeConvは複素数に対して特異値分解に基づく畳み込みフィルタ設計を採用し、スペクトルグラフ畳み込みにおけるフーリエ変換やラプラス変換の代わりにモード変換を利用する。 実行時間の削減を図った数学的複雑性解析も含んでいる。

External influences such as traffic and environmental factors induce vibrations in structures, leading to material degradation over time. These vibrations result in cracks due to the material's lack of plasticity compromising structural integrity. Detecting such damage requires the installation of vibration sensors to capture the internal dynamics. However, distinguishing relevant eigenmodes from external noise necessitates the use of Deep Learning models. The detection of changes in eigenmodes can be used to anticipate these shifts in material properties and to discern between normal and anomalous structural behavior. Eigenmodes, representing characteristic vibration patterns, provide insights into structural dynamics and deviations from expected states. Thus, we propose ModeConv to automatically capture and analyze changes in eigenmodes, facilitating effective anomaly detection in structures and material properties. In the conducted experiments, ModeConv demonstrates computational efficiency improvements, resulting in reduced runtime for model calculations. The novel ModeConv neural network layer is tailored for temporal graph neural networks, in which every node represents one sensor. ModeConv employs a singular value decomposition based convolutional filter design for complex numbers and leverages modal transformation in lieu of Fourier or Laplace transformations in spectral graph convolutions. We include a mathematical complexity analysis illustrating the runtime reduction.
翻訳日:2024-07-04 06:10:29 公開日:2024-06-28
# ニューラルネットワークの安全性と効率的なデータスケジューリングに向けて

Towards Secure and Efficient Data Scheduling for Vehicular Social Networks ( http://arxiv.org/abs/2407.00141v1 )

ライセンス: Link先を確認
Youhua Xia, Tiehua Zhang, Jiong Jin, Ying He, Fei Yu, (参考訳) 車両環境における効率的なデータ伝送スケジューリングは、そのようなネットワークの高モビリティのために大きな課題となる。 現代の研究は主に、車載ネットワークに適した協調スケジューリングアルゴリズムの構築に重点を置いている。 それでも、車載ソーシャルネットワークにおけるスケジューリングのオーケストレーションの難しさは、効果的かつ効果的に保たれている。 本稿では、車載ソーシャルネットワークにおける効率性とセキュリティを優先する、データ送信をスケジューリングする革新的な学習アルゴリズムを提案する。 このアルゴリズムはまず、特別に構築されたニューラルネットワークを使用して、データ処理能力を向上する。 その後、データ転送フェーズ中にQラーニングパラダイムを組み込んで情報交換を最適化し、そのプライバシーは通信プロセスを通じて差分プライバシーによって保護される。 比較実験により、車載ソーシャルネットワークの文脈における既存の最先端スケジューリングアルゴリズムと比較して、提案したQ-ラーニング強化スケジューリングアルゴリズムの優れた性能を示す。

Efficient data transmission scheduling within vehicular environments poses a significant challenge due to the high mobility of such networks. Contemporary research predominantly centers on crafting cooperative scheduling algorithms tailored for vehicular networks. Notwithstanding, the intricacies of orchestrating scheduling in vehicular social networks both effectively and efficiently remain formidable. This paper introduces an innovative learning-based algorithm for scheduling data transmission that prioritizes efficiency and security within vehicular social networks. The algorithm first uses a specifically constructed neural network to enhance data processing capabilities. After this, it incorporates a Q-learning paradigm during the data transmission phase to optimize the information exchange, the privacy of which is safeguarded by differential privacy through the communication process. Comparative experiments demonstrate the superior performance of the proposed Q-learning enhanced scheduling algorithm relative to existing state-of-the-art scheduling algorithms in the context of vehicular social networks.
翻訳日:2024-07-04 06:10:29 公開日:2024-06-28
# Gut Microbiome Metaomic Dataのためのグラフニューラルネットワーク:予備研究

Graph Neural Networks for Gut Microbiome Metaomic data: A preliminary work ( http://arxiv.org/abs/2407.00142v1 )

ライセンス: Link先を確認
Christopher Irwin, Flavio Mignone, Stefania Montani, Luigi Portinale, (参考訳) 腸内マイクロバイオームは人間の健康に不可欠であり、高次元と空間性のために複雑な代謝データを解析する際の課題を提示する。 伝統的な方法は複雑な関係をつかむのに苦労する。 本課題に対するグラフニューラルネットワーク (GNN) について検討し, 個々の腸内マイクロバイオームの有意義な表現を導出することを目的とした。 分類網の汎用エンコーダを得るためには, 植物遺伝学的関係を直接活用する。 エンコーダから学習した表現は、炎症性腸疾患(IBD)のような表現型予測のモデルを訓練するために使用される。

The gut microbiome, crucial for human health, presents challenges in analyzing its complex metaomic data due to high dimensionality and sparsity. Traditional methods struggle to capture its intricate relationships. We investigate graph neural networks (GNNs) for this task, aiming to derive meaningful representations of individual gut microbiomes. Unlike methods relying solely on taxa abundance, we directly leverage phylogenetic relationships, in order to obtain a generalized encoder for taxa networks. The representation learnt from the encoder are then used to train a model for phenotype prediction such as Inflammatory Bowel Disease (IBD).
翻訳日:2024-07-04 06:10:29 公開日:2024-06-28
# InfoNCE:理論と実践のギャップを識別する

InfoNCE: Identifying the Gap Between Theory and Practice ( http://arxiv.org/abs/2407.00143v1 )

ライセンス: Link先を確認
Evgenia Rusak, Patrik Reizinger, Attila Juhos, Oliver Bringmann, Roland S. Zimmermann, Wieland Brendel, (参考訳) InfoNCEによるコントラスト学習(CL)に関するこれまでの理論的研究は、ある仮定の下では、学習された表現が根本真正の潜伏因子を明らかにすることを示した。 これらの理論は、CLが実際にどのようにデプロイされるかの重要な側面を見落としている。 具体的には、正の対の中で、全ての潜伏因子が同じ程度に変化するか、あるいは全く変化しないものが存在すると仮定する。 しかし実際には、少数のピクセルに対して強い収穫などの増量によって正の対が生成されることが多い。 したがって、より現実的な仮定は、すべての潜伏因子が変化し、これらの因子の連続性が変化するということである。 本稿では、この異方性設定における潜伏因子を確実に発見できるInfoNCEの一般化であるAnInfoNCEを紹介し、CLにおける以前の識別可能性結果を広く一般化する。 CIFAR10 と ImageNet における AnInfoNCE がダウンストリーム精度を犠牲にしながら, 以前に崩壊した情報の回復率を高めることを示す。 さらに、理論的な仮定と実践的な実装のさらなるミスマッチを探求し、議論する。

Previous theoretical work on contrastive learning (CL) with InfoNCE showed that, under certain assumptions, the learned representations uncover the ground-truth latent factors. We argue these theories overlook crucial aspects of how CL is deployed in practice. Specifically, they assume that within a positive pair, all latent factors either vary to a similar extent, or that some do not vary at all. However, in practice, positive pairs are often generated using augmentations such as strong cropping to just a few pixels. Hence, a more realistic assumption is that all latent factors change, with a continuum of variability across these factors. We introduce AnInfoNCE, a generalization of InfoNCE that can provably uncover the latent factors in this anisotropic setting, broadly generalizing previous identifiability results in CL. We validate our identifiability results in controlled experiments and show that AnInfoNCE increases the recovery of previously collapsed information in CIFAR10 and ImageNet, albeit at the cost of downstream accuracy. Additionally, we explore and discuss further mismatches between theoretical assumptions and practical implementations, including extensions to hard negative mining and loss ensembles.
翻訳日:2024-07-04 06:10:29 公開日:2024-06-28
# Qiyasベンチマーク:アラビア語におけるChatGPTの数学的および言語理解の測定

The Qiyas Benchmark: Measuring ChatGPT Mathematical and Language Understanding in Arabic ( http://arxiv.org/abs/2407.00146v1 )

ライセンス: Link先を確認
Shahad Al-Khalifa, Hend Al-Khalifa, (参考訳) グローバルな言語としてのアラビア語の重要性が高まりつつあるにもかかわらず、アラビア語のデータにのみ事前訓練された言語モデルは顕著に欠落している。 この不足により、アラビア語の言語モデルのパフォーマンスを評価するための限られたベンチマークが利用可能になった。 このギャップに対処するために、モデルの数学的推論とアラビア語における言語理解能力を評価するために設計された2つの新しいベンチマークを導入する。 これらのベンチマークは、サウジアラビアの大学入試に広く使用される標準化された試験であるカイヤス試験(英語版)と呼ばれる一般適性試験(GAT)に由来する。 評価のために,ベンチマークによるChatGPT-3.5-truboとChatGPT-4の性能評価を行った。 その結果,ChatGPT-4は平均64%,ChatGPT-3.5-truboはQiyasベンチマークの様々な質問タイプに対して49%の総合的精度を達成した。 これらのベンチマークのリリースは、低リソースのアラビア語に合わせた将来のモデルの数学的推論と言語理解能力を高めるための道を開くだろうと考えています。

Despite the growing importance of Arabic as a global language, there is a notable lack of language models pre-trained exclusively on Arabic data. This shortage has led to limited benchmarks available for assessing language model performance in Arabic. To address this gap, we introduce two novel benchmarks designed to evaluate models' mathematical reasoning and language understanding abilities in Arabic. These benchmarks are derived from a General Aptitude Test (GAT) called Qiyas exam, a standardized test widely used for university admissions in Saudi Arabia. For validation purposes, we assess the performance of ChatGPT-3.5-trubo and ChatGPT-4 on our benchmarks. Our findings reveal that these benchmarks pose a significant challenge, with ChatGPT-4 achieving an overall average accuracy of 64%, while ChatGPT-3.5-trubo achieved an overall accuracy of 49% across the various question types in the Qiyas benchmark. We believe the release of these benchmarks will pave the way for enhancing the mathematical reasoning and language understanding capabilities of future models tailored for the low-resource Arabic language.
翻訳日:2024-07-04 06:10:29 公開日:2024-06-28
# 救急部門退院後の入院リスク予測

Predicting Elevated Risk of Hospitalization Following Emergency Department Discharges ( http://arxiv.org/abs/2407.00147v1 )

ライセンス: Link先を確認
Dat Hong, Philip M. Polgreen, Alberto Maria Segre, (参考訳) 1つ以上の救急部訪問のタイミングに追随する入院は、適切な診断を下す機会の欠如の兆候であることが多い。 これらの診断ミスは、入院の必要性を認識し、適切なケアを行うことができず、また、患者の安全に重要な意味を持つことを意味する。 本稿では,既存の大規模入院データにデータマイニング技術を適用し,今後の入院を高精度に予測する有用なモデルを学習する方法について述べる。 具体的には,緊急退院後3,7,14日以内に入院を予測するために,ロジスティクス回帰,na\"ive Bayes,およびアソシエーションルール分類器のアンサンブルを用いている。 提案手法の利点の1つは、学習ルールが容易に操作できるように、結果の分類器を人間によって容易に検査・解釈できる点である。 これらのルールは、救急部門で医師が簡単に配布し、直接適用することで、救急部門の患者が退院する前に早期入院のリスクを予測することができる。

Hospitalizations that follow closely on the heels of one or more emergency department visits are often symptoms of missed opportunities to form a proper diagnosis. These diagnostic errors imply a failure to recognize the need for hospitalization and deliver appropriate care, and thus also bear important connotations for patient safety. In this paper, we show how data mining techniques can be applied to a large existing hospitalization data set to learn useful models that predict these upcoming hospitalizations with high accuracy. Specifically, we use an ensemble of logistics regression, na\"ive Bayes and association rule classifiers to successfully predict hospitalization within 3, 7 and 14 days of an emergency department discharge. Aside from high accuracy, one of the advantages of the techniques proposed here is that the resulting classifier is easily inspected and interpreted by humans so that the learned rules can be readily operationalized. These rules can then be easily distributed and applied directly by physicians in emergency department settings to predict the risk of early admission prior to discharging their emergency department patients.
翻訳日:2024-07-04 06:10:29 公開日:2024-06-28
# マルチスケールスコアマッチング解析による異常の局所化

Localizing Anomalies via Multiscale Score Matching Analysis ( http://arxiv.org/abs/2407.00148v1 )

ライセンス: Link先を確認
Ahsan Mahmood, Junier Oliva, Martin Styner, (参考訳) 医療画像における異常検出と局所化は、医療において重要な課題である。 本稿では,容積脳MRIにおける異常局所化のための新しい教師なし手法であるSpatial-MSMA(Multiscale Score Matching Analysis)を紹介する。 提案手法は,MSMAフレームワーク上に構築され,異常検出能力を高めるために,空間情報と条件付き確率が組み込まれている。 パッチ位置とグローバルな画像特徴を条件としたフレキシブルな正規化フローモデルを用いて、パッチワイドな異常スコアを推定する。 この方法は、通常発達している子供の1,650T1およびT2強調脳MRIのデータセットで評価され、テストセットにシミュレートされた病変が加えられた。 空間MSMAは、病変検出やセグメンテーションタスクにおいて、再構成ベース、生成ベース、解釈ベースアプローチなど、既存の手法を著しく上回っている。 我々のモデルは、距離ベースメトリクス(99th percentile Hausdorff Distance: 7.05 \pm 0.61$, Mean Surface Distance: $2.10 \pm 0.43$)とコンポーネントワイドメトリクス(True Positive Rate: $0.83 \pm 0.01$, Positive Predictive Value: $0.96 \pm 0.01$)の両方で優れたパフォーマンスを達成する。 これらの結果から, 画像診断における空間MSMAの有用性と, 臨床現場での診断・治療計画の改善が示唆された。 私たちのコードは~\url{https://github.com/ahsanMah/sade/}で利用可能です。

Anomaly detection and localization in medical imaging remain critical challenges in healthcare. This paper introduces Spatial-MSMA (Multiscale Score Matching Analysis), a novel unsupervised method for anomaly localization in volumetric brain MRIs. Building upon the MSMA framework, our approach incorporates spatial information and conditional likelihoods to enhance anomaly detection capabilities. We employ a flexible normalizing flow model conditioned on patch positions and global image features to estimate patch-wise anomaly scores. The method is evaluated on a dataset of 1,650 T1- and T2-weighted brain MRIs from typically developing children, with simulated lesions added to the test set. Spatial-MSMA significantly outperforms existing methods, including reconstruction-based, generative-based, and interpretation-based approaches, in lesion detection and segmentation tasks. Our model achieves superior performance in both distance-based metrics (99th percentile Hausdorff Distance: $7.05 \pm 0.61$, Mean Surface Distance: $2.10 \pm 0.43$) and component-wise metrics (True Positive Rate: $0.83 \pm 0.01$, Positive Predictive Value: $0.96 \pm 0.01$). These results demonstrate Spatial-MSMA's potential for accurate and interpretable anomaly localization in medical imaging, with implications for improved diagnosis and treatment planning in clinical settings. Our code is available at~\url{https://github.com/ahsanMah/sade/}.
翻訳日:2024-07-04 06:10:29 公開日:2024-06-28
# 非対称円錐最適化による量子鍵分布速度

Quantum key distribution rates from non-symmetric conic optimization ( http://arxiv.org/abs/2407.00152v1 )

ライセンス: Link先を確認
Andrés González Lorente, Pablo V. Parellada, Miguel Castillo-Celeita, Mateus Araújo, (参考訳) QKDの鍵レートを数値的に計算することは、より高度な測定ベースや高次元の量子システムを使用するより強力なプロトコルを解き放つのに不可欠である。 これは、凸非線型函数、相対エントロピーの最小化に依存する、難しい最適化問題である。 標準円錐最適化技術は、非対称円錐であるため、相対エントロピーコーンを扱うことができず、標準アルゴリズムは対称錐しか扱えない。 しかし、近年、相対エントロピーを含む非対称錐体を最適化する実用的なアルゴリズムが発見されている。 ここでは、このアルゴリズムを鍵レートの計算問題に適用し、それらを下げるための効率的な手法を得る。 従来のテクニックと比較して、柔軟性、使いやすさ、そしてすべてのパフォーマンスの利点があります。

Computing key rates in QKD numerically is essential to unlock more powerful protocols, that use more sophisticated measurement bases or quantum systems of higher dimension. It is a difficult optimization problem, that depends on minimizing a convex non-linear function: the relative entropy. Standard conic optimization techniques have for a long time been unable to handle the relative entropy cone, as it is a non-symmetric cone, and the standard algorithms can only handle symmetric ones. Recently, however, a practical algorithm has been discovered for optimizing over non-symmetric cones, including the relative entropy. Here we adapt this algorithm to the problem of computation of key rates, obtaining an efficient technique for lower bounding them. In comparison to previous techniques it has the advantages of flexibility, ease of use, and above all performance.
翻訳日:2024-07-04 06:10:29 公開日:2024-06-28
# 1行列量子力学におけるクリロフ複雑性

Krylov complexity for 1-matric quantum mechanics ( http://arxiv.org/abs/2407.00155v1 )

ライセンス: Link先を確認
Niloofar Vardian, (参考訳) 本稿では, 1-行列量子力学 (1-MQM) の枠組みの中で, 演算子成長の尺度であるクリロフ複雑性の概念を考察する。 クリロフ複雑性(Krylov complexity)は、ハミルトニアンと一連のネストされた可換作用素に拡張することにより、作用素が時間とともにどのように進化するかを定量化する。 相関関数から導かれるランツォス係数を解析し,この積分系においても線形成長を明らかにする。 この成長は、一般に可積分系において予期せぬカオス的な振る舞いと結びつくことを示唆している。 1-MQMの基底状態と熱状態の両方における我々の発見は、量子力学モデルにおける複雑性の性質に関する新たな洞察を与え、より複雑なホログラフィック理論のさらなる研究の基盤となる。

This paper investigates the notion of Krylov complexity, a measure of operator growth, within the framework of 1-matrix quantum mechanics (1-MQM). Krylov complexity quantifies how an operator evolves over time by expanding it in a series of nested commutators with the Hamiltonian. We analyze the Lanczos coefficients derived from the correlation function, revealing their linear growth even in this integrable system. This growth suggests a link to chaotic behavior, typically unexpected in integrable systems. Our findings in both ground and thermal states of 1-MQM provide new insights into the nature of complexity in quantum mechanical models and lay the groundwork for further studies in more complex holographic theories.
翻訳日:2024-07-04 06:10:29 公開日:2024-06-28
# 量子時間と時間拡散誘起相互作用伝達機構

Quantum Time and the Time-Dilation induced Interaction Transfer mechanism ( http://arxiv.org/abs/2407.00161v1 )

ライセンス: Link先を確認
Dario Cafasso, Nicola Pranzini, Jorge Yago Malo, Vittorio Giovannetti, Marilù Chiofalo, (参考訳) エネルギー固有状態における二部量子系が与えられたとき、ある成分の動的記述は、他の成分をクロックとして絡み合わせることによって導出することができる。 これはPage and Woottersメカニズムの本質です。 さらに、時計が重力的な相互作用を受ける場合、相対時間進化は時差シュリンガー方程式(英語版)によって記述される。 ここでは、非摂動的アプローチを採用し、このメカニズムの有限次元の一般化を提示する。 この機構をTiDIT(Time-Dilation induced Interaction Transfer)機構と呼び、2つの結合スピンを量子クロックモデルとして用いた例を議論する。 我々のアプローチは現在の量子技術の実装に適しており、量子物理学と交差する重力を探索するための新しいツールを提供する。

Given a bipartite quantum system in an energy eigenstate, the dynamical description for one component can be derived via entanglement using the other component as a clock. This is the essence of the Page and Wootters mechanism. Moreover, if the clock is subject to a gravitational-like interaction, relative time evolution is then described by a Time-Dilated Schr\"odinger equation, in which the so-called Redshift Operator describes a purely quantum effect, analogue to gravitational time-dilation. Here we adopt a non-perturbative approach and present a finite-dimensional generalisation of this mechanism, expressing the quantum time-dilation effect as an effective interaction involving previously non-interacting system components. We name this a Time-Dilation induced Interaction Transfer (TiDIT) mechanism and discuss an example using two coupled spins as a quantum clock model. Our approach is suitable for implementations in current quantum technology and provides a new tool for exploring gravity at the intersection with quantum physics.
翻訳日:2024-07-04 06:10:29 公開日:2024-06-28
# 資源依存関係研究のための概念的・形式的基礎研究

Conceptual and formal groundwork for the study of resource dependence relations ( http://arxiv.org/abs/2407.00164v1 )

ライセンス: Link先を確認
Yìlè Yīng, Tomáš Gonda, Robert Spekkens, (参考訳) 資源理論は状態に対して事前順序を課し、1つの状態が1番目の状態から2番目の状態へ自由な操作で変換できる場合、そして自由な操作の集合が研究中のリソースフルネスの概念を定義する。 一般に、1つの資源理論の序列における状態の位置は、異なる資源理論の序列における位置を制約することができる。 リソースフルネスの異なる概念の間には、非自明な依存関係が存在する可能性がある。 本稿では,資源依存関係の研究における概念的および形式的基礎を概説する。 特に、各資源理論の完全集合を含む一組のモノトン間の関係が、資源依存関係の完全な特徴を与えることに留意する。 例えば、ブリュッホ球面上の3つの直交軸に沿ったキュービットの近面非対称性に関する3つの資源理論を考えると、この近面対称性は、同一性写像と与えられた軸上の$\pi$回転からなる$\mathbb{Z}_2$の表現を指す。 この例は、各資源理論に対して完全なモノトンの集合を導出することができ、これらのモノトンの間に保持されるすべての関係を決定できるので、リソース依存関係を決定できる。 しかしながら、この最も単純な例であっても、これらの関係はすでにかなり曖昧である。

A resource theory imposes a preorder over states, with one state being above another if the first can be converted to the second by a free operation, and where the set of free operations defines the notion of resourcefulness under study. In general, the location of a state in the preorder of one resource theory can constrain its location in the preorder of a different resource theory. It follows that there can be nontrivial dependence relations between different notions of resourcefulness. In this article, we lay out the conceptual and formal groundwork for the study of resource dependence relations. In particular, we note that the relations holding among a set of monotones that includes a complete set for each resource theory provides a full characterization of resource dependence relations. As an example, we consider three resource theories concerning the about-face asymmetry properties of a qubit along three mutually orthogonal axes on the Bloch ball, where about-face symmetry refers to a representation of $\mathbb{Z}_2$, consisting of the identity map and a $\pi$ rotation about the given axis. This example is sufficiently simple that we are able to derive a complete set of monotones for each resource theory and to determine all of the relations that hold among these monotones, thereby completely solving the problem of determining resource dependence relations. Nonetheless, we show that even in this simplest of examples, these relations are already quite nuanced.
翻訳日:2024-07-04 06:10:29 公開日:2024-06-28
# GPT-4はクイットベッピングの意図を検出するのに役立つか? : 自動データアノテーションの探索

Can GPT-4 Help Detect Quit Vaping Intentions? An Exploration of Automatic Data Annotation Approach ( http://arxiv.org/abs/2407.00167v1 )

ライセンス: Link先を確認
Sai Krishna Revanth Vuruma, Dezhi Wu, Saborny Sen Gupta, Lucas Aust, Valerie Lookingbill, Wyatt Bellamy, Yang Ren, Erin Kasson, Li-Shiun Chen, Patricia Cavazos-Rehg, Dian Hu, Ming Huang, (参考訳) 近年、アメリカ合衆国では電子タバコや電子タバコの普及が著しく増加しており、2019年のEVALIの流行で入院や致命傷を負った電子タバコや電子タバコによる肺障害(EVALI)が顕著に増加している。 ソーシャルメディアプラットフォームの普及により、世界中で470億人以上のユーザーがインターネット接続、コミュニケーション、ニュース、エンターテイメントに利用しており、公衆衛生研究のための貴重な有機データ資源としてソーシャルメディアデータを確立している。 本研究では、Reddit上の1つの電子タバコサブコミュニティからサンプルデータセットを抽出し、ユーザの電子タバコの停止意図を分析した。 本研究は,OpenAI の最新大規模言語モデル GPT-4 を用いて,文章レベルの禁煙意図の検出を行い,本モデルの結果とレイマンおよび臨床専門家のアノテーションとの比較を行った。 ゼロショット,ワンショット,少数ショット,チェーン・オブ・ワンドプロンプトなどの異なるプロンプトを駆使して,GPT-4にタスクを説明するために,様々なレベルの詳細を持つ8つのプロンプトを開発した。 これらの予備的な知見は、ソーシャルメディアデータ分析におけるGPT-4の可能性、特に人間の検出を損なう可能性のあるユーザの微妙な意図を特定することを強調する。

In recent years, the United States has witnessed a significant surge in the popularity of vaping or e-cigarette use, leading to a notable rise in cases of e-cigarette and vaping use-associated lung injury (EVALI) that caused hospitalizations and fatalities during the EVALI outbreak in 2019, highlighting the urgency to comprehend vaping behaviors and develop effective strategies for cessation. Due to the ubiquity of social media platforms, over 4.7 billion users worldwide use them for connectivity, communications, news, and entertainment with a significant portion of the discourse related to health, thereby establishing social media data as an invaluable organic data resource for public health research. In this study, we extracted a sample dataset from one vaping sub-community on Reddit to analyze users' quit-vaping intentions. Leveraging OpenAI's latest large language model GPT-4 for sentence-level quit vaping intention detection, this study compares the outcomes of this model against layman and clinical expert annotations. Using different prompting strategies such as zero-shot, one-shot, few-shot and chain-of-thought prompting, we developed 8 prompts with varying levels of detail to explain the task to GPT-4 and also evaluated the performance of the strategies against each other. These preliminary findings emphasize the potential of GPT-4 in social media data analysis, especially in identifying users' subtle intentions that may elude human detection.
翻訳日:2024-07-04 06:10:29 公開日:2024-06-28
# データセットの表現性と下流タスクフェアネス

Dataset Representativeness and Downstream Task Fairness ( http://arxiv.org/abs/2407.00170v1 )

ライセンス: Link先を確認
Victor Borza, Andrew Estornell, Chien-Ju Ho, Bradley Malin, Yevgeniy Vorobeychik, (参考訳) 我々の社会は、政策評価のための国勢調査の構築から有意義な臨床試験の実施に至るまで、幅広い用途の人々のデータを収集している。 データを収集するには、典型的には、興味のある個体群を正確に表現することを目的として個人をサンプリングする。 しかし、現在のサンプリングプロセスは、しばしばデータソースから不規則にデータを収集するので、バイアスがあり、代表的ではないデータセットにつながる可能性がある。 これは、集団内のサブグループがデータセット内で下位あるいは過剰に表現され、一般化可能性に悪影響を及ぼし、そのようなデータセットを使用する下流タスク(例えば、医療的意思決定アルゴリズムにおけるアルゴリズム的バイアス)の不平等な利益と害をもたらす可能性があるためである。 本稿では,そのデータセット上で訓練された分類器のデータセット代表性とグループフェアネスの関係を評価する。 我々は,データセットの代表性と分類器フェアネスの間に自然な緊張関係があることを実証し,より優れた代表性を持つトレーニングデータセットが,より高い不公平度を有する分類器をもたらすことを実証的に観察した。 単変量分類器の場合、理論的結果の集合を通してこれがなぜ起こるのかという直感を与える。 また、過度にサンプル化されていない群は、それらの群に偏りを示す分類器を生じる可能性があることも見出した。 最後に、フェアネスを意識したサンプリング戦略(すなわち、下流のフェアネスの高いデータを選択するために特別に設計されたもの)が、多数派のメンバをオーバーサンプリングすることが多いことを観察する。 これらの結果は、データセット代表性と下流分類器フェアネスの関係が複雑であることを示し、これら2つの量のバランスをとるには、モデル設計者とデータセット設計者の双方による特別なケアが必要である。

Our society collects data on people for a wide range of applications, from building a census for policy evaluation to running meaningful clinical trials. To collect data, we typically sample individuals with the goal of accurately representing a population of interest. However, current sampling processes often collect data opportunistically from data sources, which can lead to datasets that are biased and not representative, i.e., the collected dataset does not accurately reflect the distribution of demographics of the true population. This is a concern because subgroups within the population can be under- or over-represented in a dataset, which may harm generalizability and lead to an unequal distribution of benefits and harms from downstream tasks that use such datasets (e.g., algorithmic bias in medical decision-making algorithms). In this paper, we assess the relationship between dataset representativeness and group-fairness of classifiers trained on that dataset. We demonstrate that there is a natural tension between dataset representativeness and classifier fairness; empirically we observe that training datasets with better representativeness can frequently result in classifiers with higher rates of unfairness. We provide some intuition as to why this occurs via a set of theoretical results in the case of univariate classifiers. We also find that over-sampling underrepresented groups can result in classifiers which exhibit greater bias to those groups. Lastly, we observe that fairness-aware sampling strategies (i.e., those which are specifically designed to select data with high downstream fairness) will often over-sample members of majority groups. These results demonstrate that the relationship between dataset representativeness and downstream classifier fairness is complex; balancing these two quantities requires special care from both model- and dataset-designers.
翻訳日:2024-07-04 06:10:29 公開日:2024-06-28
# 癌における薬物併用予測のための多出力ガウス過程の置換不変性

Permutation invariant multi-output Gaussian Processes for drug combination prediction in cancer ( http://arxiv.org/abs/2407.00175v1 )

ライセンス: Link先を確認
Leiv Rønneberg, Vidhi Lalchand, Paul D. W. Kirk, (参考訳) がんにおける線量応答予測は、機械学習における活発な応用分野である。 薬物感受性画面の大規模なライブラリーを使用することで、実験的な設計のガイドや治療決定の通知に使用できる正確な予測モデルを開発することが目的である。 薬物の組み合わせに対する線量応答予測の文脈において、置換不変な多出力ガウス過程を利用する以前の研究に基づいて、これらのモデルに対する変分近似を開発する。 変分近似により、不確実な定量化を提供し、欠落したデータを自然に処理する、よりスケーラブルなモデルが可能になる。 さらに, 化学空間を連続的に符号化する深層生成モデルを提案し, 新規薬物と新しい組み合わせの予測を可能にした。 我々は,高スループットデータセットを用いて簡単な設定でモデルの性能を実証し,そのモデルが出力間で効率的に情報を借りることができることを示す。

Dose-response prediction in cancer is an active application field in machine learning. Using large libraries of \textit{in-vitro} drug sensitivity screens, the goal is to develop accurate predictive models that can be used to guide experimental design or inform treatment decisions. Building on previous work that makes use of permutation invariant multi-output Gaussian Processes in the context of dose-response prediction for drug combinations, we develop a variational approximation to these models. The variational approximation enables a more scalable model that provides uncertainty quantification and naturally handles missing data. Furthermore, we propose using a deep generative model to encode the chemical space in a continuous manner, enabling prediction for new drugs and new combinations. We demonstrate the performance of our model in a simple setting using a high-throughput dataset and show that the model is able to efficiently borrow information across outputs.
翻訳日:2024-07-04 06:00:32 公開日:2024-06-28
# オンライン連続学習におけるモデルサイズが破滅的忘れに及ぼす影響

The impact of model size on catastrophic forgetting in Online Continual Learning ( http://arxiv.org/abs/2407.00176v1 )

ライセンス: Link先を確認
Eunhae Lee, (参考訳) 本研究では,モデルサイズがオンライン連続学習のパフォーマンスに及ぼす影響について検討し,破滅的な忘れ方に着目した。 様々なサイズのResNetアーキテクチャを用いて,SplitCIFAR-10データセットを用いたクラス増分学習において,ネットワークの深さと幅がモデル性能に与える影響について検討した。 重要な発見は、より大きなモデルでは継続学習のパフォーマンスが向上しないことを示している; 実際、特にオンライン環境では、新しいタスクへの適応に苦戦することが多い。 これらの結果は、より大きなモデルが本質的に破滅的な忘れを軽減し、モデルサイズと連続学習の有効性のニュアンスな関係を強調するという概念に挑戦する。 本研究は,連続学習シナリオにおけるモデルのスケーラビリティとその実践的意味の理解に寄与する。

This study investigates the impact of model size on Online Continual Learning performance, with a focus on catastrophic forgetting. Employing ResNet architectures of varying sizes, the research examines how network depth and width affect model performance in class-incremental learning using the SplitCIFAR-10 dataset. Key findings reveal that larger models do not guarantee better Continual Learning performance; in fact, they often struggle more in adapting to new tasks, particularly in online settings. These results challenge the notion that larger models inherently mitigate catastrophic forgetting, highlighting the nuanced relationship between model size and Continual Learning efficacy. This study contributes to a deeper understanding of model scalability and its practical implications in Continual Learning scenarios.
翻訳日:2024-07-04 06:00:32 公開日:2024-06-28
# 原子蒸気中における集団スピンノイズスペクトルによる長距離相互作用

Long-range interactions revealed by collective spin noise spectra in atomic vapors ( http://arxiv.org/abs/2407.00177v1 )

ライセンス: Link先を確認
J. Delpy, N. Fayard, F. Bretenaker, F. Goldfarb, (参考訳) アルカリ原子の高濃度蒸気の薄膜のスピンノイズスペクトロスコピー(SNS)における異常な特徴を報告する。 高密度で共鳴に近い場所では、スピンノイズスペクトルの劇的な拡張と、予期せぬ低周波雑音成分が観察される。 2体モデルとシミュレーションの助けを借りて、これらの特徴がアンサンブル内の強い長距離双極子-双極子相互作用の目印となることを示す。 付加的な低周波ノイズは、衝突近似を超えた原子対の相関進化を示す。 本研究では,スピンノイズが一体力学からもはや得られないことを実証し,多体スピンノイズ,原子エンタングルメント,高次スピン相関器をSNSを用いた原子蒸気中でのキャラクタリゼーションの道を開く。

We report anomalous features in the spin noise spectroscopy (SNS) of a thin cell of a dense vapor of alkali atoms. At high densities and close to resonance, we observe a dramatic broadening of the spin noise spectra as well as an unexpected extra low-frequency noise component. With the help of a two-body model and simulations, we show that these features are the hallmark of a strong, long-range dipole-dipole interaction within the ensemble. The additional low-frequency noise reveals the correlated evolution of pair of atoms beyond the impact approximation. In this regime, we demonstrate that spin noise can no longer be obtained from one-body dynamics, opening the way for the characterization of many-body spin noise, atomic entanglement or higher order spin correlators in atomic vapors using SNS.
翻訳日:2024-07-04 06:00:32 公開日:2024-06-28
# 原子蒸気スピンノイズにおける共鳴双極子-双極子相互作用の効果

Effects of resonant dipole-dipole interactions in the spin noise of atomic vapors ( http://arxiv.org/abs/2407.00184v1 )

ライセンス: Link先を確認
J. Delpy, N. Fayard, F. Bretenaker, F. Goldfarb, (参考訳) 我々は高密度のルビジウム蒸気を含む1mm厚のセルにおいて共鳴に近いスピンノイズ分光を行う。 レーザーは、ファラデー回転ノイズを観測しながら、蒸気中の光双極子を励起するために用いられる。 強い密度依存性を持つスピンノイズスペクトルの特異な直線性について報告する。 2体モデルとシミュレーションを導入し、これらの特徴がアンサンブル内のバイナリ間の強い双極子-双極子相互作用の象徴であることを示す。 実験スペクトルの精密な適合により、双極子-双極子相互作用の強さと持続時間を引き出すことができる。 我々は、スピンノイズ周波数への影響を明らかにし、予期せぬラインファップにおける原子運動の役割について検討する。 この研究は、粒子アンサンブル内で発生する強い相互作用を観察し定量化するためのスピンノイズ分光法の可能性を示す。

We perform spin noise spectroscopy close to resonance in a 1-mm-thick cell containing a dense Rubidium vapor. A laser is used to excite optical dipoles in the vapor while probing the Faraday rotation noise. We report unusual lineshapes of the spin noise spectra with a strong density dependence, which we attribute to interactions arising between particles in the system. Introducing a two-body model and simulations, we show that these features are the hallmark of a strong dipole-dipole interaction between binaries within the ensemble. A precise fit of the experimental spectra allows to extract the strength and the duration of the dipole-dipole interaction. We unveil its impact on the spin noise frequency and investigate the role of the atomic motion in the unexpected lineshapes. This work demonstrates the potential of spin noise spectroscopy to observe and quantify strong interactions occurring within a particle ensemble.
翻訳日:2024-07-04 06:00:32 公開日:2024-06-28
# DCSM 2.0:データ効率の良いセグメンテーションのための深部条件形状モデル

DCSM 2.0: Deep Conditional Shape Models for Data Efficient Segmentation ( http://arxiv.org/abs/2407.00186v1 )

ライセンス: Link先を確認
Athira J Jacob, Puneet Sharma, Daniel Rueckert, (参考訳) セグメンテーションは、多くの医療画像分析ワークフローにおける最初のステップであることが多い。 ディープラーニングのアプローチは、最先端のアキュラシーを提供する一方で、データ集約であり、低レベルのデータレシエーションには適していない。 本稿では,エッジ検出器とエッジマップ上に条件付けされた暗黙の形状関数を用いて,モード間の形状情報を活用するDeep Conditional Shape Models 2.0を紹介する。 形状関数は、ソース領域(造影CT)にのみ訓練され、対象領域の関心領域(3D心エコー図)に適用される。 エッジ検出段階で使用するトレーニングデータの量を変化させることで,対象領域におけるデータ効率を実証する。 平均メッシュ距離ではトレーニングデータの50%以下であり,ダイス係数では10%以下である。 トレーニングデータの2%(22巻)しか使用していない場合、平均表面距離は最大5%、平均表面距離は2.58mm、ハウスドルフ距離は21.02mmである。

Segmentation is often the first step in many medical image analyses workflows. Deep learning approaches, while giving state-of-the-art accuracies, are data intensive and do not scale well to low data regimes. We introduce Deep Conditional Shape Models 2.0, which uses an edge detector, along with an implicit shape function conditioned on edge maps, to leverage cross-modality shape information. The shape function is trained exclusively on a source domain (contrasted CT) and applied to the target domain of interest (3D echocardiography). We demonstrate data efficiency in the target domain by varying the amounts of training data used in the edge detection stage. We observe that DCSM 2.0 outperforms the baseline at all data levels in terms of Hausdorff distances, and while using 50% or less of the training data in terms of average mesh distance, and at 10% or less of the data with the dice coefficient. The method scales well to low data regimes, with gains of up to 5% in dice coefficient, 2.58 mm in average surface distance and 21.02 mm in Hausdorff distance when using just 2% (22 volumes) of the training data.
翻訳日:2024-07-04 06:00:32 公開日:2024-06-28
# SMPLOlympics:体操ヒューマノイドのスポーツ環境

SMPLOlympics: Sports Environments for Physically Simulated Humanoids ( http://arxiv.org/abs/2407.00187v1 )

ライセンス: Link先を確認
Zhengyi Luo, Jiashun Wang, Kangni Liu, Haotian Zhang, Chen Tessler, Jingbo Wang, Ye Yuan, Jinkun Cao, Zihui Lin, Fengyi Wang, Jessica Hodgins, Kris Kitani, (参考訳) SMPLOlympics(SMPLOlympics)は、ヒューマノイドが様々なオリンピック競技に出場できるように、物理的にシミュレートされた環境の集合体である。 スポーツシミュレーションは、スポーツ活動の多様性と身体的要求の性質から学習アルゴリズムの能力を評価し改善するための、リッチで標準化された試験場を提供する。 人間は長年これらのスポーツに力を入れてきたので、より良いパフォーマンスを達成するための望ましい戦略に関する知識も数多く存在する。 映像とモーションキャプチャの既存の人間のデモを活用するために、視覚とグラフィックスのコミュニティから広く使われているSMPLとSMPL-Xの人間モデルと互換性のあるヒューマノイドを設計する。 ゴルフ,ジャベリン投げ,ハイジャンプ,ロングジャンプ,ハードリングなどの個別スポーツ環境と,卓球,テニス,フェンシング,ボクシング,サッカー,バスケットボールなどの1v1と2v2の競技を含む,競技的なスポーツ環境を提供する。 分析の結果,強い動きの先行と単純な報酬が組み合わさると,様々なスポーツにおいて人間のような行動が生じる可能性が示唆された。 スポーツベンチマークと国家と報酬デザインのベースライン実装を提供することで、SMPLOlympicsは、コントロールやアニメーションのコミュニティが人間らしく、パフォーマンスの高い行動を達成するのに役立つことを期待する。

We present SMPLOlympics, a collection of physically simulated environments that allow humanoids to compete in a variety of Olympic sports. Sports simulation offers a rich and standardized testing ground for evaluating and improving the capabilities of learning algorithms due to the diversity and physically demanding nature of athletic activities. As humans have been competing in these sports for many years, there is also a plethora of existing knowledge on the preferred strategy to achieve better performance. To leverage these existing human demonstrations from videos and motion capture, we design our humanoid to be compatible with the widely-used SMPL and SMPL-X human models from the vision and graphics community. We provide a suite of individual sports environments, including golf, javelin throw, high jump, long jump, and hurdling, as well as competitive sports, including both 1v1 and 2v2 games such as table tennis, tennis, fencing, boxing, soccer, and basketball. Our analysis shows that combining strong motion priors with simple rewards can result in human-like behavior in various sports. By providing a unified sports benchmark and baseline implementation of state and reward designs, we hope that SMPLOlympics can help the control and animation communities achieve human-like and performant behaviors.
翻訳日:2024-07-04 06:00:32 公開日:2024-06-28
# 誤り検出のための新しいラベル付き人間の音声信号データセット

A Novel Labeled Human Voice Signal Dataset for Misbehavior Detection ( http://arxiv.org/abs/2407.00188v1 )

ライセンス: Link先を確認
Ali Raza, Faizan Younas, (参考訳) 人間の行動に基づく音声信号の分類には、音声パターンや配信スタイルの様々な側面の分析が含まれる。 本研究では、被験者に12の心理学的質問を2つの異なる方法で話すように指示するリアルタイムデータセット収集を行う。 これらの分類は、異なる声の振る舞いが音声信号の解釈と分類にどのように影響するかを理解するために重要である。 本研究は,音声認識のための自動学習システムにおいて,音声のトーンと配信の重要性を強調した。 本研究は、人間の行動が音声信号の知覚と分類に与える影響を解明し、より正確で文脈に配慮した音声認識技術の開発を促進することにより、音声信号解析の幅広い分野に寄与する。

Voice signal classification based on human behaviours involves analyzing various aspects of speech patterns and delivery styles. In this study, a real-time dataset collection is performed where participants are instructed to speak twelve psychology questions in two distinct manners: first, in a harsh voice, which is categorized as "misbehaved"; and second, in a polite manner, categorized as "normal". These classifications are crucial in understanding how different vocal behaviours affect the interpretation and classification of voice signals. This research highlights the significance of voice tone and delivery in automated machine-learning systems for voice analysis and recognition. This research contributes to the broader field of voice signal analysis by elucidating the impact of human behaviour on the perception and categorization of voice signals, thereby enhancing the development of more accurate and context-aware voice recognition technologies.
翻訳日:2024-07-04 06:00:32 公開日:2024-06-28
# MetaKP: オンデマンドのキーワード生成

MetaKP: On-Demand Keyphrase Generation ( http://arxiv.org/abs/2407.00191v1 )

ライセンス: Link先を確認
Di Wu, Xiaoxian Shen, Kai-Wei Chang, (参考訳) 従来のキーフレーズ予測手法は、ドキュメント毎にひとつのキーフレーズを予測し、ユーザや下流アプリケーションの多様なニーズに対応できない。 このギャップを埋めるために、我々は、特定のハイレベルな目標や意図に従うキーフレーズを必要とする新しいパラダイムであるオンデマンドのキーフレーズ生成を導入します。 そこで,4つのデータセット,7500のドキュメント,3760の目標からなる大規模ベンチマークであるMetaKPを提案する。 MetaKPを活用することで、マルチタスクの微調整アプローチや、大規模言語モデルによる自己整合性促進手法など、教師付き手法と教師なし手法の両方を設計する。 その結果,教師付き微調整の課題が浮き彫りになった。 対照的に、提案した自己整合性促進手法は、大規模言語モデルの性能を大幅に向上させ、GPT-4oが0.548 SemF1を達成でき、完全に微調整されたBARTベースモデルの性能を上回る。 最後に,一般のNLP基盤として機能する手法の可能性を示し,その応用例をソーシャルメディアからの流行事象検出に適用した。

Traditional keyphrase prediction methods predict a single set of keyphrases per document, failing to cater to the diverse needs of users and downstream applications. To bridge the gap, we introduce on-demand keyphrase generation, a novel paradigm that requires keyphrases that conform to specific high-level goals or intents. For this task, we present MetaKP, a large-scale benchmark comprising four datasets, 7500 documents, and 3760 goals across news and biomedical domains with human-annotated keyphrases. Leveraging MetaKP, we design both supervised and unsupervised methods, including a multi-task fine-tuning approach and a self-consistency prompting method with large language models. The results highlight the challenges of supervised fine-tuning, whose performance is not robust to distribution shifts. By contrast, the proposed self-consistency prompting approach greatly improves the performance of large language models, enabling GPT-4o to achieve 0.548 SemF1, surpassing the performance of a fully fine-tuned BART-base model. Finally, we demonstrate the potential of our method to serve as a general NLP infrastructure, exemplified by its application in epidemic event detection from social media.
翻訳日:2024-07-04 06:00:32 公開日:2024-06-28
# 高度空気移動における集中管理のための深層強化学習を考慮したトレードオフ

Tradeoffs When Considering Deep Reinforcement Learning for Contingency Management in Advanced Air Mobility ( http://arxiv.org/abs/2407.00197v1 )

ライセンス: Link先を確認
Luis E. Alvarez, Marc W. Brittain, Steven D. Young, (参考訳) 航空輸送は、Advanced Air Mobility (AAM)の導入により、世界中で急速に進化しており、航空を変革する新たな課題と機会がもたらされている。 AAMの運用は、車両能力と密度の不均一性の増加をもたらすため、運転安全性と効率の目標を達成するためには、自動化のレベルが増加する必要がある。 本稿では,自動化の促進を示唆する一例に焦点をあてる。 自律的なオペレーションには、関係する(あるいは相互依存する)ハザードをまたいで進化するリスクを監視し、必要に応じて、監督されたあるいは自動的な意思決定を通じて適切な制御介入を実行する、緊急管理システムが必要です。 この複雑な環境を調節するには、急速に変化する環境に適応して対応できる人工知能(AI)技術を適用する自動化機能(自律性)が必要となるかもしれない。 本稿では, 逐次的意思決定問題として目的を構築可能な複雑・高次元環境において, 有望な性能を示すDeep Reinforcement Learning (DRL) の利用について検討する。 MDP (Markov Decision Process) として, 緊急管理問題の事前の定式化を拡張し, DRLフレームワークを用いてシミュレーション環境に存在するハザードを緩和するエージェントを訓練する。 これらの学習ベースエージェントと古典的テクニックの比較は, 性能, 検証困難, 開発プロセスの観点から述べる。

Air transportation is undergoing a rapid evolution globally with the introduction of Advanced Air Mobility (AAM) and with it comes novel challenges and opportunities for transforming aviation. As AAM operations introduce increasing heterogeneity in vehicle capabilities and density, increased levels of automation are likely necessary to achieve operational safety and efficiency goals. This paper focuses on one example where increased automation has been suggested. Autonomous operations will need contingency management systems that can monitor evolving risk across a span of interrelated (or interdependent) hazards and, if necessary, execute appropriate control interventions via supervised or automated decision making. Accommodating this complex environment may require automated functions (autonomy) that apply artificial intelligence (AI) techniques that can adapt and respond to a quickly changing environment. This paper explores the use of Deep Reinforcement Learning (DRL) which has shown promising performance in complex and high-dimensional environments where the objective can be constructed as a sequential decision-making problem. An extension of a prior formulation of the contingency management problem as a Markov Decision Process (MDP) is presented and uses a DRL framework to train agents that mitigate hazards present in the simulation environment. A comparison of these learning-based agents and classical techniques is presented in terms of their performance, verification difficulties, and development process.
翻訳日:2024-07-04 06:00:32 公開日:2024-06-28
# 複雑な神経ネットワークを解釈可能なタスク特異的コネクトームに分解する

Deconvolving Complex Neuronal Networks into Interpretable Task-Specific Connectomes ( http://arxiv.org/abs/2407.00201v1 )

ライセンス: Link先を確認
Yifan Wang, Vikram Ravindra, Ananth Grama, (参考訳) タスク特異的機能MRI(fMRI)画像は、認知過程の神経基盤を研究する上で優れたモダリティを提供する。 我々は、fMRIデータを用いて、タスク固有の集合神経ネットワークを標準的ネットワークと呼ばれる基本的なビルディングブロックの集合に分解し、これらのネットワークを機能的特徴付けに利用し、これらの応答の生理的基盤を脳の領域にマッピングすることで特徴づける。 本研究の結果は,少数のカノニカルネットワークを用いてタスクを正確に予測することができること,コホート間の一般化可能性,すなわちカノニカルネットワークは多様な集団,研究,獲得プロトコルにまたがって保存されていること,そして,カノニカルネットワークが解剖学的および生理的基盤が強いこと,など,カノニカルネットワークの優れたタスク特異性を示す。 手法の観点からは、これらの標準的ネットワークを特定する問題は、高次元性、小さなサンプルサイズ、取得変数、ノイズに根ざした課題を引き起こす。 我々のデコンボリューション手法は、正準ネットワークを好適に構築された行列の因子として識別する非負行列分解(NMF)に基づいている。 我々は,本手法が大規模データセットにスケールし,安定かつ高精度な要因が得られ,ノイズに強いことを実証した。

Task-specific functional MRI (fMRI) images provide excellent modalities for studying the neuronal basis of cognitive processes. We use fMRI data to formulate and solve the problem of deconvolving task-specific aggregate neuronal networks into a set of basic building blocks called canonical networks, to use these networks for functional characterization, and to characterize the physiological basis of these responses by mapping them to regions of the brain. Our results show excellent task-specificity of canonical networks, i.e., the expression of a small number of canonical networks can be used to accurately predict tasks; generalizability across cohorts, i.e., canonical networks are conserved across diverse populations, studies, and acquisition protocols; and that canonical networks have strong anatomical and physiological basis. From a methods perspective, the problem of identifying these canonical networks poses challenges rooted in the high dimensionality, small sample size, acquisition variability, and noise. Our deconvolution technique is based on non-negative matrix factorization (NMF) that identifies canonical networks as factors of a suitably constructed matrix. We demonstrate that our method scales to large datasets, yields stable and accurate factors, and is robust to noise.
翻訳日:2024-07-04 06:00:32 公開日:2024-06-28
# PathGen-1.6M: マルチエージェントコラボレーションによる1.6万の病理画像テキストペア生成

PathGen-1.6M: 1.6 Million Pathology Image-text Pairs Generation through Multi-agent Collaboration ( http://arxiv.org/abs/2407.00203v1 )

ライセンス: Link先を確認
Yuxuan Sun, Yunlong Zhang, Yixuan Si, Chenglu Zhu, Zhongyi Shui, Kai Zhang, Jingxiong Li, Xingheng Lyu, Tao Lin, Lin Yang, (参考訳) CLIPのような視覚言語モデル(VLM)は、ゼロショット画像分類や全スライド画像(WSI)解析などのアプリケーションのためのバックボーンとして、病理学において大きな注目を集めている。 さらに、より大きな機能をサポートするために、大きな言語モデル(LLM)と組み合わせることで、ビジョンエンコーダとして機能する。 VLMをトレーニングするための現在の取り組みは、PubMed、YouTube、Twitterなどのプラットフォームからの病理画像テキストペアに依存している。 本稿では,TCGAのような大規模WSIデータセットを活用し,高品質な画像パッチを抽出する。 次に、これらの画像のキャプションを生成するために、大規模なマルチモーダルモデルをトレーニングし、1.6万の高品質画像キャプチャーペアを含むデータセットであるPathGen-1.6Mを作成します。 提案手法では,複数のエージェントモデルを用いてWSIパッチを抽出し,キャプションの生成と精錬を行い,高品質な画像テキストペアを得る。 大規模な実験によると、これらの生成されたペアを既存のデータセットと統合して、病理固有のCLIPモデルであるPathGen-CLIPをトレーニングすることで、病理画像を分析する能力が大幅に向上し、9つの病理関連ゼロショット画像分類タスクと3つの全スライダー画像タスクに大幅に改善されている。 さらに,PathGen-1.6Mに基づく200K命令チューニングデータを構築し,PathGen-CLIPとVicuna LLMを統合し,命令チューニングによるより強力なマルチモーダルモデルを作成する。 全体として、我々は、病理学における高品質なデータ生成のためのスケーラブルな経路を提供し、次世代の一般的な病理学モデルへの道を開いた。

Vision Language Models (VLMs) like CLIP have attracted substantial attention in pathology, serving as backbones for applications such as zero-shot image classification and Whole Slide Image (WSI) analysis. Additionally, they can function as vision encoders when combined with large language models (LLMs) to support broader capabilities. Current efforts to train pathology VLMs rely on pathology image-text pairs from platforms like PubMed, YouTube, and Twitter, which provide limited, unscalable data with generally suboptimal image quality. In this work, we leverage large-scale WSI datasets like TCGA to extract numerous high-quality image patches. We then train a large multimodal model to generate captions for these images, creating PathGen-1.6M, a dataset containing 1.6 million high-quality image-caption pairs. Our approach involves multiple agent models collaborating to extract representative WSI patches, generating and refining captions to obtain high-quality image-text pairs. Extensive experiments show that integrating these generated pairs with existing datasets to train a pathology-specific CLIP model, PathGen-CLIP, significantly enhances its ability to analyze pathological images, with substantial improvements across nine pathology-related zero-shot image classification tasks and three whole-slide image tasks. Furthermore, we construct 200K instruction-tuning data based on PathGen-1.6M and integrate PathGen-CLIP with the Vicuna LLM to create more powerful multimodal models through instruction tuning. Overall, we provide a scalable pathway for high-quality data generation in pathology, paving the way for next-generation general pathology models.
翻訳日:2024-07-04 06:00:32 公開日:2024-06-28
# テキスト生成における構文テンプレートの検出と計測

Detection and Measurement of Syntactic Templates in Generated Text ( http://arxiv.org/abs/2407.00211v1 )

ライセンス: Link先を確認
Chantal Shaib, Yanai Elazar, Junyi Jessy Li, Byron C. Wallace, (参考訳) LLMが生成するテキストの多様性を評価するための最近の研究は、単語レベルの特徴に焦点を当てている。 ここでは、頻繁なn-グラムを超えて、モデルにおける一般的な反復を特徴づける構文的特徴の分析を行う。 具体的には、構文テンプレートを定義し、モデルが人間の参照テキストよりも高い速度で下流タスクでテンプレートテキストを生成する傾向があることを示す。 モデル生成テキストのテンプレートのほとんど(76%)は事前学習データ(人間が作成したテキストのわずか35%)に見出され、RLHFのような微調整プロセスでは上書きされないことがわかった。 この事前学習データとの接続により、事前学習データを持たないモデルにおける構文テンプレートを解析できる。 また、テンプレートはモデル、タスク、ドメインを区別することができ、一般的なモデル構築を質的に評価するのに有用であることも見出した。 最後に、LLMにおけるトレーニングデータのスタイル記憶を解析するための有用なツールとしてテンプレートを用いることを実証する。

Recent work on evaluating the diversity of text generated by LLMs has focused on word-level features. Here we offer an analysis of syntactic features to characterize general repetition in models, beyond frequent n-grams. Specifically, we define syntactic templates and show that models tend to produce templated text in downstream tasks at a higher rate than what is found in human-reference texts. We find that most (76%) templates in model-generated text can be found in pre-training data (compared to only 35% of human-authored text), and are not overwritten during fine-tuning processes such as RLHF. This connection to the pre-training data allows us to analyze syntactic templates in models where we do not have the pre-training data. We also find that templates as features are able to differentiate between models, tasks, and domains, and are useful for qualitatively evaluating common model constructions. Finally, we demonstrate the use of templates as a useful tool for analyzing style memorization of training data in LLMs.
翻訳日:2024-07-04 06:00:32 公開日:2024-06-28
# LLM批判はLLMバグをキャッチするのに役立つ

LLM Critics Help Catch LLM Bugs ( http://arxiv.org/abs/2407.00215v1 )

ライセンス: Link先を確認
Nat McAleese, Rai Michael Pokorny, Juan Felipe Ceron Uribe, Evgenia Nitishinskaya, Maja Trebacz, Jan Leike, (参考訳) 人間のフィードバックからの強化学習(RLHF)は、モデル出力を正しく評価する能力によって根本的に制限される。 人間の評価能力を向上し、その限界を克服するために、この作業は、人間がより正確にモデル記述コードを評価するのに役立つ「批判的」モデルを訓練する。 これらの批評家は、実世界のアシスタントタスクからのコードの問題をハイライトする自然言語フィードバックを書くためにRLHFで訓練されたLLMである。 自然発生のLLMエラーを含むコードについては、63%のケースで人間の批判よりもモデル記述の批判の方が好まれる。 さらに、我々の微調整されたLLM批評家は、コード以外のタスクがほとんどであり、批判モデルに非分布であるにもかかわらず、ChatGPTトレーニングデータの数百のエラーを「不正」と評価できることを確認した。 批判者は、人間を誤解して避けたかもしれない間違いを犯すような幻覚的なバグを含む、独自の制限を持つことができるが、批評家や契約業者の人間機械チームは、LLM批判者と同様の数のバグをキャッチし、LLM批判者のみを幻覚させる。

Reinforcement learning from human feedback (RLHF) is fundamentally limited by the capacity of humans to correctly evaluate model output. To improve human evaluation ability and overcome that limitation this work trains "critic" models that help humans to more accurately evaluate model-written code. These critics are themselves LLMs trained with RLHF to write natural language feedback highlighting problems in code from real-world assistant tasks. On code containing naturally occurring LLM errors model-written critiques are preferred over human critiques in 63% of cases, and human evaluation finds that models catch more bugs than human contractors paid for code review. We further confirm that our fine-tuned LLM critics can successfully identify hundreds of errors in ChatGPT training data rated as "flawless", even though the majority of those tasks are non-code tasks and thus out-of-distribution for the critic model. Critics can have limitations of their own, including hallucinated bugs that could mislead humans into making mistakes they might have otherwise avoided, but human-machine teams of critics and contractors catch similar numbers of bugs to LLM critics while hallucinating less than LLMs alone.
翻訳日:2024-07-04 06:00:32 公開日:2024-06-28
# LLMのアライメント評価とモデル忠実度

Evaluating Human Alignment and Model Faithfulness of LLM Rationale ( http://arxiv.org/abs/2407.00219v1 )

ライセンス: Link先を確認
Mohsen Fayyaz, Fan Yin, Jiao Sun, Nanyun Peng, (参考訳) 我々は,LLMの決定過程を反映した入力テキストから抽出されたトークンの集合である,大言語モデル(LLM)が,それらの世代を合理的にどのように説明するかを考察する。 2つの方法により抽出されたLCMの有理性について検討する。 1)重要なトークンを見つけるために注意または勾配を使用する属性に基づく方法 2) LLM を誘導するプロンプトベースの手法は,プロンプトを用いて有理性を抽出する。 より広範な実験により,帰属的理性は帰属的理性よりも人間の注釈的理性と整合し,モデル性能が劣った場合でも人間との合理的な整合性を示す。 さらに,従来の研究で特定されたプロンプトベース手法の忠実度制限は,その崩壊予測と関係があることが示唆された。 これらのモデルを対応するデータセットに微調整することで、帰属法と帰属法の両方が改善された忠実性を示す。 本研究は, LLM理論の厳密かつ公平な評価, 特にプロンプトに基づく評価に光を当てている。

We study how well large language models (LLMs) explain their generations with rationales -- a set of tokens extracted from the input texts that reflect the decision process of LLMs. We examine LLM rationales extracted with two methods: 1) attribution-based methods that use attention or gradients to locate important tokens, and 2) prompting-based methods that guide LLMs to extract rationales using prompts. Through extensive experiments, we show that prompting-based rationales align better with human-annotated rationales than attribution-based rationales, and demonstrate reasonable alignment with humans even when model performance is poor. We additionally find that the faithfulness limitations of prompting-based methods, which are identified in previous work, may be linked to their collapsed predictions. By fine-tuning these models on the corresponding datasets, both prompting and attribution methods demonstrate improved faithfulness. Our study sheds light on more rigorous and fair evaluations of LLM rationales, especially for prompting-based ones.
翻訳日:2024-07-04 06:00:32 公開日:2024-06-28
# 癌生存予測のためのマルチモーダルプロトタイピング

Multimodal Prototyping for cancer survival prediction ( http://arxiv.org/abs/2407.00224v1 )

ライセンス: Link先を確認
Andrew H. Song, Richard J. Chen, Guillaume Jaume, Anurag J. Vaidya, Alexander S. Baras, Faisal Mahmood, (参考訳) ギガピクセルヒストロジー全体スライディング画像(WSI)と転写学的プロファイルを組み合わせたマルチモーダルサバイバル法は,患者の予後と成層化に特に有望である。 現在のアプローチでは、WSIを小さなパッチ(>10,000パッチ)にトークン化し、トランスクリプトミクスを遺伝子グループに分割し、結果を予測するためにTransformerを使用して統合する。 しかし、このプロセスは多くのトークンを生成し、これは注意を計算するための高いメモリ要求をもたらし、ポストホック解釈可能性分析を複雑にする。 その代わりに、(1) 形態素のプロトタイプを用いてトークンを構成することでWSIのモルフォロジー内容を効果的に要約し、300倍以上の圧縮を実現し、(2) 転写学的プロファイルを生物学的経路のプロトタイプで符号化することで細胞機能を正確に特徴付けることができる、という仮説を立てる。 結果として得られたマルチモーダルトークンは、Transformerか最適トランスポートクロスアライメントのいずれかで、融合ネットワークによって処理される。 6種類のがんに対する広範囲な評価は、我々のフレームワークが新しい解釈可能性解析を解き放ちながら、より少ない計算で最先端の手法より優れていることを示している。

Multimodal survival methods combining gigapixel histology whole-slide images (WSIs) and transcriptomic profiles are particularly promising for patient prognostication and stratification. Current approaches involve tokenizing the WSIs into smaller patches (>10,000 patches) and transcriptomics into gene groups, which are then integrated using a Transformer for predicting outcomes. However, this process generates many tokens, which leads to high memory requirements for computing attention and complicates post-hoc interpretability analyses. Instead, we hypothesize that we can: (1) effectively summarize the morphological content of a WSI by condensing its constituting tokens using morphological prototypes, achieving more than 300x compression; and (2) accurately characterize cellular functions by encoding the transcriptomic profile with biological pathway prototypes, all in an unsupervised fashion. The resulting multimodal tokens are then processed by a fusion network, either with a Transformer or an optimal transport cross-alignment, which now operates with a small and fixed number of tokens without approximations. Extensive evaluation on six cancer types shows that our framework outperforms state-of-the-art methods with much less computation while unlocking new interpretability analyses.
翻訳日:2024-07-04 06:00:32 公開日:2024-06-28
# テストケース生成のためのLCMの大規模・独立的・包括的研究

Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation ( http://arxiv.org/abs/2407.00225v1 )

ライセンス: Link先を確認
Wendkûuni C. Ouédraogo, Kader Kaboré, Haoye Tian, Yewei Song, Anil Koyuncu, Jacques Klein, David Lo, Tegawendé F. Bissyandé, (参考訳) クラスやメソッドなどのコードモジュールのバグを特定するのに不可欠なユニットテストは、時間的制約のため、開発者によって無視されることが多い。 これに対応するために自動テスト生成技術が登場したが、可読性に欠け、開発者の介入を必要とすることが多い。 GPTやMistralのようなLarge Language Models (LLM)は、テスト生成を含むソフトウェア工学における約束を示す。 しかし、その効果は不明である。 本研究は, LLMの総合的な研究を行い, ユニット・テスト・ジェネレーションのための4つのLLMと5つの迅速な技術技術の有効性を検証した。 多様なデータセットから収集した690のJavaクラスに対して,先進的な命令付きLLMによって生成された216\,300のテストを解析した。 LLM生成テストの正確性、可視性、カバレッジ、バグ検出機能を評価し、人気のある自動テストツールであるEvoSuiteと比較する。 LLMは可能性を示す一方で、テストの正確性の改善が必要である。 本研究は,LLMの強度と限界を従来の手法と比較して明らかにし,ソフトウェア工学におけるLLMのさらなる研究の道を開くものである。

Unit testing, crucial for identifying bugs in code modules like classes and methods, is often neglected by developers due to time constraints. Automated test generation techniques have emerged to address this, but often lack readability and require developer intervention. Large Language Models (LLMs), like GPT and Mistral, show promise in software engineering, including in test generation. However, their effectiveness remains unclear. This study conducts the first comprehensive investigation of LLMs, evaluating the effectiveness of four LLMs and five prompt engineering techniques, for unit test generation. We analyze 216\,300 tests generated by the selected advanced instruct-tuned LLMs for 690 Java classes collected from diverse datasets. We assess correctness, understandability, coverage, and bug detection capabilities of LLM-generated tests, comparing them to EvoSuite, a popular automated testing tool. While LLMs show potential, improvements in test correctness are necessary. This study reveals the strengths and limitations of LLMs compared to traditional methods, paving the way for further research on LLMs in software engineering.
翻訳日:2024-07-04 05:50:48 公開日:2024-06-28
# トランスフォーマーによる画像と映像のインペインティング : 現状と今後の方向性

Transformer-based Image and Video Inpainting: Current Challenges and Future Directions ( http://arxiv.org/abs/2407.00226v1 )

ライセンス: Link先を確認
Omar Elharrouss, Rafat Damseh, Abdelkader Nasreddine Belkacem, Elarbi Badidi, Abderrahmane Lakas, (参考訳) 画像のインペイントは現在、コンピュータビジョンの分野でホットな話題となっている。 写真復元、ビデオ編集、医療画像撮影など、さまざまな応用に有効なソリューションを提供する。 深層学習の進歩、特に畳み込みニューラルネットワーク(CNN)とGAN(Generative Adversarial Network)は、文脈的に適切な詳細を取り入れることで、画像やビデオの欠落した領域や損傷した領域を埋める能力を向上させることで、着色作業を大幅に強化した。 これらの進歩は、効率性、情報保存、現実的なテクスチャと構造の両方を達成するなど、他の面を改善した。 近年、ビジュアルトランスフォーマーが利用され、画像やビデオのインペイントにいくつかの改善が加えられている。 トランスフォーマーベースのアーキテクチャの出現は、当初自然言語処理用に設計されたもので、コンピュータビジョンタスクに統合されている。 これらの方法は、データ内の長距離依存関係を捉えるのに優れた自己認識機構を利用するため、画像やビデオのグローバルコンテキストを包括的に理解する必要のあるタスクに特に有効である。 本稿では,現在の画像や映像のインパインティング手法について,特にトランスフォーマー技術に焦点をあてた総合的なレビューを行い,その改良点を強調し,ビジュアルトランスフォーマーを用いた画像やビデオのインパインティングの分野における新たな研究者のガイドラインを提供する。 トランスフォーマーベースのテクニックは、アーキテクチャ構成、損傷の種類、パフォーマンスメトリクスによって分類しました。 さらに,現状の課題を整理し,画像や映像のインパインティングの分野における今後の研究の方向性を提案する。

Image inpainting is currently a hot topic within the field of computer vision. It offers a viable solution for various applications, including photographic restoration, video editing, and medical imaging. Deep learning advancements, notably convolutional neural networks (CNNs) and generative adversarial networks (GANs), have significantly enhanced the inpainting task with an improved capability to fill missing or damaged regions in an image or video through the incorporation of contextually appropriate details. These advancements have improved other aspects, including efficiency, information preservation, and achieving both realistic textures and structures. Recently, visual transformers have been exploited and offer some improvements to image or video inpainting. The advent of transformer-based architectures, which were initially designed for natural language processing, has also been integrated into computer vision tasks. These methods utilize self-attention mechanisms that excel in capturing long-range dependencies within data; therefore, they are particularly effective for tasks requiring a comprehensive understanding of the global context of an image or video. In this paper, we provide a comprehensive review of the current image or video inpainting approaches, with a specific focus on transformer-based techniques, with the goal to highlight the significant improvements and provide a guideline for new researchers in the field of image or video inpainting using visual transformers. We categorized the transformer-based techniques by their architectural configurations, types of damage, and performance metrics. Furthermore, we present an organized synthesis of the current challenges, and suggest directions for future research in the field of image or video inpainting.
翻訳日:2024-07-04 05:50:47 公開日:2024-06-28
# SemUV:仮想人間のUVテクスチャマップを用いたディープラーニングに基づく意味操作

SemUV: Deep Learning based semantic manipulation over UV texture map of virtual human heads ( http://arxiv.org/abs/2407.00229v1 )

ライセンス: Link先を確認
Anirban Mukherjee, Venkat Suprabath Bitra, Vignesh Bondugula, Tarun Reddy Tallapureddy, Dinesh Babu Jayagopi, (参考訳) 仮想人間の頭の設計と操作は、AR、VR、ゲーム、人間とコンピュータのインタラクション、VFXなど、さまざまなアプリケーションで必須である。 従来のグラフィックベースのアプローチは、人間の頭部の正確な表現を達成するために手作業とリソースを必要とする。 現代のディープラーニング技術は、顔の高度なフォトリアリスティックな画像を生成、編集できるが、その焦点は主に2Dの顔画像である。 この制限により、3Dアプリケーションには適さない。 3DグラフィクスパイプラインのキーコンポーネントとしてUVテクスチャ空間内での編集が重要な役割を担っていることを認識し、我々は、外観操作における制御と精度の向上によってグラフィックデザイナーに利益をもたらすために、この側面に焦点を当てた。 紫外線テクスチャ空間における既存の手法の研究は限られており、複雑であり、課題を提起している。 本稿では,セムUVについて紹介する。セムUVは,FFHQ-UVデータセットを用いて,UVテクスチャ空間内でのセマンティックな操作を行う。 FFHQ-UVデータセット上でStyleGANモデルをトレーニングし、補間と意味的特徴操作のための境界をトレーニングする。 本手法と2次元操作技術を比較した実験により,年齢,性別,顔の毛髪などの意味的特徴を効果的に修正しながら,アイデンティティを保存できる優れた能力を実証した。 私たちのアプローチはシンプルで、構造、照明、レンダリングといった他の3Dコンポーネントとは無関係です。また、ドメインの専門知識や時間、リソースを必要とせずに、標準の3Dグラフィックパイプラインへのシームレスな統合を可能にします。

Designing and manipulating virtual human heads is essential across various applications, including AR, VR, gaming, human-computer interaction and VFX. Traditional graphic-based approaches require manual effort and resources to achieve accurate representation of human heads. While modern deep learning techniques can generate and edit highly photorealistic images of faces, their focus remains predominantly on 2D facial images. This limitation makes them less suitable for 3D applications. Recognizing the vital role of editing within the UV texture space as a key component in the 3D graphics pipeline, our work focuses on this aspect to benefit graphic designers by providing enhanced control and precision in appearance manipulation. Research on existing methods within the UV texture space is limited, complex, and poses challenges. In this paper, we introduce SemUV: a simple and effective approach using the FFHQ-UV dataset for semantic manipulation directly within the UV texture space. We train a StyleGAN model on the publicly available FFHQ-UV dataset, and subsequently train a boundary for interpolation and semantic feature manipulation. Through experiments comparing our method with 2D manipulation technique, we demonstrate its superior ability to preserve identity while effectively modifying semantic features such as age, gender, and facial hair. Our approach is simple, agnostic to other 3D components such as structure, lighting, and rendering, and also enables seamless integration into standard 3D graphics pipelines without demanding extensive domain expertise, time, or resources.
翻訳日:2024-07-04 05:50:47 公開日:2024-06-28
# 没入型ウェアラブルデバイスにCNNに基づくコンピュータビジョンモデルを展開する手法

Methodology to Deploy CNN-Based Computer Vision Models on Immersive Wearable Devices ( http://arxiv.org/abs/2407.00233v1 )

ライセンス: Link先を確認
Kaveh Malek, Fernando Moreu, (参考訳) 畳み込みニューラルネットワーク(CNN)モデルは、拡張現実(AR)ヘッドセットで対処できる人間の入力を組み込む能力に欠けることが多い。 しかし、現在のARヘッドセットは処理能力の限界に直面しており、研究者はARヘッドセットのCNNを使用してリアルタイムで複雑な画像認識タスクを実行できなくなった。 本稿では,コンピュータ上でCNNモデルをトレーニングし,最適化した重量行列をヘッドセットに転送することで,ARヘッドセットにCNNモデルをデプロイする方法を提案する。 このアプローチは、画像データとCNN層をARプラットフォームに適した1次元フォーマットに変換する。 我々は、PyTorchを用いてMNISTデータセット上でLeNet-5 CNNモデルをトレーニングし、HoloLens ARヘッドセットにデプロイすることで、この手法を実証する。 その結果,コンピュータの性能と同様,約98%の精度を維持していることがわかった。 CNNとARの統合により、ARヘッドセットのリアルタイム画像処理が可能になり、AIモデルに人間の入力を組み込むことが可能になる。

Convolutional Neural Network (CNN) models often lack the ability to incorporate human input, which can be addressed by Augmented Reality (AR) headsets. However, current AR headsets face limitations in processing power, which has prevented researchers from performing real-time, complex image recognition tasks using CNNs in AR headsets. This paper presents a method to deploy CNN models on AR headsets by training them on computers and transferring the optimized weight matrices to the headset. The approach transforms the image data and CNN layers into a one-dimensional format suitable for the AR platform. We demonstrate this method by training the LeNet-5 CNN model on the MNIST dataset using PyTorch and deploying it on a HoloLens AR headset. The results show that the model maintains an accuracy of approximately 98%, similar to its performance on a computer. This integration of CNN and AR enables real-time image processing on AR headsets, allowing for the incorporation of human input into AI models.
翻訳日:2024-07-04 05:50:47 公開日:2024-06-28
# 生物物理系列最適化アルゴリズムのためのクローズドフォーム試験関数

Closed-Form Test Functions for Biophysical Sequence Optimization Algorithms ( http://arxiv.org/abs/2407.00236v1 )

ライセンス: Link先を確認
Samuel Stanton, Robert Alberstein, Nathan Frey, Andrew Watkins, Kyunghyun Cho, (参考訳) コンピュータビジョン(CV)や自然言語処理(NLP)といった分野における機械学習(ML)の成功を、生物物理学データを含むアプリケーションに再現しようとする動きが増えている。 CVとNLPの先行的な成功の鍵となる要素の1つは、重要なサブプロブレムを、どの研究員が調査できるような接近可能なタスクに蒸留する難しいベンチマークが広く受け入れられたことであるが、生物物理学領域の優れたベンチマークはまれである。 この不足の一部は、生物物理学データをシミュレートするベンチマークに焦点を絞ることによるものであり、代わりに、生物物理学的な問題を、重要な幾何学的類似点を持つより単純なものに慎重に抽象化することを提案する。 特に、生物物理シーケンス最適化のための新しい閉形式テスト関数のクラスを提案し、これはEhrlich関数と呼ばれる。 これらの機能は研究の興味深い対象であり、標準的な遺伝的最適化ベースラインで解決するのは簡単ではないことを示す実証的な結果を提供する。

There is a growing body of work seeking to replicate the success of machine learning (ML) on domains like computer vision (CV) and natural language processing (NLP) to applications involving biophysical data. One of the key ingredients of prior successes in CV and NLP was the broad acceptance of difficult benchmarks that distilled key subproblems into approachable tasks that any junior researcher could investigate, but good benchmarks for biophysical domains are rare. This scarcity is partially due to a narrow focus on benchmarks which simulate biophysical data; we propose instead to carefully abstract biophysical problems into simpler ones with key geometric similarities. In particular we propose a new class of closed-form test functions for biophysical sequence optimization, which we call Ehrlich functions. We provide empirical results demonstrating these functions are interesting objects of study and can be non-trivial to solve with a standard genetic optimization baseline.
翻訳日:2024-07-04 05:50:47 公開日:2024-06-28
# 量子相対エントロピープログラムにおける爆発構造

Exploiting Structure in Quantum Relative Entropy Programs ( http://arxiv.org/abs/2407.00241v1 )

ライセンス: Link先を確認
Kerry He, James Saunderson, Hamza Fawzi, (参考訳) 量子相対エントロピープログラムは、量子相対エントロピー関数のエピグラフのアフィン部分上の線形汎関数を最小化する凸最適化問題である。 近年、この集合に対して自然障壁関数の自己一致が証明された。 これにより、非対称コーンプログラムにインテリアポイント法を用いてこれらの最適化問題を解く機会が開かれた。 本稿では、量子情報理論の応用から生じる共通構造を利用して、内部点法を用いて量子相対エントロピープログラムの解法効率を向上させる方法について述べる。 まず、正の線形作用素からなる量子相対エントロピーのエピグラフに対する自然障壁関数が、特異行列に写像しても最適に自己調和的であることを示す。 第二に、これらの線形作用素の共通構造のカタログを利用して、障壁関数の逆ヘッセン積をより効率的に計算する方法を示す。 このステップは典型的には、内部点法を用いて量子相対エントロピープログラムを解く際にボトルネックとなるため、このステップの効率はアルゴリズムの計算性能を大幅に向上させることができる。 これらの手法が量子鍵分布、量子速度歪み、量子チャネル容量、ハミルトンの基底状態エネルギーの推定など、量子情報理論における重要な応用にどのように適用できるかを実証する。 数値計算の結果,これらの手法は計算時間を最大数桁改善し,それまでの難解な問題を解くことができることがわかった。

Quantum relative entropy programs are convex optimization problems which minimize a linear functional over an affine section of the epigraph of the quantum relative entropy function. Recently, the self-concordance of a natural barrier function was proved for this set. This has opened up the opportunity to use interior-point methods for nonsymmetric cone programs to solve these optimization problems. In this paper, we show how common structures arising from applications in quantum information theory can be exploited to improve the efficiency of solving quantum relative entropy programs using interior-point methods. First, we show that the natural barrier function for the epigraph of the quantum relative entropy composed with positive linear operators is optimally self-concordant, even when these linear operators map to singular matrices. Second, we show how we can exploit a catalogue of common structures in these linear operators to compute the inverse Hessian products of the barrier function more efficiently. This step is typically the bottleneck when solving quantum relative entropy programs using interior-point methods, and therefore improving the efficiency of this step can significantly improve the computational performance of the algorithm. We demonstrate how these methods can be applied to important applications in quantum information theory, including quantum key distribution, quantum rate-distortion, quantum channel capacities, and estimating the ground state energy of Hamiltonians. Our numerical results show that these techniques improve computation times by up to several orders of magnitude, and allow previously intractable problems to be solved.
翻訳日:2024-07-04 05:50:47 公開日:2024-06-28
# EHRmonize:大規模言語モデルを用いた電子カルテからの医療概念抽象化フレームワーク

EHRmonize: A Framework for Medical Concept Abstraction from Electronic Health Records using Large Language Models ( http://arxiv.org/abs/2407.00242v1 )

ライセンス: Link先を確認
João Matos, Jack Gallifant, Jian Pei, A. Ian Wong, (参考訳) 電子健康記録(EHR)は膨大な量の複雑なデータを含んでいるが、この情報を調和して処理することは、重要な臨床専門知識を必要とする困難でコストのかかる作業である。 大規模言語モデル(LLM)は、様々な医療応用において有望であるが、EHRから医療概念を抽象化する可能性はほとんど未解明である。 EHRデータから医学的概念を抽象化するための LLM を利用したフレームワークである EHRmonize を紹介する。 本研究は,2つの実世界のEHRデータベースから得られる薬物データを用いて,2つの自由テキスト抽出法と6つのバイナリ分類法を用いて5つのLSMを評価する。 GPT-4oの10ショットプロンプトはクロード3.5-ソネットを伴って全タスクで最高性能を達成した。 GPT-4oはジェネリックルート名同定において97%,ジェネリックドラッグ名では82%,抗生物質のバイナリ分類では100%の精度を達成した。 EHRmonize は効率を著しく向上させ, アノテーション時間を60%削減するが, 臨床医の監視は依然として重要であることを強調した。 当社のフレームワークは,Pythonパッケージとして利用可能であり,ERHデータの抽象化,医療研究の加速,データ調和プロセスの改善などを支援する,有望なツールを提供する。

Electronic health records (EHRs) contain vast amounts of complex data, but harmonizing and processing this information remains a challenging and costly task requiring significant clinical expertise. While large language models (LLMs) have shown promise in various healthcare applications, their potential for abstracting medical concepts from EHRs remains largely unexplored. We introduce EHRmonize, a framework leveraging LLMs to abstract medical concepts from EHR data. Our study uses medication data from two real-world EHR databases to evaluate five LLMs on two free-text extraction and six binary classification tasks across various prompting strategies. GPT-4o's with 10-shot prompting achieved the highest performance in all tasks, accompanied by Claude-3.5-Sonnet in a subset of tasks. GPT-4o achieved an accuracy of 97% in identifying generic route names, 82% for generic drug names, and 100% in performing binary classification of antibiotics. While EHRmonize significantly enhances efficiency, reducing annotation time by an estimated 60%, we emphasize that clinician oversight remains essential. Our framework, available as a Python package, offers a promising tool to assist clinicians in EHR data abstraction, potentially accelerating healthcare research and improving data harmonization processes.
翻訳日:2024-07-04 05:50:47 公開日:2024-06-28
# 閉信号フローグラフの学習

Learning Closed Signal Flow Graphs ( http://arxiv.org/abs/2407.00245v1 )

ライセンス: Link先を確認
Ekaterina Piotrovskaya, Leo Lobski, Fabio Zanasi, (参考訳) 我々は,信号トランスデューサのグラフィカルモデルである閉信号フローグラフの学習アルゴリズムを開発した。 このアルゴリズムは、閉信号フローグラフとシングルトンアルファベット上の重み付き有限オートマトンとの対応に依存する。 我々のアルゴリズムは、シングルトンアルファベットの場合に限定された重み付きオートマトンに対して、既存の学習アルゴリズムよりも優れている。

We develop a learning algorithm for closed signal flow graphs - a graphical model of signal transducers. The algorithm relies on the correspondence between closed signal flow graphs and weighted finite automata on a singleton alphabet. We demonstrate that this procedure results in a genuine reduction of complexity: our algorithm fares better than existing learning algorithms for weighted automata restricted to the case of a singleton alphabet.
翻訳日:2024-07-04 05:50:47 公開日:2024-06-28
# SBOM.EXE: Javaにおけるマテリアルのソフトウェア請求書に基づく動的コード注入対策

SBOM.EXE: Countering Dynamic Code Injection based on Software Bill of Materials in Java ( http://arxiv.org/abs/2407.00246v1 )

ライセンス: Link先を確認
Aman Sharma, Martin Wittlinger, Benoit Baudry, Martin Monperrus, (参考訳) ソフトウェアサプライチェーン攻撃は、ソフトウェア開発がますます複数の、しばしば検証されていないソースからのコントリビューションに依存しているため、重大な脅威となっている。 検証されていないソースからのコードは、実行されるまで脅威を起こさない。 Log4Shellは、実行時に悪意のある入力を処理し、リモートコード実行につながるサプライチェーン攻撃の最近の例である。 アプリケーションのランタイムの整合性を損なうために、Javaの動的クラスローディング機能を利用した。 従来のセーフガードは、ビルド時にサプライチェーン攻撃を軽減することができるが、動的にロードされた悪意のあるクラスによって引き起こされるランタイム脅威を緩和する制限がある。 これにより、悪意のあるクラスを検出し、実行時に実行を阻止できるシステムを呼び出す。 本稿では,SBOM.EXEについて紹介する。SBOM.EXEは,Javaアプリケーションをそのような脅威から保護するためのプロアクティブシステムである。 SBOM.EXEは、アプリケーションの完全なソフトウェアサプライチェーンに基づいて、許容可能なクラスの包括的な許容範囲リストを構築する。 この許容範囲リストは実行時に強制され、認識されていないクラスや改ざんされたクラスの実行をブロックする。 SBOM.EXEの有効性は、上記の脅威に基づいて、3つの重要なCVEを緩和することで評価する。 私たちは3つのオープンソースのJavaアプリケーションでツールを実行し、我々のツールはパフォーマンスのオーバーヘッドを最小限に抑えながら現実世界のアプリケーションと互換性があることを報告します。 我々の研究は、SBOM.EXEがパフォーマンスへの影響を最小限に抑えて実行時の完全性を効果的に維持できることを示し、動的クラスローディング攻撃に対してJavaアプリケーションを強化するための新しいアプローチを提供する。

Software supply chain attacks have become a significant threat as software development increasingly relies on contributions from multiple, often unverified sources. The code from unverified sources does not pose a threat until it is executed. Log4Shell is a recent example of a supply chain attack that processed a malicious input at runtime, leading to remote code execution. It exploited the dynamic class loading facilities of Java to compromise the runtime integrity of the application. Traditional safeguards can mitigate supply chain attacks at build time, but they have limitations in mitigating runtime threats posed by dynamically loaded malicious classes. This calls for a system that can detect these malicious classes and prevent their execution at runtime. This paper introduces SBOM.EXE, a proactive system designed to safeguard Java applications against such threats. SBOM.EXE constructs a comprehensive allowlist of permissible classes based on the complete software supply chain of the application. This allowlist is enforced at runtime, blocking any unrecognized or tampered classes from executing. We assess SBOM.EXE's effectiveness by mitigating 3 critical CVEs based on the above threat. We run our tool with 3 open-source Java applications and report that our tool is compatible with real-world applications with minimal performance overhead. Our findings demonstrate that SBOM.EXE can effectively maintain runtime integrity with minimal performance impact, offering a novel approach to fortifying Java applications against dynamic classloading attacks.
翻訳日:2024-07-04 05:50:47 公開日:2024-06-28
# テキスト・ツー・イメージ生成のための画像Pivotによるプロンプトリファインメント

Prompt Refinement with Image Pivot for Text-to-Image Generation ( http://arxiv.org/abs/2407.00247v1 )

ライセンス: Link先を確認
Jingtao Zhan, Qingyao Ai, Yiqun Liu, Yingwei Pan, Ting Yao, Jiaxin Mao, Shaoping Ma, Tao Mei, (参考訳) テキスト・ツー・イメージ生成では,ユーザが提供する自然言語のプロンプトを,システムに好まれるキーワード強化プロンプトに自動的に書き換えることがユーザエクスペリエンスに不可欠である。 このような迅速な改善プロセスは、"ユーザ言語"から"システム言語"へのプロンプトの翻訳と類似している。 しかし、このような並列コーパスの不足は、迅速な精錬モデルの訓練を困難にしている。 ゼロショット機械翻訳技術に触発されて,画像Pivot(PRIP)を用いたPrompt Refinementを導入する。 PRIPは、ユーザとシステム言語の間の中間的な"pivot"として、ユーザ優先のイメージの潜在表現を革新的に使用します。 改良処理を2つのデータリッチなタスクに分解する: ユーザ言語からユーザ優先の画像の表現を推論し、その後、画像表現をシステム言語に翻訳する。 これにより、豊富なデータをトレーニングに活用することができる。 大規模な実験により、PRIPは広範囲のベースラインを著しく上回り、ゼロショット方式で見えないシステムに効果的に転送することを示した。

For text-to-image generation, automatically refining user-provided natural language prompts into the keyword-enriched prompts favored by systems is essential for the user experience. Such a prompt refinement process is analogous to translating the prompt from "user languages" into "system languages". However, the scarcity of such parallel corpora makes it difficult to train a prompt refinement model. Inspired by zero-shot machine translation techniques, we introduce Prompt Refinement with Image Pivot (PRIP). PRIP innovatively uses the latent representation of a user-preferred image as an intermediary "pivot" between the user and system languages. It decomposes the refinement process into two data-rich tasks: inferring representations of user-preferred images from user languages and subsequently translating image representations into system languages. Thus, it can leverage abundant data for training. Extensive experiments show that PRIP substantially outperforms a wide range of baselines and effectively transfers to unseen systems in a zero-shot manner.
翻訳日:2024-07-04 05:50:47 公開日:2024-06-28
# DiffuseDef: 敵攻撃に対するロバスト性の改善

DiffuseDef: Improved Robustness to Adversarial Attacks ( http://arxiv.org/abs/2407.00248v1 )

ライセンス: Link先を確認
Zhenhao Li, Marek Rei, Lucia Specia, (参考訳) 事前訓練された言語モデルは、様々な自然言語処理タスクで大幅に性能が向上する。 しかし、敵攻撃はこれらのモデルを用いて構築されたシステムにとって重要な課題であり続けており、慎重に構築された敵のテキストで悪用することができる。 コンピュータビジョンの雑音を予測・低減する拡散モデルの能力に触発されて, 拡散層をエンコーダと分類器の識別器として組み込んだ, 言語分類タスクのための, フレキシブルな対逆防御手法DiffuseDefを提案する。 推測中、敵対的隠蔽状態はまずサンプルノイズと組み合わせられ、次に反復的に復調され、最後にアンサンブルされ、堅牢なテキスト表現が生成される。 DiffuseDefは, 対人訓練, デノベーション, アンサンブル技術を統合することで, 既存の対人防御法を改良し, 対人攻撃に対する最先端のパフォーマンスを実現することを示す。

Pretrained language models have significantly advanced performance across various natural language processing tasks. However, adversarial attacks continue to pose a critical challenge to system built using these models, as they can be exploited with carefully crafted adversarial texts. Inspired by the ability of diffusion models to predict and reduce noise in computer vision, we propose a novel and flexible adversarial defense method for language classification tasks, DiffuseDef, which incorporates a diffusion layer as a denoiser between the encoder and the classifier. During inference, the adversarial hidden state is first combined with sampled noise, then denoised iteratively and finally ensembled to produce a robust text representation. By integrating adversarial training, denoising, and ensembling techniques, we show that DiffuseDef improves over different existing adversarial defense methods and achieves state-of-the-art performance against common adversarial attacks.
翻訳日:2024-07-04 05:50:47 公開日:2024-06-28
# 第一量子化における分子の量子シミュレーションのための効率的な状態準備

Efficient state preparation for the quantum simulation of molecules in first quantization ( http://arxiv.org/abs/2407.00249v1 )

ライセンス: Link先を確認
William J. Huggins, Oskar Leimkuhler, Torin F. Stetina, K. Birgitta Whaley, (参考訳) 実際の分子や物質の量子シミュレーションは、量子コンピューティングの最も期待されている応用の1つである。 第1量子化平面波動表現を用いた電子構造シミュレーションアルゴリズムは、その漸近効率のために特に有望である。 しかし、これらのシミュレーションアルゴリズムの初期状態を作成するための以前の提案は、ベースセットのサイズに匹敵するスケールが不十分であった。 本研究では、ガウス型軌道ベースで定義された状態を平面波ベースに効率的にマッピングする方法を、平面波数で対数的なスケーリングで示すことで、この問題に対処する。 我々の重要な技術的結果は、ガウス型基底関数から構築された分子軌道が行列積状態を用いて平面波基底でコンパクトに表現できることの証明である。 提案手法は,他の手法がベースセットサイズに対して同じ対数スケーリングを実現することを期待する一方で,本手法の有効性も高い。 例えば、小さな分子に関する一連の数値実験において、我々の手法は、ナイーブなアプローチよりも桁違いに低い非クリフォードゲートを用いてハートリー・フォック状態への近似を準備できることがわかった。 状態準備の問題を解くことで、我々の研究は、エンドツーエンドの複雑性が真にサブ線形である分子系の最初の量子シミュレーションを可能にする。

The quantum simulation of real molecules and materials is one of the most highly anticipated applications of quantum computing. Algorithms for simulating electronic structure using a first-quantized plane wave representation are especially promising due to their asymptotic efficiency. However, previous proposals for preparing initial states for these simulation algorithms scale poorly with the size of the basis set. We address this shortcoming by showing how to efficiently map states defined in a Gaussian type orbital basis to a plane wave basis with a scaling that is logarithmic in the number of plane waves. Our key technical result is a proof that molecular orbitals constructed from Gaussian type basis functions can be compactly represented in a plane wave basis using matrix product states. While we expect that other approaches could achieve the same logarithmic scaling with respect to basis set size, our proposed state preparation technique is also highly efficient in practice. For example, in a series of numerical experiments on small molecules, we find that our approach allows us to prepare an approximation to the Hartree-Fock state using orders of magnitude fewer non-Clifford gates than a naive approach. By resolving the issue of state preparation, our work allows for the first quantum simulation of molecular systems whose end-to-end complexity is truly sublinear in the basis set size.
翻訳日:2024-07-04 05:50:47 公開日:2024-06-28
# Mind the Gap: Transformer-based Transcription を用いた Lacunae の解析

Mind the Gap: Analyzing Lacunae with Transformer-Based Transcription ( http://arxiv.org/abs/2407.00250v1 )

ライセンス: Link先を確認
Jaydeep Borkar, David A. Smith, (参考訳) 歴史的文書は、しばしば、穴、インクの問題、ストレージの損傷などの問題によって、欠落または不可解なテキストを含む損傷や不整合に悩まされる。 これらの欠落した部分や隙間をラグナ(lacunae)と呼ぶ。 本研究では,ラグネーを含む合成データに基づいて学習したトランスフォーマーを用いた光学文字認識(OCR)モデルを用いた。 本研究は,ラッカネーの知識が乏しいベースモデルに対して,ラッカネーの検出と復元において有効性を示し,成功率を65%とした。 さらに, 画像を直接検査することなく, 行画像中のラグネーやその他の誤り(例えば, 複雑な筆記やインク問題による誤転写)を識別できる転写のログ確率などのモデルの力学特性について検討する。 この能力は、漆や誤りを含む画像と清潔な画像とを区別しようとする学者にとって貴重である。 ラクナのフラグングや転写誤りに対する注意機構の可能性について検討するが,本研究は重要な要因ではないことを示唆する。 本研究は,損傷した史料の復元・解析にトランスフォーマーを用いたOCRモデルを利用する上で,有望な方向性を示すものである。

Historical documents frequently suffer from damage and inconsistencies, including missing or illegible text resulting from issues such as holes, ink problems, and storage damage. These missing portions or gaps are referred to as lacunae. In this study, we employ transformer-based optical character recognition (OCR) models trained on synthetic data containing lacunae in a supervised manner. We demonstrate their effectiveness in detecting and restoring lacunae, achieving a success rate of 65%, compared to a base model lacking knowledge of lacunae, which achieves only 5% restoration. Additionally, we investigate the mechanistic properties of the model, such as the log probability of transcription, which can identify lacunae and other errors (e.g., mistranscriptions due to complex writing or ink issues) in line images without directly inspecting the image. This capability could be valuable for scholars seeking to distinguish images containing lacunae or errors from clean ones. Although we explore the potential of attention mechanisms in flagging lacunae and transcription errors, our findings suggest it is not a significant factor. Our work highlights a promising direction in utilizing transformer-based OCR models for restoring or analyzing damaged historical documents.
翻訳日:2024-07-04 05:50:47 公開日:2024-06-28
# 深層学習と自然言語機能を有する補助画像アノテーションシステム

Assistive Image Annotation Systems with Deep Learning and Natural Language Capabilities: A Review ( http://arxiv.org/abs/2407.00252v1 )

ライセンス: Link先を確認
Moseli Mots'oehli, (参考訳) 教師付き学習はコンピュータビジョンタスクにおいて大きな成功を収めてきたが、高品質な注釈付きデータを取得することは依然としてボトルネックとなっている。 本稿では,AIを用いた深層学習画像アノテーションシステムにおける学術的・非学術的な研究の両面を考察し,入力画像のテキスト的提案,キャプション,記述をアノテーションに提示する。 これにより、アノテーションの効率と品質が向上する可能性がある。 画像分類,オブジェクト検出,回帰,インスタンス,セマンティックセグメンテーション,ポーズ推定など,コンピュータビジョンタスクのアノテーションについて検討する。 各種データセットをレビューし,AI補助アノテーションシステムのトレーニングと評価にどのように貢献するかを検討する。 また,ニューロシンボリック学習,深層能動学習,およびセマンティックイメージ理解と自由テキスト出力の生成を可能にする自己教師付き学習アルゴリズムを活用する手法についても検討した。 これには、画像キャプション、視覚的質問応答、マルチモーダル推論が含まれる。 有望な可能性にもかかわらず、テキスト出力機能を備えたAIアシスト画像アノテーションに関する公開作業は限られている。 我々は、この分野を前進させるための今後の研究の方向性を提案し、より広くアクセス可能なデータセットの必要性を強調し、学術と産業の協調的な取り組みを強調した。

While supervised learning has achieved significant success in computer vision tasks, acquiring high-quality annotated data remains a bottleneck. This paper explores both scholarly and non-scholarly works in AI-assistive deep learning image annotation systems that provide textual suggestions, captions, or descriptions of the input image to the annotator. This potentially results in higher annotation efficiency and quality. Our exploration covers annotation for a range of computer vision tasks including image classification, object detection, regression, instance, semantic segmentation, and pose estimation. We review various datasets and how they contribute to the training and evaluation of AI-assistive annotation systems. We also examine methods leveraging neuro-symbolic learning, deep active learning, and self-supervised learning algorithms that enable semantic image understanding and generate free-text output. These include image captioning, visual question answering, and multi-modal reasoning. Despite the promising potential, there is limited publicly available work on AI-assistive image annotation with textual output capabilities. We conclude by suggesting future research directions to advance this field, emphasizing the need for more publicly accessible datasets and collaborative efforts between academia and industry.
翻訳日:2024-07-04 05:50:47 公開日:2024-06-28
# 1つのプロンプトは十分ではない:混合型プロンプットの自動構築

One Prompt is not Enough: Automated Construction of a Mixture-of-Expert Prompts ( http://arxiv.org/abs/2407.00256v1 )

ライセンス: Link先を確認
Ruochen Wang, Sohyun An, Minhao Cheng, Tianyi Zhou, Sung Ju Hwang, Cho-Jui Hsieh, (参考訳) 大規模言語モデル(LLM)は、言語命令やコンテキスト内デモによって、新しいタスクへの強力な一般化能力を示す。 この能力はプロンプトの品質に敏感に依存するため、命令設計を自動化するために様々な手法が検討されている。 これらの手法は有望な結果を示したが、探索されたプロンプトを1つの命令に制限した。 このような単純化は、目的とするタスクの複雑な問題空間全体をカバーすることができない1つのデモフリーな命令のため、その能力を大幅に制限する。 この問題を緩和するために、我々はMixture-of-Expertパラダイムを採用し、問題空間を一連のサブリージョンに分割する。 1)デモ課題:文脈内学習とカーネルレグレッションの理論的関係から着想を得た2段階のプロセスを構築し,その意味的類似性に基づいて専門家にデモをグループ化し,(2)命令課題:専門家が割り当てられたデモを補完する命令の地域ベースの共同探索を行い,相乗効果をもたらす。 コード名はMixture-of-Prompts (MoP)で、いくつかの主要なベンチマークで先行技術に対して平均81%の勝利率を得る。

Large Language Models (LLMs) exhibit strong generalization capabilities to novel tasks when prompted with language instructions and in-context demos. Since this ability sensitively depends on the quality of prompts, various methods have been explored to automate the instruction design. While these methods demonstrated promising results, they also restricted the searched prompt to one instruction. Such simplification significantly limits their capacity, as a single demo-free instruction might not be able to cover the entire complex problem space of the targeted task. To alleviate this issue, we adopt the Mixture-of-Expert paradigm and divide the problem space into a set of sub-regions; Each sub-region is governed by a specialized expert, equipped with both an instruction and a set of demos. A two-phase process is developed to construct the specialized expert for each region: (1) demo assignment: Inspired by the theoretical connection between in-context learning and kernel regression, we group demos into experts based on their semantic similarity; (2) instruction assignment: A region-based joint search of an instruction per expert complements the demos assigned to it, yielding a synergistic effect. The resulting method, codenamed Mixture-of-Prompts (MoP), achieves an average win rate of 81% against prior arts across several major benchmarks.
翻訳日:2024-07-04 05:50:47 公開日:2024-06-28
# 二重三重項コヒーレント原子-光結合系におけるアディアバトン

Adiabatons in a double tripod coherent atom-light coupling scheme ( http://arxiv.org/abs/2407.00260v1 )

ライセンス: Link先を確認
Viačeslav Kudriašov, Hamid R. Hamedi, Julius Ruseckas, (参考訳) 光アディアバトン(英: optical adiabatons)は、特定の形状不変パルス対で、媒質中の光吸収を伴わず、グループ速度の低下で伝播する。 本研究の目的は, 多くの原子系におけるアディアバトン生成の解析と実証である。 ここでは,5レベルM型および2重三脚系の解析に焦点をあてる。 その結果、M型原子系は、長距離光アディアバトンの形成を妨げる強い依存群速度とパルス前部急激化の傾向にあることがわかった。 対照的に、二重三脚原子系は、不変形状で伝播する2つの異なる光電場構成をもたらす光アディアバトンの形成に非常に有利である。

Optical adiabatons are specific shape-invariant pulse pairs propagating at the reduced group velocity and without optical absorption in the medium. The purpose of this study is to analyze and demonstrate adiabaton formation in many level atomic systems. Here we focus on the analysis of five level M-type and double tripod systems. It is found that M-type atomic systems are prone to intensity dependent group velocity and pulse front steepening which prevents the formation of long range optical adiabatons. In contrast, the double tripod atomic system is quite favorable for the formation of optical adiabatons leading to two different optical field configurations propagating with invariant shape.
翻訳日:2024-07-04 05:41:03 公開日:2024-06-28
# 虹彩再生用組込み変圧器の試作

Generative Iris Prior Embedded Transformer for Iris Restoration ( http://arxiv.org/abs/2407.00261v1 )

ライセンス: Link先を確認
Yubo Huang, Jia Wang, Peipei Li, Liuyu Xiang, Peigang Li, Zhaofeng He, (参考訳) 虹彩認識性能の向上を目的とした複雑な劣化虹彩画像からの虹彩復元は難しい問題である。 複雑な劣化のため、前もって畳み込みニューラルネットワーク(CNN)を直接訓練しても十分な結果が得られない。 そこで本研究では,トランスフォーマーブロックと生成アイリスを用いた階層型エンコーダデコーダネットワークを構築する,生成アイリス前の組込みトランスフォーマーモデル(Gformer)を提案する。 まず、Transformerブロックをタップして、ターゲット画像の長距離依存性をモデル化する。 第2に, 虹彩生成逆境ネットワーク(GAN)を事前訓練し, 虹彩再生過程に虹彩特徴変調器を組み込む。 実験の結果,提案したGformerは最先端の手法よりも優れていた。 また, Gformerの適用により虹彩認識性能が大幅に向上した。

Iris restoration from complexly degraded iris images, aiming to improve iris recognition performance, is a challenging problem. Due to the complex degradation, directly training a convolutional neural network (CNN) without prior cannot yield satisfactory results. In this work, we propose a generative iris prior embedded Transformer model (Gformer), in which we build a hierarchical encoder-decoder network employing Transformer block and generative iris prior. First, we tame Transformer blocks to model long-range dependencies in target images. Second, we pretrain an iris generative adversarial network (GAN) to obtain the rich iris prior, and incorporate it into the iris restoration process with our iris feature modulator. Our experiments demonstrate that the proposed Gformer outperforms state-of-the-art methods. Besides, iris recognition performance has been significantly improved after applying Gformer.
翻訳日:2024-07-04 05:41:03 公開日:2024-06-28
# 地域概念からユニバーサルへ:視覚・言語モデルの多文化的理解を評価する

From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models ( http://arxiv.org/abs/2407.00263v1 )

ライセンス: Link先を確認
Mehar Bhatia, Sahithya Ravi, Aditya Chinchure, Eunjeong Hwang, Vered Shwartz, (参考訳) 近年の視覚言語モデルの発展にもかかわらず、その性能はトレーニングデータセットの過小評価のため、西欧文化以外の文化のイメージに比例しないままである。 モデルの文化的傾きをテストするための様々なベンチマークが提案されているが、それらには文化のカバー範囲が限られており、文化固有の地域概念だけでなく、普遍的な文化の多様性を適切に評価することができない。 これらの制限に対処するため、GlobalRGベンチマークを導入する。 前者の課題は、50か国からの普遍概念の文化的に多様なイメージを検索することであり、後者は15か国からのイメージに文化固有の概念を基礎付けることを目的としている。 幅広いモデルに対する我々の評価は、その性能が文化によって大きく異なることを示し、視覚言語モデルにおける多文化的な理解を強化する必要性を強調している。

Despite recent advancements in vision-language models, their performance remains suboptimal on images from non-western cultures due to underrepresentation in training datasets. Various benchmarks have been proposed to test models' cultural inclusivity, but they have limited coverage of cultures and do not adequately assess cultural diversity across universal as well as culture-specific local concepts. To address these limitations, we introduce the GlobalRG benchmark, comprising two challenging tasks: retrieval across universals and cultural visual grounding. The former task entails retrieving culturally diverse images for universal concepts from 50 countries, while the latter aims at grounding culture-specific concepts within images from 15 countries. Our evaluation across a wide range of models reveals that the performance varies significantly across cultures -- underscoring the necessity for enhancing multicultural understanding in vision-language models.
翻訳日:2024-07-04 05:41:03 公開日:2024-06-28
# 外部モデルモチベーションエージェント:環境サンプリング強化のための強化学習

External Model Motivated Agents: Reinforcement Learning for Enhanced Environment Sampling ( http://arxiv.org/abs/2407.00264v1 )

ライセンス: Link先を確認
Rishav Bhagat, Jonathan Balloch, Zhiyu Lin, Julia Kim, Mark Riedl, (参考訳) 強化学習(RL)エージェントとは異なり、人間は環境の変化において有能なマルチタスクのままである。 自分自身の観察と相互作用を通じて世界を経験するだけで、人々は、変化が世界に対する理解にどのように影響するかを学ぶことで、タスクに集中する方法を知っています。 これは、現在のタスクだけでなく、興味深く、一般的に有益な方法でタスクを解くことで可能になります。 そこで我々は,RLエージェントのエージェント・インフルエンス・フレームワークを提案し,エージェントの報酬を変更することなく,環境変化における外部モデルの適応効率を向上させる。 我々の定式化は2つの自己完結加群から成っている。 このフレームワークをテストするために,不確実性に基づく関心領域アルゴリズムと,スキルサンプリングに基づく行動形成アルゴリズムを実装した。 提案手法は,効率と性能の両面を測る指標に対する外部モデル適応の観点から,ベースラインよりも優れていることを示す。

Unlike reinforcement learning (RL) agents, humans remain capable multitaskers in changing environments. In spite of only experiencing the world through their own observations and interactions, people know how to balance focusing on tasks with learning about how changes may affect their understanding of the world. This is possible by choosing to solve tasks in ways that are interesting and generally informative beyond just the current task. Motivated by this, we propose an agent influence framework for RL agents to improve the adaptation efficiency of external models in changing environments without any changes to the agent's rewards. Our formulation is composed of two self-contained modules: interest fields and behavior shaping via interest fields. We implement an uncertainty-based interest field algorithm as well as a skill-sampling-based behavior-shaping algorithm to use in testing this framework. Our results show that our method outperforms the baselines in terms of external model adaptation on metrics that measure both efficiency and performance.
翻訳日:2024-07-04 05:41:03 公開日:2024-06-28
# ニューラルスケーリング法則のための情報理論の基礎

Information-Theoretic Foundations for Neural Scaling Laws ( http://arxiv.org/abs/2407.01456v1 )

ライセンス: Link先を確認
Hong Jun Jeon, Benjamin Van Roy, (参考訳) ニューラルスケーリング法則は、アウトオブサンプルエラーがモデルとトレーニングデータセットのサイズの関数としてどのように振る舞うかを特徴付けることを目的としている。 このようなスケーリング法則は、エラーを最小限に抑えるために、モデルとデータ処理の間の計算リソースの割り当てを導く。 しかし、ニューラルスケーリング法則に対する既存の理論的サポートは厳密さと明快さを欠き、情報と最適化の役割をゆがめている。 本研究では,ニューラルスケーリング法則の厳密な情報理論基盤を開発する。 これにより、無限幅の2層ニューラルネットワークによって生成されたデータのスケーリング法則を特徴付けることができる。 データとモデルサイズとの最適関係は、対数的要因まで線形であり、大規模な実証的研究を裏付けるものである。 私たちが確立したこの種の簡潔で一般的な結果は、このトピックに明確性をもたらし、将来の調査を知らせるかもしれない。

Neural scaling laws aim to characterize how out-of-sample error behaves as a function of model and training dataset size. Such scaling laws guide allocation of a computational resources between model and data processing to minimize error. However, existing theoretical support for neural scaling laws lacks rigor and clarity, entangling the roles of information and optimization. In this work, we develop rigorous information-theoretic foundations for neural scaling laws. This allows us to characterize scaling laws for data generated by a two-layer neural network of infinite width. We observe that the optimal relation between data and model size is linear, up to logarithmic factors, corroborating large-scale empirical investigations. Concise yet general results of the kind we establish may bring clarity to this topic and inform future investigations.
翻訳日:2024-07-03 20:41:15 公開日:2024-06-28
# 物理インフォームドニューラルネットワークとディープオペレータネットワークの平衡残留崩壊速度に基づく自己適応重み

Self-adaptive weights based on balanced residual decay rate for physics-informed neural networks and deep operator networks ( http://arxiv.org/abs/2407.01613v1 )

ライセンス: Link先を確認
Wenqian Chen, Amanda A. Howard, Panos Stinis, (参考訳) 物理インフォームド・ディープ・ラーニングは偏微分方程式を解くための有望な代替手段として登場した。 しかし、複雑な問題に対して、これらのネットワークをトレーニングすることは依然として困難であり、しばしば不満足な精度と効率をもたらす。 本研究では,各学習点における残差の収束速度に差が生じ,最も遅い収束速度が全体の収束を支配していることを示す。 これらの観測に基づいて,異なるトレーニングポイント間で残留減衰率のバランスをとる点適応重み付け法を提案する。 提案手法の性能は,物理インフォームド・ニューラルネットワークと物理インフォームド・ディープ・オペレーター・ネットワークのベンチマーク問題に対する最新の適応重み付け法と比較した。 提案手法は, 境界重み, 高予測精度, 高速収束速度, 低トレーニング不確実性, 計算コストの低減, ハイパーパラメータチューニングの容易性など, 様々な利点があることを示す。

Physics-informed deep learning has emerged as a promising alternative for solving partial differential equations. However, for complex problems, training these networks can still be challenging, often resulting in unsatisfactory accuracy and efficiency. In this work, we demonstrate that the failure of plain physics-informed neural networks arises from the significant discrepancy in the convergence speed of residuals at different training points, where the slowest convergence speed dominates the overall solution convergence. Based on these observations, we propose a point-wise adaptive weighting method that balances the residual decay rate across different training points. The performance of our proposed adaptive weighting method is compared with current state-of-the-art adaptive weighting methods on benchmark problems for both physics-informed neural networks and physics-informed deep operator networks. Through extensive numerical results we demonstrate that our proposed approach of balanced residual decay rates offers several advantages, including bounded weights, high prediction accuracy, fast convergence speed, low training uncertainty, low computational cost and ease of hyperparameter tuning.
翻訳日:2024-07-03 20:02:00 公開日:2024-06-28
# 拘束帯域ネットワークにおける大規模モデルトレーニングの安定性向上

Enhancing Stability for Large Models Training in Constrained Bandwidth Networks ( http://arxiv.org/abs/2407.01614v1 )

ライセンス: Link先を確認
Yun Dai, Tejas Dharamsi, Byron Hsu, Tao Song, Hamed Firooz, (参考訳) 数十億のパラメータを持つ非常に大きな言語モデルをトレーニングすることは、現在のデータ並列トレーニングシステムの限界を押し上げる計算集約的なタスクである。 ZeRO++のような技術は、安価で低帯域幅のクラスタ上で、そのような巨大モデルの効率的な分散トレーニングを可能にする一方で、マシン間通信を減らすために使用される階層分割(hpZ)方式における潜在的な競合条件による収束問題に悩まされる可能性がある。 本研究は,数十億のパラメータを持つモデルのトレーニングにおいて,これらの競合条件が不安定性の原因となることを示す。 次に、これらの収束問題に対処し、競争力のあるトレーニング効率を維持しながら、分割アルゴリズムの変更を提案する。 Falcon ModelsとLlama-2モデルのマルチビリオンパラメータのトレーニングに関する実証的な評価は、ZeRO++ hpZが収束しないような大規模なモデル上で信頼性の高い収束を実現するアルゴリズムの能力を示している。 改良されたアルゴリズムは、98倍のスループットを持つ大規模モデルの堅牢なトレーニングを可能にし、収束の質を犠牲にすることなく、モデルのトレーニング速度を向上する。

Training extremely large language models with billions of parameters is a computationally intensive task that pushes the limits of current data parallel training systems. While techniques like ZeRO++ have enabled efficient distributed training of such giant models on inexpensive low-bandwidth clusters, they can suffer from convergence issues due to potential race conditions in the hierarchical partitioning (hpZ) scheme employed to reduce cross-machine communication. In this work, we first show how these race conditions cause instability when training models with billions of parameters. We then propose a modification to the partitioning algorithm that addresses these convergence challenges while maintaining competitive training efficiency. Empirical evaluation on training the multi-billion parameters Falcon Models and Llama-2 models demonstrates the updated algorithm's ability to achieve reliable convergence on these massive models, where stock ZeRO++ hpZ fails to converge. The updated algorithm enables robust training of larger models with 98\% throughput and model training speed improvement without sacrificing the quality of convergence.
翻訳日:2024-07-03 20:02:00 公開日:2024-06-28
# Edge-DIRECT: 時間窓制約による異種電気自動車経路問題の解法のための深層強化学習法

Edge-DIRECT: A Deep Reinforcement Learning-based Method for Solving Heterogeneous Electric Vehicle Routing Problem with Time Window Constraints ( http://arxiv.org/abs/2407.01615v1 )

ライセンス: Link先を確認
Arash Mozhdehi, Mahdi Mohammadizadeh, Xin Wang, (参考訳) 先進国におけるカーボンニュートラル政策への対応として、電気自動車のルート最適化がロジスティクス企業にとって重要視されている。 顧客の期待に焦点が当てられ、より顧客指向のビジネスモデルへとシフトするにつれ、物流業務においてデリバリタイムウインドウの統合が不可欠になっている。 本稿では、これらの発展の臨界特性を認識し、時間-風制約を伴う異種電気自動車経路問題(HEVRPTW)について考察する。 このような車両ルーティング問題 (VRP) を解決するために, DRL ベースのアプローチである Edge-enhanced Dual attentIon encoderR と Feature-EnhanCed dual aTtention decoder (Edge-DIRECT) を提案する。 Edge-DIRECTは、追加のグラフ表現を備えており、そのノード接続は、ユーザのタイムウインドウの重複に基づいています。 Edge-DIRECTの自己アテンション符号化機構は、位置間のエネルギー消費と移動時間を利用して強化される。 EVの車両の不均一性を効果的に説明するために、デュアルアテンションデコーダが導入された。 2つの実世界のデータセットに基づく実験結果から、Edge-DIRECTは最先端のDRLベースの手法と、ソリューションの品質と実行時間において確立されたヒューリスティックなアプローチよりも優れていることが明らかになった。 さらに、他の先進的なヒューリスティック手法と比較して、競争性能を示す。

In response to carbon-neutral policies in developed countries, electric vehicles route optimization has gained importance for logistics companies. With the increasing focus on customer expectations and the shift towards more customer-oriented business models, the integration of delivery time-windows has become essential in logistics operations. Recognizing the critical nature of these developments, this article studies the heterogeneous electric vehicle routing problem with time-window constraints (HEVRPTW). To solve this variant of vehicle routing problem (VRP), we propose a DRL-based approach, named Edge-enhanced Dual attentIon encoderR and feature-EnhanCed dual aTtention decoder (Edge-DIRECT). Edge-DIRECT features an extra graph representation, the node connectivity of which is based on the overlap of customer time-windows. Edge-DIRECT's self-attention encoding mechanism is enhanced by exploiting the energy consumption and travel time between the locations. To effectively account for the heterogeneity of the EVs' fleet, a dual attention decoder has been introduced. Experimental results based on two real-world datasets reveal that Edge-DIRECT outperforms a state-of-the-art DRL-based method and a well-established heuristic approach in solution quality and execution time. Furthermore, it exhibits competitive performance when compared to another leading heuristic method.
翻訳日:2024-07-03 20:02:00 公開日:2024-06-28
# アルゴリズムによる意思決定支援における主観的公平性

Subjective fairness in algorithmic decision-support ( http://arxiv.org/abs/2407.01617v1 )

ライセンス: Link先を確認
Sarra Tajouri, Alexis Tsoukiàs, (参考訳) 意思決定文学におけるフェアネスの扱いは、通常客観的な尺度を用いてフェアネスを定量化する。 この研究は、社会学的洞察を用いて、これらのアプローチの限界(グループフェアネスと個人フェアネス)を強調するために批判的なスタンスを取る。 まず、これらの指標が社会的現実を反映しない場合が多いことを明らかにする。 重要な歴史的、文化的、社会的要因を無視することで、すべての差別的慣行を捉えられない。 第2に、トップダウンからボトムアップアプローチに移行する主観的特性として公正を再定義する。 このシフトは、多様な利害関係者の認識を取り入れることを可能にし、公平さは客観的なメトリクスだけでなく、治療に対する個人的見解にも関係している、と認識する。 最後に、公平性を達成するための手段として、説明を使用することを目標としています。 このアプローチでは、説明可能なクラスタリングを用いて、個人を主観的知覚に基づいてグループを形成し、自分自身を類似していると見なす個人が同様の治療を受けられるようにしている。 我々は、公正を達成するための説明の役割を強調し、手続き的公正だけでなく、利害関係者に公平な扱いを納得させるために主観的な説明を提供することにも焦点をあてる。

The treatment of fairness in decision-making literature usually involves quantifying fairness using objective measures. This work takes a critical stance to highlight the limitations of these approaches (group fairness and individual fairness) using sociological insights. First, we expose how these metrics often fail to reflect societal realities. By neglecting crucial historical, cultural, and social factors, they fall short of capturing all discriminatory practices. Second, we redefine fairness as a subjective property moving from a top-down to a bottom-up approach. This shift allows the inclusion of diverse stakeholders perceptions, recognizing that fairness is not merely about objective metrics but also about individuals views on their treatment. Finally, we aim to use explanations as a mean to achieve fairness. Our approach employs explainable clustering to form groups based on individuals subjective perceptions to ensure that individuals who see themselves as similar receive similar treatment. We emphasize the role of explanations in achieving fairness, focusing not only on procedural fairness but also on providing subjective explanations to convince stakeholders of their fair treatment.
翻訳日:2024-07-03 20:02:00 公開日:2024-06-28
# 一次元におけるフェルミオンのパス積分モンテカルロシミュレーションに符号問題がないという簡単な証明

Simple proof that there is no sign problem in Path Integral Monte Carlo simulations of fermions in one dimension ( http://arxiv.org/abs/2407.01618v1 )

ライセンス: Link先を確認
Siu A. Chin, (参考訳) 一次元のフェルミオンのパス積分モンテカルロ (PIMC) シミュレーションには符号問題がないことが広く知られている。 しかし、著者が認識している限り、文献にこれの直接の証拠はない。 この研究は、$N$フェルミオン反対称な自由プロパゲータの$$$が、全ての可能な粒子分離あるいは相対変位の積によって与えられることを示している。 PIMCが要求するような、そのようなプロパゲータの非消滅閉ループ積に対しては、隣り合うプロパゲータからの相対変位はすべて完全正方形にペアリングされるので、ループ積は正でなければならないが、1次元に限られる。 対照的に、反対称プロパゲータの行列式を正確に評価しない置換サンプリングは、1次元においても低レベル符号問題に悩まされている。

It is widely known that there is no sign problem in Path Integral Monte Carlo (PIMC) simulations of fermions in one dimension. Yet, as far as the author is aware, there is no direct proof of this in the literature. This work shows that the $sign$ of the $N$-fermion anti-symmetric free propagator is given by the product of all possible pairs of particle separations, or relative displacements. For a non-vanishing closed-loop product of such propagators, as required by PIMC, all relative displacements from adjacent propagators are paired into perfect squares, and therefore the loop product must be positive, but only in one dimension. By comparison, permutation sampling, which does not evaluate the determinant of the anti-symmetric propagator exactly, remains plagued by a low-level sign problem, even in one dimension.
翻訳日:2024-07-03 20:02:00 公開日:2024-06-28
# TabSketchFM: データレイク上のデータ発見のためのスケッチベースのタブラル表現学習

TabSketchFM: Sketch-based Tabular Representation Learning for Data Discovery over Data Lakes ( http://arxiv.org/abs/2407.01619v1 )

ライセンス: Link先を確認
Aamod Khatiwada, Harsha Kokel, Ibrahim Abdelaziz, Subhajit Chaudhury, Julian Dolby, Oktie Hassanzadeh, Zhenhan Huang, Tejaswini Pedapati, Horst Samulowitz, Kavitha Srinivas, (参考訳) 企業は、データレイク内の関連するテーブルを特定する必要性がますます高まっている。 タブラルニューラルモデルは、そのようなデータ発見タスクに役立ちます。 本稿では,データレイク上でのデータ探索を行うニューラルネットワークタブラモデルであるTabSketchFMを提案する。 まず,ニューラルグラフモデルにおけるデータ発見手法の有効性を高めるための,事前学習型スケッチベース手法を提案する。 第二に、いくつかの下流タスクのための事前訓練されたモデルをさらに微調整するために、LakeBenchという8つのベンチマークのコレクションを開発します。 次に、TabSketchFMが既存のニューラルモデルと比較して最先端のパフォーマンスを達成するこれらの微調整タスクを示す。 第三に、これらの微調整されたモデルを使用して、結合可能、結合可能、あるいは互いにサブセットとなるテーブルを検索します。 その結果,検索におけるF1スコアは最先端技術と比較して改善されている(結合可能な検索ベンチマークでは最大70%改善されている)。 最後に、データセットとタスク間の大きな転送を示し、モデルが異なるデータレイク上で異なるタスクをまたいで一般化できることを確認します。

Enterprises have a growing need to identify relevant tables in data lakes; e.g. tables that are unionable, joinable, or subsets of each other. Tabular neural models can be helpful for such data discovery tasks. In this paper, we present TabSketchFM, a neural tabular model for data discovery over data lakes. First, we propose a novel pre-training sketch-based approach to enhance the effectiveness of data discovery techniques in neural tabular models. Second, to further finetune the pretrained model for several downstream tasks, we develop LakeBench, a collection of 8 benchmarks to help with different data discovery tasks such as finding tasks that are unionable, joinable, or subsets of each other. We then show on these finetuning tasks that TabSketchFM achieves state-of-the art performance compared to existing neural models. Third, we use these finetuned models to search for tables that are unionable, joinable, or can be subsets of each other. Our results demonstrate improvements in F1 scores for search compared to state-of-the-art techniques (even up to 70% improvement in a joinable search benchmark). Finally, we show significant transfer across datasets and tasks establishing that our model can generalize across different tasks over different data lakes
翻訳日:2024-07-03 20:02:00 公開日:2024-06-28
# 通信資源としての量子重力

Quantum gravity as a communication resource ( http://arxiv.org/abs/2203.05861v2 )

ライセンス: Link先を確認
Richard Howl, Ali Akil, Hlér Kristjánsson, Xiaobin Zhao, Giulio Chiribella, (参考訳) 量子情報は、時空物理学の運用上の意味を特徴づけるレンズを提供することができる。 この領域でよく知られた結果は、ブラックホールの近傍で量子エンタングルメントが劣化するということである。 この結果はブラックホールとその時空を古典的なものとして扱う。 しかし、量子力学的に扱われるとしたらどうだろうか? ここでは、ブラックホールにおける量子コヒーレンス、すなわち時空における自由度は、絡み合いの低下を抑え、近隣の量子通信プロトコルの性能を向上させることができることを示す。 この発見は、時空の量子的特徴が量子情報処理の資源として役立つことを示唆している。

Quantum information can provide a lens for characterizing the operational implications of spacetime physics. A well-known result in this area is that quantum entanglement is degraded in the vicinity of a black hole. This result treats the black hole and its spacetime as classical. But what if these were to be treated quantum-mechanically? Here, we show that quantum coherence in black hole, and thus spacetime, degrees of freedom can limit the degradation of entanglement, thereby improving the performance of nearby quantum communication protocols. This finding indicates that quantum features of spacetime could serve as resources for quantum information processing.
翻訳日:2024-07-02 18:47:18 公開日:2024-06-28
# 各種ネットワーク設定における高調波セキュアマルチパーティ計算

High-Throughput Secure Multiparty Computation with an Honest Majority in Various Network Settings ( http://arxiv.org/abs/2206.03776v7 )

ライセンス: Link先を確認
Christopher Harth-Kitzerow, Ajith Suresh, Yonqing Wang, Hossein Yalame, Georg Carle, Murali Annavaram, (参考訳) 本研究では, 半正直なセキュアな3次元計算(3PC) と悪意のある4次元計算(4PC) のためのリング上の新しいプロトコルを提案する。 既存のほとんどの研究は、全体的な通信の複雑さを改善することに重点を置いているが、ネットワークの不均一性や計算の複雑さといった課題は、実際にはMPCの性能に影響を及ぼす。 我々のプロトコルは、性能が大幅に低下することなく、パーティ間の複数の弱いネットワークリンクを任意に許容することで、これらの問題に対処する。 さらに、関連する作業に比べてゲート毎の基本命令の最大半分を必要とすることで、計算の複雑さを著しく低減する。 これらの改善により、均質なネットワーク設定における最先端プロトコルのスループットが最大2倍に向上し、さらに異質な設定におけるパフォーマンスが向上した。 当社のプロトコルは,3PCで3要素,4PCで5要素を必要としながら,乗算あたりの通信の複雑さを最もよく知られたものに保ちます。 高スループットに最適化されたオープンソースのC++フレームワークで、最先端プロトコル(Replicated 3PC, ASTRA, Fantastic Four, Tetrad)とともに、当社のプロトコルを実装しました。 実装された6つの3PCおよび4PCプロトコルのうち5つは、25Gbit/sのLAN環境において、毎秒10億以上の32ビット乗算または32億のANDゲートを達成する。 MP-SPDZ、ABY3、MPyC、MOTIONといった既存のフレームワークを2~3桁で上回っている。

In this work, we present novel protocols over rings for semi-honest secure three-party computation (3PC) and malicious four-party computation (4PC) with one corruption. While most existing works focus on improving total communication complexity, challenges such as network heterogeneity and computational complexity, which impact MPC performance in practice, remain underexplored. Our protocols address these issues by tolerating multiple arbitrarily weak network links between parties without any substantial decrease in performance. Additionally, they significantly reduce computational complexity by requiring up to half the number of basic instructions per gate compared to related work. These improvements lead to up to twice the throughput of state-of-the-art protocols in homogeneous network settings and even larger performance improvements in heterogeneous settings. These advantages come at no additional cost: Our protocols maintain the best-known total communication complexity per multiplication, requiring 3 elements for 3PC and 5 elements for 4PC. We implemented our protocols alongside several state-of-the-art protocols (Replicated 3PC, ASTRA, Fantastic Four, Tetrad) in a novel open-source C++ framework optimized for high throughput. Five out of six implemented 3PC and 4PC protocols achieve more than one billion 32-bit multiplications or over 32 billion AND gates per second using our implementation in a 25 Gbit/s LAN environment. This represents the highest throughput achieved in 3PC and 4PC so far, outperforming existing frameworks like MP-SPDZ, ABY3, MPyC, and MOTION by two to three orders of magnitude.
翻訳日:2024-07-02 18:41:09 公開日:2024-06-28
# 測定に基づく量子計算のゲージ理論

The Gauge Theory of Measurement-Based Quantum Computation ( http://arxiv.org/abs/2207.10098v2 )

ライセンス: Link先を確認
Gabriel Wong, Robert Raussendorf, Bartlomiej Czech, (参考訳) 測定に基づく量子計算(英: Measurement-Based Quantum Computation、MBQC)は、単位ゲートの代わりに局所的な測定を使用する量子計算のモデルである。 ここでは、MBQCプロシージャがゲージ理論の基礎となる基礎を持っていることを説明する。 この観点はMBQCのグローバルな側面の理論的基盤を提供する。 ゲージ変換は、異なる局所参照フレームで同じMBQC計算を定式化する自由を反映している。 MBQCとゲージ理論の主な概念は次のとおりである。 i) MBQCの計算出力はゲージ場のホロノミーである。 (II) 量子測定の固有ランダム性を補正する測定基準の適応はゲージ変換によってもたらされる。 MBQCのゲージ理論は、MBQCの資源である対称性保護トポロジカル秩序状態(SPT)の絡み合い構造を特徴づける役割も果たす。 我々の枠組みは、凝縮物質と高エネルギー理論のより広い文脈でMBQCを定めている。

Measurement-Based Quantum Computation (MBQC) is a model of quantum computation, which uses local measurements instead of unitary gates. Here we explain that the MBQC procedure has a fundamental basis in an underlying gauge theory. This perspective provides a theoretical foundation for global aspects of MBQC. The gauge transformations reflect the freedom of formulating the same MBQC computation in different local reference frames. The main identifications between MBQC and gauge theory concepts are: (i) the computational output of MBQC is a holonomy of the gauge field, (ii) the adaptation of measurement basis that remedies the inherent randomness of quantum measurements is effected by gauge transformations. The gauge theory of MBQC also plays a role in characterizing the entanglement structure of symmetry-protected topologically (SPT) ordered states, which are resources for MBQC. Our framework situates MBQC in a broader context of condensed matter and high energy theory.
翻訳日:2024-07-02 18:41:09 公開日:2024-06-28
# 対人訓練による異種音声のキャプション生成に向けて

Towards Generating Diverse Audio Captions via Adversarial Training ( http://arxiv.org/abs/2212.02033v2 )

ライセンス: Link先を確認
Xinhao Mei, Xubo Liu, Jianyuan Sun, Mark D. Plumbley, Wenwu Wang, (参考訳) 自動音声キャプション(Automated audio Casting)は、自然言語による音声クリップの内容を記述するための、モーダルな翻訳タスクである。 この課題は注目され、近年は大きな進歩を遂げている。 既存のモデルによって生成されたキャプションは、一般的にオーディオクリップの内容に忠実であるが、これらのマシン生成キャプションは、しばしば決定論的(例えば、与えられたオーディオクリップの固定キャプションを生成する)、単純(例えば、一般的な単語と単純な文法を使用する)、汎用(例えば、類似のオーディオクリップの同じキャプションを生成する)である。 音声クリップの内容を説明するように言われると、異なる人々が異なる音声イベントに集中し、異なる単語や文法を用いて様々な側面から異なる音声クリップを記述する傾向がある。 オーディオキャプションシステムは、固定されたオーディオクリップや類似のオーディオクリップに対して、多様なキャプションを生成する能力を持つべきだと考えています。 そこで本研究では,C-GAN(Con Conditional Generative Adversarial Network)をベースとした,音声キャプションシステムの多様性向上のための逆トレーニングフレームワークを提案する。 キャプションジェネレータと2つのハイブリッドディスクリミネータが競い合って学習し、キャプションジェネレータはキャプションを生成するのに使用される標準エンコーダ・デコーダキャプションモデルとなり、ハイブリッドディスクリミネータは、生成したキャプションを自然性や意味などの異なる基準から評価する。 Clothoデータセット上で実験を行う。 その結果,提案モデルでは,最先端手法と比較して,より多様性の高いキャプションを生成できることが示唆された。

Automated audio captioning is a cross-modal translation task for describing the content of audio clips with natural language sentences. This task has attracted increasing attention and substantial progress has been made in recent years. Captions generated by existing models are generally faithful to the content of audio clips, however, these machine-generated captions are often deterministic (e.g., generating a fixed caption for a given audio clip), simple (e.g., using common words and simple grammar), and generic (e.g., generating the same caption for similar audio clips). When people are asked to describe the content of an audio clip, different people tend to focus on different sound events and describe an audio clip diversely from various aspects using distinct words and grammar. We believe that an audio captioning system should have the ability to generate diverse captions, either for a fixed audio clip, or across similar audio clips. To this end, we propose an adversarial training framework based on a conditional generative adversarial network (C-GAN) to improve diversity of audio captioning systems. A caption generator and two hybrid discriminators compete and are learned jointly, where the caption generator can be any standard encoder-decoder captioning model used to generate captions, and the hybrid discriminators assess the generated captions from different criteria, such as their naturalness and semantics. We conduct experiments on the Clotho dataset. The results show that our proposed model can generate captions with better diversity as compared to state-of-the-art methods.
翻訳日:2024-07-02 18:29:26 公開日:2024-06-28
# ユニタリ結合クラスタ量子回路のMP2初期化を超えて

Beyond MP2 initialization for unitary coupled cluster quantum circuits ( http://arxiv.org/abs/2301.05666v3 )

ライセンス: Link先を確認
Mark R. Hirsbrunner, Diana Chamaki, J. Wayne Mullinax, Norm M. Tubman, (参考訳) ユニタリカップリングクラスタ(UCC)アンサッツは、NISQ時代の変分量子固有解法(VQE)アルゴリズムを用いて高精度な結果を得るための有望なツールである。 しかし、量子ハードウェアの結果は今のところ非常に限られており、シミュレーションは小さなシステムサイズにしかアクセスできない。 我々は,効率的なスパース波動関数回路ソルバと最大64量子ビットのシステムを用いて,UCCシミュレーションの最先端を推し進める。 本稿では、UCCアンサッツのパワーと、最適初期パラメータ化と回路構成に関するプレス疑問を提示する、この解法を用いて得られた結果について報告する。 我々のアプローチは、量子優位性を達成するためのVQEの有用性を評価するための重要なステップであるUCCアンサッツの有意義なベンチマークを可能にする。

The unitary coupled cluster (UCC) ansatz is a promising tool for achieving high-precision results using the variational quantum eigensolver (VQE) algorithm in the NISQ era. However, results on quantum hardware are thus far very limited and simulations have only accessed small system sizes. We advance the state of the art of UCC simulations by utilizing an efficient sparse wavefunction circuit solver and studying systems up to 64 qubits. Here we report results obtained using this solver that demonstrate the power of the UCC ansatz and address pressing questions about optimal initial parameterizations and circuit construction, among others. Our approach enables meaningful benchmarking of the UCC ansatz, a crucial step in assessing the utility of VQE for achieving quantum advantage.
翻訳日:2024-07-02 18:29:26 公開日:2024-06-28
# システム・社会における生成型AIシステムの社会的影響評価

Evaluating the Social Impact of Generative AI Systems in Systems and Society ( http://arxiv.org/abs/2306.05949v4 )

ライセンス: Link先を確認
Irene Solaiman, Zeerak Talat, William Agnew, Lama Ahmad, Dylan Baker, Su Lin Blodgett, Canyu Chen, Hal Daumé III, Jesse Dodge, Isabella Duan, Ellie Evans, Felix Friedrich, Avijit Ghosh, Usman Gohar, Sara Hooker, Yacine Jernite, Ria Kalluri, Alberto Lusoli, Alina Leidinger, Michelle Lin, Xiuzhu Lin, Sasha Luccioni, Jennifer Mickel, Margaret Mitchell, Jessica Newman, Anaelia Ovalle, Marie-Therese Png, Shubham Singh, Andrew Strait, Lukas Struppek, Arjun Subramonian, (参考訳) テキスト(コードを含む)、画像、オーディオ、ビデオなどを含む、モダリティにまたがる生成AIシステムは、幅広い社会的影響を持つが、その影響を評価するための公式な標準や、どの影響を評価するべきかは、存在しない。 本稿では,2つの包括的カテゴリにおいて,基本生成型AIシステムを評価する上で,文脈に依存しないベースシステムで何が評価可能か,社会的文脈で何が評価可能かという,標準的なアプローチに向けたガイドを提案する。 重要なことに、これは、トレーニングデータなどのシステムコンポーネントだけでなく、モデル自体を含む、所定のアプリケーションやデプロイメントコンテキストを持たないベースシステムを指す。 基本システムの枠組みは, バイアス, ステレオタイプ, 表現的害, 文化的価値とセンシティブなコンテンツ, 異なるパフォーマンス, プライバシとデータ保護, 財政コスト, 環境コスト, データとコンテンツモデレーション労働コストの7つのカテゴリを規定する。 今後の評価に必要となる投資の出発点として,既存の評価の限界について分析した。 信頼と自律性、不平等、限界化、暴力、権威の集中、労働と創造性、生態系と環境。 各サブカテゴリは、害を緩和するためのレコメンデーションを含んでいる。

Generative AI systems across modalities, ranging from text (including code), image, audio, and video, have broad social impacts, but there is no official standard for means of evaluating those impacts or for which impacts should be evaluated. In this paper, we present a guide that moves toward a standard approach in evaluating a base generative AI system for any modality in two overarching categories: what can be evaluated in a base system independent of context and what can be evaluated in a societal context. Importantly, this refers to base systems that have no predetermined application or deployment context, including a model itself, as well as system components, such as training data. Our framework for a base system defines seven categories of social impact: bias, stereotypes, and representational harms; cultural values and sensitive content; disparate performance; privacy and data protection; financial costs; environmental costs; and data and content moderation labor costs. Suggested methods for evaluation apply to listed generative modalities and analyses of the limitations of existing evaluations serve as a starting point for necessary investment in future evaluations. We offer five overarching categories for what can be evaluated in a broader societal context, each with its own subcategories: trustworthiness and autonomy; inequality, marginalization, and violence; concentration of authority; labor and creativity; and ecosystem and environment. Each subcategory includes recommendations for mitigating harm.
翻訳日:2024-07-02 18:09:56 公開日:2024-06-28
# グラフニューラルネットワークによる分子特性予測の不確かさの定量化

Uncertainty Quantification for Molecular Property Predictions with Graph Neural Architecture Search ( http://arxiv.org/abs/2307.10438v3 )

ライセンス: Link先を確認
Shengli Jiang, Shiyi Qin, Reid C. Van Lehn, Prasanna Balaprakash, Victor M. Zavala, (参考訳) グラフニューラルネットワーク(GNN)は、分子特性予測のためのデータ駆動手法の顕著なクラスとして登場した。 しかし、典型的なGNNモデルの鍵となる制限は、予測の不確かさを定量化できないことである。 この機能は、下流タスクにおけるモデルの信頼性の高い使用とデプロイを保証するために不可欠です。 そこで本研究では,分子特性予測のための自動不確実性定量化(UQ)手法であるAutoGNNUQを紹介する。 AutoGNNUQはアーキテクチャ検索を利用して高性能なGNNのアンサンブルを生成し、予測の不確実性の推定を可能にする。 我々のアプローチでは、分散分解を用いてデータ(アラート)とモデル(エステミック)の不確実性を分離し、それらを減らすための貴重な洞察を提供する。 計算実験において、AutoGNNUQは、複数のベンチマークデータセット上での予測精度とUQ性能の両方の観点から、既存のUQ手法よりも優れていることを示した。 さらに、t-SNE視覚化を用いて、分子の特徴と不確実性の間の相関を探索し、データセット改善の洞察を提供する。 AutoGNNUQは、正確な不確実性定量化が意思決定に不可欠である薬物発見や材料科学などの領域で広く適用可能である。

Graph Neural Networks (GNNs) have emerged as a prominent class of data-driven methods for molecular property prediction. However, a key limitation of typical GNN models is their inability to quantify uncertainties in the predictions. This capability is crucial for ensuring the trustworthy use and deployment of models in downstream tasks. To that end, we introduce AutoGNNUQ, an automated uncertainty quantification (UQ) approach for molecular property prediction. AutoGNNUQ leverages architecture search to generate an ensemble of high-performing GNNs, enabling the estimation of predictive uncertainties. Our approach employs variance decomposition to separate data (aleatoric) and model (epistemic) uncertainties, providing valuable insights for reducing them. In our computational experiments, we demonstrate that AutoGNNUQ outperforms existing UQ methods in terms of both prediction accuracy and UQ performance on multiple benchmark datasets. Additionally, we utilize t-SNE visualization to explore correlations between molecular features and uncertainty, offering insight for dataset improvement. AutoGNNUQ has broad applicability in domains such as drug discovery and materials science, where accurate uncertainty quantification is crucial for decision-making.
翻訳日:2024-07-02 18:00:11 公開日:2024-06-28
# Brody間隔分布を持つ2 X 2相関ランダム行列モデルのクラス

A class of 2 X 2 correlated random-matrix models with Brody spacing distribution ( http://arxiv.org/abs/2308.01514v2 )

ライセンス: Link先を確認
Jamal Sakhr, (参考訳) ブロディ分布が正確な固有値間隔分布である 2 X 2 個のランダム行列モデルのクラスを導入する。 行列要素は、ブロディパラメータに依存する様々なパワーに上昇した指数確率変数の制約された和からなる。 ここで導入されたランダム行列は、ガウス直交アンサンブル(GOE)の3つの重要な方法で異なる: 行列要素は独立でなく、同分布(すなわち IID ではない)でもなく、ガウス分布でもなく、行列は必ずしも実あるいは対称ではない。 最初の2つの特徴は古典的な独立の前提を下げることから生じ、3つ目の特徴はGOEの構築で課される量子力学条件を落とすことに由来する。 特に、現在のモデルでは、固有値が実数となるのに十分だが必要ではないハーミシティ条件は課されない。 したがって、実あるいは複素固有値を持つ複素非エルミート 2 X 2 のランダム行列は、ポアソン級数とウィグナー級数の中間の間隔分布を持つことができる。 数値的な例は、実あるいは複素共役固有値を持つ複素対称行列を含む、異なる種類のランダム行列に対して提供される。

A class of 2 X 2 random-matrix models is introduced for which the Brody distribution is the exact eigenvalue spacing distribution. The matrix elements consist of constrained sums of an exponential random variable raised to various powers that depend on the Brody parameter. The random matrices introduced here differ from those of the Gaussian Orthogonal Ensemble (GOE) in three important ways: the matrix elements are not independent and identically distributed (i.e., not IID) nor Gaussian-distributed, and the matrices are not necessarily real and/or symmetric. The first two features arise from dropping the classical independence assumption, and the third feature stems from dropping the quantum-mechanical conditions that are imposed in the construction of the GOE. In particular, the hermiticity condition, which in the present model, is a sufficient but not necessary condition for the eigenvalues to be real, is not imposed. Consequently, complex non-Hermitian 2 X 2 random matrices with real or complex eigenvalues can also have spacing distributions that are intermediate between those of the Poisson and Wigner classes. Numerical examples are provided for different types of random matrices, including complex-symmetric matrices with real or complex-conjugate eigenvalues.
翻訳日:2024-07-02 18:00:11 公開日:2024-06-28
# ロボット視覚海底マッピングのための半階層的再構成と弱面積再検討

Semihierarchical Reconstruction and Weak-area Revisiting for Robotic Visual Seafloor Mapping ( http://arxiv.org/abs/2308.06147v2 )

ライセンス: Link先を確認
Mengkun She, Yifan Song, David Nakath, Kevin Köser, (参考訳) 過去数十年で多くの陸地視覚マッピングアルゴリズムが達成した印象的な成果にもかかわらず、これらの手法を陸地から深海に転送することは厳しい環境条件のために依然として課題である。 高解像度カメラと人工照明システムを備えた自律型水中車両(AUV)によって撮影された画像は、しばしば光線の屈折の上に減衰と散乱によって引き起こされる不均一な照明と品質劣化に悩まされる。 これらの課題は、水中で適用されたり、SfMアプローチが漂流したり、困難な画像を省略する際の地上SLAMアプローチの失敗につながることが多い。 その結果、ギャップやジャンプ、あるいは弱めに再建されたエリアに繋がる。 本研究では,海底のヘクタールの自動3D再構成を容易にするために,ナビゲーション支援型階層的再構築手法を提案する。 我々の階層的アプローチは、グローバルマップの完全性と一貫性を確保しながら、漸進的なSfMよりもはるかに効率的であるSLAMとグローバルSfMの利点を組み合わせる。 これは、問題または弱い再構成された領域を特定し再考し、画像の省略を避け、限られた潜水時間をうまく利用することで達成される。 提案システムは, 実環境下でのロバスト性および実用性を実証し, いくつかの調査巡航において広範囲に検証され, 評価されている。

Despite impressive results achieved by many on-land visual mapping algorithms in the recent decades, transferring these methods from land to the deep sea remains a challenge due to harsh environmental conditions. Images captured by autonomous underwater vehicles (AUVs), equipped with high-resolution cameras and artificial illumination systems, often suffer from heterogeneous illumination and quality degradation caused by attenuation and scattering, on top of refraction of light rays. These challenges often result in the failure of on-land SLAM approaches when applied underwater or cause SfM approaches to exhibit drifting or omit challenging images. Consequently, this leads to gaps, jumps, or weakly reconstructed areas. In this work, we present a navigation-aided hierarchical reconstruction approach to facilitate the automated robotic 3D reconstruction of hectares of seafloor. Our hierarchical approach combines the advantages of SLAM and global SfM that is much more efficient than incremental SfM, while ensuring the completeness and consistency of the global map. This is achieved through identifying and revisiting problematic or weakly reconstructed areas, avoiding to omit images and making better use of limited dive time. The proposed system has been extensively tested and evaluated during several research cruises, demonstrating its robustness and practicality in real-world conditions.
翻訳日:2024-07-02 18:00:11 公開日:2024-06-28
# 物理インフォームド境界積分ネットワーク(PIBI-Nets):部分微分方程式を解くためのデータ駆動アプローチ

Physics-Informed Boundary Integral Networks (PIBI-Nets): A Data-Driven Approach for Solving Partial Differential Equations ( http://arxiv.org/abs/2308.09571v2 )

ライセンス: Link先を確認
Monika Nagy-Huber, Volker Roth, (参考訳) 偏微分方程式(PDE)は力学系の関連する現象を記述するために広く用いられる。 実世界の応用では、形式的なPDEモデルと(潜在的にノイズの多い)観測を組み合わせることが一般的である。 これは、境界条件や初期条件に関する情報が欠けている設定や、未知のモデルパラメータを識別する必要がある設定に特に関係している。 近年,物理情報ニューラルネットワーク(PINN)は,このような問題に対する一般的なツールとなっている。 しかし、高次元設定では、PINNは計算領域全体にわたって密度の高いコロケーションポイントを必要とするため、しばしば計算上の問題に悩まされる。 この問題を解決するために,PDEを元の問題空間よりも1次元以下で解くためのデータ駆動手法として,Physical-Informed boundary Integral Networks (PIBI-Nets)を提案する。 PIBI-Netsは計算領域境界の点のみを必要とするが、精度は高い。 さらに、PIBI-Netsは、いくつかの実践的な設定でPINNよりも明らかに優れている。 線形微分作用素の基本解の基本的な性質を探索し、逆問題における点源を扱う原理的かつ簡単な方法を提案する。 ラプラス方程式とポアソン方程式に対するPIBI-Netの優れた性能を示す。

Partial differential equations (PDEs) are widely used to describe relevant phenomena in dynamical systems. In real-world applications, we commonly need to combine formal PDE models with (potentially noisy) observations. This is especially relevant in settings where we lack information about boundary or initial conditions, or where we need to identify unknown model parameters. In recent years, Physics-Informed Neural Networks (PINNs) have become a popular tool for this kind of problems. In high-dimensional settings, however, PINNs often suffer from computational problems because they usually require dense collocation points over the entire computational domain. To address this problem, we present Physics-Informed Boundary Integral Networks (PIBI-Nets) as a data-driven approach for solving PDEs in one dimension less than the original problem space. PIBI-Nets only require points at the computational domain boundary, while still achieving highly accurate results. Moreover, PIBI-Nets clearly outperform PINNs in several practical settings. Exploiting elementary properties of fundamental solutions of linear differential operators, we present a principled and simple way to handle point sources in inverse problems. We demonstrate the excellent performance of PIBI- Nets for the Laplace and Poisson equations, both on artificial datasets and within a real-world application concerning the reconstruction of groundwater flows.
翻訳日:2024-07-02 18:00:11 公開日:2024-06-28
# 減量・再利用・リサイクル:低リソース自己監督音声モデルにおける他の言語拡張よりも摂動データが優れているか

Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models ( http://arxiv.org/abs/2309.12763v2 )

ライセンス: Link先を確認
Asad Ullah, Alessandro Ragano, Andrew Hines, (参考訳) 自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。 SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。 一般的なアプローチは、言語間の事前学習である。 そこで本研究では,低リソース条件下でSSRLモデルを事前学習し,音素認識を評価するために,ピッチ変動,雑音付加,アクセント付きターゲット言語などの音声強調手法を提案する。 比較の結果,複合合成強化戦略(ノイズ/ピッチ)はアクセントと言語知識の伝達に優れていた。 さらに,対象ドメイン音声で事前学習したモデルに対して,拡張データのスケーリング係数について検討した。 以上の結果から,資源制約型言語では,組合せ拡張は他の拡張言語よりも有効な選択肢であることが示唆された。

Self-supervised representation learning (SSRL) has demonstrated superior performance than supervised models for tasks including phoneme recognition. Training SSRL models poses a challenge for low-resource languages where sufficient pre-training data may not be available. A common approach is cross-lingual pre-training. Instead, we propose to use audio augmentation techniques, namely: pitch variation, noise addition, accented target language and other language speech to pre-train SSRL models in a low resource condition and evaluate phoneme recognition. Our comparisons found that a combined synthetic augmentations (noise/pitch) strategy outperformed accent and language knowledge transfer. Furthermore, we examined the scaling factor of augmented data to achieve equivalent performance to model pre-trained with target domain speech. Our findings suggest that for resource-constrained languages, combined augmentations can be a viable option than other augmentations.
翻訳日:2024-07-02 17:50:16 公開日:2024-06-28
# LLMは秘密を守ることができるか? 文脈積分理論による言語モデルのプライバシ含意テスト

Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory ( http://arxiv.org/abs/2310.17884v2 )

ライセンス: Link先を確認
Niloofar Mireshghallah, Hyunwoo Kim, Xuhui Zhou, Yulia Tsvetkov, Maarten Sap, Reza Shokri, Yejin Choi, (参考訳) AIアシスタント(職場、自宅など)における大規模言語モデル(LLM)のインタラクティブな使用は、新しい一連の推論時プライバシーリスクを導入している。 本研究は,LLMのプライバシ推論能力の重大な弱点を特定するためのベンチマークであるConfAIdeを提案することによって,極めて批判的だが見過ごされたコンテキストプライバシの概念に注目する。 実験の結果,GPT-4 や ChatGPT のような最も有能なモデルでさえ,それぞれ39% と 57% の確率で個人情報が得られた。 このリークは、プライバシを誘導するプロンプトや、思考の連鎖的推論を採用しても継続する。 我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。

The interactive use of large language models (LLMs) in AI assistants (at work, home, etc.) introduces a new set of inference-time privacy risks: LLMs are fed different types of information from multiple sources in their inputs and are expected to reason about what to share in their outputs, for what purpose and with whom, within a given context. In this work, we draw attention to the highly critical yet overlooked notion of contextual privacy by proposing ConfAIde, a benchmark designed to identify critical weaknesses in the privacy reasoning capabilities of instruction-tuned LLMs. Our experiments show that even the most capable models such as GPT-4 and ChatGPT reveal private information in contexts that humans would not, 39% and 57% of the time, respectively. This leakage persists even when we employ privacy-inducing prompts or chain-of-thought reasoning. Our work underscores the immediate need to explore novel inference-time privacy-preserving approaches, based on reasoning and theory of mind.
翻訳日:2024-07-02 17:40:31 公開日:2024-06-28
# ランダム座標降下-パラメータ化量子回路の最適化のための簡単な方法

Random coordinate descent: a simple alternative for optimizing parameterized quantum circuits ( http://arxiv.org/abs/2311.00088v2 )

ライセンス: Link先を確認
Zhiyan Ding, Taehee Ko, Jiahao Yao, Lin Lin, Xiantao Li, (参考訳) 変分量子アルゴリズムは、雑音条件下でのパラメータ化量子回路の最適化に依存する。 古典的機械学習において一般的に用いられるバックプロパゲーション手順は、測定後の量子状態の崩壊のため、この設定では直接適用されない。 したがって、勾配推定は、そのような量子回路の勾配に基づく最適化において重要なオーバーヘッドとなる。 本稿では、全勾配降下アルゴリズムに代わる実用的で実装が容易なランダム座標降下アルゴリズムを提案する。 このアルゴリズムは各反復で1つの偏微分しか必要としない。 本稿では,パラメータ化量子回路の実用最適化における計測ノイズの挙動に触発され,解析に適する最適化問題設定を提案する。 この設定の下では、ランダム座標降下アルゴリズムは全勾配法と同じ確率的安定性を示し、ノイズに対して弾力性を持つ。 ランダム座標降下法の複雑さは一般に勾配降下法よりも悪くなく、異方性リプシッツ定数を持つ様々な量子最適化問題に対してより良くなる。 理論的解析と広範な数値実験により,我々の知見が検証された。

Variational quantum algorithms rely on the optimization of parameterized quantum circuits in noisy settings. The commonly used back-propagation procedure in classical machine learning is not directly applicable in this setting due to the collapse of quantum states after measurements. Thus, gradient estimations constitute a significant overhead in a gradient-based optimization of such quantum circuits. This paper introduces a random coordinate descent algorithm as a practical and easy-to-implement alternative to the full gradient descent algorithm. This algorithm only requires one partial derivative at each iteration. Motivated by the behavior of measurement noise in the practical optimization of parameterized quantum circuits, this paper presents an optimization problem setting that is amenable to analysis. Under this setting, the random coordinate descent algorithm exhibits the same level of stochastic stability as the full gradient approach, making it as resilient to noise. The complexity of the random coordinate descent method is generally no worse than that of the gradient descent and can be much better for various quantum optimization problems with anisotropic Lipschitz constants. Theoretical analysis and extensive numerical experiments validate our findings.
翻訳日:2024-07-02 17:40:31 公開日:2024-06-28
# 確率的最適制御マッチング

Stochastic Optimal Control Matching ( http://arxiv.org/abs/2312.02027v4 )

ライセンス: Link先を確認
Carles Domingo-Enrich, Jiequn Han, Brandon Amos, Joan Bruna, Ricky T. Q. Chen, (参考訳) 雑音系の振る舞いを駆動する目的を持つ確率的最適制御は、科学、工学、人工知能に広く応用されている。 本研究は,確率的最適制御のための新しい反復拡散最適化(IDO)手法である確率的最適制御マッチング(SOCM)を紹介する。 すなわち、制御は、一致するベクトル場に収まるようにすることで、最小二乗問題を通じて学習される。 クロスエントロピー損失と密接に結びついているトレーニング損失は、一致するベクトル場に現れる制御関数と再パラメータ化行列のファミリーの両方に対して最適化される。 再パラメータ化行列に対する最適化は、一致するベクトル場の分散を最小化することを目的としている。 実験により,提案アルゴリズムは4つの制御問題のうち3つに対して,確率的最適制御のための既存のIDO手法よりも誤差が小さい。 SOCMの根底にある重要なアイデアは、パスワイズ・リパラメータ化のトリックである。 Code at https://github.com/facebookresearch/SOC-matching

Stochastic optimal control, which has the goal of driving the behavior of noisy systems, is broadly applicable in science, engineering and artificial intelligence. Our work introduces Stochastic Optimal Control Matching (SOCM), a novel Iterative Diffusion Optimization (IDO) technique for stochastic optimal control that stems from the same philosophy as the conditional score matching loss for diffusion models. That is, the control is learned via a least squares problem by trying to fit a matching vector field. The training loss, which is closely connected to the cross-entropy loss, is optimized with respect to both the control function and a family of reparameterization matrices which appear in the matching vector field. The optimization with respect to the reparameterization matrices aims at minimizing the variance of the matching vector field. Experimentally, our algorithm achieves lower error than all the existing IDO techniques for stochastic optimal control for three out of four control problems, in some cases by an order of magnitude. The key idea underlying SOCM is the path-wise reparameterization trick, a novel technique that may be of independent interest. Code at https://github.com/facebookresearch/SOC-matching
翻訳日:2024-07-02 15:37:58 公開日:2024-06-28
# 地下物質特性評価のためのGPR波形のベイズインバージョン:土壌水分の不確実性を考慮した検索とオーバーレイバイオマス特性

Bayesian inversion of GPR waveforms for sub-surface material characterization: an uncertainty-aware retrieval of soil moisture and overlaying biomass properties ( http://arxiv.org/abs/2312.07928v2 )

ライセンス: Link先を確認
Ishfaq Aziz, Elahe Soltanaghai, Adam Watts, Mohamad Alipour, (参考訳) 地下環境モニタリング, 精密農業, 効果的な山火事リスク評価などに適用するには, 土壌・植生層の水分含量や深度などの地下特性の正確な推定が不可欠である。 自然界の土壌は、しばしば植生と表面有機物によって覆われ、その特性を困難にしている。 さらに,山火事リスク評価などのアプリケーションには,オーバーレイ層の特性評価が不可欠である。 本研究では,地中レーダ(GPR)波形インバージョンに対するベイズモデル更新手法を提案する。 両層の誘電率と含水率との相関が強いことから, 両層の誘電率を, 層厚, 導電率などの他のパラメータとともに予測した。 提案したベイズモデル更新アプローチは、これらのパラメータの確率的推定をもたらし、その推定に関する信頼性と不確実性に関する情報を提供する。 本手法は,実験室および現地調査を通じて収集した多種多様な実験データに対して評価された。 実験室では, 土壌水分値, 表層深度, 材料粗さの変動について検討した。 現地調査には16日間の土壌水分の測定が含まれていた。 その結果, 時間領域反射法(TDR)の測定値と従来の重力測定値とが一致した予測値が得られた。 表面層の深さは、正確な精度で予測することもできる。 提案手法は,不確実性を考慮した地表面パラメータ推定のための有望な手法であり,広範囲のアプリケーションにおいてリスク評価のための意思決定を可能にする。

Accurate estimation of sub-surface properties such as moisture content and depth of soil and vegetation layers is crucial for applications spanning sub-surface condition monitoring, precision agriculture, and effective wildfire risk assessment. Soil in nature is often covered by overlaying vegetation and surface organic material, making its characterization challenging. In addition, the estimation of the properties of the overlaying layer is crucial for applications like wildfire risk assessment. This study thus proposes a Bayesian model-updating-based approach for ground penetrating radar (GPR) waveform inversion to predict moisture contents and depths of soil and overlaying material layer. Due to its high correlation with moisture contents, the dielectric permittivity of both layers were predicted with the proposed method, along with other parameters, including depth and electrical conductivity of layers. The proposed Bayesian model updating approach yields probabilistic estimates of these parameters that can provide information about the confidence and uncertainty related to the estimates. The methodology was evaluated for a diverse range of experimental data collected through laboratory and field investigations. Laboratory investigations included variations in soil moisture values, depth of the overlaying surface layer, and coarseness of its material. The field investigation included measurement of field soil moisture for sixteen days. The results demonstrated predictions consistent with time-domain reflectometry (TDR) measurements and conventional gravimetric tests. The depth of the surface layer could also be predicted with reasonable accuracy. The proposed method provides a promising approach for uncertainty-aware sub-surface parameter estimation that can enable decision-making for risk assessment across a wide range of applications.
翻訳日:2024-07-02 15:37:58 公開日:2024-06-28
# フラストレーションのあるランダムウォーク:ハイパーグラフ上のノード距離を高速に計算する方法

Frustrated Random Walks: A Fast Method to Compute Node Distances on Hypergraphs ( http://arxiv.org/abs/2401.13054v2 )

ライセンス: Link先を確認
Enzhi Li, Scott Nickleach, Bilal Fadlallah, (参考訳) ハイパーグラフ(英: hypergraph)は、実体間の属性共有を考えると自然に現れるグラフの一般化である。 グラフと比較すると、ハイパーグラフは明示的なコミュニティを含むという明確な利点があり、操作に便利である。 ハイパーグラフ研究におけるオープンな問題は、ハイパーグラフ上のノード距離を正確に効率的に計算する方法である。 ノード距離を推定することで、リコメンダシステムやターゲット広告などの分野で重要な応用分野を持つノードの隣人を見つけることができる。 本稿では,ハイパーグラフノード距離を計算するために,ランダムウォークのヒット時間を用いて提案する。 簡単なランダムウォーク (SRW) は、非常に複雑な実世界のハイパーグラフ上のノード距離を正確に計算できないので、このタスクにフラストレーション付きランダムウォーク (FRW) を導入する動機がある。 さらに、DeepWalkに対して我々の手法をベンチマークし、後者が同等の結果が得られる一方で、FRWはターゲット数がかなり小さい場合において、計算上の優位性があることを示す。 このような場合、FRWはDeepWalkよりもはるかに短い時間で実行されることを示す。 最後に,本手法の時間的複雑さを解析し,大小のハイパーグラフの場合,その複雑さは概ね線形であり,DeepWalk法よりも優れていることを示す。

A hypergraph is a generalization of a graph that arises naturally when attribute-sharing among entities is considered. Compared to graphs, hypergraphs have the distinct advantage that they contain explicit communities and are more convenient to manipulate. An open problem in hypergraph research is how to accurately and efficiently calculate node distances on hypergraphs. Estimating node distances enables us to find a node's nearest neighbors, which has important applications in such areas as recommender system, targeted ads, etc. In this paper, we propose using expected hitting times of random walks to compute hypergraph node distances. We note that simple random walks (SRW) cannot accurately compute node distances on highly complex real-world hypergraphs, which motivates us to introduce frustrated random walks (FRW) for this task. We further benchmark our method against DeepWalk, and show that while the latter can achieve comparable results, FRW has a distinct computational advantage in cases where the number of targets is fairly small. For such cases, we show that FRW runs in significantly shorter time than DeepWalk. Finally, we analyze the time complexity of our method, and show that for large and sparse hypergraphs, the complexity is approximately linear, rendering it superior to the DeepWalk alternative.
翻訳日:2024-07-02 15:28:10 公開日:2024-06-28
# 物理層通信による事前学習言語モデルの統合

Integrating Pre-Trained Language Model with Physical Layer Communications ( http://arxiv.org/abs/2402.11656v2 )

ライセンス: Link先を確認
Ju-Hyung Lee, Dong-Ho Lee, Joohan Lee, Jay Pujara, (参考訳) デバイスが言語モデル(LM)のような組み込み基盤モデルを通じて情報を直接交換するオンデバイスAIコミュニケーションの急成長する分野は、堅牢で効率的で一般化可能な通信フレームワークを必要とする。 しかし、これらのフレームワークを既存の無線システムに統合し、ノイズやビットエラーを効果的に管理することは大きな課題となる。 本研究では,物理層(PHY)通信機能を統合し,リンクレベルシミュレータの性能を実証する,実用的なオンデバイスAI通信フレームワークを提案する。 我々のフレームワークは、チャネルノイズによるエンドツーエンドトレーニングを取り入れ、レジリエンスを高め、ベクトル量子化変分オートエンコーダ(VQ-VAE)を効率よく堅牢な通信に組み込み、事前学習エンコーダ・デコーダ変換を用いて一般化能力を向上させる。 各種通信シナリオにまたがるシミュレーションにより,我々のフレームワークは,標準化された3GPPチャネルモデルにおいて,相当な一般化能力とノイズロバスト性を示しながら,送信サイズを50%削減できることが判明した。

The burgeoning field of on-device AI communication, where devices exchange information directly through embedded foundation models, such as language models (LMs), requires robust, efficient, and generalizable communication frameworks. However, integrating these frameworks with existing wireless systems and effectively managing noise and bit errors pose significant challenges. In this work, we introduce a practical ondevice AI communication framework, integrated with physical layer (PHY) communication functions, demonstrated through its performance on a link-level simulator. Our framework incorporates end-to-end training with channel noise to enhance resilience, incorporates vector quantized variational autoencoders (VQ-VAE) for efficient and robust communication, and utilizes pre-trained encoder-decoder transformers for improved generalization capabilities. Simulations, across various communication scenarios, reveal that our framework achieves a 50% reduction in transmission size while demonstrating substantial generalization ability and noise robustness under standardized 3GPP channel models.
翻訳日:2024-07-02 15:08:40 公開日:2024-06-28
# 教育における適応学習にジェネレーティブAIを導入する

Bringing Generative AI to Adaptive Learning in Education ( http://arxiv.org/abs/2402.14601v3 )

ライセンス: Link先を確認
Hang Li, Tianlong Xu, Chaoli Zhang, Eason Chen, Jing Liang, Xing Fan, Haoyang Li, Jiliang Tang, Qingsong Wen, (参考訳) 大規模言語モデルや拡散モデルなど、最近のジェネレーティブAI技術の急増により、科学、金融、教育など、さまざまな分野におけるAIアプリケーションの開発が加速している。 同時に、教育分野に多大な関心を寄せた適応学習は、生徒の学習効率を高める効果を証明している。 本稿では,生成AIと適応学習の概念を組み合わせ,これらの2つの手法の交叉研究に光を当てることを目的とする。 この分野での利益、課題、ポテンシャルに関する議論をすることで、この連合は教育における次の段階の学習形式の発展に大きく貢献するだろうと論じる。

The recent surge in generative AI technologies, such as large language models and diffusion models, has boosted the development of AI applications in various domains, including science, finance, and education. Concurrently, adaptive learning, a concept that has gained substantial interest in the educational sphere, has proven its efficacy in enhancing students' learning efficiency. In this position paper, we aim to shed light on the intersectional studies of these two methods, which combine generative AI with adaptive learning concepts. By presenting discussions about the benefits, challenges, and potentials in this field, we argue that this union will contribute significantly to the development of the next-stage learning format in education.
翻訳日:2024-07-02 14:58:55 公開日:2024-06-28
# GPT-4というクラウドソースデータアノテーションパイプラインの場合

If in a Crowdsourced Data Annotation Pipeline, a GPT-4 ( http://arxiv.org/abs/2402.16795v2 )

ライセンス: Link先を確認
Zeyu He, Chieh-Yang Huang, Chien-Kuang Cornelia Ding, Shaurya Rohatgi, Ting-Hao 'Kenneth' Huang, (参考訳) 近年の研究では、GPT-4は、特にAmazon Mechanical Turk(MTurk)の労働者において、データのラベル付け精度において、オンラインの群衆労働者よりも優れていた。 しかし、これらの研究は、標準的なクラウドソーシングの実践から逸脱し、データアノテーションプロセス全体を通して個々の労働者のパフォーマンスを強調したとして批判された。 本稿は,CODA-19方式を用いて,200の学術論文から3,177の文節をラベル付けした415人の労働者を対象に,GPT-4と倫理的かつ周知なMTurkパイプラインを比較した。 2つのワーカインタフェースは127,080のラベルを出力し、8つのラベル集約アルゴリズムによって最終ラベルを推測するために使用された。 評価の結果, MTurkパイプラインの精度は81.5%, GPT-4は83.6%であった。 興味深いことに、GPT-4のラベルと高度なワーカーインタフェースを通じて収集された群衆ラベルを組み合わせると、8つのアルゴリズムのうち2つはより高い精度(87.5%、87.0%)を達成した。 さらに分析したところ、群衆とGPT-4のラベリング強度が相補的であれば、それらのアグリゲーションはラベリング精度を高めることが示唆された。

Recent studies indicated GPT-4 outperforms online crowd workers in data labeling accuracy, notably workers from Amazon Mechanical Turk (MTurk). However, these studies were criticized for deviating from standard crowdsourcing practices and emphasizing individual workers' performances over the whole data-annotation process. This paper compared GPT-4 and an ethical and well-executed MTurk pipeline, with 415 workers labeling 3,177 sentence segments from 200 scholarly articles using the CODA-19 scheme. Two worker interfaces yielded 127,080 labels, which were then used to infer the final labels through eight label-aggregation algorithms. Our evaluation showed that despite best practices, MTurk pipeline's highest accuracy was 81.5%, whereas GPT-4 achieved 83.6%. Interestingly, when combining GPT-4's labels with crowd labels collected via an advanced worker interface for aggregation, 2 out of the 8 algorithms achieved an even higher accuracy (87.5%, 87.0%). Further analysis suggested that, when the crowd's and GPT-4's labeling strengths are complementary, aggregating them could increase labeling accuracy.
翻訳日:2024-07-02 14:58:55 公開日:2024-06-28
# 古典通信を用いた量子暗号の中央プリミティブについて

On Central Primitives for Quantum Cryptography with Classical Communication ( http://arxiv.org/abs/2402.17715v2 )

ライセンス: Link先を確認
Kai-Min Chung, Eli Goldin, Matthew Gray, (参考訳) 最近の研究は、暗号の「量子計算古典通信(QCCC)設定(Chung et al )」を導入している。 One Way Puzzles(OWPuzz)がこの設定の自然な中央暗号プリミティブである(KhuranaとTomer)という証拠もある。 プリミティブを中央と見なすには、いくつかの特性を持つ必要がある。 うまく振る舞うべきであり(この論文では、増幅、組合せ、普遍的な構成を持つと考えるだろう)、他の様々なプリミティブによって暗示されるべきであり、有用なプリミティブのクラスに等価であるべきである。 OWPuzzのコンバインダ、正確性、セキュリティの増幅、ユニバーサルな構成について述べる。 セキュリティ増幅の証明では、OWPuzzからの新しいよりクリーンなEFIの構成を用いており(Khurana と Tomer の結果と比較して)、OWPuzz の弱い部分へと一般化し、最も技術的に関わった部分である。 OWPuzzは、コミット、対称鍵暗号、一方向状態発生器(OWSG)、従って擬似ランダム状態(PRS)など、他のプリミティブのプリミティブによって暗示されていることが以前は知られていた。 しかし、一般的なOWPuzzとOWPuzzの制限クラス(EV-OWPuzzと呼ぶ効率的な検証を伴うもの)とのブラックボックスの分離を示すことによって、OWPuzzの同値性をこれらのプリミティブの多くに排除することができる。 次に、EV-OWPuzzがこれらのプリミティブのほとんどによってもたらされていることを示し、OWPuzzから分離する。 この分離により、拡張PSSはAnanthらのオープンな質問に答える高圧縮PSSから分離される。

Recent work has introduced the "Quantum-Computation Classical-Communication" (QCCC) (Chung et. al.) setting for cryptography. There has been some evidence that One Way Puzzles (OWPuzz) are the natural central cryptographic primitive for this setting (Khurana and Tomer). For a primitive to be considered central it should have several characteristics. It should be well behaved (which for this paper we will think of as having amplification, combiners, and universal constructions); it should be implied by a wide variety of other primitives; and it should be equivalent to some class of useful primitives. We present combiners, correctness and security amplification, and a universal construction for OWPuzz. Our proof of security amplification uses a new and cleaner version construction of EFI from OWPuzz (in comparison to the result of Khurana and Tomer) that generalizes to weak OWPuzz and is the most technically involved section of the paper. It was previously known that OWPuzz are implied by other primitives of interest including commitments, symmetric key encryption, one way state generators (OWSG), and therefore pseudorandom states (PRS). However we are able to rule out OWPuzz's equivalence to many of these primitives by showing a black box separation between general OWPuzz and a restricted class of OWPuzz (those with efficient verification, which we call EV-OWPuzz). We then show that EV-OWPuzz are also implied by most of these primitives, which separates them from OWPuzz as well. This separation also separates extending PRS from highly compressing PRS answering an open question of Ananth et. al.
翻訳日:2024-07-02 14:58:55 公開日:2024-06-28
# 自然換気型校舎におけるCO2の占有検知における空間的特徴

Spatial features of CO2 for occupancy detection in a naturally ventilated school building ( http://arxiv.org/abs/2403.06643v2 )

ライセンス: Link先を確認
Qirui Huang, Marc Syndicus, Jérôme Frisch, Christoph van Treeck, (参考訳) 正確な占有情報は、建築エネルギー効率と居住快適性を改善するのに役立つ。 低コストで侵入性が低いため,CO2センサを用いた作業検出手法が注目されている。 自然に換気された建物では、複雑な換気挙動や窓を通しての実際の空気交換を測定するのが難しいため、CO2による占有率検出の精度は一般的に低い。 本研究では,CO2濃度の空間分布に基づく2つの新しい占有検知機能について述べる。 補助ベクトルマシン(SVM)を分類器として定量分析した結果, 自然換気室における占有状態検出の精度は, 基準値に比べて14.8ポイント向上し, 換気情報なしで83.2%(F1スコア0.84)に達した。 換気情報により精度は87.6%に達した(F1スコア0.89)。 占有量検出性能は, 基準線に対して25.3ポイント, 56 %, 根平均二乗誤差(RMSE)は11.44人であり, CO2関連の特徴のみを用いて有意に向上した。 追加の換気情報により性能は61.8%(RMSE 9.02)に向上した。 空間的特徴を取り入れることで,CO2関連の特徴のみを付加換気情報を含むモデルに類似した性能を示した。

Accurate occupancy information helps to improve building energy efficiency and occupant comfort. Occupancy detection methods based on CO2 sensors have received attention due to their low cost and low intrusiveness. In naturally ventilated buildings, the accuracy of CO2-based occupancy detection is generally low in related studies due to the complex ventilation behavior and the difficulty in measuring the actual air exchange through windows. In this study, we present two novel features for occupancy detection based on the spatial distribution of the CO2 concentration. After a quantitative analysis with Support Vector Machine (SVM) as classifier, it was found that the accuracy of occupancy state detection in naturally ventilated rooms could be improved by up to 14.8 percentage points compared to the baseline, reaching 83.2 % (F1 score 0.84) without any ventilation information. With ventilation information, the accuracy reached 87.6 % (F1 score 0.89). The performance of occupancy quantity detection was significantly improved by up to 25.3 percentage points versus baseline, reaching 56 %, with root mean square error (RMSE) of 11.44 occupants, using only CO2-related features. Additional ventilation information further enhanced the performance to 61.8 % (RMSE 9.02 occupants). By incorporating spatial features, the model using only CO2-related features revealed similar performance as the model containing additional ventilation information, resulting in a better low-cost occupancy detection method for naturally ventilated buildings.
翻訳日:2024-07-02 14:49:11 公開日:2024-06-28
# リンク予測のための知識グラフ大言語モデル(KG-LLM)

Knowledge Graph Large Language Model (KG-LLM) for Link Prediction ( http://arxiv.org/abs/2403.07311v6 )

ライセンス: Link先を確認
Dong Shu, Tianle Chen, Mingyu Jin, Chong Zhang, Mengnan Du, Yongfeng Zhang, (参考訳) 知識グラフ (KGs) におけるマルチホップリンク予測の課題は、知識グラフ解析の分野における課題である。 本稿では,知識グラフタスクに大規模言語モデル(LLM)を活用する新しいフレームワークである知識グラフ大言語モデル(KG-LLM)を紹介する。 まず、構造化知識グラフデータを自然言語に変換し、次にこれらの自然言語プロンプトを微調整 LLM に使用して、KG におけるマルチホップリンク予測を強化する。 KGを自然言語のプロンプトに変換することにより、我々のフレームワークは、エンティティとその相互関係の潜在表現を学習するように設計されている。 KG-LLMフレームワークの有効性を示すため,Flan-T5,LLaMa2,Gemmaの3つのLLMを微調整した。 さらに、これまで見つからなかったプロンプトを扱うため、ゼロショット機能を備えたLLMを提供するフレームワークの可能性についても検討する。 実験結果から、KG-LLMはモデルの一般化能力を著しく改善し、不慣れなシナリオでより正確な予測を行うことが示された。

The task of multi-hop link prediction within knowledge graphs (KGs) stands as a challenge in the field of knowledge graph analysis, as it requires the model to reason through and understand all intermediate connections before making a prediction. In this paper, we introduce the Knowledge Graph Large Language Model (KG-LLM), a novel framework that leverages large language models (LLMs) for knowledge graph tasks. We first convert structured knowledge graph data into natural language and then use these natural language prompts to fine-tune LLMs to enhance multi-hop link prediction in KGs. By converting the KG to natural language prompts, our framework is designed to learn the latent representations of entities and their interrelations. To show the efficacy of the KG-LLM Framework, we fine-tune three leading LLMs within this framework, including Flan-T5, LLaMa2 and Gemma. Further, we explore the framework's potential to provide LLMs with zero-shot capabilities for handling previously unseen prompts. Experimental results show that KG-LLM significantly improves the models' generalization capabilities, leading to more accurate predictions in unfamiliar scenarios.
翻訳日:2024-07-02 14:49:11 公開日:2024-06-28
# 光学的に定義されたフォノン結晶欠陥

An optically defined phononic crystal defect ( http://arxiv.org/abs/2403.08510v2 )

ライセンス: Link先を確認
Thomas J. Clark, Simon Bernard, Jiaxing Ma, Vincent Dumont, Jack C. Sankey, (参考訳) 光学的にプログラム可能な欠陥モードを持つメカニカル結晶を実証する。 フォトニック結晶膜の単一単位セルに光ばねを印加することにより、単一のメカニカルモードをバンドギャップにスムーズに移動させ、結晶全体を分散させるものから数個の単位セル内に閉じ込められたものへと空間的プロファイルを局在させる。 この局在は、モードの参加質量が37倍に減少する強化された機械的周波数シフトによって証明される。 本研究は, メカニカルモードプロファイルと参加質量を制御した新しいオプトメカニカルシステムについて基礎研究を行った。

We demonstrate a mechanical crystal with an optically programmable defect mode. By applying an optical spring to a single unit cell of a phononic crystal membrane, we smoothly transfer a single mechanical mode into the bandgap, thereby localizing its spatial profile from one spanning the entire crystal to one confined within a few unit cells. This localization is evidenced by an enhanced mechanical frequency shift commensurate with a 37-fold reduction in the mode's participating mass. Our results lay groundwork for a new class of optomechanical systems that control mechanical mode profile and participating mass.
翻訳日:2024-07-02 14:49:11 公開日:2024-06-28
# 透かし LLM 生成コードロバストか?

Is Watermarking LLM-Generated Code Robust? ( http://arxiv.org/abs/2403.17983v2 )

ライセンス: Link先を確認
Tarun Suresh, Shubham Ugare, Gagandeep Singh, Sasa Misailovic, (参考訳) 大規模言語モデルにより生成されたPythonコードに対する既存の透かし手法の堅牢性に関する最初の研究について述べる。 既存の研究は、透かしは自然言語に対して堅牢であることを示したが、意味保存変換によってこれらの透かしをコードから取り除くことは容易であることを示した。

We present the first study of the robustness of existing watermarking techniques on Python code generated by large language models. Although existing works showed that watermarking can be robust for natural language, we show that it is easy to remove these watermarks on code by semantic-preserving transformations.
翻訳日:2024-07-02 14:39:26 公開日:2024-06-28
# アルゼンチンにおける糖尿病リスク人物の識別に機械学習を用いた最初の経験

First Experiences with the Identification of People at Risk for Diabetes in Argentina using Machine Learning Techniques ( http://arxiv.org/abs/2403.18631v2 )

ライセンス: Link先を確認
Enzo Rucci, Gonzalo Tittarelli, Franco Ronchetti, Jorge F. Elgart, Laura Lanzarini, Juan José Gagliardino, (参考訳) 2型糖尿病(T2D)とプレ糖尿病(PD)の検出は、病原性症状の欠如と既知の危険因子の欠如により、医学における真の課題である。 機械学習モデルのいくつかの提案は、リスクのある人々の識別を可能にするが、その状態の性質は、ある集団に適したモデルが必ずしも別の集団に適しているとは限らないようにしている。 本稿では,アルゼンチンにおけるT2DとPDのリスクのある人を特定するための予測モデルの開発と評価について論じる。 まず、データベースは徹底的に前処理され、3つの特定のデータセットが生成される。 5つの異なる分類モデルを適用した結果、これらのモデルを用いて2つのデータセットに対して非常に優れた性能が得られた。 特に、RF、DT、ANNは大きな分類能力を示し、検討中の指標に対して良い値を示した。 アルゼンチンにこの種のツールがないことを考えると、この研究はより洗練されたモデルの開発に向けた第一歩である。

Detecting Type 2 Diabetes (T2D) and Prediabetes (PD) is a real challenge for medicine due to the absence of pathogenic symptoms and the lack of known associated risk factors. Even though some proposals for machine learning models enable the identification of people at risk, the nature of the condition makes it so that a model suitable for one population may not necessarily be suitable for another. In this article, the development and assessment of predictive models to identify people at risk for T2D and PD specifically in Argentina are discussed. First, the database was thoroughly preprocessed and three specific datasets were generated considering a compromise between the number of records and the amount of available variables. After applying 5 different classification models, the results obtained show that a very good performance was observed for two datasets with some of these models. In particular, RF, DT, and ANN demonstrated great classification power, with good values for the metrics under consideration. Given the lack of this type of tool in Argentina, this work represents the first step towards the development of more sophisticated models.
翻訳日:2024-07-02 14:39:26 公開日:2024-06-28
# システム1とシステム2によるLLMの社会的バイアス低減のためのプロンプト技術

Prompting Techniques for Reducing Social Bias in LLMs through System 1 and System 2 Cognitive Processes ( http://arxiv.org/abs/2404.17218v2 )

ライセンス: Link先を確認
Mahammed Kamruzzaman, Gene Louis Kim, (参考訳) 二重過程理論は、人間の認知は2つのシステムを通して生じると仮定する。 システム1は、素早い、感情的で直感的なプロセスであり、認知バイアスを受けます。 NLP研究者は、LLMにおけるゼロショットプロンプトをSystem 1推論とSystem 2へのチェーン・オブ・シント(CoT)プロンプトと比較することが多い。 この解釈に従って、先行研究により、LLMにおけるCoTプロンプトの使用は性バイアスを減少させることがわかった。 LLMにおけるバイアス,CoTプロンプト,および二重プロセス理論の関係を直接検討する。 我々は、ゼロショット、CoT、および9つの異なる社会的バイアスカテゴリにまたがる2つのバイアスデータセットに対する様々なデュアルプロセス理論に基づくプロンプト戦略を比較した。 また、人間と機械のペルソナを用いて、LLMにおける二重プロセス理論の効果が、人間の認知をモデル化しているか、システム固有ののかを判断する。 人間のペルソナであるSystem 2とCoTは、LLMの社会的偏見を減少させる傾向にあるが、特徴の最良の組み合わせは正確なモデルと偏見のカテゴリーに依存している。

Dual process theory posits that human cognition arises via two systems. System 1, which is a quick, emotional, and intuitive process, which is subject to cognitive biases, and System 2, a slow, onerous, and deliberate process. NLP researchers often compare zero-shot prompting in LLMs to System 1 reasoning and chain-of-thought (CoT) prompting to System 2. In line with this interpretation, prior research has found that using CoT prompting in LLMs leads to reduced gender bias. We investigate the relationship between bias, CoT prompting, and dual process theory in LLMs directly. We compare zero-shot, CoT, and a variety of dual process theory-based prompting strategies on two bias datasets spanning nine different social bias categories. We also use human and machine personas to determine whether the effects of dual process theory in LLMs are based on modeling human cognition or inherent to the system. We find that a human persona, System 2, and CoT prompting all tend to reduce social biases in LLMs, though the best combination of features depends on the exact model and bias category -- resulting in up to a 13 percent drop in stereotypical judgments by an LLM.
翻訳日:2024-07-02 14:19:57 公開日:2024-06-28
# 部分的に観測された確率的反応ネットワークの力学モデルにおける線形雑音近似によるベイズ推定

Linear Noise Approximation Assisted Bayesian Inference on Mechanistic Model of Partially Observed Stochastic Reaction Network ( http://arxiv.org/abs/2405.02783v2 )

ライセンス: Link先を確認
Wandi Xu, Wei Xie, (参考訳) そこで本研究では, バイオプロセス・メカニカルモデルの基本構築ブロックである部分的に観察された酵素的確率的反応ネットワーク(SRN)に対する効率的なベイズ推論手法を提案する。 非線形確率微分方程式(SDE)に基づく力学モデルにおいて,部分的に観測された状態と測定誤差を有する重要な問題に対処するために,力学モデルの構造情報を組み込んだ線形雑音近似(LNA)メタモデルを提案する。 次に,マルコフ・チェイン・モンテカルロ(MCMC)の収束を高速化するために,導出確率の勾配を利用して効率的な後方サンプリング手法を開発した。 実証的研究は、提案手法が有望な性能を持つことを示す。

To support mechanism online learning and facilitate digital twin development for biomanufacturing processes, this paper develops an efficient Bayesian inference approach for partially observed enzymatic stochastic reaction network (SRN), a fundamental building block of multi-scale bioprocess mechanistic model. To tackle the critical challenges brought by the nonlinear stochastic differential equations (SDEs)-based mechanistic model with partially observed state and having measurement errors, an interpretable Bayesian updating linear noise approximation (LNA) metamodel, incorporating the structure information of the mechanistic model, is proposed to approximate the likelihood of observations. Then, an efficient posterior sampling approach is developed by utilizing the gradients of the derived likelihood to speed up the convergence of Markov Chain Monte Carlo (MCMC). The empirical study demonstrates that the proposed approach has a promising performance.
翻訳日:2024-07-02 14:10:11 公開日:2024-06-28
# マルチスケールバイオプロセス確率的反応ネットワークにおける随伴感度解析

Adjoint Sensitivity Analysis on Multi-Scale Bioprocess Stochastic Reaction Network ( http://arxiv.org/abs/2405.04011v2 )

ライセンス: Link先を確認
Keilung Choy, Wei Xie, (参考訳) バイオ製造システムにおけるデジタル双極子開発におけるプレス課題に触発され,機械的モデルパラメータの学習を迅速化するための随伴感度解析(SA)手法を導入した。 本稿では, 多様な生産プロセスから異なるデータを統合し, 既存のマクロ動態モデルとゲノムスケールモデルからの情報を活用できる, マルチスケールのバイオプロセス力学モデルを表現する酵素的確率的反応ネットワークについて考察する。 本研究では, モデルパラメータと入力(例えば初期状態)の摂動が, 酵素反応ネットワークを介して伝播し, 出力軌道予測に与える影響について, 収束随伴SAアルゴリズムを開発した。 このSAは、その因果依存性を考慮に入れた入力と出力の間の感度を評価するための、効率的で解釈可能なサンプルを提供することができる。 我々の実証研究は、これらの感度のレジリエンスを強調し、感度を通してバイオプロセスの背後にある制御機構の深い理解を照らす。

Motivated by the pressing challenges in the digital twin development for biomanufacturing systems, we introduce an adjoint sensitivity analysis (SA) approach to expedite the learning of mechanistic model parameters. In this paper, we consider enzymatic stochastic reaction networks representing a multi-scale bioprocess mechanistic model that allows us to integrate disparate data from diverse production processes and leverage the information from existing macro-kinetic and genome-scale models. To support forward prediction and backward reasoning, we develop a convergent adjoint SA algorithm studying how the perturbations of model parameters and inputs (e.g., initial state) propagate through enzymatic reaction networks and impact on output trajectory predictions. This SA can provide a sample efficient and interpretable way to assess the sensitivities between inputs and outputs accounting for their causal dependencies. Our empirical study underscores the resilience of these sensitivities and illuminates a deeper comprehension of the regulatory mechanisms behind bioprocess through sensitivities.
翻訳日:2024-07-02 14:10:11 公開日:2024-06-28
# 一貫性政策 : 一貫性蒸留による覚醒剤の促進

Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation ( http://arxiv.org/abs/2405.07503v2 )

ライセンス: Link先を確認
Aaditya Prasad, Kevin Lin, Jimmy Wu, Linqi Zhou, Jeannette Bohg, (参考訳) 移動マニピュレータや四極子などの多くのロボットシステムは、空間、重量、電力の制約によりハイエンドのGPUを装備できない。 これらの制約により、これらのシステムは、高速なポリシー推論を達成するためにハイエンドGPUを必要とするビジュモータポリシーアーキテクチャの最近の発展を活用することができない。 本稿では,移動ロボット制御学習のための拡散ポリシーの高速かつ類似した代替手段である一貫性ポリシーを提案する。 高速な推論速度により、Consistency Policyはリソース制約されたロボットセットアップで低レイテンシの決定を可能にする。 拡散政策は、拡散政策の学習軌道に沿って自己整合を強制することにより、事前訓練された拡散政策から蒸留される。 我々は6つのシミュレーションタスク、およびラップトップGPU上で推論を実世界の3つのタスクで、一貫性ポリシーと拡散ポリシーや他の関連するスピードアップ手法を比較した。 これらすべてのタスクに対して、一貫性ポリシーは、最速の代替手法と比較して桁違いに推論をスピードアップし、競争的な成功率を維持する。 また, 整合性政策の訓練手順は, 事前訓練された拡散政策の品質に対して堅牢であり, 専門家が事前訓練されたモデルの広範なテストを避けるのに役立つことを示す。 このパフォーマンスを実現するための重要な設計決定は、一貫性の目標の選択、初期サンプルのばらつきの低減、事前設定された連鎖ステップの選択である。

Many robotic systems, such as mobile manipulators or quadrotors, cannot be equipped with high-end GPUs due to space, weight, and power constraints. These constraints prevent these systems from leveraging recent developments in visuomotor policy architectures that require high-end GPUs to achieve fast policy inference. In this paper, we propose Consistency Policy, a faster and similarly powerful alternative to Diffusion Policy for learning visuomotor robot control. By virtue of its fast inference speed, Consistency Policy can enable low latency decision making in resource-constrained robotic setups. A Consistency Policy is distilled from a pretrained Diffusion Policy by enforcing self-consistency along the Diffusion Policy's learned trajectories. We compare Consistency Policy with Diffusion Policy and other related speed-up methods across 6 simulation tasks as well as three real-world tasks where we demonstrate inference on a laptop GPU. For all these tasks, Consistency Policy speeds up inference by an order of magnitude compared to the fastest alternative method and maintains competitive success rates. We also show that the Conistency Policy training procedure is robust to the pretrained Diffusion Policy's quality, a useful result that helps practioners avoid extensive testing of the pretrained model. Key design decisions that enabled this performance are the choice of consistency objective, reduced initial sample variance, and the choice of preset chaining steps.
翻訳日:2024-07-02 14:10:11 公開日:2024-06-28
# 適応型ユーザのための透かし言語モデル

Watermarking Language Models for Many Adaptive Users ( http://arxiv.org/abs/2405.11109v2 )

ライセンス: Link先を確認
Aloni Cohen, Alexander Hoover, Gabe Schoenbach, (参考訳) 証明可能な保証付き言語モデルの透かし方式について検討する。 私たちが示すように、事前の作業は、適応的なプロンプトに対する堅牢性を保証するものではありません。 そして、わずか1つの例外(Christ and Gunn, 2024)で、先行の作業はゼロビットの透かしに制限される:機械生成テキストを検出できるが、透かしから追加情報を取り出すことはできない。 残念ながら、AI生成したテキストを検出するだけでは、将来の乱用を防げないかもしれない。 我々は,適応的なプロンプトに直面した場合でも,モデル生成したテキストを個々のユーザや協調するユーザのグループにトレースできるマルチユーザ透かしを導入した。 検出不能で適応的に堅牢なゼロビット透かしスキームからマルチユーザ透かしスキームを構築する(また、Christ, Gunn, Zamir (2024) の未検出ゼロビットスキームが適応的に堅牢であることを証明する)。 重要なことは、このスキームは、ゼロビットとマルチユーザー保証の両方を同時に提供する。 オリジナルのスキームと同様に短いスニペットを検知し、個人への長い抜粋をトレースする。 主な技術的コンポーネントは、ゼロビットの透かしからメッセージ埋め込みの透かしを構築することである。 言語モデルのための透かしスキームを一般化した最初の例である。 このような削減の課題は、堅牢性のための統一された抽象化が欠如していることだ。 AEB-robustnessと呼ばれる新しい統一抽象化を導入する。 AEB-robustnessは、編集されたテキストがモデル生成出力の「十分なブロック」を承認するたびに、透かしを検出できる。

We study watermarking schemes for language models with provable guarantees. As we show, prior works offer no robustness guarantees against adaptive prompting: when a user queries a language model more than once, as even benign users do. And with just a single exception (Christ and Gunn, 2024), prior works are restricted to zero-bit watermarking: machine-generated text can be detected as such, but no additional information can be extracted from the watermark. Unfortunately, merely detecting AI-generated text may not prevent future abuses. We introduce multi-user watermarks, which allow tracing model-generated text to individual users or to groups of colluding users, even in the face of adaptive prompting. We construct multi-user watermarking schemes from undetectable, adaptively robust, zero-bit watermarking schemes (and prove that the undetectable zero-bit scheme of Christ, Gunn, and Zamir (2024) is adaptively robust). Importantly, our scheme provides both zero-bit and multi-user assurances at the same time. It detects shorter snippets just as well as the original scheme, and traces longer excerpts to individuals. The main technical component is a construction of message-embedding watermarks from zero-bit watermarks. Ours is the first generic reduction between watermarking schemes for language models. A challenge for such reductions is the lack of a unified abstraction for robustness -- that marked text is detectable even after edits. We introduce a new unifying abstraction called AEB-robustness. AEB-robustness provides that the watermark is detectable whenever the edited text "approximates enough blocks" of model-generated output.
翻訳日:2024-07-02 14:00:18 公開日:2024-06-28
# カーネル学習FBSDEフィルタの収束解析

Convergence analysis of kernel learning FBSDE filter ( http://arxiv.org/abs/2405.13390v3 )

ライセンス: Link先を確認
Yunzheng Lyu, Feng Bao, (参考訳) カーネル学習 後方SDEフィルタは、非線形フィルタリング問題を解決するための反復的かつ適応的なメッシュフリーアプローチである。 状態変数の進化密度を定義するフォッカー・プランカー方程式の前方後方SDEから構築され、KDEを用いて密度を近似する。 このアルゴリズムは、高次元問題の収束速度と効率の両方において、主流粒子フィルタ法よりも優れた性能を示している。 しかし、この方法は経験的にのみ収束することが示されている。 本稿では,その局所的および大域的収束を示す厳密な解析を行い,実験結果に対する理論的支援を提供する。

Kernel learning forward backward SDE filter is an iterative and adaptive meshfree approach to solve the nonlinear filtering problem. It builds from forward backward SDE for Fokker-Planker equation, which defines evolving density for the state variable, and employs KDE to approximate density. This algorithm has shown more superior performance than mainstream particle filter method, in both convergence speed and efficiency of solving high dimension problems. However, this method has only been shown to converge empirically. In this paper, we present a rigorous analysis to demonstrate its local and global convergence, and provide theoretical support for its empirical results.
翻訳日:2024-07-02 14:00:18 公開日:2024-06-28
# LLMトレーニングにおけるMoEとDense Speed-Accuracyの比較

Revisiting MoE and Dense Speed-Accuracy Comparisons for LLM Training ( http://arxiv.org/abs/2405.15052v2 )

ライセンス: Link先を確認
Xianzhi Du, Tom Gunter, Xiang Kong, Mark Lee, Zirui Wang, Aonan Zhang, Nan Du, Ruoming Pang, (参考訳) Mixture-of-Experts (MoE)は、計算コストを一定に保ちながら、モデルキャパシティを増大させることにより、パフォーマンスの向上を享受する。 MoEを高密度モデルと比較する場合、事前の作業は通常、以下の設定を採用する。 1) モデルの複雑さの尺度としてFLOPまたはアクティベートパラメータを使用する。 2) すべてのモデルを同じ数のトークンにトレーニングする。 この設定は、FLOPとしてMoEを好んでおり、活性化パラメータはスパース層における通信オーバーヘッドを正確に測定しないため、MoEの実際のトレーニング予算はより大きくなる。 本研究では,モデル複雑性のより正確な尺度として,ステップタイムを採用することで設定を再考し,Chinchillaの計算最適設定に基づいて計算予算を決定する。 現代の加速器でMoEを効率的に動作させるために、高密度から高密度のMoEステップタイムを健全な範囲で増加させる3Dシャーディング法を採用する。 我々は,9つの0ショットと2つの1ショットの英語タスクと,MMLU 5ショットとGSM8K 8ショットの3つのモデルスケールで6.4B,12.6B,29.6BでMoEと高密度LLMを評価した。 これらの条件下でも,MoEは,所望のギャップを有する速度精度トレードオフ曲線において,高密度LLMよりも常に優れていた。 私たちの完全なモデル実装とシャーディング戦略は、~\url{https://github.com/apple/axlearn} でリリースされました。

Mixture-of-Experts (MoE) enjoys performance gain by increasing model capacity while keeping computation cost constant. When comparing MoE to dense models, prior work typically adopt the following setting: 1) use FLOPs or activated parameters as a measure of model complexity; 2) train all models to the same number of tokens. We argue that this setting favors MoE as FLOPs and activated parameters do not accurately measure the communication overhead in sparse layers, leading to a larger actual training budget for MoE. In this work, we revisit the settings by adopting step time as a more accurate measure of model complexity, and by determining the total compute budget under the Chinchilla compute-optimal settings. To efficiently run MoE on modern accelerators, we adopt a 3D sharding method that keeps the dense-to-MoE step time increase within a healthy range. We evaluate MoE and dense LLMs on a set of nine 0-shot and two 1-shot English tasks, as well as MMLU 5-shot and GSM8K 8-shot across three model scales at 6.4B, 12.6B, and 29.6B. Experimental results show that even under these settings, MoE consistently outperform dense LLMs on the speed-accuracy trade-off curve with meaningful gaps. Our full model implementation and sharding strategy has been released at~\url{https://github.com/apple/axlearn}
翻訳日:2024-07-02 14:00:18 公開日:2024-06-28
# 変分テンソルネットワークトモグラフィによるランダム化計測からの位相状態の学習

Learning topological states from randomized measurements using variational tensor network tomography ( http://arxiv.org/abs/2406.00193v3 )

ライセンス: Link先を確認
Yanting Teng, Rhine Samajdar, Katherine Van Kirk, Frederik Wilde, Subir Sachdev, Jens Eisert, Ryan Sweke, Khadijeh Najafi, (参考訳) 量子状態の忠実な表現を学ぶことは、量子プロセッサ上で生成される多体状態の多様性を完全に特徴づけるのに不可欠である。 古典的シャドウやMPSトモグラフィーのような様々なトモグラフィー手法は、幅広い種類の量子状態を特徴づける可能性を示してきたが、位相的に秩序づけられた2次元状態を検出する際、特有の制限に直面している。 この問題に対処するために,テンソルネットワーク上の変分最適化とランダムな計測手法を組み合わせたヒューリスティックトモグラフィー手法を実装し,検討する。 このアプローチを用いて、実験により実現可能な量子スピン状態と同様に、表面符号の基底状態を学ぶ能力を示す。 特に,MPS ans\atze を用いて数値実験を行い,最大 480 キュービットのシステムに対して高忠実度を実現するために必要なサンプルの複雑さを系統的に検討する。 さらに,最大推定確率の統計的特性を解析することにより,学習アルゴリズムのスケーリングに関する理論的知見を提供する。 特に,本手法はサンプル効率が高く,実験的に親和性が高いため,ランダムに測定された量子状態のスナップショットのみを$X$または$Z$塩基で要求する。 この測定のサブセットを用いて、テンソルネットワークで表される任意の実純粋状態を効果的に学習し、そのような状態に対してランダム-$XZ$測定がトモグラフィ的に完全であることを厳密に証明する。

Learning faithful representations of quantum states is crucial to fully characterizing the variety of many-body states created on quantum processors. While various tomographic methods such as classical shadow and MPS tomography have shown promise in characterizing a wide class of quantum states, they face unique limitations in detecting topologically ordered two-dimensional states. To address this problem, we implement and study a heuristic tomographic method that combines variational optimization on tensor networks with randomized measurement techniques. Using this approach, we demonstrate its ability to learn the ground state of the surface code Hamiltonian as well as an experimentally realizable quantum spin liquid state. In particular, we perform numerical experiments using MPS ans\"atze and systematically investigate the sample complexity required to achieve high fidelities for systems of sizes up to $48$ qubits. In addition, we provide theoretical insights into the scaling of our learning algorithm by analyzing the statistical properties of maximum likelihood estimation. Notably, our method is sample-efficient and experimentally friendly, only requiring snapshots of the quantum state measured randomly in the $X$ or $Z$ bases. Using this subset of measurements, our approach can effectively learn any real pure states represented by tensor networks, and we rigorously prove that random-$XZ$ measurements are tomographically complete for such states.
翻訳日:2024-07-02 13:50:34 公開日:2024-06-28
# MotionClone: 制御可能なビデオ生成のためのトレーニング不要モーションクローン

MotionClone: Training-Free Motion Cloning for Controllable Video Generation ( http://arxiv.org/abs/2406.05338v3 )

ライセンス: Link先を確認
Pengyang Ling, Jiazi Bu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Tong Wu, Huaian Chen, Jiaqi Wang, Yi Jin, (参考訳) モーションベースの制御可能なテキスト・ビデオ生成には、動画生成を制御するモーションが含まれる。 従来手法では、モーションキューを符号化するためのモデルのトレーニングや、ビデオ拡散モデルの微調整が求められていた。 しかし、これらのアプローチは訓練された領域の外で適用された場合、しばしば準最適運動の発生をもたらす。 本研究では,テキスト・ビデオ生成を制御するための参照ビデオからのモーション・クローンを可能にする,トレーニング不要なフレームワークであるMotionCloneを提案する。 基準映像における動きを表現するために時間的注意をビデオインバージョンに用い,注意重み内の雑音や非常に微妙な動きの影響を軽減するために時間的注意指導を導入した。 さらに、合理的な空間関係を合成し、その素早い追跡能力を高めるために、基準映像から前景の粗い位置を活用できる位置認識型意味指導機構と、オリジナル分類器なし指導機能を用いて、映像生成を誘導する。 大規模な実験により、MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方に熟練度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れていることが示されている。

Motion-based controllable text-to-video generation involves motions to control the video generation. Previous methods typically require the training of models to encode motion cues or the fine-tuning of video diffusion models. However, these approaches often result in suboptimal motion generation when applied outside the trained domain. In this work, we propose MotionClone, a training-free framework that enables motion cloning from a reference video to control text-to-video generation. We employ temporal attention in video inversion to represent the motions in the reference video and introduce primary temporal-attention guidance to mitigate the influence of noisy or very subtle motions within the attention weights. Furthermore, to assist the generation model in synthesizing reasonable spatial relationships and enhance its prompt-following capability, we propose a location-aware semantic guidance mechanism that leverages the coarse location of the foreground from the reference video and original classifier-free guidance features to guide the video generation. Extensive experiments demonstrate that MotionClone exhibits proficiency in both global camera motion and local object motion, with notable superiority in terms of motion fidelity, textual alignment, and temporal consistency.
翻訳日:2024-07-02 13:30:57 公開日:2024-06-28
# 量子コンピュータにおける中間回路計測で実現可能な非単体結合クラスタ

Non-unitary Coupled Cluster Enabled by Mid-circuit Measurements on Quantum Computers ( http://arxiv.org/abs/2406.11574v2 )

ライセンス: Link先を確認
Alexandre Fleury, James Brown, Erika Lloyd, Maritza Hernandez, Isaac H. Kim, (参考訳) 多くの量子アルゴリズムは最適な性能のために品質の初期状態に依存している。 特定の用途に初期状態を用意することで、よく研究された量子位相推定(QPE)のような確率論的アルゴリズムのコストを大幅に削減することができる。 幸いなことに、量子化学の応用分野では、分子系の近似波動関数の生成がよく研究されており、量子コンピューティングアルゴリズムはこれらの古典的な手法を直接量子回路にインポートする利点がある。 本研究では,古典計算機における量子化学の柱である結合クラスタ(CC)理論に基づく状態準備法を提案する。 現在、量子コンピュータ上での量子化学のための最もよく研究されている状態合成法は、単一および二重電子励起項(UCCSD)アンサッツを持つユニタリCCを持つ変分量子固有解法(VQE)である。 小型化学系のエネルギー評価と状態重なり計算を行うことにより, 中間回路計測による状態生成プロトコルの精度を検証した。 さらに,従来のVQE-UCCSDプロトコルと比較すると,従来の計算オーバーヘッドが減少し,CNOTおよびTゲートの数は平均で28%,57%減少した。

Many quantum algorithms rely on a quality initial state for optimal performance. Preparing an initial state for specific applications can considerably reduce the cost of probabilistic algorithms such as the well studied quantum phase estimation (QPE). Fortunately, in the application space of quantum chemistry, generating approximate wave functions for molecular systems is well studied, and quantum computing algorithms stand to benefit from importing these classical methods directly into a quantum circuit. In this work, we propose a state preparation method based on coupled cluster (CC) theory, which is a pillar of quantum chemistry on classical computers, by incorporating mid-circuit measurements into the circuit construction. Currently, the most well studied state preparation method for quantum chemistry on quantum computers is the variational quantum eigensolver (VQE) with a unitary-CC with single- and double-electron excitation terms (UCCSD) ansatz whose operations are limited to unitary gates. We verify the accuracy of our state preparation protocol using mid-circuit measurements by performing energy evaluation and state overlap computation for a set of small chemical systems. We further demonstrate that our approach leads to a reduction of the classical computation overhead, and the number of CNOT and T gates by 28% and 57% on average when compared against the standard VQE-UCCSD protocol.
翻訳日:2024-07-02 13:21:08 公開日:2024-06-28
# 分布的リスク受容性とロバスト性を考慮した$k$サブモジュラー関数付きスタックルバーグゲーム

Stackelberg Games with $k$-Submodular Function under Distributional Risk-Receptiveness and Robustness ( http://arxiv.org/abs/2406.13023v3 )

ライセンス: Link先を確認
Seonghun Park, Manish Bansal, (参考訳) 本研究では,不確実性や攻撃を受けやすいデータを用いた特徴選択などの機械学習問題に適用可能な,逆向き文脈における部分モジュラ最適化について検討する。 我々は、攻撃者(またはインターディクタ)とディフェンダーの間のStackelbergゲームに焦点を当て、攻撃者は$k$-submodular関数を最大化するディフェンダーの目的を最小化することを目的としている。 攻撃の成功やデータノイズに起因する不確実性を許容し、乱数パラメータの確率分布に関する不完全な知識による課題に対処する。 具体的には、DRA $k$-submodular Interdiction Problem (DRA $k$-SIP) と分散型リスク受容型 $k$-submodular Interdiction Problem (DRR $k$-SIP) と、それを解くための有限収束正確なアルゴリズムを導入する。 DRA $k$-SIPソリューションは、現実の不確実性に対する堅牢な戦略を開発するためのリスク・アバース・インターディクタを可能にする。 逆に、DRR $k$-SIPソリューションは攻撃者に対して攻撃的な戦術を提案し、最大ダメージを与える(分配的な)リスクを受け入れ、攻撃者の防御戦略に使用できる重要な脆弱なコンポーネントを特定する。 DRA $k$-SIPとDRR $k$-SIPの両方から導かれる最適値は、ディフェンダーの目的関数の期待値に対して信頼区間のような範囲を提供し、分布の曖昧さをキャプチャする。 特徴選択問題とセンサ配置問題,ウィスコンシン州乳癌データと合成データを用いて計算実験を行った。

We study submodular optimization in adversarial context, applicable to machine learning problems such as feature selection using data susceptible to uncertainties and attacks. We focus on Stackelberg games between an attacker (or interdictor) and a defender where the attacker aims to minimize the defender's objective of maximizing a $k$-submodular function. We allow uncertainties arising from the success of attacks and inherent data noise, and address challenges due to incomplete knowledge of the probability distribution of random parameters. Specifically, we introduce Distributionally Risk-Averse $k$-Submodular Interdiction Problem (DRA $k$-SIP) and Distributionally Risk-Receptive $k$-Submodular Interdiction Problem (DRR $k$-SIP) along with finitely convergent exact algorithms for solving them. The DRA $k$-SIP solution allows risk-averse interdictor to develop robust strategies for real-world uncertainties. Conversely, DRR $k$-SIP solution suggests aggressive tactics for attackers, willing to embrace (distributional) risk to inflict maximum damage, identifying critical vulnerable components, which can be used for the defender's defensive strategies. The optimal values derived from both DRA $k$-SIP and DRR $k$-SIP offer a confidence interval-like range for the expected value of the defender's objective function, capturing distributional ambiguity. We conduct computational experiments using instances of feature selection and sensor placement problems, and Wisconsin breast cancer data and synthetic data, respectively.
翻訳日:2024-07-02 13:11:23 公開日:2024-06-28
# ポストホックOOD検出器の逆ロバスト性定義の解読

Deciphering the Definition of Adversarial Robustness for post-hoc OOD Detectors ( http://arxiv.org/abs/2406.15104v3 )

ライセンス: Link先を確認
Peter Lorenz, Mario Fernandez, Jens Müller, Ullrich Köthe, (参考訳) 現実世界のシナリオでディープラーニングモデルを安全にデプロイするには、アウト・オブ・ディストリビューション(OOD)インプットを検出することが重要です。 近年、多くのOOD検出器が開発され、ベンチマークさえ標準化されている。 ポストホック検出器の数は急速に増加しており、訓練済みの分類器を自然分布シフトから保護するオプションも示している。 しかし、敵の例を扱う効果は、ほとんどの研究で無視されている。 本稿では,16個のポストホック検出器のいくつかの回避攻撃に対する対角的堅牢性について検討し,OOD検出器の対角的防御に向けたロードマップについて議論する。

Detecting out-of-distribution (OOD) inputs is critical for safely deploying deep learning models in real-world scenarios. In recent years, many OOD detectors have been developed, and even the benchmarking has been standardized, i.e. OpenOOD. The number of post-hoc detectors is growing fast and showing an option to protect a pre-trained classifier against natural distribution shifts, claiming to be ready for real-world scenarios. However, its efficacy in handling adversarial examples has been neglected in the majority of studies. This paper investigates the adversarial robustness of the 16 post-hoc detectors on several evasion attacks and discuss a roadmap towards adversarial defense in OOD detectors.
翻訳日:2024-07-02 13:01:26 公開日:2024-06-28
# SRViT:衛星観測から放射反射率を推定する視覚変換器

SRViT: Vision Transformers for Estimating Radar Reflectivity from Satellite Observations at Scale ( http://arxiv.org/abs/2406.16955v2 )

ライセンス: Link先を確認
Jason Stock, Kyle Hilburn, Imme Ebert-Uphoff, Charles Anderson, (参考訳) 静止衛星画像から高分解能(3km)合成レーダ反射率場を大規模に生成するトランスフォーマーベースニューラルネットワークを提案する。 本研究は,アメリカ合衆国における気象事象の短期的対流予測の強化と数値天気予報のためのデータ同化の支援を目的とする。 受容野が限られている畳み込みアプローチと比較して, 様々な反射率閾値において, シャープネスと精度が向上した。 特定の大気現象に関する追加のケーススタディは、我々の量的発見を支持し、新しい帰属法は、モデル出力を理解するための領域の専門家を導くために導入された。

We introduce a transformer-based neural network to generate high-resolution (3km) synthetic radar reflectivity fields at scale from geostationary satellite imagery. This work aims to enhance short-term convective-scale forecasts of high-impact weather events and aid in data assimilation for numerical weather prediction over the United States. Compared to convolutional approaches, which have limited receptive fields, our results show improved sharpness and higher accuracy across various composite reflectivity thresholds. Additional case studies over specific atmospheric phenomena support our quantitative findings, while a novel attribution method is introduced to guide domain experts in understanding model outputs.
翻訳日:2024-07-02 12:51:40 公開日:2024-06-28
# 一般化変分推論を用いた動的ベイズネットワークの実証ベイズ

Empirical Bayes for Dynamic Bayesian Networks Using Generalized Variational Inference ( http://arxiv.org/abs/2406.17831v2 )

ライセンス: Link先を確認
Vyacheslav Kungurtsev, Apaar, Aarya Khandelwal, Parth Sandeep Rastogi, Bapi Chatterjee, Jakub Mareček, (参考訳) 本研究では,動的ベイズネットワークを学習するための経験的ベイズアプローチを実演する。 構造と重みのいくつかの点推定から始めることで、データ駆動モデルを使用して不確実性を定量化することができる。 このアプローチは最近の一般化変分推論の展開を利用しており、DAG構造の混合の不確かさとパラメータ後部をサンプリングする可能性を示している。

In this work, we demonstrate the Empirical Bayes approach to learning a Dynamic Bayesian Network. By starting with several point estimates of structure and weights, we can use a data-driven prior to subsequently obtain a model to quantify uncertainty. This approach uses a recent development of Generalized Variational Inference, and indicates the potential of sampling the uncertainty of a mixture of DAG structures as well as a parameter posterior.
翻訳日:2024-07-02 12:41:53 公開日:2024-06-28
# サイバーセキュリティにおける心理学的プロファイリング : LLMと心理学的特徴について

Psychological Profiling in Cybersecurity: A Look at LLMs and Psycholinguistic Features ( http://arxiv.org/abs/2406.18783v2 )

ライセンス: Link先を確認
Jean Marie Tshimula, D'Jeff K. Nkashama, Jean Tshibangu Muabila, René Manassé Galekwa, Hugues Kanda, Maximilien V. Dialufuma, Mbuyi Mukendi Didier, Kalala Kalonji, Serge Mundele, Patience Kinshie Lenye, Tighana Wenge Basele, Aristarque Ilunga, Christian N. Mayemba, Nathanaël M. Kasoro, Selain K. Kasereka, Hardy Mikese, Pierre-Martin Tardif, Marc Frappier, Froduald Kabanza, Belkacem Chikhaoui, Shengrui Wang, Ali Mulenda Sumbu, Xavier Ndona, Raoul Kienge-Kienge Intudi, (参考訳) サイバー脅威の高度化は、サイバーセキュリティに対する革新的なアプローチを必要とする。 本稿では,心理学的プロファイリング手法の可能性,特にLLM(Large Language Models)と心理言語学的特徴の活用に焦点をあてる。 心理学とサイバーセキュリティの交わりについて検討し,脅威アクターの心理的特徴を識別するためのテキストデータ分析にLLMをどのように使用できるかについて議論した。 我々は,言語パターンや感情的手がかりなどの心理言語学的特徴をサイバーセキュリティフレームワークに組み入れることを検討する。 我々の研究は、サイバーセキュリティの実践に心理学的視点を統合することが、進化する脅威に対する防御メカニズムを強化することの重要性を強調している。

The increasing sophistication of cyber threats necessitates innovative approaches to cybersecurity. In this paper, we explore the potential of psychological profiling techniques, particularly focusing on the utilization of Large Language Models (LLMs) and psycholinguistic features. We investigate the intersection of psychology and cybersecurity, discussing how LLMs can be employed to analyze textual data for identifying psychological traits of threat actors. We explore the incorporation of psycholinguistic features, such as linguistic patterns and emotional cues, into cybersecurity frameworks. Our research underscores the importance of integrating psychological perspectives into cybersecurity practices to bolster defense mechanisms against evolving threats.
翻訳日:2024-07-02 12:30:11 公開日:2024-06-28
# MLを用いたFPGAを用いた実時間量子状態判別による中間回路計測

ML-Powered FPGA-based Real-Time Quantum State Discrimination Enabling Mid-circuit Measurements ( http://arxiv.org/abs/2406.18807v2 )

ライセンス: Link先を確認
Neel R. Vora, Yilun Xu, Akel Hashim, Neelay Fruitwala, Ho Nam Nguyen, Haoran Liao, Jan Balewski, Abhi Rajagopala, Kasra Nowrouzi, Qing Ji, K. Birgitta Whaley, Irfan Siddiqi, Phuc Nguyen, Gang Huang, (参考訳) 古典コンピュータのトランジスタ状態を読むのと同様に、量子ビット(量子ビット)状態を特定することは、量子情報を翻訳するための基本的な操作である。 しかし、量子状態の同定は、超伝導量子プロセッサ上でのエラー操作に最も遅く、最も影響を受けやすい。 既存のほとんどの状態識別アルゴリズムは、制御回路からホストコンピュータに転送されるオフラインデータを使用して実装され、最適化されているだけである。 超伝導量子状態は、リードアウト回路とホストコンピュータ(数十ミリ秒)との通信遅延よりもはるかに短い数百人しか生き残らないため、リアルタイムな状態の識別は不可能である。 MCM(Mid-circuit Measurement)は、量子回路の中間段階における量子ビットの計測を行う手法であり、量子ビットの再利用の先進的な手法である。 単発読み出しを必要とするMCMでは、低いレイテンシと高い精度で状態判別を行うために、その場で行うことが不可欠である。 本稿では,MCMを実現するためのフィールドプログラマブルゲートアレイ(FPGA)ベースのシステムQubiCMLについて紹介する。 FPGA上に多層ニューラルネットワークを設計、展開し、状態の正確な識別を保証している。 MLを利用した量子状態の識別が初めて、無線周波数システム-オンチップFPGAプラットフォームで実装されている。 FPGA上の軽量ネットワークは、各推論を完了するのに54 nsしかかからない。 超伝導量子プロセッサ上でのQubiCMLの性能を評価し,500 nsの読み出しで平均98.5%の精度を得た。 QubiCMLは、量子コミュニティの標準的なリアルタイム状態識別手法となる可能性を持っている。

Similar to reading the transistor state in classical computers, identifying the quantum bit (qubit) state is a fundamental operation to translate quantum information. However, identifying quantum state has been the slowest and most susceptible to errors operation on superconducting quantum processors. Most existing state discrimination algorithms have only been implemented and optimized "after the fact" - using offline data transferred from control circuits to host computers. Real-time state discrimination is not possible because a superconducting quantum state only survives for a few hundred us, which is much shorter than the communication delay between the readout circuit and the host computer (i.e., tens of ms). Mid-circuit measurement (MCM), where measurements are conducted on qubits at intermediate stages within a quantum circuit rather than solely at the end, represents an advanced technique for qubit reuse. For MCM necessitating single-shot readout, it is imperative to employ an in-situ technique for state discrimination with low latency and high accuracy. This paper introduces QubiCML, a field-programmable gate array (FPGA) based system for real-time state discrimination enabling MCM - the ability to measure the state at the control circuit before/without transferring data to a host computer. A multi-layer neural network has been designed and deployed on an FPGA to ensure accurate in-situ state discrimination. For the first time, ML-powered quantum state discrimination has been implemented on a radio frequency system-on-chip FPGA platform. The deployed lightweight network on the FPGA only takes 54 ns to complete each inference. We evaluated QubiCML's performance on superconducting quantum processors and obtained an average accuracy of 98.5% with only 500 ns readout. QubiCML has the potential to be the standard real-time state discrimination method for the quantum community.
翻訳日:2024-07-02 12:30:11 公開日:2024-06-28
# 超伝導量子プロセッサのハミルトン力学をロバストに学習する

Robustly learning the Hamiltonian dynamics of a superconducting quantum processor ( http://arxiv.org/abs/2108.08319v3 )

ライセンス: Link先を確認
Dominik Hangleiter, Ingo Roth, Jonas Fuksa, Jens Eisert, Pedram Roushan, (参考訳) 古典的なコンピュータの能力を超える量子シミュレーションを行うために必要な精度は、大きな実験的および理論的課題を課す。 これらの問題を解決する鍵は、アナログ量子シミュレータを正確に特徴づける手段である。 ここでは, 超伝導量子ビットアナログ量子シミュレータにおけるボソニック励起のフリーハミルトンパラメータを, 単モードカノニカル座標の時系列から頑健に推定する。 我々は、先行知識を利用してハミルトンパラメータを推定し、ノイズや状態調整・測定(SPAM)誤差に対して頑健にすることで、高精度な精度を実現する。 重要なことに、我々は同じデータからこれらのSPAMエラーに関するトモグラフィー情報を得ることができ、量子クエンチ実験におけるハミルトン学習の実験的適用性に不可欠である。 私たちの学習アルゴリズムは、必要なデータ量と後処理の両方においてスケーラブルです。 これを実現するために,行列時系列から周波数抽出を行うテンソルESPRITを開発した。 このアルゴリズムはテンソルESPRITと固有空間再構成のための制約付き多様体最適化を前処理および後処理の段階と組み合わせる。 2つのSycamoreプロセッサ上の14個の結合超伝導量子ビットについて、ハミルトンパラメーターを同定し、その1つの実装をサブMHz精度まで検証し、27量子ビットのグリッドに対する空間的実装誤差マップを構築する。 この結果は,アナログ量子プロセッサの理解,校正,改善のための新しい診断ツールキットを用いて,動的量子シミュレーションの正確な実装を構成する。

The required precision to perform quantum simulations beyond the capabilities of classical computers imposes major experimental and theoretical challenges. The key to solving these issues are precise means of characterizing analog quantum simulators. Here, we robustly estimate the free Hamiltonian parameters of bosonic excitations in a superconducting-qubit analog quantum simulator from measured time-series of single-mode canonical coordinates. We achieve high levels of precision in estimating the Hamiltonian parameters by exploiting a priori knowledge, making it robust against noise and state-preparation and measurement (SPAM) errors. Importantly, we are also able to obtain tomographic information about those SPAM errors from the same data, crucial for the experimental applicability of Hamiltonian learning in dynamical quantum-quench experiments. Our learning algorithm is scalable both in terms of the required amounts of data and post-processing. To achieve this, we develop a new super-resolution technique coined tensorESPRIT for frequency extraction from matrix time-series. The algorithm then combines tensorESPRIT with constrained manifold optimization for the eigenspace reconstruction with pre- and post-processing stages. For up to 14 coupled superconducting qubits on two Sycamore processors, we identify the Hamiltonian parameters -- verifying the implementation on one of them up to sub-MHz precision -- and construct a spatial implementation error map for a grid of 27 qubits. Our results constitute an accurate implementation of a dynamical quantum simulation that is characterized using a new diagnostic toolkit for understanding, calibrating, and improving analog quantum processors.
翻訳日:2024-07-01 22:29:40 公開日:2024-06-28
# 三角格子上の完全充填量子ループモデルの隠れ秩序と相転移

Hidden orders and phase transitions for the fully packed quantum loop model on the triangular lattice ( http://arxiv.org/abs/2205.04472v2 )

ライセンス: Link先を確認
Xiaoxue Ran, Zheng Yan, Yan-Cheng Wang, Rhine Samajdar, Junchen Rong, Subir Sachdev, Yang Qi, Zi Yang Meng, (参考訳) 量子ループと二量体モデル(英: Quantum loop and dimer model)は、局所的な制約を持つ原型的相関系であり、格子ゲージ理論やトポロジカル秩序と密接に結びついているだけでなく、量子材料や量子シミュレーションの幅広い研究領域にも広く適用できる。 網羅的クラスタ量子モンテカルロアルゴリズムを用いて、三角格子完全充填量子ループモデルの完全な位相図を明らかにする。 既知の格子ネマティック(LN)固体と、$\mathbb{Z}_2$量子スピン液体(QSL)相とは別に、10年以上にわたって見過ごされてきた隠れバイソン・プラケット(VP)相を発見した。 さらに、VP-to-QSL連続遷移は$(2+1)$Dの立方体*普遍性クラスに属し、このクラスは、最近共形ブートストラップ計算によって修正されるまでO($3$)対称性とは無関係と考えられてきた(フラクタル化)立方体固定点の格子実現を提供する。 この結果は実験と理論の両方における最近の発展に関係しており、隠れた相と遷移のさらなる研究を促進する。

Quantum loop and dimer models are prototypical correlated systems with local constraints, which are not only intimately connected to lattice gauge theories and topological orders but are also widely applicable to the broad research areas of quantum materials and quantum simulation. Employing our sweeping cluster quantum Monte Carlo algorithm, we reveal the complete phase diagram of the triangular-lattice fully packed quantum loop model. Apart from the known lattice nematic (LN) solid and the even $\mathbb{Z}_2$ quantum spin liquid (QSL) phases, we discover a hidden vison plaquette (VP) phase, which had been overlooked and misinterpreted as a QSL for more than a decade. Moreover, the VP-to-QSL continuous transition belongs to the $(2+1)$D cubic* universality class, which offers a lattice realization of the (fractionalized) cubic fixed point that had long been considered as irrelevant towards the O($3$) symmetry until corrected recently by conformal bootstrap calculations. Our results are therefore of relevance to recent developments in both experiments and theory, and facilitate further investigations of hidden phases and transitions.
翻訳日:2024-07-01 22:29:40 公開日:2024-06-28
# ストラグラー-弾力性差分型分散型学習

Straggler-Resilient Differentially-Private Decentralized Learning ( http://arxiv.org/abs/2212.03080v3 )

ライセンス: Link先を確認
Yauhen Yakimenka, Chung-Wei Weng, Hsuan-Yin Lin, Eirik Rosnes, Jörg Kliewer, (参考訳) ユーザデータのプライバシを保ちながら、論理リング上の分散学習におけるストラグラー問題を考える。 特に,Cyffers と Bellet による分散化により,最近提案された差分プライバシー(DP)増幅フレームワークを拡張して,計算処理と通信遅延の両面でのトレーニング遅延を包含する。 収束速度とDPレベルの両方の分析結果は、スキップスキーム(タイムアウト後にストラグラーを無視する)と、トレーニングが続く前に各ノードが終了するのを待つベースラインスキームの両方に対して導出される。 スキップスキームのタイムアウトによってパラメータ化され,実世界のデータセット上でのロジスティック回帰と,MNISTデータセットとCIFAR-10データセットを用いた画像分類において,全体のトレーニングレイテンシ,精度,プライバシのトレードオフを識別し,実証的に検証する。

We consider the straggler problem in decentralized learning over a logical ring while preserving user data privacy. Especially, we extend the recently proposed framework of differential privacy (DP) amplification by decentralization by Cyffers and Bellet to include overall training latency--comprising both computation and communication latency. Analytical results on both the convergence speed and the DP level are derived for both a skipping scheme (which ignores the stragglers after a timeout) and a baseline scheme that waits for each node to finish before the training continues. A trade-off between overall training latency, accuracy, and privacy, parameterized by the timeout of the skipping scheme, is identified and empirically validated for logistic regression on a real-world dataset and for image classification using the MNIST and CIFAR-10 datasets.
翻訳日:2024-07-01 22:29:40 公開日:2024-06-28
# アクティブシークエンシャル2サンプルテスト

Active Sequential Two-Sample Testing ( http://arxiv.org/abs/2301.12616v4 )

ライセンス: Link先を確認
Weizhi Li, Prad Kadambi, Pouria Saidi, Karthikeyan Natesan Ramamurthy, Gautam Dasarathy, Visar Berisha, (参考訳) 2サンプル仮説テスト(英: two-sample hypothesis test)は、2つのサンプルを生成する分布が同一であるかどうかを決定するための統計的手順である。 サンプル測定(またはサンプル特徴)が安価でアクセス可能であるが,グループメンバシップ(またはラベル)が高価である新たなシナリオにおいて,この2サンプルテストの問題を考慮する。 この問題に対処するため,最初のemph{active sequence two-sample testing framework} を考案した。 我々のテスト統計は、全てのクラス前の最大化によって1つの確率が見つかる確率比であり、もう1つは確率的分類モデルによって提供される。 分類モデルは適応的に更新され、ラベルへの高い依存度を予測するために使用される。 理論的には、我々のフレームワークが \emph{anytime-valid} $p$-value を生成するという証明を提供する。 さらに,漸近および有限サンプルシナリオにおける特徴変数とラベル変数の相互情報を分析することにより,提案手法の試験能力の向上を特徴付ける。 合成, MNIST, およびアプリケーション固有のデータセットを用いた実験により, Type I の誤差が制御されている間に, 実効シーケンシャルテストの試験能力が著しく増加することが示された。

A two-sample hypothesis test is a statistical procedure used to determine whether the distributions generating two samples are identical. We consider the two-sample testing problem in a new scenario where the sample measurements (or sample features) are inexpensive to access, but their group memberships (or labels) are costly. To address the problem, we devise the first \emph{active sequential two-sample testing framework} that not only sequentially but also \emph{actively queries}. Our test statistic is a likelihood ratio where one likelihood is found by maximization over all class priors, and the other is provided by a probabilistic classification model. The classification model is adaptively updated and used to predict where the (unlabelled) features have a high dependency on labels; labeling the ``high-dependency'' features leads to the increased power of the proposed testing framework. In theory, we provide the proof that our framework produces an \emph{anytime-valid} $p$-value. In addition, we characterize the proposed framework's gain in testing power by analyzing the mutual information between the feature and label variables in asymptotic and finite-sample scenarios. In practice, we introduce an instantiation of our framework and evaluate it using several experiments; the experiments on the synthetic, MNIST, and application-specific datasets demonstrate that the testing power of the instantiated active sequential test significantly increases while the Type I error is under control.
翻訳日:2024-07-01 22:29:40 公開日:2024-06-28
# 超伝導量子ドット上の任意の量子論理ゲートの直接パルスレベルコンパイル

Direct pulse-level compilation of arbitrary quantum logic gates on superconducting qutrits ( http://arxiv.org/abs/2303.04261v3 )

ライセンス: Link先を確認
Yujin Cho, Kristin M. Beck, Alessandro R. Castelli, Kyle A. Wendt, Bram Evert, Matthew J. Reagor, Jonathan L DuBois, (参考訳) 量子コンピュータの高度なシミュレーションと計算は、量子演算の高忠実性実装を必要とする。 普遍ゲートセットアプローチは、小さなプリミティブゲートの集合から複雑なユニタリを構築するため、多くの場合、総累積誤差の主要因となる長いゲートシーケンスが生じる。 クエトリットのような高次元論理要素を持つプロセッサの複雑なユニタリをコンパイルすると、より長いゲートシーケンスを必要とするため、ユニタリ当たりの累積誤差が増大する。 最適制御法は時間と資源効率のよいコンパクトゲート列を約束する。 これらの方法は、量子デバイス上で任意の複雑なユニタリを直接実装できるパルスを生成する。 本研究では,任意のqubitおよびqutritゲートを高忠実度で実現でき,ゲート列の長さを大幅に削減できることを示す。 いくつかの量子処理ユニット(QPU)でランダムに選択された多数の任意ユニタリに対して、LLNL量子デバイスと統合テストベッド(QuDIT)標準QPUと3つのリゲッティQPU(Ankaa-2,Ankaa-9Q-1,Aspen-M-3)に対してパルスを生成し、テストする。 QuDITプラットフォームの標準QPUでは、従来のQPTでは97.9+-0.5%、QPTでは98.8+-0.6%、ゲートフォールディングでは98.8+-0.6%である。 リゲッティのAnkaa-2は、平均的忠実度98.4+-0.5%(従来のQPT)と99.7+-0.1%(QPTとゲート折りたたみ)のランダムなクビットゲートを達成している。 Ankaa-9Q-1およびAspen-M-3では,従来のQPT測定では99%以上であった。 最適制御ゲートは少なくとも3時間ドリフトでき、同じ校正パラメータを全ての実装ゲートに利用できることを示す。 我々の研究は、最適制御ゲートの校正オーバーヘッドを十分に小さくすることができ、この技術に基づいた効率的な量子回路を実現することを約束している。

Advanced simulations and calculations on quantum computers require high-fidelity implementations of quantum operations. The universal gateset approach builds complex unitaries from a small set of primitive gates, often resulting in a long gate sequence which is typically a leading factor in the total accumulated error. Compiling a complex unitary for processors with higher-dimensional logical elements, such as qutrits, exacerbates the accumulated error per unitary, since an even longer gate sequence is required. Optimal control methods promise time and resource efficient compact gate sequences and, therefore, higher fidelity. These methods generate pulses that can directly implement any complex unitary on a quantum device. In this work, we demonstrate any arbitrary qubit and qutrit gate can be realized with high-fidelity, which can significantly reduce the length of a gate sequence. We generate and test pulses for a large set of randomly selected arbitrary unitaries on several quantum processing units (QPUs): the LLNL Quantum Device and Integration Testbed (QuDIT) standard QPU and three of Rigetti QPUs: Ankaa-2, Ankaa-9Q-1, and Aspen-M-3. On the QuDIT platform's standard QPU, the average fidelity of random qutrit gates is 97.9+-0.5% measured with conventional QPT and 98.8+-0.6% from QPT with gate folding. Rigetti's Ankaa-2 achieves random qubit gates with an average fidelity of 98.4+-0.5% (conventional QPT) and 99.7+-0.1% (QPT with gate folding). On Ankaa-9Q-1 and Aspen-M-3, the average fidelities with conventional qubit QPT measurements were higher than 99%. We show that optimal control gates are robust to drift for at least three hours and that the same calibration parameters can be used for all implemented gates. Our work promises the calibration overheads for optimal control gates can be made small enough to enable efficient quantum circuits based on this technique.
翻訳日:2024-07-01 22:29:40 公開日:2024-06-28
# G-不変グラフラプラシアン

The G-invariant graph Laplacian ( http://arxiv.org/abs/2303.17001v4 )

ライセンス: Link先を確認
Eitan Rosen, Paulina Hoyos, Xiuyuan Cheng, Joe Kileel, Yoel Shkolnisky, (参考訳) グラフラプラシアンに基づく多様体上のデータに対するアルゴリズムは、次元減少、クラスタリング、デノナイジングといったタスクに有効であることが証明されている。 本稿では、既知のユニタリ行列リー群 G の作用の下で閉じた多様体上のデータ点を持つデータセットについて考察する。 後者の構成は ``G-不変グラフラプラシアン' (G-GL) とみなす。 G-GL はデータ多様体上のラプラス・ベルトラミ作用素に収束するが、与えられたデータセットの点間距離のみを利用する標準グラフラプラシアンの収束速度は大幅に向上する。 さらに、G-GLは、FFT型アルゴリズムを用いて効率的にデータから推定できる、群要素とある種の行列の固有ベクトルの間の特定の積の形式を持つ固有関数の集合を許容することを示した。 特殊ユニタリ群 SU(2) の作用の下で閉じたノイジー多様体上のデータをフィルタリングする問題に対する我々の構成とその利点を実証する。

Graph Laplacian based algorithms for data lying on a manifold have been proven effective for tasks such as dimensionality reduction, clustering, and denoising. In this work, we consider data sets whose data points lie on a manifold that is closed under the action of a known unitary matrix Lie group G. We propose to construct the graph Laplacian by incorporating the distances between all the pairs of points generated by the action of G on the data set. We deem the latter construction the ``G-invariant Graph Laplacian'' (G-GL). We show that the G-GL converges to the Laplace-Beltrami operator on the data manifold, while enjoying a significantly improved convergence rate compared to the standard graph Laplacian which only utilizes the distances between the points in the given data set. Furthermore, we show that the G-GL admits a set of eigenfunctions that have the form of certain products between the group elements and eigenvectors of certain matrices, which can be estimated from the data efficiently using FFT-type algorithms. We demonstrate our construction and its advantages on the problem of filtering data on a noisy manifold closed under the action of the special unitary group SU(2).
翻訳日:2024-07-01 22:23:58 公開日:2024-06-28
# DLRover-RM:クラウドにおける深層推薦モデルの資源最適化

DLRover-RM: Resource Optimization for Deep Recommendation Models Training in the Cloud ( http://arxiv.org/abs/2304.01468v2 )

ライセンス: Link先を確認
Qinlong Wang, Tingfeng Lan, Yinghao Tang, Ziling Huang, Yiheng Du, Haitao Zhang, Jian Sha, Hui Lu, Yuanchun Zhou, Ke Zhang, Mingjie Tang, (参考訳) ディープラーニングレコメンデーションモデル(DLRM)は、分類的スパース機能を管理するために大きな埋め込みテーブルに依存している。 このような埋め込みテーブルの拡張は、モデルパフォーマンスを大幅に向上させるが、GPU/CPU/メモリ使用量の増加を犠牲にする。 一方、IT企業はDLRMモデルの大規模トレーニングを加速するために、広範なクラウドベースのサービスを構築している。 本稿では,AntGroupにおけるDLRMトレーニングプラットフォームを深く調査し,ユーザによる最適以下の設定によるリソース利用の低さと,不安定なクラウド環境による異常に遭遇する傾向の2つの重要な課題を明らかにする。 DLRover-RMは,資源利用量を増やし,クラウド環境の不安定性に対処するために設計されたDLRMの弾性トレーニングフレームワークである。 DLRover-RMは、DLRMのユニークな特性と、DLRMトレーニングジョブのリソースを自動的に割り当て、動的に調整する3段階のヒューリスティック戦略を考慮して、リソースパフォーマンスモデルを開発する。 さらに、DLRover-RMは、DLRMトレーニングジョブの効率的かつ信頼性の高い実行を保証するための複数のメカニズムを開発している。 DLRover-RMはジョブ完了時間を31%削減し、ジョブ完了率を6%向上し、CPU使用率を15%向上し、最先端のリソーススケジューリングフレームワークと比較してメモリ使用率を20%向上した。 DLRover-RMはAntGroupで広くデプロイされ、毎日何千ものDLRMトレーニングジョブを処理する。 DLRover-RMはオープンソースで、10社以上の企業が採用している。

Deep learning recommendation models (DLRM) rely on large embedding tables to manage categorical sparse features. Expanding such embedding tables can significantly enhance model performance, but at the cost of increased GPU/CPU/memory usage. Meanwhile, tech companies have built extensive cloud-based services to accelerate training DLRM models at scale. In this paper, we conduct a deep investigation of the DLRM training platforms at AntGroup and reveal two critical challenges: low resource utilization due to suboptimal configurations by users and the tendency to encounter abnormalities due to an unstable cloud environment. To overcome them, we introduce DLRover-RM, an elastic training framework for DLRMs designed to increase resource utilization and handle the instability of a cloud environment. DLRover-RM develops a resource-performance model by considering the unique characteristics of DLRMs and a three-stage heuristic strategy to automatically allocate and dynamically adjust resources for DLRM training jobs for higher resource utilization. Further, DLRover-RM develops multiple mechanisms to ensure efficient and reliable execution of DLRM training jobs. Our extensive evaluation shows that DLRover-RM reduces job completion times by 31%, increases the job completion rate by 6%, enhances CPU usage by 15%, and improves memory utilization by 20%, compared to state-of-the-art resource scheduling frameworks. DLRover-RM has been widely deployed at AntGroup and processes thousands of DLRM training jobs on a daily basis. DLRover-RM is open-sourced and has been adopted by 10+ companies.
翻訳日:2024-07-01 22:23:58 公開日:2024-06-28
# 積分による単純なqudit ZXとZHの計算

Simple qudit ZX and ZH calculi, via integrals ( http://arxiv.org/abs/2304.03310v2 )

ライセンス: Link先を確認
Niel de Beaudrap, Richard D. P. East, (参考訳) ZX電卓とZH電卓は、量子演算の性質を表わし、計算するためにダイアグラムを使用し、'rewrite rules' を使用して、関手意味写像を通して同じ演算子を表すダイアグラム間の変換を行う。 異なるセマンティックマップは異なるリライトシステムを生み出し、異なる目的のためにより便利であることが証明される。 離散測度を用いて、ZX および ZH 図のセマンティックマップを記述し、ユニタリ回路の解析に適し、任意の固定次元 D>1 の立方体を単一の 'ZXH-計算' として測定する。 本稿では,ZX計算の'stabiliser fragment'とZH計算の'multicharacter fragment'の書き直し規則を示す。

The ZX calculus and ZH calculus use diagrams to denote and compute properties of quantum operations, using `rewrite rules' to transform between diagrams which denote the same operator through a functorial semantic map. Different semantic maps give rise to different rewrite systems, which may prove more convenient for different purposes. Using discrete measures, we describe semantic maps for ZX and ZH diagrams, well-suited to analyse unitary circuits and measurements on qudits of any fixed dimension D>1 as a single `ZXH-calculus'. We demonstrate rewrite rules for the `stabiliser fragment' of the ZX calculus and a `multicharacter fragment' of the ZH calculus.
翻訳日:2024-07-01 22:23:58 公開日:2024-06-28
# 低用量マルチフレームスパイラルCTのためのクロスドメインデノイング

Cross-domain Denoising for Low-dose Multi-frame Spiral Computed Tomography ( http://arxiv.org/abs/2304.10839v4 )

ライセンス: Link先を確認
Yucheng Lu, Zhixin Xu, Moon Hyung Choi, Jimin Kim, Seung-Won Jung, (参考訳) CTは診断支援のための非侵襲的検査として世界中で用いられている。 しかしながら、X線被曝の電離性は、がんのような潜在的な健康リスクへの懸念を引き起こす。 放射線線量を減らすという欲求は、研究者に再建の質の向上を促した。 従来,低線量CT(LDCT)を用いて,学習手法の有効性を実証してきたが,その多くがシミュレーションデータに基づいて開発された。 しかし、実世界のシナリオはシミュレーション領域と大きく異なり、特にマルチスライス・スパイラル・スキャナーを用いた場合である。 本稿では,複数の領域にまたがるLDCTの完全再構成パイプラインをよりよく活用する,市販のマルチスライス・スパイラルCTスキャナの2段階化手法を提案する。 提案手法は,マルチスライスプロジェクションの高冗長性とボリューム再構成を有効利用するとともに,アグレッシブデノケーションによる従来のカスケードフレームワークの過度なスムース化問題を活用する。 専用の設計は、データフローのより明確な解釈も提供する。 各種データセットに対する広範囲な実験により,提案手法は空間分解能を損なうことなく最大70%のノイズを除去できることが示された。

Computed tomography (CT) has been used worldwide as a non-invasive test to assist in diagnosis. However, the ionizing nature of X-ray exposure raises concerns about potential health risks such as cancer. The desire for lower radiation doses has driven researchers to improve reconstruction quality. Although previous studies on low-dose computed tomography (LDCT) denoising have demonstrated the effectiveness of learning-based methods, most were developed on the simulated data. However, the real-world scenario differs significantly from the simulation domain, especially when using the multi-slice spiral scanner geometry. This paper proposes a two-stage method for the commercially available multi-slice spiral CT scanners that better exploits the complete reconstruction pipeline for LDCT denoising across different domains. Our approach makes good use of the high redundancy of multi-slice projections and the volumetric reconstructions while leveraging the over-smoothing problem in conventional cascaded frameworks caused by aggressive denoising. The dedicated design also provides a more explicit interpretation of the data flow. Extensive experiments on various datasets showed that the proposed method could remove up to 70\% of noise without compromised spatial resolution, and subjective evaluations by two experienced radiologists further supported its superior performance against state-of-the-art methods in clinical practice.
翻訳日:2024-07-01 22:23:58 公開日:2024-06-28
# タンパク質配列設計における重み付け期待値の最大化

Importance Weighted Expectation-Maximization for Protein Sequence Design ( http://arxiv.org/abs/2305.00386v2 )

ライセンス: Link先を確認
Zhenqiao Song, Lei Li, (参考訳) 所望の生物学的機能を持つタンパク質配列を設計することは、生物学や化学において重要である。 最近の機械学習手法では、高価なウェットラブ検証を置き換えるために、サロゲートシーケンス関数モデルを使用している。 高度に適合した多種多様な新規タンパク質配列を効率的に生成する方法 本稿では,特定の適合基準に対するタンパク質配列生成手法であるIsEM-Proを提案する。 中心となるIsEM-Proは、独立に学習されたマルコフランダムフィールド(MRF)の組合せ構造特徴によって強化された潜在生成モデルである。 モデル学習のためのモンテカルロ予測最大化法(MCEM)を開発した。 推論中、潜伏空間からのサンプリングは多様性を高め、MDFの特徴は高いフィットネス領域での探索を導く。 8つのタンパク質配列設計タスクの実験により、我々のIsEM-Proは、平均適合度スコアを55%以上上回り、より多様な新しいタンパク質配列を生成する。

Designing protein sequences with desired biological function is crucial in biology and chemistry. Recent machine learning methods use a surrogate sequence-function model to replace the expensive wet-lab validation. How can we efficiently generate diverse and novel protein sequences with high fitness? In this paper, we propose IsEM-Pro, an approach to generate protein sequences towards a given fitness criterion. At its core, IsEM-Pro is a latent generative model, augmented by combinatorial structure features from a separately learned Markov random fields (MRFs). We develop an Monte Carlo Expectation-Maximization method (MCEM) to learn the model. During inference, sampling from its latent space enhances diversity while its MRFs features guide the exploration in high fitness regions. Experiments on eight protein sequence design tasks show that our IsEM-Pro outperforms the previous best methods by at least 55% on average fitness score and generates more diverse and novel protein sequences.
翻訳日:2024-07-01 22:23:58 公開日:2024-06-28
# 実世界の超解像に先立つ爆発拡散

Exploiting Diffusion Prior for Real-World Image Super-Resolution ( http://arxiv.org/abs/2305.07015v4 )

ライセンス: Link先を確認
Jianyi Wang, Zongsheng Yue, Shangchen Zhou, Kelvin C. K. Chan, Chen Change Loy, (参考訳) 本稿では,視覚超解像(SR)のための事前学習されたテキスト・画像拡散モデルにカプセル化された事前知識を活用する新しい手法を提案する。 具体的には、時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果を達成することができ、生成前の保存とトレーニングコストの最小化が可能となる。 拡散モデル固有の確率性に起因する忠実さの損失を補うために,ユーザが推論プロセス中にスカラー値を調整するだけで品質と忠実さのバランスをとることができる制御可能な特徴包みモジュールを用いる。 さらに,事前学習した拡散モデルの固定サイズ制約を克服し,任意の大きさの分解能に適応するプログレッシブ・アグリゲーション・サンプリング・ストラテジーを開発した。 合成および実世界のベンチマークを用いて,本手法の総合評価を行い,現在の最先端手法よりも優れていることを示す。 コードとモデルはhttps://github.com/IceClear/StableSR.comで公開されている。

We present a novel approach to leverage prior knowledge encapsulated in pre-trained text-to-image diffusion models for blind super-resolution (SR). Specifically, by employing our time-aware encoder, we can achieve promising restoration results without altering the pre-trained synthesis model, thereby preserving the generative prior and minimizing training cost. To remedy the loss of fidelity caused by the inherent stochasticity of diffusion models, we employ a controllable feature wrapping module that allows users to balance quality and fidelity by simply adjusting a scalar value during the inference process. Moreover, we develop a progressive aggregation sampling strategy to overcome the fixed-size constraints of pre-trained diffusion models, enabling adaptation to resolutions of any size. A comprehensive evaluation of our method using both synthetic and real-world benchmarks demonstrates its superiority over current state-of-the-art approaches. Code and models are available at https://github.com/IceClear/StableSR.
翻訳日:2024-07-01 22:23:58 公開日:2024-06-28
# ガウスビーム定常光波における2光子Kapitza-Dirac効果の摂動解法

Perturbative solution approach for computing the two-photon Kapitza-Dirac effect in a Gaussian beam standing light wave ( http://arxiv.org/abs/2305.12399v2 )

ライセンス: Link先を確認
Sven Ahrens, Chong Zhang, Ping Ge, Guweiyi Li, Baifei Shen, (参考訳) カピツァ・ディラック効果の理論的なスピン特性は、平面-波の描写以外の詳細は分かっていない。 相対論的定式化における2光子Kapitza-Dirac効果の電子回折計算法を開発した。 解は時間依存摂動理論に基づいて計算され、外ポテンシャルのフーリエ変換を用いて運動量空間を定式化することで摂動時間積分を解くことができる。 各可能な量子状態の組み合わせに対する反復は、数値的な実装でタイムステッピングが発生しないような空間グリッドの解決に関して、我々の方法の二次的なスケーリングにつながる。 位置空間と運動量空間の格子は、低分解能での2光子相互作用の幾何学に適応しており、この研究は、シミュレーションされた回折パターンの部分収束しか見つからない。 さらに、実装が容易な並列化レイアウトを持つという利点がある。

Theoretical spin properties of the Kapitza-Dirac effect beyond the plane-wave description are not known in detail. We develop a method for computing electron diffraction of the two-photon Kapitza-Dirac effect in a two-dimensional Gaussian beam standing light wave within a relativistic formulation. The solutions are computed on the basis of time-dependent perturbation theory, where a momentum space formulation with the use of a Fourier transformation of the external potential allows for the solving the perturbative time-integrals. An iteration over each possible quantum state combination leads to a quadratic scaling of our method with respect to spacial grid resolution, where time-stepping does not occur in the numeric implementation. The position- and momentum space grids are adapted to the two-photon interaction geometry at low resolution, for which our study only finds partial convergence of the simulated diffraction pattern. Further, the method has the advantage of having an easy implementable parallelization layout.
翻訳日:2024-07-01 22:23:58 公開日:2024-06-28
# 忠実度ランドスケープの順応のためのロバストモデルに基づく最適化

Robust Model-Based Optimization for Challenging Fitness Landscapes ( http://arxiv.org/abs/2305.13650v3 )

ライセンス: Link先を確認
Saba Ghaffari, Ehsan Saleh, Alexander G. Schwing, Yu-Xiong Wang, Martin D. Burke, Saurabh Sinha, (参考訳) タンパク質設計は、当時の大きな課題であり、フィットネスランドスケープの最適化を伴い、主要な手法はモデルベースのアプローチを採用し、モデルがトレーニングセット(タンパク質配列とフィットネス)に基づいてトレーニングされ、次に探索する候補を提案する。 これらの手法は、トレーニングセットにおける高適合度サンプルのばらばらさによって挑戦されるが、これは文献上問題となっている。 リードメソッドは、所望の最適値がトレーニングデータで不足しているだけでなく、高度に表現された低適合性領域から比較的遠い領域にある場合に設計されるものではない。 デザイン空間におけるこの「分離」という問題は、既存のモデルベース最適化ツールにおいて重要なボトルネックであり、新しいVAEを検索モデルとして用いてこの問題を克服する新しいアプローチを提案する。 低適合性試料と高適合性試料との不均衡・分離にかかわらず, 改良された試料を頑健に検出する従来の方法に比べて, その優位性を示す。 実および半合成タンパク質データセットに関する包括的なベンチマークと物理情報ニューラルネットワークのソリューション設計は、離散的かつ連続的な設計空間における我々のアプローチの一般化を実証している。 実装はhttps://github.com/sabagh1994/PGVAEで公開しています。

Protein design, a grand challenge of the day, involves optimization on a fitness landscape, and leading methods adopt a model-based approach where a model is trained on a training set (protein sequences and fitness) and proposes candidates to explore next. These methods are challenged by sparsity of high-fitness samples in the training set, a problem that has been in the literature. A less recognized but equally important problem stems from the distribution of training samples in the design space: leading methods are not designed for scenarios where the desired optimum is in a region that is not only poorly represented in training data, but also relatively far from the highly represented low-fitness regions. We show that this problem of "separation" in the design space is a significant bottleneck in existing model-based optimization tools and propose a new approach that uses a novel VAE as its search model to overcome the problem. We demonstrate its advantage over prior methods in robustly finding improved samples, regardless of the imbalance and separation between low- and high-fitness samples. Our comprehensive benchmark on real and semi-synthetic protein datasets as well as solution design for physics-informed neural networks, showcases the generality of our approach in discrete and continuous design spaces. Our implementation is available at https://github.com/sabagh1994/PGVAE.
翻訳日:2024-07-01 22:23:58 公開日:2024-06-28
# プロンプトポジションは本当に重要ですか?

Do prompt positions really matter? ( http://arxiv.org/abs/2305.14493v4 )

ライセンス: Link先を確認
Junyu Mao, Stuart E. Middleton, Mahesan Niranjan, (参考訳) プロンプトベースのモデルは、ゼロショットと少数ショット学習の分野で顕著な進歩のために、研究者から多くの注目を集めている。 効果的なプロンプトテンプレートの開発は重要な役割を果たす。 しかし,先行研究は主に,事前定義されたテンプレート内での語彙検索や埋め込み初期化に重点を置いており,その位置が固定されている。 本研究では,多様な自然言語処理(NLP)タスクにおいて,現在までの包括的分析を行う。 以上の結果から,モデル性能に対する実質的な影響を定量的に評価した。 先行研究で用いられるプロンプト位置は、しばしば準最適であり、この観測は広く使われている命令調整モデルにおいても一貫している。 これらの知見は, 迅速な工学手法の強化と, 将来より堅牢なモデル構築の潜在的方法として, 位置認識型指導チューニングの促進に有効な研究方向として, 迅速な位置最適化が重要であることを示唆している。

Prompt-based models have gathered a lot of attention from researchers due to their remarkable advancements in the fields of zero-shot and few-shot learning. Developing an effective prompt template plays a critical role. However, prior studies have mainly focused on prompt vocabulary searching or embedding initialization within a predefined template with the prompt position fixed. In this empirical study, we conduct the most comprehensive analysis to date of prompt position for diverse Natural Language Processing (NLP) tasks. Our findings quantify the substantial impact prompt position has on model performance. We observe that the prompt positions used in prior studies are often sub-optimal, and this observation is consistent even in widely used instruction-tuned models. These findings suggest prompt position optimisation as a valuable research direction to augment prompt engineering methodologies and prompt position-aware instruction tuning as a potential way to build more robust models in the future.
翻訳日:2024-07-01 22:23:58 公開日:2024-06-28
# MathChat: LLMエージェントを用いたタックルChallenging数学問題への対処

MathChat: Converse to Tackle Challenging Math Problems with LLM Agents ( http://arxiv.org/abs/2306.01337v3 )

ライセンス: Link先を確認
Yiran Wu, Feiran Jia, Shaokun Zhang, Hangyu Li, Erkang Zhu, Yue Wang, Yin Tat Lee, Richard Peng, Qingyun Wu, Chi Wang, (参考訳) 数学問題に対処するために大規模言語モデル(LLM)を採用することは、多くの科学・工学分野にわたって自然言語で表される数学問題の豊富さを考えると、興味深い研究努力である。 汎用能力を備えたLLMは、さまざまなタスクのためのAIエージェントを構築するための基礎モデルとして使用される。 本稿では,LLMエージェントを用いた会話による数学問題の解法の有効性について検討する。 本研究では,数学問題のための対話型問題解決フレームワークであるMathChatを提案する。 MathChatは、ツールの実行と追加のガイダンスを担当するLLMエージェントとユーザプロキシエージェントで構成される。 このシナジーは協調的な問題解決プロセスを促進し、エージェントは問題を解くために対話を行う。 我々は,MATHデータセットを用いて,難易度の高い高校競争問題の評価を行う。 Pythonを利用すると、MathChatは従来のツール使用プロンプトメソッドを6%改善できることを示す。

Employing Large Language Models (LLMs) to address mathematical problems is an intriguing research endeavor, considering the abundance of math problems expressed in natural language across numerous science and engineering fields. LLMs, with their generalized ability, are used as a foundation model to build AI agents for different tasks. In this paper, we study the effectiveness of utilizing LLM agents to solve math problems through conversations. We propose MathChat, a conversational problem-solving framework designed for math problems. MathChat consists of an LLM agent and a user proxy agent which is responsible for tool execution and additional guidance. This synergy facilitates a collaborative problem-solving process, where the agents engage in a dialogue to solve the problems. We perform evaluation on difficult high school competition problems from the MATH dataset. Utilizing Python, we show that MathChat can further improve previous tool-using prompting methods by 6%.
翻訳日:2024-07-01 22:23:58 公開日:2024-06-28
# 平均フィールドゲームにおける分散エージェントのためのネットワーク通信

Networked Communication for Decentralised Agents in Mean-Field Games ( http://arxiv.org/abs/2306.02766v3 )

ライセンス: Link先を確認
Patrick Benjamin, Alessandro Abate, (参考訳) 平均フィールドゲームフレームワークにネットワーク通信を導入し、特に、N$の分散エージェントが経験的システムの単一かつ非エポゾリックな実行について学習するオラクルフリーな設定について紹介する。 私たちのアーキテクチャは、ネットワーク構造に関する合理的な仮定がほんの少ししかないだけで、中央集権型と独立学習型のケースのサンプル保証が拘束されていることを証明しています。 3つの理論的アルゴリズムのサンプル保証が実際どのように実践的な収束をもたらすかについて議論する。 したがって、理論パラメータが観測されない現実的な環境では(Q-関数の推定が不十分なため)、我々の通信方式は、集中学習者の仮定に頼ることなく、独立したケース(そして多くの場合、集中化されたケース)に対する収束を著しく加速する。 3つの理論アルゴリズムにさらに実践的な拡張を加え、最初の実証実験を提示する。 実験により,アルゴリズムの理論的仮定のいくつかを取り除き,新たなネットワーク通信による経験的収束効果を示すことができることを確認した。 さらに、ネットワーク化アプローチは、予期せぬ学習障害に対する堅牢性や人口規模の変化という点において、中央集権型および独立型の選択肢よりも大きな優位性があることも示している。

We introduce networked communication to the mean-field game framework, in particular to oracle-free settings where $N$ decentralised agents learn along a single, non-episodic run of the empirical system. We prove that our architecture, with only a few reasonable assumptions about network structure, has sample guarantees bounded between those of the centralised- and independent-learning cases. We discuss how the sample guarantees of the three theoretical algorithms do not actually result in practical convergence. We therefore show that in practical settings where the theoretical parameters are not observed (leading to poor estimation of the Q-function), our communication scheme significantly accelerates convergence over the independent case (and often even the centralised case), without relying on the assumption of a centralised learner. We contribute further practical enhancements to all three theoretical algorithms, allowing us to present their first empirical demonstrations. Our experiments confirm that we can remove several of the theoretical assumptions of the algorithms, and display the empirical convergence benefits brought by our new networked communication. We additionally show that the networked approach has significant advantages, over both the centralised and independent alternatives, in terms of robustness to unexpected learning failures and to changes in population size.
翻訳日:2024-07-01 22:23:58 公開日:2024-06-28
# パラメータ化量子回路におけるバックプロパゲーションスケーリング

Backpropagation scaling in parameterised quantum circuits ( http://arxiv.org/abs/2306.14962v3 )

ライセンス: Link先を確認
Joseph Bowles, David Wierichs, Chae-Yeun Park, (参考訳) バックプロパゲーションアルゴリズムの発見は、機械学習の歴史において最も重要な瞬間の1つであり、モデル評価とほぼ同じ計算コストで勾配を計算する能力を通じて、大規模ニューラルネットワークのトレーニングを可能にした。 その重要性にもかかわらず、パラメータ化量子回路の勾配評価のための同様のバックプロパゲーションのようなスケーリングは、いまだ解明されていない。 現在最も一般的な方法は、回路パラメータの数に応じてスケールする多数の回路からのサンプリングを必要としており、大規模な量子回路のトレーニングは事実上高価である。 ここでは、古典的にシミュレート可能でない構造回路のクラスを導入し、より少ない回路で勾配推定を行うことにより、この問題に対処する。 最も単純な場合 -- パラメータが可換な量子ゲートに供給される -- では、これらの回路は勾配、高次偏微分、フィッシャー情報行列の高速な推定を可能にする。 さらに、パラメータ化回路の特定の族は、勾配推定のスケーリングが古典的なバックプロパゲーションと一致しており、スケールで訓練することができる。 16量子ビットの玩具分類問題では、これらの回路は他の手法と競合する性能を示し、トレーニングコストを約2桁削減する。

The discovery of the backpropagation algorithm ranks among one of the most important moments in the history of machine learning, and has made possible the training of large-scale neural networks through its ability to compute gradients at roughly the same computational cost as model evaluation. Despite its importance, a similar backpropagation-like scaling for gradient evaluation of parameterised quantum circuits has remained elusive. Currently, the most popular method requires sampling from a number of circuits that scales with the number of circuit parameters, making training of large-scale quantum circuits prohibitively expensive in practice. Here we address this problem by introducing a class of structured circuits that are not known to be classically simulable and admit gradient estimation with significantly fewer circuits. In the simplest case -- for which the parameters feed into commuting quantum gates -- these circuits allow for fast estimation of the gradient, higher order partial derivatives and the Fisher information matrix. Moreover, specific families of parameterised circuits exist for which the scaling of gradient estimation is in line with classical backpropagation, and can thus be trained at scale. In a toy classification problem on 16 qubits, such circuits show competitive performance with other methods, while reducing the training cost by about two orders of magnitude.
翻訳日:2024-07-01 22:23:58 公開日:2024-06-28
# MALIBO: 自由ベイズ最適化のためのメタラーニング

MALIBO: Meta-learning for Likelihood-free Bayesian Optimization ( http://arxiv.org/abs/2307.03565v3 )

ライセンス: Link先を確認
Jiarong Pan, Stefan Falkner, Felix Berkenkamp, Joaquin Vanschoren, (参考訳) ベイズ最適化(BO)はコストのかかるブラックボックス関数を最適化する一般的な方法である。 従来のBOは、新しいタスクをスクラッチから最適化するが、メタラーニングは、関連するタスクからの知識を活用して、新しいタスクを高速に最適化する方法として登場した。 しかし、既存のメタラーニングBO法は、スケーラビリティの問題に悩まされ、タスクのスケールやノイズタイプが異なる観察に敏感なサロゲートモデルに依存している。 さらに、彼らはしばしばタスクの類似性に関連する不確実性を見落とします。 これは、限られた観察しか得られなかったり、新しいタスクが関連するタスクと大きく異なる場合、信頼性の低いタスク適応につながる。 これらの制約に対処するため,サロゲートモデルをバイパスし,タスク間のクエリの有用性を直接学習するメタラーニングBO手法を提案する。 本手法は,タスクの不確実性を明示的にモデル化し,新しいタスクへのロバスト適応を可能にする補助モデルを含む。 実験結果から,本手法はリアルタイムに高い性能を示し,様々なベンチマークで最先端のメタラーニングBO法より優れていることが示された。

Bayesian optimization (BO) is a popular method to optimize costly black-box functions. While traditional BO optimizes each new target task from scratch, meta-learning has emerged as a way to leverage knowledge from related tasks to optimize new tasks faster. However, existing meta-learning BO methods rely on surrogate models that suffer from scalability issues and are sensitive to observations with different scales and noise types across tasks. Moreover, they often overlook the uncertainty associated with task similarity. This leads to unreliable task adaptation when only limited observations are obtained or when the new tasks differ significantly from the related tasks. To address these limitations, we propose a novel meta-learning BO approach that bypasses the surrogate model and directly learns the utility of queries across tasks. Our method explicitly models task uncertainty and includes an auxiliary model to enable robust adaptation to new tasks. Extensive experiments show that our method demonstrates strong anytime performance and outperforms state-of-the-art meta-learning BO methods in various benchmarks.
翻訳日:2024-07-01 22:23:58 公開日:2024-06-28
# SciBench: 大規模言語モデルの大学レベルの科学的問題解決能力の評価

SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models ( http://arxiv.org/abs/2307.10635v3 )

ライセンス: Link先を確認
Xiaoxuan Wang, Ziniu Hu, Pan Lu, Yanqiao Zhu, Jieyu Zhang, Satyen Subramaniam, Arjun R. Loomba, Shichang Zhang, Yizhou Sun, Wei Wang, (参考訳) 既存のLarge Language Model (LLM) ベンチマークのほとんどは、中学生に根ざした問題に焦点をあて、基本的な代数的操作に限られている。 複雑な科学的問題を解くのに必要な推論能力を体系的に検討するために,LLMのための拡張ベンチマークスイートSciBenchを導入する。 SciBenchは、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含む、注意深く計算されたデータセットを含んでいる。 本データセットに基づいて,様々なプロンプト戦略を持つオープンソースおよびプロプライエタリ LLM の詳細なベンチマークを行う。 その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。 さらに、詳細なユーザスタディにより、LLMによる誤りを10の問題解決能力に分類する。 分析の結果,一つのプロンプト戦略が他を著しく上回り,特定の問題解決スキルの改善を示す戦略が他のスキルの低下をもたらす可能性が示唆された。 我々は、SciBenchがLSMの推論能力のさらなる発展を触媒し、究極的には科学的研究と発見に寄与することを期待している。

Most of the existing Large Language Model (LLM) benchmarks on scientific problem reasoning focus on problems grounded in high-school subjects and are confined to elementary algebraic operations. To systematically examine the reasoning capabilities required for solving complex scientific problems, we introduce an expansive benchmark suite SciBench for LLMs. SciBench contains a carefully curated dataset featuring a range of collegiate-level scientific problems from mathematics, chemistry, and physics domains. Based on the dataset, we conduct an in-depth benchmarking study of representative open-source and proprietary LLMs with various prompting strategies. The results reveal that the current LLMs fall short of delivering satisfactory performance, with the best overall score of merely 43.22%. Furthermore, through a detailed user study, we categorize the errors made by LLMs into ten problem-solving abilities. Our analysis indicates that no single prompting strategy significantly outperforms the others and some strategies that demonstrate improvements in certain problem-solving skills could result in declines in other skills. We envision that SciBench will catalyze further developments in the reasoning abilities of LLMs, thereby ultimately contributing to scientific research and discovery.
翻訳日:2024-07-01 22:14:08 公開日:2024-06-28
# 捕捉イオンを用いた測定に基づく量子ランダムサンプリングの検証

Verifiable measurement-based quantum random sampling with trapped ions ( http://arxiv.org/abs/2307.14424v2 )

ライセンス: Link先を確認
Martin Ringbauer, Marcel Hinsche, Thomas Feldker, Paul K. Faehrmann, Juani Bermejo-Vega, Claire Edmunds, Lukas Postler, Roman Stricker, Christian D. Marciniak, Michael Meth, Ivan Pogorelov, Rainer Blatt, Philipp Schindler, Jens Eisert, Thomas Monz, Dominik Hangleiter, (参考訳) 量子コンピュータは、今、彼らの古典的なコンピュータよりも優れています。 量子計算の利点を実証する1つの方法は、量子コンピューティングデバイス上で実行される量子ランダムサンプリングである。 しかし、量子デバイスが古典的に難解なサンプリングタスクを実際に実行したことを検証するための既存のツールは、量子アドバンストレジームに対して非現実的であるか、スケーラブルではないかのどちらかである。 検証問題は依然として顕著な課題である。 ここでは、捕捉イオン量子プロセッサ上での量子計算の測定に基づくモデルにおいて、効率よく検証可能な量子ランダムサンプリングを実験的に示す。 測定ベースの計算の中心であるランダムクラスタ状態から,最大4x4量子ビットまでの大きさのサンプルを作成し,サンプル化する。 これらの状態の構造を利用することで、計算中にクビットをリサイクルし、クビットレジスタよりも大きい絡み合ったクラスタ状態からサンプリングすることができる。 次に、単一のインスタンスと平均で、準備された状態を検証するための忠実度を効率的に見積もり、その結果をクロスエントロピーベンチマークと比較します。 最後に,実験騒音が証明書に与える影響について検討する。 我々の結果と技術は、量子優位性の実証的な実証に向けて実現可能な道筋を提供する。

Quantum computers are now on the brink of outperforming their classical counterparts. One way to demonstrate the advantage of quantum computation is through quantum random sampling performed on quantum computing devices. However, existing tools for verifying that a quantum device indeed performed the classically intractable sampling task are either impractical or not scalable to the quantum advantage regime. The verification problem thus remains an outstanding challenge. Here, we experimentally demonstrate efficiently verifiable quantum random sampling in the measurement-based model of quantum computation on a trapped-ion quantum processor. We create and sample from random cluster states, which are at the heart of measurement-based computing, up to a size of 4 x 4 qubits. By exploiting the structure of these states, we are able to recycle qubits during the computation to sample from entangled cluster states that are larger than the qubit register. We then efficiently estimate the fidelity to verify the prepared states -- in single instances and on average -- and compare our results to cross-entropy benchmarking. Finally, we study the effect of experimental noise on the certificates. Our results and techniques provide a feasible path toward a verified demonstration of a quantum advantage.
翻訳日:2024-07-01 22:14:08 公開日:2024-06-28
# EnSolver: 理論的保証付きCAPTCHAソルバーの不確かさを意識したアンサンブル

EnSolver: Uncertainty-Aware Ensemble CAPTCHA Solvers with Theoretical Guarantees ( http://arxiv.org/abs/2307.15180v2 )

ライセンス: Link先を確認
Duc C. Hoang, Behzad Ousat, Amin Kharraz, Cuong V. Nguyen, (参考訳) 自動化されたボットからウェブサイトを保護するセキュリティメカニズムとしてのテキストベースのCAPTCHAの人気は、CAPTCHA解決者の研究を刺激し、その障害事例を理解し、CAPTCHAをよりセキュアにする。 最近提案された解法は、ディープラーニングの進歩に基づいて構築されており、非常に難解なCAPTCHAを高い精度でクラックすることができる。 しかし、これらの解法は、トレーニングセットのものと異なる視覚的特徴を含む分布外サンプルでよく機能しない。 さらに、このようなサンプルを検出して回避する能力が欠如しており、一定数の試行が失敗した後、防衛システムによってロックアウトされる恐れがある。 本稿では,CAPTCHA の深いアンサンブル不確実性を利用して CAPTCHA の検出とスキップを行う CAPTCHA のファミリである EnSolver を提案する。 我々は,解法の有効性に新たな理論的限界を証明し,その応用を最先端のCAPTCHA解法で実証する。 提案手法は,分布内および分布外の両方を含むCAPTCHAデータセットをクラックする場合に有効であることを示す。

The popularity of text-based CAPTCHA as a security mechanism to protect websites from automated bots has prompted researches in CAPTCHA solvers, with the aim of understanding its failure cases and subsequently making CAPTCHAs more secure. Recently proposed solvers, built on advances in deep learning, are able to crack even the very challenging CAPTCHAs with high accuracy. However, these solvers often perform poorly on out-of-distribution samples that contain visual features different from those in the training set. Furthermore, they lack the ability to detect and avoid such samples, making them susceptible to being locked out by defense systems after a certain number of failed attempts. In this paper, we propose EnSolver, a family of CAPTCHA solvers that use deep ensemble uncertainty to detect and skip out-of-distribution CAPTCHAs, making it harder to be detected. We prove novel theoretical bounds on the effectiveness of our solvers and demonstrate their use with state-of-the-art CAPTCHA solvers. Our experiments show that the proposed approaches perform well when cracking CAPTCHA datasets that contain both in-distribution and out-of-distribution samples.
翻訳日:2024-07-01 22:14:08 公開日:2024-06-28
# タラセミア検出のための伝達学習を可能にするDeep Maxout Network-based Feature Fusionと政治タンジェント検索最適化

Deep Maxout Network-based Feature Fusion and Political Tangent Search Optimizer enabled Transfer Learning for Thalassemia Detection ( http://arxiv.org/abs/2308.02029v3 )

ライセンス: Link先を確認
Hemn Barzan Abdalla, Awder Ahmed, Guoquan Li, Nasser Mustafa, Abdur Rashid Sangi, (参考訳) タラス血症は遺伝性血液疾患であり、ヘモグロビンポリペプチド鎖の産生不足を引き起こす遺伝子異常の結果である。 しかし、これらの領域における正確な頻度と共有の理解は少ない。 タラセミアの発生頻度や変異の信頼性を知ることは、予防、制御、治療計画において重要なステップである。 ここでは、タラセミア検出にPTSO_TL(Political Tangent Search Optimizer based Transfer Learning)を導入する。 当初、特定のデータセットから得られた入力データは、データ正規化段階において正規化される。 データ正規化段階では量子正規化を利用し、そのデータを特徴融合フェーズに渡して、Deep Maxout Network(DMN)を用いたWeighted Euclidean Distanceを利用する。 その後、オーバーサンプリング法を用いてデータ拡張を行い、データ次元を増加させる。 最後に、Talassemia DetectionはTLによって行われ、Xceptionのような訓練されたモデルから畳み込みニューラルネットワーク(CNN)をハイパーパラメータとして利用する。 TLはPTSOで調整され、トレーニングアルゴリズムPTSOは政治最適化アルゴリズム(PO)とタンジェント探索アルゴリズム(TSA)を併用して提示される。 さらにPTSO_TLは、それぞれ94.3%、96.1%、95.2%の最大精度、リコール、f測定値を得た。

Thalassemia is a heritable blood disorder which is the outcome of a genetic defect causing lack of production of hemoglobin polypeptide chains. However, there is less understanding of the precise frequency as well as sharing in these areas. Knowing about the frequency of thalassemia occurrence and dependable mutations is thus a significant step in preventing, controlling, and treatment planning. Here, Political Tangent Search Optimizer based Transfer Learning (PTSO_TL) is introduced for thalassemia detection. Initially, input data obtained from a particular dataset is normalized in the data normalization stage. Quantile normalization is utilized in the data normalization stage, and the data are then passed to the feature fusion phase, in which Weighted Euclidean Distance with Deep Maxout Network (DMN) is utilized. Thereafter, data augmentation is performed using the oversampling method to increase data dimensionality. Lastly, thalassemia detection is carried out by TL, wherein a convolutional neural network (CNN) is utilized with hyperparameters from a trained model such as Xception. TL is tuned by PTSO, and the training algorithm PTSO is presented by merging of Political Optimizer (PO) and Tangent Search Algorithm (TSA). Furthermore, PTSO_TL obtained maximal precision, recall, and f-measure values of about 94.3%, 96.1%, and 95.2%, respectively.
翻訳日:2024-07-01 22:14:08 公開日:2024-06-28
# BlockChain I/O: クロスチェーンコマースの実現

BlockChain I/O: Enabling Cross-Chain Commerce ( http://arxiv.org/abs/2308.02163v3 )

ライセンス: Link先を確認
Anwitaman Datta, Daniël Reijsbergen, Jingchi Zhang, Suman Majumder, (参考訳) ブロックチェーン技術は、デジタルマーケットプレースにおけるセキュアなトークン転送を可能にし、この分野での最近の進歩は、効率性、プライバシ、価格安定性といった他の望ましい特性を提供する。 しかしながら、これらのプロパティは、複数の独立したブロックチェーンにまたがる設定に常に一般化されるとは限らない。 既存のブロックチェーンプラットフォームが増えているにも関わらず、実践的なクロスチェーンコマースに必要なすべての特性をコンポーネントとして提供する、包括的なフレームワークが欠如している。 このようなフレームワークを提供するためにBlockChain I/Oを紹介します。 BlockChain I/Oでは、クロスチェーンサービスと呼ばれるエンティティを導入し、異なるブロックチェーン間で情報を中継する。 提案した設計は、クロスチェーンサービスがトランザクションの安全性に違反しないことを保証し、監査システムを通じて他の種類の不正行為からさらに非インセンティブを与える。 BlockChain I/Oでは、ネイティブなstablecoinを使用して価格変動を緩和し、分散IDシステムを使用して、プライバシを侵害することなく、IDの側面を証明している。 BlockChain I/Oのコアアーキテクチャを提示した後、チェーン間マーケットプレースの実装にどのように使用するかを示し、その望ましい特性がエンドツーエンドシステムでどのように保たれているかを議論する。 最後に,BlockChain I/Oの実用性能を実証するために実験的な評価を行った。

Blockchain technology enables secure tokens transfers in digital marketplaces, and recent advances in this field provide other desirable properties such as efficiency, privacy, and price stability. However, these properties do not always generalize to a setting across multiple independent blockchains. Despite the growing number of existing blockchain platforms, there is a lack of an overarching framework whose components provide all of the necessary properties for practical cross-chain commerce. We present BlockChain I/O to provide such a framework. BlockChain I/O introduces entities called cross-chain services to relay information between different blockchains. The proposed design ensures that cross-chain services cannot violate transaction safety, and they are furthermore disincentivized from other types of misbehavior through an audit system. BlockChain I/O uses native stablecoins to mitigate price fluctuations, and a decentralized ID system to allow users to prove aspects of their identity without violating privacy. After presenting the core architecture of BlockChain I/O, we demonstrate how to use it to implement a cross-chain marketplace and discuss how its desirable properties continue to hold in the end-to-end system. Finally, we use experimental evaluations to demonstrate BlockChain I/O's practical performance.
翻訳日:2024-07-01 22:14:08 公開日:2024-06-28
# 中国の医療機能回復のための小型・高速BERT

A Small and Fast BERT for Chinese Medical Punctuation Restoration ( http://arxiv.org/abs/2308.12568v4 )

ライセンス: Link先を確認
Tongtao Ling, Yutao Lai, Lei Chen, Shilei Huang, Yi Liu, (参考訳) クリニカルディクテーションでは、明示的な句読点のない自動音声認識(ASR)後の発話は、予測された報告の誤解につながる可能性がある。 ASRによる正確かつ理解可能な臨床報告を行うには,自動句読点修復が必要である。 実践的なシナリオを考慮し、我々は「訓練と微調整」のパラダイムに基づく中国医学的句読点回復のための高速で軽量な事前訓練モデルを提案する。 本研究では,教師付きコントラスト学習と新しい事前学習タスク(句読点予測)を取り入れて,句読点回復に適した事前学習モデルを蒸留する。 各種蒸留モデルを用いた実験により, 現状の中国RoBERTaと比較して, モデルサイズが10%であるのに対して, 95%の性能が得られることがわかった。

In clinical dictation, utterances after automatic speech recognition (ASR) without explicit punctuation marks may lead to the misunderstanding of dictated reports. To give a precise and understandable clinical report with ASR, automatic punctuation restoration is required. Considering a practical scenario, we propose a fast and light pre-trained model for Chinese medical punctuation restoration based on 'pretraining and fine-tuning' paradigm. In this work, we distill pre-trained models by incorporating supervised contrastive learning and a novel auxiliary pre-training task (Punctuation Mark Prediction) to make it well-suited for punctuation restoration. Our experiments on various distilled models reveal that our model can achieve 95% performance while 10% model size relative to state-of-the-art Chinese RoBERTa.
翻訳日:2024-07-01 22:14:08 公開日:2024-06-28
# Detectron2フレームワークを用いた合成繊維ロープの欠陥検出

Defect Detection in Synthetic Fibre Ropes using Detectron2 Framework ( http://arxiv.org/abs/2309.01469v2 )

ライセンス: Link先を確認
Anju Rani, Daniel O. Arroyo, Petar Durdevic, (参考訳) 最新の技術による繊維ロープは、軽量で高張力のため、オフショア産業に鋼ロープに代わる魅力的な代替品として登場した。 同時に、システム全体の適切な機能と安全性を確保するために、これらのロープの頻繁な検査が不可欠である。 条件監視(CM)アプリケーションにおける深層学習(DL)モデルの開発は、合成繊維ロープ(SFR)の欠陥検出において、よりシンプルで効果的なアプローチを提供する。 本稿では,欠陥検出とインスタンスセグメンテーションのための最先端ライブラリである Detectron2 の性能について検討する。 Mask R-CNNアーキテクチャを持つ Detectron2 は、SFRの欠陥のセグメント化に使用される。 種々のバックボーン構成を持つマスクR-CNNは,SFRの7種類の損傷クラス(高層,高層,高層,低層,圧縮,コアアウト,チャッフィング,正常)を含む1,803個の高次元画像からなる実験的なデータセット上で,訓練および試験を行った。 本研究では, 検知器2の機能を活用し, SFRの欠陥を自動かつ効率的に検出し, 検査工程の高度化, 繊維ロープの安全性確保を図ることを目的とする。

Fibre ropes with the latest technology have emerged as an appealing alternative to steel ropes for offshore industries due to their lightweight and high tensile strength. At the same time, frequent inspection of these ropes is essential to ensure the proper functioning and safety of the entire system. The development of deep learning (DL) models in condition monitoring (CM) applications offers a simpler and more effective approach for defect detection in synthetic fibre ropes (SFRs). The present paper investigates the performance of Detectron2, a state-of-the-art library for defect detection and instance segmentation. Detectron2 with Mask R-CNN architecture is used for segmenting defects in SFRs. Mask R-CNN with various backbone configurations has been trained and tested on an experimentally obtained dataset comprising 1,803 high-dimensional images containing seven damage classes (placking high, placking medium, placking low, compression, core out, chafing, and normal respectively) for SFRs. By leveraging the capabilities of Detectron2, this study aims to develop an automated and efficient method for detecting defects in SFRs, enhancing the inspection process, and ensuring the safety of the fibre ropes.
翻訳日:2024-07-01 22:14:08 公開日:2024-06-28
# 大次元におけるカーネル回帰の最適速度

Optimal Rate of Kernel Regression in Large Dimensions ( http://arxiv.org/abs/2309.04268v2 )

ライセンス: Link先を確認
Weihao Lu, Haobo Zhang, Yicheng Li, Manyun Xu, Qian Lin, (参考訳) 大規模なデータに対するカーネル回帰の研究を行う(サンプルサイズ$n$はサンプルの次元$d$、すなわち、ある$\gamma > 0$ に対して$n\asymp d^{\gamma}$に依存する)。 我々はまず、メンデルソン複雑性$\varepsilon_{n}^{2}$と計量エントロピー$\bar{\varepsilon}_{n}^{2}$を通じて、大次元データに対する上界とミニマックス下界のカーネル回帰を特徴付ける一般的なツールを構築する。 対象関数が $\mathbb{S}^{d}$ に定義された(一般)内積モデルに付随する RKHS に陥ると、新しいツールを使って、カーネル回帰の余剰リスクの最小値が $n^{-1/2}$ であることを示し、$n\asymp d^{\gamma}$ for $\gamma = 2, 4, 6, 8, \cdots$ である。 さらに、$\gamma>0$に対するカーネル回帰の過大なリスクの最適率を決定し、$\gamma$に沿って変化する最適速度曲線は、多重降下挙動や周期的プラトー挙動を含むいくつかの新しい現象を示す。 応用として、ニューラル・タンジェント・カーネル(NTK)については、同様に最適な速度の曲線を明示的に記述する。 直接的な結論として、これらの主張は広義のニューラルネットワークにも当てはまる。

We perform a study on kernel regression for large-dimensional data (where the sample size $n$ is polynomially depending on the dimension $d$ of the samples, i.e., $n\asymp d^{\gamma}$ for some $\gamma >0$ ). We first build a general tool to characterize the upper bound and the minimax lower bound of kernel regression for large dimensional data through the Mendelson complexity $\varepsilon_{n}^{2}$ and the metric entropy $\bar{\varepsilon}_{n}^{2}$ respectively. When the target function falls into the RKHS associated with a (general) inner product model defined on $\mathbb{S}^{d}$, we utilize the new tool to show that the minimax rate of the excess risk of kernel regression is $n^{-1/2}$ when $n\asymp d^{\gamma}$ for $\gamma =2, 4, 6, 8, \cdots$. We then further determine the optimal rate of the excess risk of kernel regression for all the $\gamma>0$ and find that the curve of optimal rate varying along $\gamma$ exhibits several new phenomena including the multiple descent behavior and the periodic plateau behavior. As an application, For the neural tangent kernel (NTK), we also provide a similar explicit description of the curve of optimal rate. As a direct corollary, we know these claims hold for wide neural networks as well.
翻訳日:2024-07-01 22:14:08 公開日:2024-06-28
# トラス構造の離散サイズ最適化のための複数のルートノードを用いた改良モンテカルロ木探索(MCTS)の定式化

Improved Monte Carlo tree search (MCTS) formulation with multiple root nodes for discrete sizing optimization of truss structures ( http://arxiv.org/abs/2309.06045v2 )

ライセンス: Link先を確認
Fu-Yao Ko, Katsuyuki Suzuki, Kazuo Yonekura, (参考訳) 本稿では,モンテカルロ木探索(MCTS)を用いたトラス構造の離散最適設計手法を提案する。 本研究では,複数のルートノードを用いた改良MCTSの定式化について述べる。 更新プロセスは、最終ソリューションが見つかると、次の検索ツリーの最初のソリューションとして使用されることを意味する。 最高の報酬は、バックプロパゲーションステップで使用されます。 探索木幅を減らし,最大反復回数を減らして高速化技術を導入する。 エージェントは、端末条件が満たされるまで、様々な制約下での全構造重量を最小化するように訓練される。 そして、最適解は探索木で見つかるすべての解の最小値である。 これらの数値的な例は、エージェントが計算コストの低い最適解を見つけることができ、安定して最適な設計を作成でき、実用的な工学的問題に適していることを示している。

This paper proposes a new method for discrete optimum design of truss structures utilizing Monte Carlo tree search (MCTS) with update process, the best reward, accelerating technique, and terminal condition. An improved MCTS formulation with multiple root nodes is developed in this study. Update process means that once a final solution is found, it is used as the initial solution for next search tree. The best reward is used in the backpropagation step. Accelerating technique is introduced by decreasing the width of search tree and reducing maximum number of iterations. The agent is trained to minimize the total structural weight under various constraints until the terminal condition is satisfied. Then, optimal solution is the minimum value of all solutions found by search trees. These numerical examples show that the agent can find optimal solution with low computational cost, stably produces an optimal design, and is suitable for practical engineering problems.
翻訳日:2024-07-01 22:14:08 公開日:2024-06-28
# MKRAG:医療質問応答のための知識検索生成

MKRAG: Medical Knowledge Retrieval Augmented Generation for Medical Question Answering ( http://arxiv.org/abs/2309.16035v2 )

ライセンス: Link先を確認
Yucheng Shi, Shaochen Xu, Tianze Yang, Zhengliang Liu, Tianming Liu, Xiang Li, Ninghao Liu, (参考訳) 大きな言語モデル(LLM)は、一般的なドメインでは強力だが、医療質問応答(QA)のようなドメイン固有のタスクではよく機能しない。 さらに、それらは"ブラックボックス"として機能する傾向があり、その振る舞いを変更するのは難しい。 この問題に対処するため,本研究は,微調整や再訓練を必要とせず,LLM応答を改善することを目的とした検索強化(RAG)に重点を置いている。 具体的には、外部知識ベースから医療事実を抽出し、LSMのクエリプロンプトに注入するための総合的な検索戦略を提案する。 MedQA-SMILEデータセットを用いた医学的QAに着目し、異なる検索モデルの影響とLLMに提供する事実数を評価する。 特に、検索強化されたVicuna-7Bモデルでは、44.46%から48.54%に精度が向上した。 この研究は、RAGがLCMの性能を向上させる可能性を強調し、ブラックボックスLSMの課題を軽減するための実践的なアプローチを提供する。

Large Language Models (LLMs), although powerful in general domains, often perform poorly on domain-specific tasks like medical question answering (QA). Moreover, they tend to function as "black-boxes," making it challenging to modify their behavior. To address the problem, our study delves into retrieval augmented generation (RAG), aiming to improve LLM responses without the need for fine-tuning or retraining. Specifically, we propose a comprehensive retrieval strategy to extract medical facts from an external knowledge base, and then inject them into the query prompt for LLMs. Focusing on medical QA using the MedQA-SMILE dataset, we evaluate the impact of different retrieval models and the number of facts provided to the LLM. Notably, our retrieval-augmented Vicuna-7B model exhibited an accuracy improvement from 44.46% to 48.54%. This work underscores the potential of RAG to enhance LLM performance, offering a practical approach to mitigate the challenges of black-box LLMs.
翻訳日:2024-07-01 22:14:08 公開日:2024-06-28
# 3D-Mol:3次元情報を用いた分子特性予測のための新しいコントラスト学習フレームワーク

3D-Mol: A Novel Contrastive Learning Framework for Molecular Property Prediction with 3D Information ( http://arxiv.org/abs/2309.17366v3 )

ライセンス: Link先を確認
Taojie Kuang, Yiming Ren, Zhixiang Ren, (参考訳) 分子特性予測は、早期の薬物候補スクリーニングと最適化に不可欠であり、ディープラーニングベースの手法で進歩している。 深層学習に基づく手法はかなり進歩しているが、3次元空間情報を完全に活用するには不十分であることが多い。 特に、現在の分子エンコーディング技術は空間情報を不十分に抽出する傾向にあり、単一の分子が複数の異なる分子を表現できるあいまいな表現をもたらす。 さらに、既存の分子モデリング手法は最も安定な3次元配座に主に焦点を合わせ、現実に存在する他の実行可能な配座を無視している。 これらの問題に対処するために,より正確な空間構造表現を目的とした新しいアプローチである3D-Molを提案する。 分子を3つの階層グラフに分解し、幾何学的情報をよりよく抽出する。 さらに、3D-Molは、2000万のラベルのないデータに対する事前学習に対照的な学習を活用し、3Dコンフォメーション記述子と指紋の類似性に基づいて、同じトポロジカル構造によるコンフォメーションを重み付き正のペアとして扱い、負のペアとして扱う。 3D-Molと最先端のベースラインを7つのベンチマークで比較し,優れた性能を示す。

Molecular property prediction, crucial for early drug candidate screening and optimization, has seen advancements with deep learning-based methods. While deep learning-based methods have advanced considerably, they often fall short in fully leveraging 3D spatial information. Specifically, current molecular encoding techniques tend to inadequately extract spatial information, leading to ambiguous representations where a single one might represent multiple distinct molecules. Moreover, existing molecular modeling methods focus predominantly on the most stable 3D conformations, neglecting other viable conformations present in reality. To address these issues, we propose 3D-Mol, a novel approach designed for more accurate spatial structure representation. It deconstructs molecules into three hierarchical graphs to better extract geometric information. Additionally, 3D-Mol leverages contrastive learning for pretraining on 20 million unlabeled data, treating their conformations with identical topological structures as weighted positive pairs and contrasting ones as negatives, based on the similarity of their 3D conformation descriptors and fingerprints. We compare 3D-Mol with various state-of-the-art baselines on 7 benchmarks and demonstrate our outstanding performance.
翻訳日:2024-07-01 22:14:08 公開日:2024-06-28
# ドロップアウトパターンの生成自動符号化

Generative Autoencoding of Dropout Patterns ( http://arxiv.org/abs/2310.01712v2 )

ライセンス: Link先を確認
Shunta Maeda, (参考訳) 本稿では,デ暗号オートエンコーダと呼ばれる生成モデルを提案する。 このモデルでは、トレーニングデータセットの各データポイントにユニークなランダムなドロップアウトパターンを割り当て、オートエンコーダをトレーニングして、このパターンを符号化する情報として、対応するデータポイントを再構築する。 完全にランダムなドロップアウトパターンが類似性にかかわらず各データポイントに割り当てられても、十分に大きなエンコーダはそれらを低次元の潜在空間に滑らかにマッピングし、個別のトレーニングデータポイントを再構成することができる。 推論中は、トレーニング中に使用するものと異なるドロップアウトパターンを使用することで、モデルをジェネレータとして機能させることができる。 Deciphering Autoencoderのトレーニングは再構築エラーにのみ依存するため、他の生成モデルと比較して安定したトレーニングを提供する。 その単純さにもかかわらず、Deciphering AutoencodersはCIFAR-10データセットでDCGANに匹敵するサンプリング品質を示している。

We propose a generative model termed Deciphering Autoencoders. In this model, we assign a unique random dropout pattern to each data point in the training dataset and then train an autoencoder to reconstruct the corresponding data point using this pattern as information to be encoded. Even if a completely random dropout pattern is assigned to each data point regardless of their similarities, a sufficiently large encoder can smoothly map them to a low-dimensional latent space to reconstruct individual training data points. During inference, using a dropout pattern different from those used during training allows the model to function as a generator. Since the training of Deciphering Autoencoders relies solely on reconstruction error, it offers more stable training compared to other generative models. Despite their simplicity, Deciphering Autoencoders show sampling quality comparable to DCGAN on the CIFAR-10 dataset.
翻訳日:2024-07-01 22:14:08 公開日:2024-06-28
# スパイキングニューラルネットワークの効果的なトレーニングのためのスパイク累積フォワード

Spike Accumulation Forwarding for Effective Training of Spiking Neural Networks ( http://arxiv.org/abs/2310.02772v6 )

ライセンス: Link先を確認
Ryuji Saiin, Tomoya Shirakawa, Sota Yoshihara, Yoshihide Sawada, Hiroyuki Kusumoto, (参考訳) 本稿では、スパイキングニューラルネットワーク(SNN)、スパイク累積フォワード(SAF)をトレーニングするための新しいパラダイムを提案する。 SNNはエネルギー効率が高いが、訓練が難しいことが知られている。 その結果、多くの研究者がこの問題を解決するための様々な方法を提案しており、そのうちの1つは、時間によるオンライントレーニング(OTTT)が、メモリコストを抑えながら、各ステップで推論できる方法である。 しかし、GPU上で効率よく計算するためには、OTTTはスパイク列車とフォワード中のスパイク列車の重み付け総和で操作する必要がある。 さらにOTTTは、スパイク表現(Spike Representation)との理論的合意はまだ証明されていないが、代替の訓練方法であるスパイク表現(Spike Representation)との関係を示した。 提案手法は,SAFが前処理中の操作数を半減し,SAFがSpike RepresentationとOTTTと整合性があることを理論的に証明できる。 さらに,実験によりこれらの内容を確認し,精度を維持しつつ,記憶時間やトレーニング時間を短縮できることを示した。

In this article, we propose a new paradigm for training spiking neural networks (SNNs), spike accumulation forwarding (SAF). It is known that SNNs are energy-efficient but difficult to train. Consequently, many researchers have proposed various methods to solve this problem, among which online training through time (OTTT) is a method that allows inferring at each time step while suppressing the memory cost. However, to compute efficiently on GPUs, OTTT requires operations with spike trains and weighted summation of spike trains during forwarding. In addition, OTTT has shown a relationship with the Spike Representation, an alternative training method, though theoretical agreement with Spike Representation has yet to be proven. Our proposed method can solve these problems; namely, SAF can halve the number of operations during the forward process, and it can be theoretically proven that SAF is consistent with the Spike Representation and OTTT, respectively. Furthermore, we confirmed the above contents through experiments and showed that it is possible to reduce memory and training time while maintaining accuracy.
翻訳日:2024-07-01 22:04:23 公開日:2024-06-28
# Fishnets: 集合とグラフのための情報最適化、スケーラブルな集約

Fishnets: Information-Optimal, Scalable Aggregation for Sets and Graphs ( http://arxiv.org/abs/2310.03812v2 )

ライセンス: Link先を確認
T. Lucas Makinen, Justin Alsing, Benjamin D. Wandelt, (参考訳) セットベースの学習は、現代のディープラーニングとネットワーク科学の重要な要素である。 Graph Neural Networks(GNN)とそのエッジフリーのDeepsetsは、タグ付きでトポロジ的に困難なデータセットにおいて、極めて有用であることが証明されている。 集合メンバに対する情報埋め込みを学ぶための鍵は、特定の集約関数(通常は和、最大、平均)である。 ベイジアン推論とグラフ集約の両方のデータセットに対して,情報-最適埋め込みを学習するための集約戦略であるフィッシュネットを提案する。 私たちはそれを証明します 一 魚網神経要約は、任意の数のデータオブジェクトに最適にスケールすることができる。 二 魚網の集積は、標準の深度集合とは異なり、データ分布の変化に対して堅牢である。 三 魚網は、ベイズ情報を飽和させ、MCMC技術が失敗する体制にまで拡張する。 四 魚網は、GNN内のドロップインアグリゲーションスキームとして使用することができる。 メッセージパッシングにFishnetsアグリゲーション方式を採用することで、GNNは、学習可能なパラメータの少ない既存のベンチマーク上でogbnタンパク質データに対して、最先端のパフォーマンスとアーキテクチャサイズを達成できることを示す。

Set-based learning is an essential component of modern deep learning and network science. Graph Neural Networks (GNNs) and their edge-free counterparts Deepsets have proven remarkably useful on ragged and topologically challenging datasets. The key to learning informative embeddings for set members is a specified aggregation function, usually a sum, max, or mean. We propose Fishnets, an aggregation strategy for learning information-optimal embeddings for sets of data for both Bayesian inference and graph aggregation. We demonstrate that i) Fishnets neural summaries can be scaled optimally to an arbitrary number of data objects, ii) Fishnets aggregations are robust to changes in data distribution, unlike standard deepsets, iii) Fishnets saturate Bayesian information content and extend to regimes where MCMC techniques fail and iv) Fishnets can be used as a drop-in aggregation scheme within GNNs. We show that by adopting a Fishnets aggregation scheme for message passing, GNNs can achieve state-of-the-art performance versus architecture size on ogbn-protein data over existing benchmarks with a fraction of learnable parameters and faster training time.
翻訳日:2024-07-01 22:04:23 公開日:2024-06-28
# AutoMix: 自動混合言語モデル

AutoMix: Automatically Mixing Language Models ( http://arxiv.org/abs/2310.12963v4 )

ライセンス: Link先を確認
Pranjal Aggarwal, Aman Madaan, Ankit Anand, Srividya Pranavi Potharaju, Swaroop Mishra, Pei Zhou, Aditya Gupta, Dheeraj Rajagopal, Karthik Kappaganthu, Yiming Yang, Shyam Upadhyay, Manaal Faruqui, Mausam, (参考訳) 大規模言語モデル(LLM)は、さまざまなサイズと構成のクラウドAPIプロバイダから利用可能になった。 この多様性は幅広い選択肢を提供するが、計算コストと性能を最適化するオプションを効果的に活用することは依然として困難である。 本研究では,より小さなLMからの出力の近似精度に基づいて,クエリを大規模LMに戦略的にルーティングする手法であるAutomixを提案する。 セントラル・トゥ・オートミックスは2つの重要な技術貢献である。 まず、数発の自己検証機構を持ち、大規模なトレーニングを必要とせず、出力の信頼性を見積もる。 第二に、自己検証がうるさいことを考えると、応答信頼度に基づいた適切なサイズのモデルを効果的に選択できるPOMDPベースのルータを用いる。 5つの言語モデルと5つの挑戦的なデータセットによる実験によると、Automixは一貫して強力なベースラインを越え、同等のパフォーマンスで計算コストを50%以上削減している。

Large language models (LLMs) are now available from cloud API providers in various sizes and configurations. While this diversity offers a broad spectrum of choices, effectively leveraging the options to optimize computational cost and performance remains challenging. In this work, we present Automix, an approach that strategically routes queries to larger LMs, based on the approximate correctness of outputs from a smaller LM. Central to Automix are two key technical contributions. First, it has a few-shot self-verification mechanism, which estimates the reliability of its own outputs without requiring extensive training. Second, given that self-verification can be noisy, it employs a POMDP based router that can effectively select an appropriately sized model, based on answer confidence. Experiments across five language models and five challenging datasets show that Automix consistently surpasses strong baselines, reducing computational cost by over 50% for comparable performance.
翻訳日:2024-07-01 22:04:23 公開日:2024-06-28
# NoteChat: 臨床ノートに記載された医師と患者との会話のデータセット

NoteChat: A Dataset of Synthetic Doctor-Patient Conversations Conditioned on Clinical Notes ( http://arxiv.org/abs/2310.15959v3 )

ライセンス: Link先を確認
Junda Wang, Zonghai Yao, Zhichao Yang, Huixue Zhou, Rumeng Li, Xun Wang, Yucheng Xu, Hong Yu, (参考訳) 我々は,大言語モデル(LLMs)を利用した患者と物理学者の対話を生成する新しい協調型マルチエージェントフレームワークであるNoteChatを紹介する。 NoteChatは、構造化されたロールプレイと戦略的プロンプトを通じて、ロール固有のLLMのアンサンブルが、割り当てられたロールをより効果的に実行できるという原則を具体化している。 これらのロールプレイング LLM 間の相乗効果は結合的で効率的な対話生成をもたらす。 MTS-ダイアログ(MTS-dialogue, MTS-dialogue)の評価では、NoteChatによる強化された患者-生理的ダイアログで訓練されたモデルが、臨床ノートを生成するための他の最先端モデルよりも優れていることが示されている。 我々の総合的な自動評価と人的評価は、NoteChatがChatGPTやGPT-4のような最先端のモデルを大幅に上回り、臨床ノートに基づいた優れた合成患者と物理学の対話をドメインの専門家によって22.78%まで上回っていることを示している。 NoteChatは、医師が燃え尽きる主な原因である、患者に直接関与し、臨床ドキュメントを支援する可能性がある。

We introduce NoteChat, a novel cooperative multi-agent framework leveraging Large Language Models (LLMs) to generate patient-physician dialogues. NoteChat embodies the principle that an ensemble of role-specific LLMs, through structured role-play and strategic prompting, can perform their assigned roles more effectively. The synergy among these role-playing LLMs results in a cohesive and efficient dialogue generation. Evaluation on MTS-dialogue, a benchmark dataset for patient-physician dialogues-note pairs, shows that models trained with the augmented synthetic patient-physician dialogues by NoteChat outperforms other state-of-the-art models for generating clinical notes. Our comprehensive automatic and human evaluation demonstrates that NoteChat substantially surpasses state-of-the-art models like ChatGPT and GPT-4 up to 22.78% by domain experts in generating superior synthetic patient-physician dialogues based on clinical notes. NoteChat has the potential to engage patients directly and help clinical documentation, a leading cause of physician burnout.
翻訳日:2024-07-01 22:04:23 公開日:2024-06-28
# リレーショナル量子力学は依然として量子力学と相容れない

Relational Quantum Mechanics is Still Incompatible with Quantum Mechanics ( http://arxiv.org/abs/2310.18008v2 )

ライセンス: Link先を確認
Jay Lawrence, Marcin Markiewicz, Marek Żukowski, (参考訳) 我々は最近の論文(Lawrence et al , 2023, Quantum 7, 1015)で、関係量子力学の中心概念である相対事実(アウトカム)が量子力学と矛盾していることを示した。 我々は、3つの量子ビットのグリーンベルガー・ホルン・ザイリンガー状態(GHZ)にウィグナー・フレンド型シーケンシャルな測定シナリオを構築し、「量子論の解釈が測定結果のいくつかの概念化をもたらすなら、これらの結果の確率は、ボルン規則によって与えられる量子予測に従わなければならない」と仮定した。 私たちの作品は、Cavalcanti、Di Biagio、Rovelli(CDR)によって批判されています。 このノートでは、それらの批判は無効であり、それらの特定の議論が原則の疑問を提起していることを示す。

We showed in a recent article (Lawrence et. al., 2023, Quantum 7, 1015), that relative facts (outcomes), a central concept in Relational Quantum Mechanics, are inconsistent with Quantum Mechanics. We proved this by constructing a Wigner-Friend type sequential measurement scenario on a Greenberger-Horne-Zeilinger (GHZ) state of three qubits, and making the following assumption: "if an interpretation of quantum theory introduces some conceptualization of outcomes of a measurement, then probabilities of these outcomes must follow the quantum predictions as given by the Born rule." Our work has been criticized by Cavalcanti, Di Biagio, and Rovelli (CDR). In this note we show that their critique is invalid, and that their specific arguments raise questions of principle.
翻訳日:2024-07-01 22:04:23 公開日:2024-06-28
# MoCheQoS:通信システムのサービス品質自動解析

MoCheQoS: Automated Analysis of Quality of Service Properties of Communicating Systems ( http://arxiv.org/abs/2311.01415v2 )

ライセンス: Link先を確認
Carlos G. Lopez Pombo, Agustín E. Martinez Suñé, Emilio Tuosto, (参考訳) メッセージパッシングシステムの(QoS)特性を解析するための有界モデルチェッカーであるMoCheQoSを提案する。 ICTAC 2023の論文で定義された動的時間論理、振付モデル、および有界モデル検査アルゴリズムに基づいて、MoCheQoSは、サービスの構成から構築されたシステムのQoS特性の静的解析を可能にする。 計測可能なアプリケーションレベルの属性のQoS特性や、例えば金銭的コストとメモリ使用量に関連するリソース消費指標について検討する。 ツールの実装には実験的な評価が伴う。 より正確には、MoCheQoSの適用性を評価するための2つのケーススタディを提示します。 さらに,MoCheQoSのスケーラビリティを評価するための合成実験も検討した。 これらの実験により, 産業強度シナリオにおけるQoS特性を忠実に把握し, 効果的に解析できることが判明した。

We present MoCheQoS, a bounded model checker to analyse (QoS) properties of message-passing systems. Building on the dynamic temporal logic, the choreographic model, and the bounded model checking algorithm defined in our ICTAC 2023 paper, MoCheQoS enables the static analysis of QoS properties of systems built out from the composition of services. We consider QoS properties on measurable application-level attributes as well as resource consumption metrics for example those relating monetary cost to memory usage. The implementation of the tool is accompanied by an experimental evaluation. More precisely, we present two case studies meant to evaluate the applicability of MoCheQoS; the first is based on the AWS cloud while the second analyses a communicating system automatically extracted from code. Additionally, we consider synthetically generated experiments to assess the scalability of MoCheQoS. These experiments showed that our model can faithfully capture and effectively analyse QoS properties in industrial-strength scenarios.
翻訳日:2024-07-01 22:04:23 公開日:2024-06-28
# 確率に基づく量子力学の解釈

A Short Report on the Probability-Based Interpretation of Quantum Mechanics ( http://arxiv.org/abs/2311.04233v2 )

ライセンス: Link先を確認
Paolo Rocchi, (参考訳) 本稿では、数学レベルで弱い点を示し、アプリケーションレベルでより重大な欠陥を示す確率(P)領域の現状に注意を払っている。 Popper氏は、量子力学(QM)における基本的な問題は、未解決の確率的問題から直接引き起こされていることに気付く。 無限に哲学的な議論が解よりも多くの問題を生み出しているため、本研究の著者は問題の根本に直結し、Pの多重フォールドの性質を定式化する確率論を探求することを示唆している。 確率に基づくQMの解釈は、論文の限界を越えており、これらのページはこの理論スキームのいくつかの側面を包含している。 二重スリット実験は、ここで提示される定理の相関付けに使用される。

This paper calls attention to the current state of the probability (P) domain which presents weak points at the mathematical level and more significant flaws at the application level. Popper notices how fundamental issues raised in quantum mechanics (QM) directly derive from unresolved probabilistic questions. Endless philosophical debates create more problems than solutions, so the author of this research suggests going directly to the root of the issues and searching for the probability theory which formalizes the multifold nature of P. This paper offers a brief overview of the structural theory of probability, recently published in a book, and applies it to QM in order to show its completeness. The whole probability-based interpretation of QM goes beyond the limits of a paper and these pages condense a few aspects of this theoretical scheme. The double slit experiment is used to corroborate the theorems presented here.
翻訳日:2024-07-01 22:04:23 公開日:2024-06-28
# 多項式多元局所測定による多体エントロピーと絡み合い

Many-body entropies and entanglement from polynomially-many local measurements ( http://arxiv.org/abs/2311.08108v2 )

ライセンス: Link先を確認
Benoît Vermersch, Marko Ljubotina, J. Ignacio Cirac, Peter Zoller, Maksym Serbyn, Lorenzo Piroli, (参考訳) エントロピーや双極子エンタングルメントのような多体量子系のグローバルな性質を推定することは、一般に多くの測定や古典的な後処理資源をシステムサイズで指数関数的に成長させるという、非常に難しい作業である。 本研究では,大域的エントロピーと混合状態絡み合いを部分遷移(PT)モーメントで推定する問題に対処し,空間相関長が有限であるという仮定の下で,効率的な推定戦略が存在することを示す。 一次元システムに着目して,システム密度行列上の近似分解条件(AFC)の集合を同定し,局所サブシステム情報からエントロピーやPTモーメントを再構成する。 これにより、エントロピーと絡み合いの推定のためのシンプルで効率的な戦略が得られる。 本手法は,ローカルサブシステムに関する情報の抽出方法によって異なる方法で実装できる。 ランダム化測定(RM)に着目し,実運用および共通計測方式を提供することで,測定すべき状態がAFCを満たすことを前提として,このプロトコルが多項式多量測定および後処理操作のみを必要とすることを証明した。 我々は、AFCが有限深度量子回路状態と翻訳不変行列積密度演算子を保っていることを証明し、局所ハミルトンの熱状態を含むより一般的な物理的に興味深いケースで満たされているという数値的な証拠を提供する。 我々は,今日の量子プラットフォームで利用可能な多数の量子ビットに対して,二分位混合状態の絡み合いを検出するのに,本手法は実用的に有用であると主張している。

Estimating global properties of many-body quantum systems such as entropy or bipartite entanglement is a notoriously difficult task, typically requiring a number of measurements or classical post-processing resources growing exponentially in the system size. In this work, we address the problem of estimating global entropies and mixed-state entanglement via partial-transposed (PT) moments, and show that efficient estimation strategies exist under the assumption that all the spatial correlation lengths are finite. Focusing on one-dimensional systems, we identify a set of approximate factorization conditions (AFCs) on the system density matrix which allow us to reconstruct entropies and PT moments from information on local subsystems. This yields a simple and efficient strategy for entropy and entanglement estimation. Our method could be implemented in different ways, depending on how information on local subsystems is extracted. Focusing on randomized measurements (RMs), providing a practical and common measurement scheme, we prove that our protocol only requires polynomially-many measurements and post-processing operations, assuming that the state to be measured satisfies the AFCs. We prove that the AFCs hold for finite-depth quantum-circuit states and translation-invariant matrix-product density operators, and provide numerical evidence that they are satisfied in more general, physically-interesting cases, including thermal states of local Hamiltonians. We argue that our method could be practically useful to detect bipartite mixed-state entanglement for large numbers of qubits available in today's quantum platforms.
翻訳日:2024-07-01 22:04:23 公開日:2024-06-28
# GEO: ジェネレーティブエンジン最適化

GEO: Generative Engine Optimization ( http://arxiv.org/abs/2311.09735v3 )

ライセンス: Link先を確認
Pranjal Aggarwal, Vishvak Murahari, Tanmay Rajpurohit, Ashwin Kalyan, Karthik Narasimhan, Ameet Deshpande, (参考訳) 大規模言語モデル (LLMs) の出現は, ユーザクエリに応答するための情報収集と要約に生成モデルを使用する, 検索エンジンの新たなパラダイムに根ざしている。 この新技術は、ジェネレーティブエンジン(GE)の統一的なフレームワークの下で形式化され、正確でパーソナライズされたレスポンスを生成し、GoogleやBingのような従来の検索エンジンを急速に置き換えます。 生成エンジンは通常、複数のソースから情報を合成し、LLMを使ってそれらを要約することでクエリを満足する。 この変更により、$\textit{user}$ユーティリティと$\textit{generative search Engine}$トラフィックが大幅に改善されるが、第3のステークホルダーであるWebサイトとコンテンツクリエーターにとって大きな課題となる。 生成エンジンのブラックボックスと高速移動の性質を考えると、コンテンツクリエーターは $\textit{when}$ と $\textit{how}$ をほとんど制御していない。 生成エンジンが残るためには、創造者経済が不利益にならないようにしなければなりません。 これを解決するために,生成エンジン最適化(GEO)を紹介した。このパラダイムは,生成エンジン応答におけるコンテンツの可視性向上を支援するもので,可視性メトリクスの最適化と定義のための柔軟なブラックボックス最適化フレームワークを通じて実現されている。 我々は,複数のドメインにまたがる多様なユーザクエリの大規模ベンチマークであるGEO-benchと,これらのクエリに応答する関連Webソースを導入することで,体系的な評価を容易にする。 厳密な評価により、GEOは生成エンジン応答において最大40 %の可視性を向上させることができることを示す。 さらに、これらの戦略の有効性はドメインによって異なり、ドメイン固有の最適化手法の必要性が強調されている。 我々の研究は、情報発見システムにおける新たなフロンティアを開き、生成エンジンとコンテンツクリエーターの両方の開発者に大きな影響を与える。

The advent of large language models (LLMs) has ushered in a new paradigm of search engines that use generative models to gather and summarize information to answer user queries. This emerging technology, which we formalize under the unified framework of generative engines (GEs), can generate accurate and personalized responses, rapidly replacing traditional search engines like Google and Bing. Generative Engines typically satisfy queries by synthesizing information from multiple sources and summarizing them using LLMs. While this shift significantly improves $\textit{user}$ utility and $\textit{generative search engine}$ traffic, it poses a huge challenge for the third stakeholder -- website and content creators. Given the black-box and fast-moving nature of generative engines, content creators have little to no control over $\textit{when}$ and $\textit{how}$ their content is displayed. With generative engines here to stay, we must ensure the creator economy is not disadvantaged. To address this, we introduce Generative Engine Optimization (GEO), the first novel paradigm to aid content creators in improving their content visibility in generative engine responses through a flexible black-box optimization framework for optimizing and defining visibility metrics. We facilitate systematic evaluation by introducing GEO-bench, a large-scale benchmark of diverse user queries across multiple domains, along with relevant web sources to answer these queries. Through rigorous evaluation, we demonstrate that GEO can boost visibility by up to $40\%$ in generative engine responses. Moreover, we show the efficacy of these strategies varies across domains, underscoring the need for domain-specific optimization methods. Our work opens a new frontier in information discovery systems, with profound implications for both developers of generative engines and content creators.
翻訳日:2024-07-01 22:04:23 公開日:2024-06-28
# ChatGPTはマレーシア英語をどの程度理解しているか? 名前付きエンティティ認識と関係抽出の評価

How well ChatGPT understand Malaysian English? An Evaluation on Named Entity Recognition and Relation Extraction ( http://arxiv.org/abs/2311.11583v2 )

ライセンス: Link先を確認
Mohan Raj Chanthran, Lay-Ki Soon, Huey Fang Ong, Bhawani Selvaretnam, (参考訳) 最近、ChatGPTは研究者と一般大衆の両方から多くの関心を集めている。 標準英語テキストから名前付きエンティティ認識と関係抽出におけるChatGPTの性能は良好であるが、マレーシア英語でも同様に機能するかどうかは不明だ。 マレーシア英語は、現地の文脈から形態的・意味的な適応を示すため、独特である。 本研究では,マレーシア英語ニュース(MEN)データセットから実体と関係を抽出するChatGPTの機能を評価する。 本稿では,「textbf{\textit{educate-predict-evaluate}}」と呼ばれる3段階の方法論を提案する。 ChatGPTの性能は18種類のプロンプト設定にまたがってF1-Scoreを用いて評価される。 評価の結果,ChatGPTはマレーシア英語ニュース記事からのエンティティ抽出にはあまり効果がなく,F1スコアは0.497であることがわかった。 さらに分析したところ、マレーシア英語のモルフォシンタクティック適応は制限を引き起こした。 興味深いことに、この形態素的適応は関係抽出のためのChatGPTの性能に影響を与えない。

Recently, ChatGPT has attracted a lot of interest from both researchers and the general public. While the performance of ChatGPT in named entity recognition and relation extraction from Standard English texts is satisfactory, it remains to be seen if it can perform similarly for Malaysian English. Malaysian English is unique as it exhibits morphosyntactic and semantical adaptation from local contexts. In this study, we assess ChatGPT's capability in extracting entities and relations from the Malaysian English News (MEN) dataset. We propose a three-step methodology referred to as \textbf{\textit{educate-predict-evaluate}}. The performance of ChatGPT is assessed using F1-Score across 18 unique prompt settings, which were carefully engineered for a comprehensive review. From our evaluation, we found that ChatGPT does not perform well in extracting entities from Malaysian English news articles, with the highest F1-Score of 0.497. Further analysis shows that the morphosyntactic adaptation in Malaysian English caused the limitation. However, interestingly, this morphosyntactic adaptation does not impact the performance of ChatGPT for relation extraction.
翻訳日:2024-07-01 22:04:23 公開日:2024-06-28
# 映像の鮮度と軌道情報の探索によるボリューム映像ストリーミングのビューポート予測

Viewport Prediction for Volumetric Video Streaming by Exploring Video Saliency and Trajectory Information ( http://arxiv.org/abs/2311.16462v2 )

ライセンス: Link先を確認
Jie Li, Zhixin Li, Zhi Liu, Pengyuan Zhou, Richang Hong, Qiyue Li, Han Hu, (参考訳) ホログラムビデオ(hologram video)は、仮想現実(VR)、拡張現実(AR)、MR(Mixed Reality)の自然コンテンツを描いた新しいメディアである。 次世代のビデオ技術であり、5Gやワイヤレス通信以外のユースケースとして広く使われることが期待されている。 各ユーザが通常、ビューポートとして知られるボリュームビデオのセクションのみを見ることを考えると、最適なパフォーマンスのための正確なビューポート予測を持つことが不可欠である。 しかし、この話題の研究はまだ初期段階にある。 最後に,ボリュームビデオストリーミングにおけるビューポート予測の精度向上を目的とした,Saliency and Trajectory Viewport Prediction (STVP) という新しい手法を提案し,提案する。 STVPはビデオ・サリエンシ情報とビューポート・トラジェクトリを広範囲に活用する。 我々の知る限り、これはボリュームビデオストリーミングにおけるビューポート予測に関する初めての総合的研究である。 特に,一様ランダムサンプリング(URS)という新しいサンプリング手法を導入し,ビデオの特徴を効率的に保存しながら,計算複雑性を低減した。 そこで我々は,静的,動的幾何学的,色塩分領域を検出するために,時空間情報と時空間情報の両方を組み込んだ塩分濃度検出手法を提案する。 最後に、より正確なビューポート予測を実現するために、サリエンシとトラジェクトリ情報をインテリジェントに融合する。 我々は,現在最先端のボリュームビデオシーケンスを用いたビューポート予測手法の有効性を評価するために,広範囲なシミュレーションを行った。 実験の結果,提案手法が既存手法よりも優れていることが示された。 データセットとソースコードは、受け入れ後、一般公開される。

Volumetric video, also known as hologram video, is a novel medium that portrays natural content in Virtual Reality (VR), Augmented Reality (AR), and Mixed Reality (MR). It is expected to be the next-gen video technology and a prevalent use case for 5G and beyond wireless communication. Considering that each user typically only watches a section of the volumetric video, known as the viewport, it is essential to have precise viewport prediction for optimal performance. However, research on this topic is still in its infancy. In the end, this paper presents and proposes a novel approach, named Saliency and Trajectory Viewport Prediction (STVP), which aims to improve the precision of viewport prediction in volumetric video streaming. The STVP extensively utilizes video saliency information and viewport trajectory. To our knowledge, this is the first comprehensive study of viewport prediction in volumetric video streaming. In particular, we introduce a novel sampling method, Uniform Random Sampling (URS), to reduce computational complexity while still preserving video features in an efficient manner. Then we present a saliency detection technique that incorporates both spatial and temporal information for detecting static, dynamic geometric, and color salient regions. Finally, we intelligently fuse saliency and trajectory information to achieve more accurate viewport prediction. We conduct extensive simulations to evaluate the effectiveness of our proposed viewport prediction methods using state-of-the-art volumetric video sequences. The experimental results show the superiority of the proposed method over existing schemes. The dataset and source code will be publicly accessible after acceptance.
翻訳日:2024-07-01 22:04:23 公開日:2024-06-28
# 反復量子振幅推定におけるバイアスについて

On the bias in iterative quantum amplitude estimation ( http://arxiv.org/abs/2311.16560v2 )

ライセンス: Link先を確認
Koichi Miyamoto, (参考訳) 量子振幅推定(QAE)は、ターゲット基底状態の平方振幅$a$を量子状態$|\Phi\rangle$で推定する中心量子アルゴリズムである。 元の量子位相推定に基づくQAEの様々な改善が、資源削減のために提案されている。 このような改良されたバージョンの一つがイテレーティブ量子振幅推定(IQAE)であり、G^k|\Phi\rangle$のような量子状態における測定の反復ラウンドを通じて$\hat{a}$の$a$を出力し、Grover演算子$G$(グロバー数)の演算数とショット番号を適応的に決定する。 本稿ではIQAEのバイアスについて検討する。 IQAEをシミュレートする数値実験により、IQAEの推定値にバイアスがかかり、ある特定の値が$a$に対してバイアスが強化されることが明らかになった。 IQAEの終端基準は、$\hat{a}$の推定精度が閾値より下降していることがバイアスの源であることが分かる。 さらに、最終ラウンドにおけるGrover数である$k_\mathrm{fin}$と、最終ラウンドにおける測定結果の確率分布に影響を与える$f_\mathrm{fin}$はバイアスを決定する重要な要素であり、a$の特定の値に対するバイアスの増大は、$(k_\mathrm{fin},f_\mathrm{fin})$の歪分布に起因する。 また, 最終ラウンドをグロバー数とショット数で再実行するだけで, バイアス緩和法を提案する。

Quantum amplitude estimation (QAE) is a pivotal quantum algorithm to estimate the squared amplitude $a$ of the target basis state in a quantum state $|\Phi\rangle$. Various improvements on the original quantum phase estimation-based QAE have been proposed for resource reduction. One of such improved versions is iterative quantum amplitude estimation (IQAE), which outputs an estimate $\hat{a}$ of $a$ through the iterated rounds of the measurements on the quantum states like $G^k|\Phi\rangle$, with the number $k$ of operations of the Grover operator $G$ (the Grover number) and the shot number determined adaptively. This paper investigates the bias in IQAE. Through the numerical experiments to simulate IQAE, we reveal that the estimate by IQAE is biased and the bias is enhanced for some specific values of $a$. We see that the termination criterion in IQAE that the estimated accuracy of $\hat{a}$ falls below the threshold is a source of the bias. Besides, we observe that $k_\mathrm{fin}$, the Grover number in the final round, and $f_\mathrm{fin}$, a quantity affecting the probability distribution of measurement outcomes in the final round, are the key factors to determine the bias, and the bias enhancement for specific values of $a$ is due to the skewed distribution of $(k_\mathrm{fin},f_\mathrm{fin})$. We also present a bias mitigation method: just re-executing the final round with the Grover number and the shot number fixed.
翻訳日:2024-07-01 22:04:23 公開日:2024-06-28
# TimeBench: 大規模言語モデルにおける時間的推論能力の総合評価

TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in Large Language Models ( http://arxiv.org/abs/2311.17667v2 )

ライセンス: Link先を確認
Zheng Chu, Jingchang Chen, Qianglong Chen, Weijiang Yu, Haotian Wang, Ming Liu, Bing Qin, (参考訳) 時間の概念を磨くことは人間の認知の基本的な側面であり、世界の複雑さを真に理解するためには不可欠である。 従来の研究は一般に時間的な特定の側面に焦点を合わせており、包括的な時間的推論のベンチマークが欠如している。 そこで本稿では,時間的推論現象の幅広いスペクトルをカバーする階層的時間的推論ベンチマークであるTimeBenchを提案する。 TimeBenchは、大規模な言語モデルの時間的推論能力を調べるための徹底的な評価を提供する。 GPT-4, LLaMA2, その他のLLMについて, 様々な環境下で広範囲にわたる実験を行った。 実験の結果, 現状のLDMとヒトの間には, 時間的推論において, かなりの距離が存在していることが示唆された。 加えて、LSMは異なる推論カテゴリにまたがる能力の相違を示す。 さらに、複数の側面が時間的推論に与える影響を徹底的に分析し、関連する課題を強調する。 TimeBenchは総合的なベンチマークとして機能し、時間的推論の研究を促進することを目標にしています。 リソースは、https://github.com/zchuz/TimeBench.comで入手できる。

Grasping the concept of time is a fundamental facet of human cognition, indispensable for truly comprehending the intricacies of the world. Previous studies typically focus on specific aspects of time, lacking a comprehensive temporal reasoning benchmark. To address this, we propose TimeBench, a comprehensive hierarchical temporal reasoning benchmark that covers a broad spectrum of temporal reasoning phenomena. TimeBench provides a thorough evaluation for investigating the temporal reasoning capabilities of large language models. We conduct extensive experiments on GPT-4, LLaMA2, and other popular LLMs under various settings. Our experimental results indicate a significant performance gap between the state-of-the-art LLMs and humans, highlighting that there is still a considerable distance to cover in temporal reasoning. Besides, LLMs exhibit capability discrepancies across different reasoning categories. Furthermore, we thoroughly analyze the impact of multiple aspects on temporal reasoning and emphasize the associated challenges. We aspire for TimeBench to serve as a comprehensive benchmark, fostering research in temporal reasoning. Resources are available at: https://github.com/zchuz/TimeBench
翻訳日:2024-07-01 22:04:23 公開日:2024-06-28
# ラジオインターフェロメトリイメージングのためのデータ駆動前駆体を用いたスケーラブルベイズ不確実性定量化

Scalable Bayesian uncertainty quantification with data-driven priors for radio interferometric imaging ( http://arxiv.org/abs/2312.00125v2 )

ライセンス: Link先を確認
Tobías I. Liaudat, Matthijs Mars, Matthew A. Price, Marcelo Pereyra, Marta M. Betcke, Jason D. McEwen, (参考訳) Square Kilometer Arrayのような次世代の電波干渉計は、前例のない角の解像度と感度のおかげで、科学的発見を解き放つ可能性がある。 潜在的な可能性を解き放つ鍵の1つは、受信データの希薄さと複雑さを扱うことである。 この課題は、大量のデータサイズに対処し、不確実な定量化(UQ)を伴う高品質な画像再構成を提供する無線干渉画像法を構築する必要がある。 本研究は、高次元設定のためのデータ駆動(学習)プリエントを用いた無線干渉画像におけるUQに対処するQuantifAIという手法を提案する。 ベイジアン・フレームワークをルーツとする我々のモデルは、物理的動機付けされたモデルを用いる。 このモデルは、シミュレーションから暗黙的に学習された複雑な情報をエンコードし、後部の対数凹度を保証する。 我々は、MCMCサンプリング技術を避けるために、高次元対数凹後部の確率集中現象を利用して後部に関する情報を得る。 我々は、MCMCサンプリング戦略よりも高速でスケールの良いMAP推定法として、凸最適化法を頼りにしている。 提案手法により, 局所信頼区間, すなわちベイズ誤差バーを計算し, 再構成画像上の構造の仮説テストを行うことができる。 さらに,異なるスケールで画素単位の不確かさを計算できる新しいブレージング高速手法を提案する。 シミュレーション環境での電波干渉画像の再構成と高速でスケーラブルなUQの実現により, MCMCサンプリングで検証した。 提案手法は, 画像の画質が向上し, より有意義な不確実性を示す。 QuantifAIのソースコードは、https://github.com/astro-informatics/QuantifAIである。

Next-generation radio interferometers like the Square Kilometer Array have the potential to unlock scientific discoveries thanks to their unprecedented angular resolution and sensitivity. One key to unlocking their potential resides in handling the deluge and complexity of incoming data. This challenge requires building radio interferometric imaging methods that can cope with the massive data sizes and provide high-quality image reconstructions with uncertainty quantification (UQ). This work proposes a method coined QuantifAI to address UQ in radio-interferometric imaging with data-driven (learned) priors for high-dimensional settings. Our model, rooted in the Bayesian framework, uses a physically motivated model for the likelihood. The model exploits a data-driven convex prior, which can encode complex information learned implicitly from simulations and guarantee the log-concavity of the posterior. We leverage probability concentration phenomena of high-dimensional log-concave posteriors that let us obtain information about the posterior, avoiding MCMC sampling techniques. We rely on convex optimisation methods to compute the MAP estimation, which is known to be faster and better scale with dimension than MCMC sampling strategies. Our method allows us to compute local credible intervals, i.e., Bayesian error bars, and perform hypothesis testing of structure on the reconstructed image. In addition, we propose a novel blazing-fast method to compute pixel-wise uncertainties at different scales. We demonstrate our method by reconstructing radio-interferometric images in a simulated setting and carrying out fast and scalable UQ, which we validate with MCMC sampling. Our method shows an improved image quality and more meaningful uncertainties than the benchmark method based on a sparsity-promoting prior. QuantifAI's source code: https://github.com/astro-informatics/QuantifAI.
翻訳日:2024-07-01 21:54:26 公開日:2024-06-28
# 強化学習における物体位置の追跡:キーポイント検出のためのメトリクス(拡張版)

Tracking Object Positions in Reinforcement Learning: A Metric for Keypoint Detection (extended version) ( http://arxiv.org/abs/2312.00592v2 )

ライセンス: Link先を確認
Emma Cramer, Jonas Reiher, Sebastian Trimpe, (参考訳) ロボット制御のための強化学習(RL)は通常、直接測定できないタスク関連オブジェクトに関する情報を含む環境状態の詳細な表現を必要とする。 空間オートエンコーダ(SAE)のようなキーポイント検出器は、高次元画像データから低次元表現を抽出する一般的な手法である。 SAEは物体の位置などの空間的特徴を目標としており、ロボットRLにおいてしばしば有用な表現である。 しかし、SAEが実際にシーン内のオブジェクトを追跡でき、したがってRLタスクに適した空間状態表現が得られるかどうかは、確立されたメトリクスが欠如しているため、ほとんど調査されていない。 本稿では,画像中の真理物体をキーポイントがどれだけよく追跡できるかを計測することにより,SAEインスタンスの性能を評価することを提案する。 シミュレーションされたロボットタスクの画像データに基づいて,計算的に軽量なメトリクスを提示し,それを共通ベースラインSAEアーキテクチャの評価に用いる。 その結果,SAEは空間抽出能力に大きく違いがあることが判明した。 さらに, 下流RLで使用する場合, 測定値が良好に動作するSAEが優れた性能を発揮することを検証した。 したがって,我々の測定基準は高価なRLトレーニングを行う前にRL性能の有効かつ軽量な指標となる。 これらの知見に基づいて、トラッキング性能を改善するために、SAEアーキテクチャの3つの重要な変更点を特定する。 コードを匿名の.4open.science/r/sae-rlで公開しています。

Reinforcement learning (RL) for robot control typically requires a detailed representation of the environment state, including information about task-relevant objects not directly measurable. Keypoint detectors, such as spatial autoencoders (SAEs), are a common approach to extracting a low-dimensional representation from high-dimensional image data. SAEs aim at spatial features such as object positions, which are often useful representations in robotic RL. However, whether an SAE is actually able to track objects in the scene and thus yields a spatial state representation well suited for RL tasks has rarely been examined due to a lack of established metrics. In this paper, we propose to assess the performance of an SAE instance by measuring how well keypoints track ground truth objects in images. We present a computationally lightweight metric and use it to evaluate common baseline SAE architectures on image data from a simulated robot task. We find that common SAEs differ substantially in their spatial extraction capability. Furthermore, we validate that SAEs that perform well in our metric achieve superior performance when used in downstream RL. Thus, our metric is an effective and lightweight indicator of RL performance before executing expensive RL training. Building on these insights, we identify three key modifications of SAE architectures to improve tracking performance. We make our code available at anonymous.4open.science/r/sae-rl.
翻訳日:2024-07-01 21:54:26 公開日:2024-06-28
# Kandinsky 3.0テクニカルレポート

Kandinsky 3.0 Technical Report ( http://arxiv.org/abs/2312.03511v3 )

ライセンス: Link先を確認
Vladimir Arkhipkin, Andrei Filatov, Viacheslav Vasilev, Anastasia Maltseva, Said Azizov, Igor Pavlov, Julia Agafonova, Andrey Kuznetsov, Denis Dimitrov, (参考訳) 本稿では,遅延拡散に基づく大規模テキスト・ツー・イメージ生成モデルであるKandinsky 3.0について述べる。 本稿では,モデルのアーキテクチャ,データ収集手順,トレーニング手法,ユーザインタラクションのための生産システムについて述べる。 私たちは、多数の実験の結果明らかになった主要なコンポーネントに焦点を当て、他のコンポーネントと比較して、モデルの品質向上に最も大きな影響を与えました。 また,超解像,塗装,画像編集,画像-映像生成,および,逆過程の4ステップで推論を行うKandinsky 3.0 - Kandinsky 3.1の蒸留版,視覚的品質の低下を伴わない20倍の高速化を含む,我々のモデルの拡張と応用についても述べる。 人間の好みを並べて比較することで、カンディンスキーはテキストの理解が良くなり、特定のドメインでうまく機能する。 コードはhttps://github.com/ai-forever/Kandinsky-3で公開されている。

We present Kandinsky 3.0, a large-scale text-to-image generation model based on latent diffusion, continuing the series of text-to-image Kandinsky models and reflecting our progress to achieve higher quality and realism of image generation. In this report we describe the architecture of the model, the data collection procedure, the training technique, and the production system for user interaction. We focus on the key components that, as we have identified as a result of a large number of experiments, had the most significant impact on improving the quality of our model compared to the others. We also describe extensions and applications of our model, including super resolution, inpainting, image editing, image-to-video generation, and a distilled version of Kandinsky 3.0 - Kandinsky 3.1, which does inference in 4 steps of the reverse process and 20 times faster without visual quality decrease. By side-by-side human preferences comparison, Kandinsky becomes better in text understanding and works better on specific domains. The code is available at https://github.com/ai-forever/Kandinsky-3
翻訳日:2024-07-01 21:54:26 公開日:2024-06-28
# 慣性境界はきつくない

The inertia bound is far from tight ( http://arxiv.org/abs/2312.04925v3 )

ライセンス: Link先を確認
Matthew Kwan, Yuval Wigderson, (参考訳) 慣性境界と比有界(Cvetkovi\'c bound and Hoffman bound)はスペクトルグラフ理論における2つの基本的な不等式であり、重み付き隣接行列のスペクトル情報に関して、グラフの独立数$\alpha(G)$に上限を与える。 どちらの不等式に対しても、グラフが$G$であれば、できるだけ強い境界を得るためには、重み付き隣接行列の司法的な選択をする必要がある。 比境界を取り巻くよく確立された理論があるが、慣性境界はずっと神秘的であり、その限界はかなり不明瞭である。 実際、シンコビッチは(任意の重み付き隣接行列に対して)慣性境界が厳密でないグラフの最初の例を見つけ、ゴドシルの長年の疑問に答えた。 例えば、我々の結果の1つは、無限に多くの$n$に対して、非重み付き比縛でさえ$\alpha(G)\leq 4n^{3/4}$を証明できる$n$-vertex graphが存在するが、慣性境界は常に$n/4$である。 特に、これらの結果はルーニー、シンコビッチ、ヴクジャン=エルフィック=アビアドの疑問に対処する。

The inertia bound and ratio bound (also known as the Cvetkovi\'c bound and Hoffman bound) are two fundamental inequalities in spectral graph theory, giving upper bounds on the independence number $\alpha(G)$ of a graph $G$ in terms of spectral information about a weighted adjacency matrix of $G$. For both inequalities, given a graph $G$, one needs to make a judicious choice of weighted adjacency matrix to obtain as strong a bound as possible. While there is a well-established theory surrounding the ratio bound, the inertia bound is much more mysterious, and its limits are rather unclear. In fact, only recently did Sinkovic find the first example of a graph for which the inertia bound is not tight (for any weighted adjacency matrix), answering a longstanding question of Godsil. We show that the inertia bound can be extremely far from tight, and in fact can significantly underperform the ratio bound: for example, one of our results is that for infinitely many $n$, there is an $n$-vertex graph for which even the unweighted ratio bound can prove $\alpha(G)\leq 4n^{3/4}$, but the inertia bound is always at least $n/4$. In particular, these results address questions of Rooney, Sinkovic, and Wocjan--Elphick--Abiad.
翻訳日:2024-07-01 21:54:26 公開日:2024-06-28
# 線形MMSEフィルタの自動正規化

Automatic Regularization for Linear MMSE Filters ( http://arxiv.org/abs/2312.06560v2 )

ライセンス: Link先を確認
Daniel Gomes de Pinho Zanco, Leszek Szczecinski, Jacob Benesty, (参考訳) 本研究では,最小平均二乗誤差(MMSE)線形フィルタの設計における正規化の問題について考察する。 統計的機械学習手法との関係を利用して、ベイズ的手法を用いて、観測された信号から簡易かつ自動的に正規化パラメータを求める。 提案手法はシステム同定とビームフォーミングの例で示され, 自動正規化によりほぼ最適結果が得られることを示す。

In this work, we consider the problem of regularization in the design of minimum mean square error (MMSE) linear filters. Using the relationship with statistical machine learning methods, using a Bayesian approach, the regularization parameter is found from the observed signals in a simple and automatic manner. The proposed approach is illustrated in system identification and beamforming examples, where the automatic regularization is shown to yield near-optimal results.
翻訳日:2024-07-01 21:54:26 公開日:2024-06-28
# 共変量シフト適応のための最近傍サンプリング

Nearest Neighbor Sampling for Covariate Shift Adaptation ( http://arxiv.org/abs/2312.09969v2 )

ライセンス: Link先を確認
François Portier, Lionel Truquet, Ikko Yamane, (参考訳) 多くの既存共変量シフト適応法は、ソースとターゲット分布のギャップを軽減するために損失値に与えられたサンプル重量を推定する。 しかし、最適な重みを推定するには、計算コストの高い行列逆転とハイパーパラメータチューニングが一般的である。 本稿では,重み推定を回避した新しい共変量シフト適応法を提案する。 基本的な考え方は、ソースデータセットの$k$-nearestの隣人によってラベル付けされたラベル付けされていないターゲットデータを直接扱うことだ。 分析の結果,$k = 1$が最適選択であることが判明した。 このプロパティは、ハイパーパラメータ$k$だけをチューニングする必要をなくし、サンプルサイズで実行時間準線形になる。 我々の結果は、平均二乗誤差と明示定数を厳密に制御した推定器の収束率の急激な値を含む。 特に、我々の推定器の分散は、非パラメトリックな性質にもかかわらず標準パラメトリック推定と同じ収束率を持つ。 提案手法は, 生体統計学, エコノメトリクス, 疫学において用いられる, マッチングに基づく治療効果推定器と類似性を有する。 実験の結果, 走行時間を大幅に短縮できることがわかった。

Many existing covariate shift adaptation methods estimate sample weights given to loss values to mitigate the gap between the source and the target distribution. However, estimating the optimal weights typically involves computationally expensive matrix inversion and hyper-parameter tuning. In this paper, we propose a new covariate shift adaptation method which avoids estimating the weights. The basic idea is to directly work on unlabeled target data, labeled according to the $k$-nearest neighbors in the source dataset. Our analysis reveals that setting $k = 1$ is an optimal choice. This property removes the necessity of tuning the only hyper-parameter $k$ and leads to a running time quasi-linear in the sample size. Our results include sharp rates of convergence for our estimator, with a tight control of the mean square error and explicit constants. In particular, the variance of our estimators has the same rate of convergence as for standard parametric estimation despite their non-parametric nature. The proposed estimator shares similarities with some matching-based treatment effect estimators used, e.g., in biostatistics, econometrics, and epidemiology. Our experiments show that it achieves drastic reduction in the running time with remarkable accuracy.
翻訳日:2024-07-01 21:54:26 公開日:2024-06-28
# 超低温原子を持つフェルミ・ハバードモデルにおけるオルタ磁性の実現

Realizing Altermagnetism in Fermi-Hubbard Models with Ultracold Atoms ( http://arxiv.org/abs/2312.10151v2 )

ライセンス: Link先を確認
Purnendu Das, Valentin Leeb, Johannes Knolle, Michael Knap, (参考訳) オルター磁性は、強磁性と従来の反強磁性とは異なる新しいタイプのコリニア磁性を示す。 後者とは対照的に、反対スピンの超格子は空間回転と関係し、翻訳や反転によってのみ関係する。 その結果、反磁性体はスピン分割バンドを持ち、ユニークな実験的なシグネチャを生み出す。 ここでは、光格子中の超低温フェルミオン原子を用いて、d波反磁性相をどうやって実現できるかを理論的に示す。 本研究では, 異方性隣りの異方性ホッピングを持つ反磁性ハバードモデルを提案し, ハートリー・フォック相図を得る。 反磁性相は金属と絶縁相で分離し、大きなパラメータ状態に対して堅牢である。 異方性スピン輸送(異方性スピン輸送)という反磁性の定式化特性の1つがトラップ膨張実験によって探究可能であることを示す。

Altermagnetism represents a new type of collinear magnetism distinct from ferromagnetism and conventional antiferromagnetism. In contrast to the latter, sublattices of opposite spin are related by spatial rotations and not only by translations and inversions. As a result, altermagnets have spin split bands leading to unique experimental signatures. Here, we show theoretically how a d-wave altermagnetic phase can be realized with ultracold fermionic atoms in optical lattices. We propose an altermagnetic Hubbard model with anisotropic next-nearest neighbor hopping and obtain the Hartree-Fock phase diagram. The altermagnetic phase separates in a metallic and an insulating phase and is robust over a large parameter regime. We show that one of the defining characteristics of altermagnetism, the anisotropic spin transport, can be probed with trap-expansion experiments.
翻訳日:2024-07-01 21:54:26 公開日:2024-06-28
# UINav: デバイス上で自動化エージェントをトレーニングするための実践的アプローチ

UINav: A Practical Approach to Train On-Device Automation Agents ( http://arxiv.org/abs/2312.10170v4 )

ライセンス: Link先を確認
Wei Li, Fu-Lin Hsu, Will Bishop, Folawiyo Campbell-Ajala, Max Lin, Oriana Riva, (参考訳) アプリケーションユーザインターフェースを自律的に実行してユーザタスクを完了させる自動化システムは,特にユーザが状況的にあるいは永続的に障害を受けた場合,大きなメリットがあります。 従来の自動化システムは一般化可能なモデルを生成していないが、AIベースの自動化エージェントは単純で手作りのアプリケーションでのみ確実に機能し、高い計算コストがかかる。 UINavは、モバイルデバイスに適合する自動化エージェントを訓練するが、デモ数が少なくて高い成功率を達成するための、デモベースのアプローチである。 デモンストレーションのオーバーヘッドを軽減するために、UINavでは、エージェントが失敗するタスクに対する即時にフィードバックを提供するリファインダーモデルを使用して、トレーニングデータの多様性を高めるために、人間のデモを自動的に強化する。 評価の結果,UINavは10のデモで70%の精度を達成でき,十分なデモで90%以上の精度を達成できることがわかった。

Automation systems that can autonomously drive application user interfaces to complete user tasks are of great benefit, especially when users are situationally or permanently impaired. Prior automation systems do not produce generalizable models while AI-based automation agents work reliably only in simple, hand-crafted applications or incur high computation costs. We propose UINav, a demonstration-based approach to train automation agents that fit mobile devices, yet achieving high success rates with modest numbers of demonstrations. To reduce the demonstration overhead, UINav uses a referee model that provides users with immediate feedback on tasks where the agent fails, and automatically augments human demonstrations to increase diversity in training data. Our evaluation shows that with only 10 demonstrations UINav can achieve 70% accuracy, and that with enough demonstrations it can surpass 90% accuracy.
翻訳日:2024-07-01 21:54:26 公開日:2024-06-28
# アレルギー性鼻炎に対する皮下免疫療法の適応予測モデル

Sequential Model for Predicting Patient Adherence in Subcutaneous Immunotherapy for Allergic Rhinitis ( http://arxiv.org/abs/2401.11447v4 )

ライセンス: Link先を確認
Yin Li, Yu Xiong, Wenxin Fan, Kai Wang, Qingqing Yu, Liping Si, Patrick van der Smagt, Jun Tang, Nutan Chen, (参考訳) 目的: 皮下免疫療法 (SCIT) はアレルギー性鼻炎(AR)の長期因果治療である。 アレルゲン免疫療法(AIT)の利益を最大化するために患者の定着をいかに高めるかは、AITの管理において重要な役割を担っている。 本研究は,新しい機械学習モデルを用いて,AR患者とその関連症状スコアを3年間のSCITで正確に予測することを目的とする。 方法: 本研究は, 逐次潜時アクタークリティカル(SLAC)の逐次潜時変量モデル(SLVM)と, スコアリングとアテンジェンス予測機能に基づく長短期記憶(LSTM)の2つのモデルを開発し, 解析する。 結果: 第一段階のバイアスサンプルを除くと, SLACモデルの予測付着精度は60\%から72\%であり, LSTMモデルでは66\%から84\%であり, 時間ステップによって異なる。 SLACモデルのRoot Mean Square Error(RMSE)の範囲は0.93から2.22であり、LSTMモデルでは1.09から1.77である。 特に、これらのRMSEは4.55のランダムな予測誤差よりもかなり低い。 結論: SCIT の長期管理において, SCIT の非整合性の予測に有望な精度で逐次モデルを創造的に適用した。 LSTMは順応予測においてSLACより優れているが、SLACはSCIT for ARの患者に対してスコア予測に優れる。 状態アクションベースのSLACは柔軟性を追加し、長期AITを管理するための新しく効果的なアプローチを提供する。

Objective: Subcutaneous Immunotherapy (SCIT) is the long-lasting causal treatment of allergic rhinitis (AR). How to enhance the adherence of patients to maximize the benefit of allergen immunotherapy (AIT) plays a crucial role in the management of AIT. This study aims to leverage novel machine learning models to precisely predict the risk of non-adherence of AR patients and related local symptom scores in three years SCIT. Methods: The research develops and analyzes two models, sequential latent-variable model (SLVM) of Sequential Latent Actor-Critic (SLAC) and Long Short-Term Memory (LSTM) evaluating them based on scoring and adherence prediction capabilities. Results: Excluding the biased samples at the first time step, the predictive adherence accuracy of the SLAC models is from 60\% to 72\%, and for LSTM models, it is 66\% to 84\%, varying according to the time steps. The range of Root Mean Square Error (RMSE) for SLAC models is between 0.93 and 2.22, while for LSTM models it is between 1.09 and 1.77. Notably, these RMSEs are significantly lower than the random prediction error of 4.55. Conclusion: We creatively apply sequential models in the long-term management of SCIT with promising accuracy in the prediction of SCIT nonadherence in AR patients. While LSTM outperforms SLAC in adherence prediction, SLAC excels in score prediction for patients undergoing SCIT for AR. The state-action-based SLAC adds flexibility, presenting a novel and effective approach for managing long-term AIT.
翻訳日:2024-07-01 21:54:26 公開日:2024-06-28
# IoT医療におけるAI駆動型人型デジタル双生児の総合的調査

Generative AI-Driven Human Digital Twin in IoT-Healthcare: A Comprehensive Survey ( http://arxiv.org/abs/2401.13699v2 )

ライセンス: Link先を確認
Jiayuan Chen, You Shi, Changyan Yi, Hongyang Du, Jiawen Kang, Dusit Niyato, (参考訳) モノのインターネット(IoT)は、特に医療における人間の生活の質を大幅に向上させ、IoTヘルスサービスに大きな注目を集める。 一方、人間のデジタルツイン(HDT)は、デジタル世界における個人の身体の複製を包括的に特徴付け、その物理的地位をリアルタイムで反映する革新的なパラダイムとして提案されている。 当然HDTは、多目的で鮮明な人間のデジタルテストベッドとして機能し、その結果をシミュレートし、実践的な治療を導くことによって、医療の応用を超えてIoTヘルスケアの強化を図っている。 しかし、HDTの確立に成功するには、高忠実度仮想モデリングと強力な情報インタラクションが必要です。 幸いなことに、ジェネレーティブ人工知能(GAI)と呼ばれる最近の人気技術は、高度なAIアルゴリズムを利用して、多種多様なデータを自動的に生成、操作、修正できるので、有望なソリューションになるかもしれない。 この調査は特に、IoTヘルスにおけるGAI駆動型HDTの実装に焦点を当てている。 まず、IoTヘルスの背景と、GAI駆動のHDTの可能性を紹介する。 次に,GAI 駆動 HDT の基本技術について検討し,GAI 駆動 HDT の全体フレームワークについて述べる。 その後、GAI対応データ取得、通信、データ管理、デジタルモデリング、データ分析など、GAI駆動型HDTの実現について詳細に検討する。 さらに、GAI駆動のHDT、すなわちパーソナライズされたヘルスモニタリングと診断、パーソナライズされた処方、パーソナライズされたリハビリテーションによって革新される典型的なIoT医療アプリケーションについて議論する。 最後に、今後の研究の方向性を強調して、この調査を締めくくる。

The Internet of things (IoT) can significantly enhance the quality of human life, specifically in healthcare, attracting extensive attentions to IoT-healthcare services. Meanwhile, the human digital twin (HDT) is proposed as an innovative paradigm that can comprehensively characterize the replication of the individual human body in the digital world and reflect its physical status in real time. Naturally, HDT is envisioned to empower IoT-healthcare beyond the application of healthcare monitoring by acting as a versatile and vivid human digital testbed, simulating the outcomes and guiding the practical treatments. However, successfully establishing HDT requires high-fidelity virtual modeling and strong information interactions but possibly with scarce, biased and noisy data. Fortunately, a recent popular technology called generative artificial intelligence (GAI) may be a promising solution because it can leverage advanced AI algorithms to automatically create, manipulate, and modify valuable while diverse data. This survey particularly focuses on the implementation of GAI-driven HDT in IoT-healthcare. We start by introducing the background of IoT-healthcare and the potential of GAI-driven HDT. Then, we delve into the fundamental techniques and present the overall framework of GAI-driven HDT. After that, we explore the realization of GAI-driven HDT in detail, including GAI-enabled data acquisition, communication, data management, digital modeling, and data analysis. Besides, we discuss typical IoT-healthcare applications that can be revolutionized by GAI-driven HDT, namely personalized health monitoring and diagnosis, personalized prescription, and personalized rehabilitation. Finally, we conclude this survey by highlighting some future research directions.
翻訳日:2024-07-01 21:54:26 公開日:2024-06-28
# 感情検出とタスク指向対話モデリングへの統一的アプローチ

A Unified Approach to Emotion Detection and Task-Oriented Dialogue Modeling ( http://arxiv.org/abs/2401.13789v3 )

ライセンス: Link先を確認
Armand Stricker, Patrick Paroubek, (参考訳) 現在のテキストベースのタスク指向対話(TOD)システムでは、ユーザ感情検出(ED)はしばしば見過ごされるか、通常は独立したタスクとして扱われ、追加のトレーニングを必要とする。 対照的に、我々の研究は、EDとTODモデリングをシームレスに統一することは相互に利益をもたらし、従って考慮すべき代替手段であることを示す。 本手法は,単一言語モデルに頼って,信念状態追跡をEDを含むように拡張することで,エンドツーエンドTODシステムであるSimpleToDを拡張することからなる。 我々は,感情を付加したMultiWOZのバージョンであるEmoWOZベンチマークにおいて,GPT-2とLlama-2を用いたアプローチを評価した。 本結果から,EDとタスク結果のパフォーマンスが全般的に向上したことが明らかとなった。 また,ユーザの感情がシステム応答に有用な文脈条件付けを提供し,共感の観点からさらなる応答の洗練に活用できることが示唆された。

In current text-based task-oriented dialogue (TOD) systems, user emotion detection (ED) is often overlooked or is typically treated as a separate and independent task, requiring additional training. In contrast, our work demonstrates that seamlessly unifying ED and TOD modeling brings about mutual benefits, and is therefore an alternative to be considered. Our method consists in augmenting SimpleToD, an end-to-end TOD system, by extending belief state tracking to include ED, relying on a single language model. We evaluate our approach using GPT-2 and Llama-2 on the EmoWOZ benchmark, a version of MultiWOZ annotated with emotions. Our results reveal a general increase in performance for ED and task results. Our findings also indicate that user emotions provide useful contextual conditioning for system responses, and can be leveraged to further refine responses in terms of empathy.
翻訳日:2024-07-01 21:54:26 公開日:2024-06-28
# SU(2)ゲージ理論のための正方格子からトリアモンド格子へ

From square plaquettes to triamond lattices for SU(2) gauge theory ( http://arxiv.org/abs/2401.14570v2 )

ライセンス: Link先を確認
Ali H. Z. Kavaki, Randy Lewis, (参考訳) 格子ゲージ理論は量子コンピュータ上で実装された場合、重要な新しい科学的問題に対処できるはずである。 実際には、エラー軽減技術は、既に小さな格子の進行を奨励している。 本研究では、量子色力学への慣れ親しんだ非アベリアステップであるSU(2)ゲージ理論の切り離されたバージョンに焦点を当てる。 まず,2つの正方形格子を持つ格子上での仮想時間進化に対する有効誤差緩和を実証し,IBM量子コンピュータを用いて基底状態を取得し,誤り軽減なしでは不可能であることを確認した。 そして、三次元の格子ゲージ理論への最適アプローチとしてトライアモンド格子を提案し、ハミルトニアンを導出する。 最後に、3次元トリアモンド単位セルに誤差緩和想像時間進化を適用し、その基底状態はIBM量子コンピュータから得られる。 将来の研究はゲージ場における切り離しを緩和したいと考えているが、トリアモンド格子はそのような研究に益々有用である。

Lattice gauge theory should be able to address significant new scientific questions when implemented on quantum computers. In practice, error-mitigation techniques have already allowed encouraging progress on small lattices. In this work we focus on a truncated version of SU(2) gauge theory, which is a familiar non-Abelian step toward quantum chromodynamics. First, we demonstrate effective error mitigation for imaginary time evolution on a lattice having two square plaquettes, obtaining the ground state using an IBM quantum computer and observing that this would have been impossible without error mitigation. Then we propose the triamond lattice as an expedient approach to lattice gauge theories in three spatial dimensions and we derive the Hamiltonian. Finally, error-mitigated imaginary time evolution is applied to the three-dimensional triamond unit cell, and its ground state is obtained from an IBM quantum computer. Future work will want to relax the truncation on the gauge fields, and the triamond lattice is increasingly valuable for such studies.
翻訳日:2024-07-01 21:54:26 公開日:2024-06-28
# 移動不純物の作用素ダイナミクスにおけるマルコフから非マルコフ相転移

Markovian to non-Markovian phase transition in the operator dynamics of a mobile impurity ( http://arxiv.org/abs/2401.17066v2 )

ライセンス: Link先を確認
Dominic Gribben, Jamir Marino, Shane P. Kelly, (参考訳) カオス媒質中を移動する不純物のランダムなユニタリ回路モデルについて検討する。 媒体内の情報伝播速度に対する不純物の速度を$v_d$、$v_B$とすることで、媒体と不純物の情報交換を制御する。 超音速速度より上の$v_d> v_B$では、情報が媒体に移動した後に不純物に戻ることができず、結果として得られるダイナミクスはマルコビアンである。 超音速速度以下では、$v_d< v_B$、不純物と媒体のダイナミクスは非マルコフ的であり、不純物に情報を流すことができる。 2つの状態は、媒質中の作用素の拡散拡散に直接関連する指数を持つ連続相転移によって分離されることを示す。 これは、不純物が中間時間で置換されるシナリオにおいて、OTOC(Out-of-time-order correlator)を監視することで実証される。 マルコフ相の間、媒体からの情報は置換された不純物に移動できず、重要な作用素の発達は現れない。 逆に、非マルコフ位相では、作用素が新しく導入された不純物のサポートを取得することが観察される。 また、コヒーレント情報を用いて力学を特徴付け、マルコフ情報フローと非マルコフ情報フローの遷移を効率的に探索できる2つのデコーダを提供する。 我々の研究はマルコフ力学と非マルコフ力学を位相遷移で分離できることを示し、この遷移を観測するための効率的なプロトコルを提案する。

We study a random unitary circuit model of an impurity moving through a chaotic medium. The exchange of information between the medium and impurity is controlled by varying the velocity of the impurity, $v_d$, relative to the speed of information propagation within the medium, $v_B$. Above supersonic velocities, $v_d> v_B$, information cannot flow back to the impurity after it has moved into the medium, and the resulting dynamics are Markovian. Below supersonic velocities, $v_d< v_B$, the dynamics of the impurity and medium are non-Markovian, and information is able to flow back onto the impurity. We show the two regimes are separated by a continuous phase transition with exponents directly related to the diffusive spreading of operators in the medium. This is demonstrated by monitoring an out-of-time-order correlator (OTOC) in a scenario where the impurity is substituted at an intermediate time. During the Markovian phase, information from the medium cannot transfer onto the replaced impurity, manifesting in no significant operator development. Conversely, in the non-Markovian phase, we observe that operators acquire support on the newly introduced impurity. We also characterize the dynamics using the coherent information and provide two decoders which can efficiently probe the transition between Markovian and non-Markovian information flow. Our work demonstrates that Markovian and non-Markovian dynamics can be separated by a phase transition, and we propose an efficient protocol for observing this transition.
翻訳日:2024-07-01 21:54:26 公開日:2024-06-28
# 安全航空機分類のための滑走路物体分類器のロバスト性評価

Robustness Assessment of a Runway Object Classifier for Safe Aircraft Taxiing ( http://arxiv.org/abs/2402.00035v3 )

ライセンス: Link先を確認
Yizhak Elboher, Raya Elsaleh, Omri Isac, Mélanie Ducoffe, Audrey Galametz, Guillaume Povéda, Ryma Boumazouza, Noémie Cohen, Guy Katz, (参考訳) ディープニューラルネットワーク(DNN)が多くの計算問題の顕著な解決策になりつつあるため、航空業界は、パイロットの作業負荷を緩和し、運用上の安全性を向上させる可能性を探究しようとしている。 しかし、この種の安全クリティカルなアプリケーションにおけるDNNの使用には、徹底的な認証プロセスが必要である。 このニーズは形式的な検証によって対処できるため,厳格な保証 – 例えば - 特定の誤った予測がないことを証明して – が提供される。 本稿では,現在エアバスで開発中の画像分類装置DNNを用いて,航空機のタクシー走行時に使用することを意図した手法を実演する。 我々は、このDNNの頑健さを、ノイズ、明るさ、コントラストという3つの一般的なイメージ摂動タイプに評価するために、フォーマルな手法を用いています。 そこで本稿では,これらのロバスト性特性の単調性と過去の検証クエリの結果を利用して,検証クエリの総数を60%近く削減する手法を提案する。 以上の結果から,DNN分類器は輝度やコントラストの摂動よりも雑音に弱いことが示唆された。

As deep neural networks (DNNs) are becoming the prominent solution for many computational problems, the aviation industry seeks to explore their potential in alleviating pilot workload and in improving operational safety. However, the use of DNNs in this type of safety-critical applications requires a thorough certification process. This need can be addressed through formal verification, which provides rigorous assurances -- e.g.,~by proving the absence of certain mispredictions. In this case-study paper, we demonstrate this process using an image-classifier DNN currently under development at Airbus and intended for use during the aircraft taxiing phase. We use formal methods to assess this DNN's robustness to three common image perturbation types: noise, brightness and contrast, and some of their combinations. This process entails multiple invocations of the underlying verifier, which might be computationally expensive; and we therefore propose a method that leverages the monotonicity of these robustness properties, as well as the results of past verification queries, in order to reduce the overall number of verification queries required by nearly 60%. Our results provide an indication of the level of robustness achieved by the DNN classifier under study, and indicate that it is considerably more vulnerable to noise than to brightness or contrast perturbations.
翻訳日:2024-07-01 21:44:37 公開日:2024-06-28
# ChIRAAG: ChatGPTインフォームド・ラピッド・オートマチック・アサーション・ジェネレーション

ChIRAAG: ChatGPT Informed Rapid and Automated Assertion Generation ( http://arxiv.org/abs/2402.00093v3 )

ライセンス: Link先を確認
Bhabesh Mali, Karthik Maddala, Vatsal Gupta, Sweeya Reddy, Chandan Karfa, Ramesh Karri, (参考訳) System Verilog Assertion (SVA) の定式化 -- クリティカルだが複雑なタスクは、Assertion Based Verification (ABV) プロセスの前提条件である。 伝統的に、SVAの定式化には専門家主導の仕様解釈が含まれる。 近年,LSMによる自動アサーション生成が注目されている。 設計の自然言語仕様からSVAを生成するために,OpenAI GPT4をベースとしたChIRAAGという新しいフレームワークを設計した。 ChIRAAGは、設計仕様を標準化されたフォーマットに体系的に分解し、LLMを使用してフォーマット化された仕様からアサーションを生成する。 さらに,LSM生成アサーションの検証にはほとんどテストケースを使用しませんでした。 シミュレーションツールからLLMへのログメッセージの自動フィードバックにより、フレームワークが正しいSVAを生成することができる。 実験では, LLM生成した生のアサーションの27%に誤りがあり, シミュレーションログに基づいて数回繰り返し修正した。 OpenTitanの設計結果から,LLMはアサーション生成プロセスにおけるエンジニアの合理化,支援,検証ワークフローの再構築を実現している。

System Verilog Assertion (SVA) formulation -- a critical yet complex task is a prerequisite in the Assertion Based Verification (ABV) process. Traditionally, SVA formulation involves expert-driven interpretation of specifications, which is time-consuming and prone to human error. Recently, LLM-informed automatic assertion generation is gaining interest. We designed a novel framework called ChIRAAG, based on OpenAI GPT4, to generate SVA from natural language specifications of a design. ChIRAAG constitutes the systematic breakdown of design specifications into a standardized format, further generating assertions from formatted specifications using LLM. Furthermore, we used few test cases to validate the LLM-generated assertions. Automatic feedback of log messages from the simulation tool to the LLM ensures that the framework can generate correct SVAs. In our experiments, only 27% of LLM-generated raw assertions had errors, which was rectified in few iterations based on the simulation log. Our results on OpenTitan designs show that LLMs can streamline and assist engineers in the assertion generation process, reshaping verification workflows.
翻訳日:2024-07-01 21:44:37 公開日:2024-06-28
# 協調組立シナリオにおけるコボットのリズム, 制御の軌跡, 感情状態のダイナミクスの探索

Exploring the Dynamics between Cobot's Production Rhythm, Locus of Control and Emotional State in a Collaborative Assembly Scenario ( http://arxiv.org/abs/2402.00808v2 )

ライセンス: Link先を確認
Marta Mondellini, Matteo Lavit Nicora, Pooja Prajod, Elisabeth André, Rocco Vertechy, Alessandro Antonietti, Matteo Malosio, (参考訳) 産業シナリオでは、コラボロボット(コボット)が広く使われており、コボットの特徴が人的要因に与える影響を評価・測定することに関心が高まっている。 本研究は,コボットの生産リズム(C1 - Slow, C2 - Fast, C3 - Adapted to the participants's pace)が実験軌跡(ELoC)に及ぼす影響と31人の被験者の感情状態について検討した。 操作者のパフォーマンス、基本的な内部位置制御の度合い、ロボットに対する態度も考慮された。 3つの条件で情動状態とELoCに差はみられなかったが、他の心理的変数を考慮すると、より複雑な状況が現れる。 全体として、結果は個人の心理的特徴を考慮し、差別化され、最適な相互作用体験を提供する必要があることを示している。

In industrial scenarios, there is widespread use of collaborative robots (cobots), and growing interest is directed at evaluating and measuring the impact of some characteristics of the cobot on the human factor. In the present pilot study, the effect that the production rhythm (C1 - Slow, C2 - Fast, C3 - Adapted to the participant's pace) of a cobot has on the Experiential Locus of Control (ELoC) and the emotional state of 31 participants has been examined. The operators' performance, the degree of basic internal Locus of Control, and the attitude towards the robots were also considered. No difference was found regarding the emotional state and the ELoC in the three conditions, but considering the other psychological variables, a more complex situation emerges. Overall, results seem to indicate a need to consider the person's psychological characteristics to offer a differentiated and optimal interaction experience.
翻訳日:2024-07-01 21:44:37 公開日:2024-06-28
# CodeAgent: ソフトウェアエンジニアリングのためのコラボレーションエージェント

CodeAgent: Collaborative Agents for Software Engineering ( http://arxiv.org/abs/2402.02172v4 )

ライセンス: Link先を確認
Daniel Tang, Kisub Kim, Yewei Song, Cedric Lothritz, Bei Li, Saad Ezzini, Haoye Tian, Jacques Klein, Tegawende F. Bissyande, (参考訳) コードレビューは、ソフトウェアの全体的な品質と信頼性を保証することを目的としています。 残念なことに、コードレビューは、研究コミュニティが自動化しようとしている労働集約的なプロセスである。 既存の自動手法は単一入力出力生成モデルに依存しており、コードレビューの協調的な性質をエミュレートするのに一般的に苦労している。 コードレビュー自動化のための新しいマルチエージェント大規模言語モデル(LLM)システムであるCodeAgentを紹介する。 CodeAgentには監督エージェントであるQA-Checkerが組み込まれており、すべてのエージェントのコントリビューションが初期レビュー問題に対処することを保証している。 1) コード変更とコミットメッセージの不整合の検出,(2) 脆弱性の導入の識別,(3) コードスタイルの遵守の検証,(4) コード修正を提案する。 その結果、CodeAgentの有効性が示され、コードレビュー自動化の新たな最先端に寄与した。 私たちのデータとコードは公開されています(\url{https://github.com/Code4Agent/codeagent})。

Code review, which aims at ensuring the overall quality and reliability of software, is a cornerstone of software development. Unfortunately, while crucial, Code review is a labor-intensive process that the research community is looking to automate. Existing automated methods rely on single input-output generative models and thus generally struggle to emulate the collaborative nature of code review. This work introduces CodeAgent, a novel multi-agent Large Language Model (LLM) system for code review automation. CodeAgent incorporates a supervisory agent, QA-Checker, to ensure that all the agents' contributions address the initial review question. We evaluated CodeAgent on critical code review tasks: (1) detect inconsistencies between code changes and commit messages, (2) identify vulnerability introductions, (3) validate code style adherence, and (4) suggest code revisions. The results demonstrate CodeAgent's effectiveness, contributing to a new state-of-the-art in code review automation. Our data and code are publicly available (\url{https://github.com/Code4Agent/codeagent}).
翻訳日:2024-07-01 21:44:37 公開日:2024-06-28
# BGE M3埋め込み:自己知識蒸留による多言語・多言語・多言語テキスト埋め込み

BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation ( http://arxiv.org/abs/2402.03216v4 )

ライセンス: Link先を確認
Jianlv Chen, Shitao Xiao, Peitian Zhang, Kun Luo, Defu Lian, Zheng Liu, (参考訳) 本稿では,M3-Embeddingと呼ばれる新しい埋め込みモデルを提案する。 100以上の作業言語をサポートすることができるため、多言語および多言語検索タスクにおける最先端のパフォーマンスが新たに向上する。 組込みモデルの3つの共通検索機能 – 密集検索,マルチベクトル検索,スパース検索 – を同時に実行し,現実世界のIRアプリケーションに統一されたモデル基盤を提供する。 短い文から最大8192トークンの長いドキュメントまで、さまざまな粒度の入力を処理することができる。 M3-Embeddingの効果的なトレーニングには、以下の技術貢献が含まれる。 そこで本研究では,検索機能の違いによる関連点を教師信号として統合し,学習の質を高める,新たな自己知識蒸留手法を提案する。 また、バッチ処理戦略を最適化し、大規模なバッチサイズと高いトレーニングスループットを実現し、埋め込みの識別性を確保します。 私たちの知る限りでは、M3-Embeddingはそのような強力な汎用性を実現する最初の埋め込みモデルです。 モデルとコードはhttps://github.com/FlagOpen/FlagEmbedding.comで公開される。

In this paper, we present a new embedding model, called M3-Embedding, which is distinguished for its versatility in Multi-Linguality, Multi-Functionality, and Multi-Granularity. It can support more than 100 working languages, leading to new state-of-the-art performances on multi-lingual and cross-lingual retrieval tasks. It can simultaneously perform the three common retrieval functionalities of embedding model: dense retrieval, multi-vector retrieval, and sparse retrieval, which provides a unified model foundation for real-world IR applications. It is able to process inputs of different granularities, spanning from short sentences to long documents of up to 8192 tokens. The effective training of M3-Embedding involves the following technical contributions. We propose a novel self-knowledge distillation approach, where the relevance scores from different retrieval functionalities can be integrated as the teacher signal to enhance the training quality. We also optimize the batching strategy, enabling a large batch size and high training throughput to ensure the discriminativeness of embeddings. To the best of our knowledge, M3-Embedding is the first embedding model which realizes such a strong versatility. The model and code will be publicly available at https://github.com/FlagOpen/FlagEmbedding.
翻訳日:2024-07-01 21:44:37 公開日:2024-06-28
# ANLS* -- 生成可能な大規模言語モデルのためのユニバーサルドキュメント処理メトリクス

ANLS* -- A Universal Document Processing Metric for Generative Large Language Models ( http://arxiv.org/abs/2402.03848v6 )

ライセンス: Link先を確認
David Peer, Philemon Schöpf, Volckmar Nebendahl, Alexander Rietzler, Sebastian Stabinger, (参考訳) 伝統的に、差別モデルが文書分類や情報抽出といったタスクの主要な選択肢となっている。 これらのモデルは、限定された定義済みのクラスに該当する予測を行い、バイナリ真または偽の評価を容易にし、F1スコアのようなメトリクスの直接計算を可能にする。 しかし、ジェネレーティブな大規模言語モデル(GLLM)の最近の進歩は、下流のデータセットや計算コストのかかる微調整の必要性をなくすため、ゼロショット能力の強化により、この分野のシフトを引き起こしている。 しかし、GLLM の評価は、識別モデルに使用される二項真偽の評価が GLLM の予測には適用できないため、課題となる。 本稿では,情報抽出や分類タスクを含む多種多様なタスクを評価するために,ANLS*と呼ばれる生成モデルのための新しい指標を提案する。 ANLS*メトリックは、既存のANLSメトリクスをドロップ・イン・リプレースとして拡張し、以前報告されたANLSスコアと互換性がある。 また,ANLS*メトリックを用いた3つの異なるプロンプト法とともに,7つの異なるデータセットと10以上の異なるGLLMの評価を行い,提案手法の重要性を実証した。 また、SFTと呼ばれる文書のプロンプトを生成する新しい手法を、LATINなどの他のプロンプト技術に対してベンチマークする。 7件中6件で、SFTは他の技術より優れ、最先端の技術を改善し、時には最大10ドルの割合で改善する。 ソースはhttps://github.com/deepopinion/anls_star_metricにある。

Traditionally, discriminative models have been the predominant choice for tasks like document classification and information extraction. These models make predictions that fall into a limited number of predefined classes, facilitating a binary true or false evaluation and enabling the direct calculation of metrics such as the F1 score. However, recent advancements in generative large language models (GLLMs) have prompted a shift in the field due to their enhanced zero-shot capabilities, which eliminate the need for a downstream dataset and computationally expensive fine-tuning. However, evaluating GLLMs presents a challenge as the binary true or false evaluation used for discriminative models is not applicable to the predictions made by GLLMs. This paper introduces a new metric for generative models called ANLS* for evaluating a wide variety of tasks, including information extraction and classification tasks. The ANLS* metric extends existing ANLS metrics as a drop-in-replacement and is still compatible with previously reported ANLS scores. An evaluation of 7 different datasets, and more than 10 different GLLMs together with 3 different prompting methods using the ANLS* metric is also provided, demonstrating the importance of the proposed metric. We also benchmark a novel approach to generate prompts for documents, called SFT, against other prompting techniques such as LATIN. In 6 out of 7 cases, SFT outperforms other techniques and improves the state-of-the-art, sometimes by as much as $10$ percentage points. Sources are available at https://github.com/deepopinion/anls_star_metric
翻訳日:2024-07-01 21:44:37 公開日:2024-06-28
# 実データと代理データによる学習法則のスケーリング

Scaling laws for learning with real and surrogate data ( http://arxiv.org/abs/2402.04376v2 )

ライセンス: Link先を確認
Ayush Jain, Andrea Montanari, Eren Sasoglu, (参考訳) 大量の高品質なデータを収集することは、違法に高価または非現実的であり、機械学習のボトルネックとなる可能性がある。 代わりに、ターゲットのディストリビューションから、よりアクセスしやすいソース、例えば異なる状況下で収集されたデータ、あるいは生成モデルによって合成されたデータによって、小さな$n$のデータポイントを増大させることができる。 このようなデータを「代理データ」と呼ぶ。 「重み付き経験的リスク最小化(ERM)アプローチを導入し,サロゲートデータをトレーニングに統合する。 本手法をいくつかの古典的統計モデルで数学的に解析し,異なる領域のデータセット上で実験的に検証した。 主な発見は以下のとおりである。 (i)$サロゲートデータの積分は、元の分布におけるテストエラーを著しく減少させる。 驚くべきことに、サロゲートデータが元のデータとは無関係である場合でも、これは起こりうる。 我々はこの振る舞いを古典的なスタインのパラドックスに遡る。 $ (ii)データサロゲートの利点を享受するためには,最適重み付きEMMを用いることが重要である。 $ (iii)$ 実データと代理データの混合で訓練されたモデルのテストエラーは、概ねスケーリング法則によって記述される。 このスケーリング法則は、最適な重み付けスキームを予測し、追加するサロゲートデータの量を選択するために使用することができる。

Collecting large quantities of high-quality data can be prohibitively expensive or impractical, and a bottleneck in machine learning. One may instead augment a small set of $n$ data points from the target distribution with data from more accessible sources, e.g. data collected under different circumstances or synthesized by generative models. We refer to such data as `surrogate data.' We introduce a weighted empirical risk minimization (ERM) approach for integrating surrogate data into training. We analyze mathematically this method under several classical statistical models, and validate our findings empirically on datasets from different domains. Our main findings are: $(i)$ Integrating surrogate data can significantly reduce the test error on the original distribution. Surprisingly, this can happen even when the surrogate data is unrelated to the original ones. We trace back this behavior to the classical Stein's paradox. $(ii)$ In order to reap the benefit of surrogate data, it is crucial to use optimally weighted ERM. $(iii)$ The test error of models trained on mixtures of real and surrogate data is approximately described by a scaling law. This scaling law can be used to predict the optimal weighting scheme, and to choose the amount of surrogate data to add.
翻訳日:2024-07-01 21:44:37 公開日:2024-06-28
# 構造的欠損を有する高次元点過程の潜在変数モデル

Latent variable model for high-dimensional point process with structured missingness ( http://arxiv.org/abs/2402.05758v2 )

ライセンス: Link先を確認
Maksim Sinelnikov, Manuel Haussmann, Harri Lähdesmäki, (参考訳) 縦断データは、医療、社会学、地震学などの多くの分野において重要であるが、実世界のデータセットは、高次元であり、構造的欠損パターンを含み、測定時間ポイントは未知の確率過程によって管理されるため、実践者にとって顕著な課題を提示する。 様々な解決策が提案されているが、その大半はこれらの課題の1つだけを考慮するように設計されている。 本研究では,これらすべての制約に対処可能な,柔軟で効率的な潜在変数モデルを提案する。 提案手法はガウス過程を用いて,サンプルとその関連欠落マスク間の時間的相関を捉え,その基礎となる点過程をモデル化する。 我々は、ニューラルネットワークパラメータ化エンコーダとデコーダモデルとともに、変分オートエンコーダとしてモデルを構築し、効率的なモデルトレーニングのためのスケーラブルな補正変分推論アプローチを開発した。 シミュレーションと実データの両方を用いて競合性能を実証する。

Longitudinal data are important in numerous fields, such as healthcare, sociology and seismology, but real-world datasets present notable challenges for practitioners because they can be high-dimensional, contain structured missingness patterns, and measurement time points can be governed by an unknown stochastic process. While various solutions have been suggested, the majority of them have been designed to account for only one of these challenges. In this work, we propose a flexible and efficient latent-variable model that is capable of addressing all these limitations. Our approach utilizes Gaussian processes to capture temporal correlations between samples and their associated missingness masks as well as to model the underlying point process. We construct our model as a variational autoencoder together with deep neural network parameterised encoder and decoder models, and develop a scalable amortised variational inference approach for efficient model training. We demonstrate competitive performance using both simulated and real datasets.
翻訳日:2024-07-01 21:44:37 公開日:2024-06-28
# 大規模言語モデルに基づくインテリジェントインタフェースを用いたソフトウェアプロジェクトにおける取り組みと規模推定

Effort and Size Estimation in Software Projects with Large Language Model-based Intelligent Interfaces ( http://arxiv.org/abs/2402.07158v2 )

ライセンス: Link先を確認
Claudionor N. Coelho Jr, Hanchen Xiong, Tushar Karayil, Sree Koratala, Rex Shang, Jacob Bollinger, Mohamed Shabar, Syam Nair, (参考訳) LLM(Large Language Models)の進歩も、その応用に匹敵する増殖をもたらした。 ソフトウェア設計は1つであり、固定されたユーザーストーリーを拡張するインターフェイスコンポーネントとしてLLMを使用することで大きな利益を得ています。 しかしながら、ソフトウェア設計にLLMベースのAIエージェントを組み込むことは、特に開発作業の推定において、予期せぬ課題を引き起こすことが多い。 UIベースのユーザストーリーの例を通して、従来の手法との比較を行い、データソース、インターフェース、アルゴリズムを考慮した開発作業の推定を可能にする自然言語ベースの質問の仕様を強化する新しい方法を提案する。

The advancement of Large Language Models (LLM) has also resulted in an equivalent proliferation in its applications. Software design, being one, has gained tremendous benefits in using LLMs as an interface component that extends fixed user stories. However, inclusion of LLM-based AI agents in software design often poses unexpected challenges, especially in the estimation of development efforts. Through the example of UI-based user stories, we provide a comparison against traditional methods and propose a new way to enhance specifications of natural language-based questions that allows for the estimation of development effort by taking into account data sources, interfaces and algorithms.
翻訳日:2024-07-01 21:44:37 公開日:2024-06-28
# ドメイン知識とマルチモーダリティが知能分子特性予測に及ぼす影響:システム的調査

Impact of Domain Knowledge and Multi-Modality on Intelligent Molecular Property Prediction: A Systematic Survey ( http://arxiv.org/abs/2402.07249v3 )

ライセンス: Link先を確認
Taojie Kuang, Pengfei Liu, Zhixiang Ren, (参考訳) 分子特性の正確な予測は、特に仮想スクリーニングや複合最適化において、医薬品開発の発展に不可欠である。 近年の多くの深層学習手法の導入は、分子特性予測(MPP)の強化、特に分子構造に対する精度と洞察の向上に顕著な可能性を示している。 しかし、2つの重要な疑問が生じる: ドメイン知識の統合は分子特性予測の精度を高め、マルチモーダルデータ融合を用いることで、ユニークなデータソース法よりも正確な結果が得られるか? これらの課題を探るため,様々なベンチマークに基づいて,最近のディープラーニング手法を総合的に検証し,定量的に分析した。 分子情報の統合は、回帰処理と分類処理の両方において分子特性予測(MPP)を大幅に改善することを発見した。 具体的には、根平均二乗誤差(RMSE)の低減によって測定される回帰改善は最大4.0%まで、一方、受信機動作特性曲線(ROC-AUC)の領域で測定される分類改善は最大1.7%までである。 また, 1次元SMILESによる2次元グラフの強化により, 回帰タスクのマルチモーダル学習性能が最大9.1%向上し, 3次元情報による2次元グラフの増大により, ROC-AUCを用いて測定した2次元グラフの性能が最大13.2%向上することが判明した。 統合された2つの洞察は、薬物発見の今後の進歩に重要なガイダンスを提供する。

The precise prediction of molecular properties is essential for advancements in drug development, particularly in virtual screening and compound optimization. The recent introduction of numerous deep learning-based methods has shown remarkable potential in enhancing molecular property prediction (MPP), especially improving accuracy and insights into molecular structures. Yet, two critical questions arise: does the integration of domain knowledge augment the accuracy of molecular property prediction and does employing multi-modal data fusion yield more precise results than unique data source methods? To explore these matters, we comprehensively review and quantitatively analyze recent deep learning methods based on various benchmarks. We discover that integrating molecular information significantly improves molecular property prediction (MPP) for both regression and classification tasks. Specifically, regression improvements, measured by reductions in root mean square error (RMSE), are up to 4.0%, while classification enhancements, measured by the area under the receiver operating characteristic curve (ROC-AUC), are up to 1.7%. We also discover that enriching 2D graphs with 1D SMILES boosts multi-modal learning performance for regression tasks by up to 9.1%, and augmenting 2D graphs with 3D information increases performance for classification tasks by up to 13.2%, with both enhancements measured using ROC-AUC. The two consolidated insights offer crucial guidance for future advancements in drug discovery.
翻訳日:2024-07-01 21:44:37 公開日:2024-06-28
# 大規模言語モデルのためのアクティブな選好学習

Active Preference Learning for Large Language Models ( http://arxiv.org/abs/2402.08114v2 )

ライセンス: Link先を確認
William Muldrew, Peter Hayes, Mingtian Zhang, David Barber, (参考訳) 大きな言語モデル(LLM)がより有能になるにつれて、人間の意図に合わせるための微調整技術がますます重要になっている。 これらのモデルを調整する上で重要な考慮事項は、LLM自体をオーラクルとして使用する場合、人的資源を効果的に利用する方法、あるいはモデルリソースを使用する方法である。 人間やAIの好みからの強化学習(RLHF/RLAIF)は、そのようなテクニックの最も顕著な例であるが、複雑で不安定であることが多い。 直接選好最適化(DPO)は、最近よりシンプルでより安定した代替案として提案されている。 そこで本研究では, DPO の実践的学習戦略を開発し, 嗜好ラベルをよりよく活用する。 本稿では,言語モデルの予測エントロピーとDPOによって最適化された暗黙的選好モデルの確実性に基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。 提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。

As large language models (LLMs) become more capable, fine-tuning techniques for aligning with human intent are increasingly important. A key consideration for aligning these models is how to most effectively use human resources, or model resources in the case where LLMs themselves are used as oracles. Reinforcement learning from Human or AI preferences (RLHF/RLAIF) is the most prominent example of such a technique, but is complex and often unstable. Direct Preference Optimization (DPO) has recently been proposed as a simpler and more stable alternative. In this work, we develop an active learning strategy for DPO to make better use of preference labels. We propose a practical acquisition function for prompt/completion pairs based on the predictive entropy of the language model and a measure of certainty of the implicit preference model optimized by DPO. We demonstrate how our approach improves both the rate of learning and final performance of fine-tuning on pairwise preference data.
翻訳日:2024-07-01 21:44:37 公開日:2024-06-28
# ゼロショット推論:コールドスタート問題のないパーソナライズされたコンテンツ生成

Zero-Shot Reasoning: Personalized Content Generation Without the Cold Start Problem ( http://arxiv.org/abs/2402.10133v2 )

ライセンス: Link先を確認
Davor Hafnar, Jure Demšar, (参考訳) 手続き的コンテンツ生成はアルゴリズム技術を用いて、生産コストがはるかに低いゲーム用の大量の新しいコンテンツを作成する。 より新しいアプローチでは、手続き的コンテンツ生成は機械学習を利用する。 しかし、これらの手法は、通常、大量のデータを集め、非常に時間とコストのかかる、かなり複雑な学習モデルの開発と訓練を必要とする。 本研究の核となるのは,大規模言語モデルによるより実用的で一般化可能なアプローチにより,個別化された手続き型コンテンツ生成の障壁を低くすることができるかどうかを検討することである。 ゲームコンテンツとプレイヤーの好みをマッチさせることは、よりゲームを楽しむプレイヤーと、ゲームを楽しむプレイヤーに依存している開発者の両方に利益をもたらす。 そこで本稿では,大規模言語モデルを用いて個別プレイヤーから連続的に収集されたゲームプレイデータに基づいて,個人化を実現するための新たな手法を提案する。 従来の手続き生成手法を用いて生成したレベルと,アプローチを用いて生成したレベルを比較した。 我々の再現容易な手法は、従来の手法が生成した生産環境では有効であることが証明され、プレイヤーが中間レベルからゲームをやめない確率で性能が向上した。

Procedural content generation uses algorithmic techniques to create large amounts of new content for games at much lower production costs. In newer approaches, procedural content generation utilizes machine learning. However, these methods usually require expensive collection of large amounts of data, as well as the development and training of fairly complex learning models, which can be both extremely time-consuming and expensive. The core of our research is to explore whether we can lower the barrier to the use of personalized procedural content generation through a more practical and generalizable approach with large language models. Matching game content with player preferences benefits both players, who enjoy the game more, and developers, who increasingly depend on players enjoying the game before being able to monetize it. Therefore, this paper presents a novel approach to achieving personalization by using large language models to propose levels based on the gameplay data continuously collected from individual players. We compared the levels generated using our approach with levels generated with more traditional procedural generation techniques. Our easily reproducible method has proven viable in a production setting and outperformed levels generated by traditional methods in the probability that a player will not quit the game mid-level.
翻訳日:2024-07-01 21:44:37 公開日:2024-06-28
# 論理閉ループ:大規模視覚言語モデルにおける物体幻覚の発見

Logical Closed Loop: Uncovering Object Hallucinations in Large Vision-Language Models ( http://arxiv.org/abs/2402.11622v2 )

ライセンス: Link先を確認
Junfei Wu, Qiang Liu, Ding Wang, Jinghao Zhang, Shu Wu, Liang Wang, Tieniu Tan, (参考訳) 物体幻覚は、大きな視覚言語モデル(LVLM)の幅広い応用を妨げるアキレス腱である。 オブジェクト幻覚(Object Hallucination)とは、LVLMが画像に存在しない物体を主張する現象である。 物体の幻覚、命令のチューニング、外部モデルに基づく検出手法が提案されており、これは大規模な計算資源を必要とするか、外部モデルの検出結果に依存する。 しかし、LVLM自体を利用して物体の幻覚を和らげるために、まだ探索されていない分野がある。 本研究では,LVLMが存在対象に対して論理的に一貫した応答を示す傾向にあるが,幻影対象に対しては矛盾しないという直観を採用する。 そこで本研究では,物体の幻覚検出と緩和,すなわちLogicCheckGPTのための論理閉ループベースのフレームワークを提案する。 具体的には、論理的整合性探索を考案し、論理的相関による質問を提起し、オブジェクトの属性を問う。 それらの反応が論理閉ループを形成するか否かは、対象幻覚の指標となる。 プラグアンドプレイ法として、既存のすべてのLVLMにシームレスに適用することができる。 4つのLVLMにまたがる3つのベンチマークで実施した総合的な実験により,本手法がもたらす有意な改善が示され,その有効性と汎用性が確認された。

Object hallucination has been an Achilles' heel which hinders the broader applications of large vision-language models (LVLMs). Object hallucination refers to the phenomenon that the LVLMs claim non-existent objects in the image. To mitigate the object hallucinations, instruction tuning and external model-based detection methods have been proposed, which either require large-scare computational resources or depend on the detection result of external models. However, there remains an under-explored field to utilize the LVLM itself to alleviate object hallucinations. In this work, we adopt the intuition that the LVLM tends to respond logically consistently for existent objects but inconsistently for hallucinated objects. Therefore, we propose a Logical Closed Loop-based framework for Object Hallucination Detection and Mitigation, namely LogicCheckGPT. In specific, we devise logical consistency probing to raise questions with logical correlations, inquiring about attributes from objects and vice versa. Whether their responses can form a logical closed loop serves as an indicator of object hallucination. As a plug-and-play method, it can be seamlessly applied to all existing LVLMs. Comprehensive experiments conducted on three benchmarks across four LVLMs have demonstrated significant improvements brought by our method, indicating its effectiveness and generality.
翻訳日:2024-07-01 21:44:37 公開日:2024-06-28
# 階層型アクティブ推論における動的計画法

Dynamic planning in hierarchical active inference ( http://arxiv.org/abs/2402.11658v2 )

ライセンス: Link先を確認
Matteo Priorelli, Ivilin Peev Stoianov, (参考訳) 動的計画法では、人間の脳が認知決定に関連する運動軌跡を推論し、導入する能力について言及する。 最近のパラダイムであるアクティブ推論は、生物の適応に関する基本的な洞察をもたらし、予測エラーを最小限に抑え、生命と互換性のある状態に制限しようと努力している。 過去数年間、多くの研究が、ロボット工学や人工知能における革新的なソリューションを創り出すために、人間と動物の行動が、離散的な意思決定や連続的なモーター制御といった、活発な推論プロセスによってどのように説明できるかを示してきた。 それでも、この文献は環境の変化において効果的に行動を計画する方法に関する包括的な見通しを欠いている。 モデリングツールの使用の目標を自ら設定し、アクティブな推論における動的計画のトピックを掘り下げ、生物学的な目標指向行動の2つの重要な側面を念頭に置き、オブジェクト操作の余裕を理解して活用する能力と、他のエージェントを含む自己と環境の間の階層的な相互作用を学ぶ能力に留意する。 簡単なユニットから始めて、より高度な構造を徐々に記述し、最近提案された設計選択を比較し、各セクションの基本的な例を提供します。 この研究は、ニューラルネットワークや強化学習を中心とした従来の見解とは距離を置いている。

By dynamic planning, we refer to the ability of the human brain to infer and impose motor trajectories related to cognitive decisions. A recent paradigm, active inference, brings fundamental insights into the adaptation of biological organisms, constantly striving to minimize prediction errors to restrict themselves to life-compatible states. Over the past years, many studies have shown how human and animal behavior could be explained in terms of an active inferential process - either as discrete decision-making or continuous motor control - inspiring innovative solutions in robotics and artificial intelligence. Still, the literature lacks a comprehensive outlook on how to effectively plan actions in changing environments. Setting ourselves the goal of modeling tool use, we delve into the topic of dynamic planning in active inference, keeping in mind two crucial aspects of biological goal-directed behavior: the capacity to understand and exploit affordances for object manipulation, and to learn the hierarchical interactions between the self and the environment, including other agents. We start from a simple unit and gradually describe more advanced structures, comparing recently proposed design choices and providing basic examples for each section. This study distances itself from traditional views centered on neural networks and reinforcement learning, and points toward a yet unexplored direction in active inference: hybrid representations in hierarchical models.
翻訳日:2024-07-01 21:34:46 公開日:2024-06-28
# LLMに基づく評価者はNLGの品質基準を混同しているか?

Are LLM-based Evaluators Confusing NLG Quality Criteria? ( http://arxiv.org/abs/2402.12055v2 )

ライセンス: Link先を確認
Xinyu Hu, Mingqi Gao, Sen Hu, Yang Zhang, Yicheng Chen, Teng Xu, Xiaojun Wan, (参考訳) いくつかの先行研究により、LCMは異なるタスクに対するNLG評価において良好に機能することが示されている。 しかし,LLMは異なる評価基準を混乱させ,信頼性を低下させることがわかった。 さらなる検証のために、我々はまず既存のNLGの品質基準自体において、一貫性のない概念化や曖昧な表現の問題を避けることを検討する。 そこで本稿では,従来の研究と異なる基準で,11の共通側面の明確な階層分類システムについて要約する。 行動検査にインスパイアされた我々は、異なるLCMの評価行動のきめ細かい分析のために、18種類のアスペクトターゲット摂動攻撃を精巧に設計した。 また,人間のアノテーションを分類体系の指導を超えて実施し,摂動の影響を検証した。 実験の結果,LSMに固有の混乱や,その他の注目すべき現象が明らかとなり,LCMによる評価のさらなる研究と改善が求められた。

Some prior work has shown that LLMs perform well in NLG evaluation for different tasks. However, we discover that LLMs seem to confuse different evaluation criteria, which reduces their reliability. For further verification, we first consider avoiding issues of inconsistent conceptualization and vague expression in existing NLG quality criteria themselves. So we summarize a clear hierarchical classification system for 11 common aspects with corresponding different criteria from previous studies involved. Inspired by behavioral testing, we elaborately design 18 types of aspect-targeted perturbation attacks for fine-grained analysis of the evaluation behaviors of different LLMs. We also conduct human annotations beyond the guidance of the classification system to validate the impact of the perturbations. Our experimental results reveal confusion issues inherent in LLMs, as well as other noteworthy phenomena, and necessitate further research and improvements for LLM-based evaluation.
翻訳日:2024-07-01 21:34:45 公開日:2024-06-28
# NLIモデルの領域一般化のための合成データアプローチ

A synthetic data approach for domain generalization of NLI models ( http://arxiv.org/abs/2402.12368v2 )

ライセンス: Link先を確認
Mohammad Javad Hosseini, Andrey Petrov, Alex Fabrikant, Annie Louis, (参考訳) 自然言語推論(NLI)はLLMにとって重要なベンチマークタスクである。 NLIデータセットは、他のセマンティックタスクへの変換学習のためのスプリングボードであり、NLIモデルは、モデル生成テキストの忠実さを特定するための標準ツールである。 現在、いくつかの大規模なNLIデータセットがあり、これらのコレクションのヒルクライミングによってモデルは大幅に改善されている。 しかし、アウト・オブ・ディストリビューション/ドメインデータの現実的なパフォーマンスは、あまりよく理解されていない。 我々は、新しいテキストドメインと見えないテキストドメインをまたいだダウンストリームアプリケーションにおいて、NLIモデルをゼロショット使用に適応する、高品質な合成データセットの機会を探究する。 既存のトレーニングセットではカバーされていないさまざまな領域と長さでNLIデータを生成するための新しいアプローチを実証する。 得られた例は意味のある前提を持ち、仮説はいくつかの前提トークンへの単純な編集よりも創造的な方法で形成され、ラベルは高い精度を持つ。 このデータに基づいてトレーニングされたモデル(685$Kの合成例)が、まったく新しい下流テスト設定に最適な一般化があることを示します。 TRUEベンチマークでは、私たちのデータでトレーニングされたT5小モデルでは、最適な代替データセットでトレーニングした場合と比較して、平均で7\%程度改善されています。 この改良は小型モデルではより顕著だが、それでもT5 XXLモデルでは有意義である。 また、ドメイン内のトレーニングデータをドメイン一般の合成データで拡張した場合、テストセットが向上することを示す。

Natural Language Inference (NLI) remains an important benchmark task for LLMs. NLI datasets are a springboard for transfer learning to other semantic tasks, and NLI models are standard tools for identifying the faithfulness of model-generated text. There are several large scale NLI datasets today, and models have improved greatly by hill-climbing on these collections. Yet their realistic performance on out-of-distribution/domain data is less well-understood. We explore the opportunity for synthetic high-quality datasets to adapt NLI models for zero-shot use in downstream applications across new and unseen text domains. We demonstrate a new approach for generating NLI data in diverse domains and lengths, so far not covered by existing training sets. The resulting examples have meaningful premises, the hypotheses are formed in creative ways rather than simple edits to a few premise tokens, and the labels have high accuracy. We show that models trained on this data ($685$K synthetic examples) have the best generalization to completely new downstream test settings. On the TRUE benchmark, a T5-small model trained with our data improves around $7\%$ on average compared to training on the best alternative dataset. The improvements are more pronounced for smaller models, while still meaningful on a T5 XXL model. We also demonstrate gains on test sets when in-domain training data is augmented with our domain-general synthetic data.
翻訳日:2024-07-01 21:34:45 公開日:2024-06-28
# プログラム可能な超伝導量子プロセッサにおける円錐交叉の量子計算

Quantum computation of conical intersections on a programmable superconducting quantum processor ( http://arxiv.org/abs/2402.12708v2 )

ライセンス: Link先を確認
Shoukuan Zhao, Diandong Tang, Xiaoxiao Xiao, Ruixia Wang, Qiming Sun, Zhen Chen, Xiaoxia Cai, Zhendong Li, Haifeng Yu, Wei-Hai Fang, (参考訳) 円錐交差(CI)は多くの光化学過程において中心的である。 状態平均の多重構成法のような伝統的な量子化学法は、古典的コンピュータ上の活性空間内の電子的シュリンガー方程式を解く際に計算上のハードルに直面している。 量子コンピューティングは潜在的な解決策を提供するが、CIの研究、特に実際の量子ハードウェアにおける実現可能性はほとんど解明されていない。 本稿では, 超伝導量子プロセッサ上での変分量子固有解法(VQE-SA-CASSCF)に基づく, 量子古典的状態平均活性空間自己整合性フィールド法の最初の成功例を示す。 この手法は、エチレン(C2H4)と三原子水素(H3)の2種類の原型系におけるCIの研究に応用される。 VQE-SA-CASSCFは、現在進行中のハードウェアとアルゴリズムの強化と相まって、既存の量子デバイス上でのCIの正確な記述につながる可能性がある。 これらの結果は、将来より複雑なシステムでCIを研究する量子コンピューティングの可能性を探るための基礎となる。

Conical intersections (CIs) are pivotal in many photochemical processes. Traditional quantum chemistry methods, such as the state-average multi-configurational methods, face computational hurdles in solving the electronic Schr\"odinger equation within the active space on classical computers. While quantum computing offers a potential solution, its feasibility in studying CIs, particularly on real quantum hardware, remains largely unexplored. Here, we present the first successful realization of a hybrid quantum-classical state-average complete active space self-consistent field method based on the variational quantum eigensolver (VQE-SA-CASSCF) on a superconducting quantum processor. This approach is applied to investigate CIs in two prototypical systems - ethylene (C2H4) and triatomic hydrogen (H3). We illustrate that VQE-SA-CASSCF, coupled with ongoing hardware and algorithmic enhancements, can lead to a correct description of CIs on existing quantum devices. These results lay the groundwork for exploring the potential of quantum computing to study CIs in more complex systems in the future.
翻訳日:2024-07-01 21:34:45 公開日:2024-06-28
# ポジション: 正当化しないよう質問する

Position: Explain to Question not to Justify ( http://arxiv.org/abs/2402.13914v2 )

ライセンス: Link先を確認
Przemyslaw Biecek, Wojciech Samek, (参考訳) 説明可能な人工知能(XAI)は若いが非常に有望な研究分野である。 残念ながら、この分野の進歩は、現在、ばらばらで互換性のない目標によって減速している。 我々は,XAI領域内で絡み合った様々なスレッドを,人間/価値指向の説明(BLUE XAI)とモデル/妥当性指向の説明(RED XAI)の2つの相補的な文化に分けた。 このポジションペーパーは、RED XAIの領域は、現在まだ探索されていない、すなわち、モデル(例えば、優れたモデルからの知識を抽出したり、欠陥モデルにおけるバグの発見や修正など)を問うために、より多くの説明可能性の方法が必死に必要であり、RED XAIの領域は、AIシステムの安全性を確保するために必要な重要な研究の機会と可能性を隠蔽している、と論じている。 本論文の結論は,本分野における有望な課題を提示することである。

Explainable Artificial Intelligence (XAI) is a young but very promising field of research. Unfortunately, the progress in this field is currently slowed down by divergent and incompatible goals. We separate various threads tangled within the area of XAI into two complementary cultures of human/value-oriented explanations (BLUE XAI) and model/validation-oriented explanations (RED XAI). This position paper argues that the area of RED XAI is currently under-explored, i.e., more methods for explainability are desperately needed to question models (e.g., extract knowledge from well-performing models as well as spotting and fixing bugs in faulty models), and the area of RED XAI hides great opportunities and potential for important research necessary to ensure the safety of AI systems. We conclude this paper by presenting promising challenges in this area.
翻訳日:2024-07-01 21:34:45 公開日:2024-06-28
# Chitchat as Interference:タスク指向対話にユーザバックストリーを追加する

Chitchat as Interference: Adding User Backstories to Task-Oriented Dialogues ( http://arxiv.org/abs/2402.15248v3 )

ライセンス: Link先を確認
Armand Stricker, Patrick Paroubek, (参考訳) タスク指向対話(TOD)において、人間のユーザは、会話の流れに干渉して、タスクの即時範囲を超えているchitchatを自然に導入する。 この問題を解決するために、高価な手動データ作成を必要とせずに、Llama-2-70Bを使って、TODにおけるchitchat干渉の典型的な例であるユーザバックストリーによるMultiWOZデータセットを強化する。 この追加が与える影響を、2つのモデルで評価する。1つはTODで、もう1つはTODで、もう1つは事前のchitchatインタラクションで、TODで訓練された。 我々の分析は、拡張データセットがこれらのシステムに課題をもたらすことを示している。 さらに,我々のデータセットをトレーニング目的で効果的に活用できることを実証し,人間の評価によって確認されたように,システムがユーザの背景を一貫して認識しつつ,タスクを同じ方向に前進させることに成功した。 これらの知見は、TODシステムをより徹底的にテストし、自然なユーザ干渉に対するレジリエンスを向上させるために、新しいchitchat-TODシナリオを生成する利点を浮き彫りにした。

During task-oriented dialogues (TODs), human users naturally introduce chitchat that is beyond the immediate scope of the task, interfering with the flow of the conversation. To address this issue without the need for expensive manual data creation, we use few-shot prompting with Llama-2-70B to enhance the MultiWOZ dataset with user backstories, a typical example of chitchat interference in TODs. We assess the impact of this addition by testing two models: one trained solely on TODs and another trained on TODs with a preliminary chitchat interaction. Our analysis demonstrates that our enhanced dataset poses a challenge for these systems. Moreover, we demonstrate that our dataset can be effectively used for training purposes, enabling a system to consistently acknowledge the user's backstory while also successfully moving the task forward in the same turn, as confirmed by human evaluation. These findings highlight the benefits of generating novel chitchat-TOD scenarios to test TOD systems more thoroughly and improve their resilience to natural user interferences
翻訳日:2024-07-01 21:34:45 公開日:2024-06-28
# JMLR: 推論と専門的質問応答能力向上のための共同医療LLMと検索訓練

JMLR: Joint Medical LLM and Retrieval Training for Enhancing Reasoning and Professional Question Answering Capability ( http://arxiv.org/abs/2402.17887v4 )

ライセンス: Link先を確認
Junda Wang, Zhichao Yang, Zonghai Yao, Hong Yu, (参考訳) LLM(Large Language Models)は、医学知識の獲得と質問応答において顕著な可能性を実証している。 しかし、LLMは、ドメイン固有の事前訓練であっても、幻覚を起こし、事実的に誤った結果をもたらす可能性がある。 これまでは、検索拡張生成(RAG)は幻覚への対処に限られた成功を収めてきた。 検索モデルがLLMと別々に訓練されたRAGの従来の手法とは異なり, 微調整期間中にJMLR(JMLR: Jointly Train LLM and Information Retrieval)を導入する。 シンクロナイズドトレーニング機構は、JMLRが臨床ガイドラインを検索し、医療知識を活用して疑問に答える能力を高め、計算資源の需要を減らす。 我々は,JMLRを重要な医療質問応答アプリケーションとして評価した。 実験の結果,JMLR-13B (70.5%) は従来の事前学習および微調整型メディトロン-70B (68.9%) と,RAG (67.7%) を用いたRAG (67.7%) のLlama2-13Bを用いて,従来の最先端オープンソースモデルよりも優れていた。 総合的な評価では、JMLR-13Bはクロード3-Opusよりも推論品質を高め、幻覚を減少させる。 さらに、JMLR-13B(148GPU時間)もMeditron-70B(42630GPU時間)よりも高速にトレーニングする。 本研究は,医学的質問応答システムにおける検索とLLMトレーニングの統合の可能性を示す,医療のための新しい,効率的な知識向上手法を提供する。

Large Language Models (LLMs) have demonstrated a remarkable potential in medical knowledge acquisition and question-answering. However, LLMs can potentially hallucinate and yield factually incorrect outcomes, even with domain-specific pretraining. Previously, retrieval augmented generation (RAG) has limited success in addressing hallucinations. Unlike previous methods in RAG where the retrieval model was trained separately from the LLM, we introduce JMLR (for Jointly trains LLM and information Retrieval) during the fine-tuning phase. The synchronized training mechanism enhances JMLR's ability to retrieve clinical guidelines and leverage medical knowledge to reason and answer questions and reduces the demand for computational resources. We evaluated JMLR on the important medical question-answering application. Our experimental results demonstrate that JMLR-13B (70.5%) outperforms a previous state-of-the-art open-source model using conventional pre-training and fine-tuning Meditron-70B (68.9%) and Llama2-13B with RAG (67.7%) on a medical question-answering dataset. Comprehensive evaluations reveal JMLR-13B enhances reasoning quality and reduces hallucinations better than Claude3-Opus. Additionally, JMLR-13B (148 GPU hours) also trains much faster than Meditron-70B (42630 GPU hours). Through this work, we provide a new and efficient knowledge enhancement method for healthcare, demonstrating the potential of integrating retrieval and LLM training for medical question-answering systems.
翻訳日:2024-07-01 21:34:45 公開日:2024-06-28
# 金融取引のためのマルチモーダル・ファウンデーション・エージェント:ツール強化・多様化・ジェネリスト

A Multimodal Foundation Agent for Financial Trading: Tool-Augmented, Diversified, and Generalist ( http://arxiv.org/abs/2402.18485v3 )

ライセンス: Link先を確認
Wentao Zhang, Lingxuan Zhao, Haochong Xia, Shuo Sun, Jiaze Sun, Molei Qin, Xinyi Li, Yuqing Zhao, Yilei Zhao, Xinyu Cai, Longtao Zheng, Xinrun Wang, Bo An, (参考訳) 金融トレーディングは、ニュース、価格、クラインチャートを含むマルチモーダルな情報ランドスケープによって知らされ、量的トレーディングや様々な資産との高周波トレーディングといった様々なタスクを含む、市場にとって重要な要素である。 ディープラーニングや強化学習といった高度なAI技術は金融分野で広く活用されているが、金融取引タスクにおけるそれらの応用は、マルチモーダルデータの不十分なハンドリングと、さまざまなタスクにわたる限定的な一般化性によって、しばしば課題に直面している。 これらの課題に対処するため、金融取引のためのツール強化を備えたマルチモーダル基盤エージェントであるFinAgentを提示する。 FinAgentのマーケットインテリジェンスモジュールは、金融市場を正確に分析するために、多種多様なデータ数字、テキスト、視覚的に処理する。 そのユニークなデュアルレベルリフレクションモジュールは、市場ダイナミクスへの迅速な適応を可能にするだけでなく、多様化したメモリ検索システムも組み込んで、履歴データから学習するエージェントの能力を高め、意思決定プロセスを改善する。 エージェントが行動の推論に重点を置いていることは、その金銭的決定に対する信頼を促進する。 さらにFinAgentは、既存のトレーディング戦略と専門家の洞察を統合し、そのトレーディングアプローチがデータ駆動であり、健全な金融原則に根ざしていることを保証する。 株式やCryptoを含む6つの金融データセットに関する総合的な実験により、FinAgentは6つの金融指標で9つの最先端のベースラインを著しく上回り、平均的な利益改善率は36%を超えている。 具体的には、1つのデータセットで92.27%のリターン(84.39%の相対的な改善)を達成する。 特にFinAgentは、金融取引タスク用に設計された最初の先進的マルチモーダル・ファンデーションエージェントである。

Financial trading is a crucial component of the markets, informed by a multimodal information landscape encompassing news, prices, and Kline charts, and encompasses diverse tasks such as quantitative trading and high-frequency trading with various assets. While advanced AI techniques like deep learning and reinforcement learning are extensively utilized in finance, their application in financial trading tasks often faces challenges due to inadequate handling of multimodal data and limited generalizability across various tasks. To address these challenges, we present FinAgent, a multimodal foundational agent with tool augmentation for financial trading. FinAgent's market intelligence module processes a diverse range of data-numerical, textual, and visual-to accurately analyze the financial market. Its unique dual-level reflection module not only enables rapid adaptation to market dynamics but also incorporates a diversified memory retrieval system, enhancing the agent's ability to learn from historical data and improve decision-making processes. The agent's emphasis on reasoning for actions fosters trust in its financial decisions. Moreover, FinAgent integrates established trading strategies and expert insights, ensuring that its trading approaches are both data-driven and rooted in sound financial principles. With comprehensive experiments on 6 financial datasets, including stocks and Crypto, FinAgent significantly outperforms 9 state-of-the-art baselines in terms of 6 financial metrics with over 36% average improvement on profit. Specifically, a 92.27% return (a 84.39% relative improvement) is achieved on one dataset. Notably, FinAgent is the first advanced multimodal foundation agent designed for financial trading tasks.
翻訳日:2024-07-01 21:34:45 公開日:2024-06-28
# 読解プロセスに基づくマルチホップ質問応答のための明示的・暗黙的知識の証明

Prompting Explicit and Implicit Knowledge for Multi-hop Question Answering Based on Human Reading Process ( http://arxiv.org/abs/2402.19350v5 )

ライセンス: Link先を確認
Guangming Huang, Yunfei Long, Cunjin Luo, Jiaxing Shen, Xia Sun, (参考訳) 事前学習された言語モデル(PLM)は、チェーン・オブ・シント(CoT)を利用して、人間の推論と推論プロセスをシミュレートし、マルチホップQAにおける熟練したパフォーマンスを達成する。 しかし、複雑な問題に取り組む際には、PLMの推論能力と人間の推論能力の間にギャップが持続する。 心理学的研究は、通過中の明示的な情報と読書中の人間の事前知識の間に重要なつながりがあることを示唆している。 しかしながら、現在の研究は、人間の認知研究の観点から、入力パスとPLMの事前学習に基づく知識のリンクに十分な注意を払っている。 本研究では,明示的かつ暗黙的な知識を結び付けるためにプロンプトを利用するPmpting Explicit and Implicit Knowledge (PEI)フレームワークを提案する。 我々は、入力文を明示的な知識とみなし、それらを統一的な素早い推論を通して暗黙的な知識を引き出す。 さらに,本モデルでは,暗黙的知識の形式であるプロンプトによる型固有の推論を取り入れている。 実験の結果,PEIはHotpotQAの最先端と同等に機能することがわかった。 アブレーション研究は、明示的で暗黙的な知識のブリッジングと統合における我々のモデルの有効性を確認した。

Pre-trained language models (PLMs) leverage chains-of-thought (CoT) to simulate human reasoning and inference processes, achieving proficient performance in multi-hop QA. However, a gap persists between PLMs' reasoning abilities and those of humans when tackling complex problems. Psychological studies suggest a vital connection between explicit information in passages and human prior knowledge during reading. Nevertheless, current research has given insufficient attention to linking input passages and PLMs' pre-training-based knowledge from the perspective of human cognition studies. In this study, we introduce a Prompting Explicit and Implicit knowledge (PEI) framework, which uses prompts to connect explicit and implicit knowledge, aligning with human reading process for multi-hop QA. We consider the input passages as explicit knowledge, employing them to elicit implicit knowledge through unified prompt reasoning. Furthermore, our model incorporates type-specific reasoning via prompts, a form of implicit knowledge. Experimental results show that PEI performs comparably to the state-of-the-art on HotpotQA. Ablation studies confirm the efficacy of our model in bridging and integrating explicit and implicit knowledge.
翻訳日:2024-07-01 21:34:45 公開日:2024-06-28
# LLMを用いたデータ拡張:データパースペクティブ、学習パラダイム、課題

Data Augmentation using LLMs: Data Perspectives, Learning Paradigms and Challenges ( http://arxiv.org/abs/2403.02990v3 )

ライセンス: Link先を確認
Bosheng Ding, Chengwei Qin, Ruochen Zhao, Tianze Luo, Xinze Li, Guizhen Chen, Wenhan Xia, Junjie Hu, Anh Tuan Luu, Shafiq Joty, (参考訳) 大規模言語モデル(LLM)の急速に発展する分野では,データ収集を必要とせずにトレーニング例を多様化することにより,データ拡張(DA)がモデル性能を向上させる重要な手法として出現している。 本調査では,LLMがDAに与える影響,特に自然言語処理(NLP)などにおいて,それらがもたらす固有の課題と機会について考察する。 データと学習の両面から、LLMをデータ強化に活用する様々な戦略を検討する。 さらに、制御可能なデータ拡張からマルチモーダルデータ拡張まで、この領域で直面している主要なオープン課題を強調した。 本調査は,LLMがDAで導入したパラダイムシフトに注目し,研究者や実践者のための総合的なガイドとして機能することを目的としている。

In the rapidly evolving field of large language models (LLMs), data augmentation (DA) has emerged as a pivotal technique for enhancing model performance by diversifying training examples without the need for additional data collection. This survey explores the transformative impact of LLMs on DA, particularly addressing the unique challenges and opportunities they present in the context of natural language processing (NLP) and beyond. From both data and learning perspectives, we examine various strategies that utilize LLMs for data augmentation, including a novel exploration of learning paradigms where LLM-generated data is used for diverse forms of further training. Additionally, this paper highlights the primary open challenges faced in this domain, ranging from controllable data augmentation to multi-modal data augmentation. This survey highlights a paradigm shift introduced by LLMs in DA, and aims to serve as a comprehensive guide for researchers and practitioners.
翻訳日:2024-07-01 21:34:45 公開日:2024-06-28
# 潜在行動による行動生成

Behavior Generation with Latent Actions ( http://arxiv.org/abs/2403.03181v2 )

ライセンス: Link先を確認
Seungjae Lee, Yibin Wang, Haritheja Etukuru, H. Jin Kim, Nur Muhammad Mahi Shafiullah, Lerrel Pinto, (参考訳) ラベル付きデータセットから複雑な振る舞いを生成的モデリングすることは、意思決定における長年の問題である。 言語や画像生成とは異なり、意思決定にはモデリングアクションが必要であり、その分布においてマルチモーダルな連続値ベクトルは、生成エラーが逐次予測に複雑になる可能性のある未処理のソースから引き出される可能性がある。 ビヘイビアトランスフォーマー(BeT)と呼ばれる最近のモデルのクラスでは、異なるモードをキャプチャするためにk-meansクラスタリングを使用してアクションを識別することで、この問題に対処している。 しかし、k-平均は高次元のアクション空間やロングシーケンスのスケールに苦慮し、勾配情報を欠いているため、BeTは長距離アクションのモデリングに苦しむ。 本研究では,マルチモーダルな行動予測,条件生成,部分的観察を行う行動生成モデルであるVector-Quantized Behavior Transformer (VQ-BeT)を提案する。 VQ-BeTは、階層ベクトル量子化モジュールで連続的なアクションをトークン化することでBeTを増強する。 シミュレーション操作、自律運転、ロボティクスを含む7つの環境において、VQ-BeTはBeTやDiffusion Policiesのような最先端のモデルを改善している。 重要なことは、VQ-BeTは、拡散ポリシよりも推論速度5倍の速度で、動作モードをキャプチャする能力を改善したことである。 ビデオとコードは https://sjlee.cc/vq-bet で見ることができる。

Generative modeling of complex behaviors from labeled datasets has been a longstanding problem in decision making. Unlike language or image generation, decision making requires modeling actions - continuous-valued vectors that are multimodal in their distribution, potentially drawn from uncurated sources, where generation errors can compound in sequential prediction. A recent class of models called Behavior Transformers (BeT) addresses this by discretizing actions using k-means clustering to capture different modes. However, k-means struggles to scale for high-dimensional action spaces or long sequences, and lacks gradient information, and thus BeT suffers in modeling long-range actions. In this work, we present Vector-Quantized Behavior Transformer (VQ-BeT), a versatile model for behavior generation that handles multimodal action prediction, conditional generation, and partial observations. VQ-BeT augments BeT by tokenizing continuous actions with a hierarchical vector quantization module. Across seven environments including simulated manipulation, autonomous driving, and robotics, VQ-BeT improves on state-of-the-art models such as BeT and Diffusion Policies. Importantly, we demonstrate VQ-BeT's improved ability to capture behavior modes while accelerating inference speed 5x over Diffusion Policies. Videos and code can be found https://sjlee.cc/vq-bet
翻訳日:2024-07-01 21:34:45 公開日:2024-06-28
# Apollo: 医療AIを60億人に民主化するための軽量多言語医療LLM

Apollo: A Lightweight Multilingual Medical LLM towards Democratizing Medical AI to 6B People ( http://arxiv.org/abs/2403.03640v3 )

ライセンス: Link先を確認
Xidong Wang, Nuo Chen, Junyin Chen, Yan Hu, Yidong Wang, Xiangbo Wu, Anningzhe Gao, Xiang Wan, Haizhou Li, Benyou Wang, (参考訳) 世界的医療知識の膨大な保管場所は英語であるにもかかわらず、現地の言語は、特に限られた医療資源を持つ地域で、適切な医療サービスを提供するために不可欠である。 医療AIの進歩の範囲を広い人口に広げるため、私たちは6つの最も広く話されている言語にわたる医療用LLMの開発を目標としています。 この取り組みは、ApolloCorpora多言語医療データセットとXMedBenchベンチマークの作成で頂点に達した。 マルチリンガル・メディカル・ベンチマークでは、リリースされたApolloモデルは様々な比較的小さなサイズ(0.5B, 1.8B, 2B, 6B, 7B)で、同等の大きさのモデルの中で最高の性能を達成する。 特にアポロ7Bは、最先端の多言語医療用LLMである。 さらに、これらのライトモデルは、プロキシチューニング方式で微調整することなく、より大きなモデルの多言語医療能力を改善するために使用できる。 トレーニングコーパス、コード、モデルの重み付け、評価ベンチマークをオープンソースにします。

Despite the vast repository of global medical knowledge predominantly being in English, local languages are crucial for delivering tailored healthcare services, particularly in areas with limited medical resources. To extend the reach of medical AI advancements to a broader population, we aim to develop medical LLMs across the six most widely spoken languages, encompassing a global population of 6.1 billion. This effort culminates in the creation of the ApolloCorpora multilingual medical dataset and the XMedBench benchmark. In the multilingual medical benchmark, the released Apollo models, at various relatively-small sizes (i.e., 0.5B, 1.8B, 2B, 6B, and 7B), achieve the best performance among models of equivalent size. Especially, Apollo-7B is the state-of-the-art multilingual medical LLMs up to 70B. Additionally, these lite models could be used to improve the multi-lingual medical capabilities of larger models without fine-tuning in a proxy-tuning fashion. We will open-source training corpora, code, model weights and evaluation benchmark.
翻訳日:2024-07-01 21:34:45 公開日:2024-06-28
# フォトニックシステムにおける量子エラーのキャンセル -- 光子損失の排除

Quantum error cancellation in photonic systems -- undoing photon losses ( http://arxiv.org/abs/2403.05252v2 )

ライセンス: Link先を確認
Adam Taylor, Gabriele Bressanini, Hyukjoon Kwon, M. S. Kim, (参考訳) 実際のフォトニックデバイスは、システムに符号化された量子情報を復号化できる光子損失を受ける。 完全なフォールトトレランスがないため、ノイズの多い量子デバイスでのエラー管理を支援するために量子エラー軽減技術が導入されている。 本研究では,連続変数系に対する確率的エラーキャンセラ(離散変数系における一般的なエラー緩和手法)に着想を得た誤り軽減プロトコルを提案する。 提案プロトコルは,期待値推定タスクにおける光子損失を解消できることを示す。 これを実現するために、我々は(非物理的)逆光子損失チャネルを解析的に導出し、潜在的に負の係数を持つ物理的に実現可能なチャネル上の和に分解する。 理想的な期待値推定器のバイアスをサンプリングオーバーヘッドを増加させるコストで任意に小さくすることができる。 このプロトコルは、ノイズのない増幅と一連の光子サブトラクションを必要とする。 これらの操作は確率的に実施できるが、初期状態のある種のクラスでは、モンテカルロ法を利用して理想的な期待値の偏りのない推定を与えることにより増幅と光子減算の実行の負担を回避することができる。 提案手法は, 圧縮真空状態, 猫状態, 絡み合ったコヒーレント状態のシミュレートによって検証される。

Real photonic devices are subject to photon losses that can decohere quantum information encoded in the system. In the absence of full fault tolerance, quantum error mitigation techniques have been introduced to help manage errors in noisy quantum devices. In this work, we introduce an error mitigation protocol inspired by probabilistic error cancellation (a popular error mitigation technique in discrete variable systems) for continuous variable systems. We show that our quantum error cancellation protocol can undo photon losses in expectation value estimation tasks. To do this, we analytically derive the (non-physical) inverse photon loss channel and decompose it into a sum over physically realisable channels with potentially negative coefficients. The bias of our ideal expectation value estimator can be made arbitrarily small at the cost of increasing the sampling overhead. The protocol requires a noiseless amplification followed by a series of photon-subtractions. While these operations can be implemented probabilistically, for certain classes of initial state one can avoid the burden of carrying out the amplification and photon-subtractions by leveraging Monte-Carlo methods to give an unbiased estimate of the ideal expectation value. We validate our proposed mitigation protocol by simulating the scheme on squeezed vacuum states, cat states and entangled coherent states.
翻訳日:2024-07-01 21:34:45 公開日:2024-06-28
# ジェネレーティブAIによる電力市場信号の予測

Forecasting Electricity Market Signals via Generative AI ( http://arxiv.org/abs/2403.05743v4 )

ライセンス: Link先を確認
Xinyi Wang, Qing Zhao, Lang Tong, (参考訳) 本稿では,電力市場信号の確率予測のための生成的人工知能アプローチを提案する。 非パラメトリック時系列のWiener-Kallianpur革新表現にインスパイアされた、弱いイノベーションオートエンコーダアーキテクチャと、将来の時系列のサンプルを生成する時系列の標準独立かつ同一に分散されたイノベーションシーケンスを抽出する新しいディープラーニングアルゴリズムを提案する。 提案手法の有効性は, 理想的な訓練条件下では, 生成したサンプルが基底真理と同じ条件付き確率分布を持つことを証明することによって確立される。 リアルタイム市場運用における動的・揮発性時系列の3つの応用について考察する。 一 蓄電池等の自己予定資源の位置的限界価格予測 二 為替市場における仮想入札者の地域間価格スプレッド予測 三 周波数規制のエリア制御誤差予測 複数の独立系オペレーターの市場データに基づく数値的研究は、確率的および点予測の両指標の下で、古典的および近代的な機械学習手法を先導するよりも、提案した生成予測器の優れた性能を示す。

This paper presents a generative artificial intelligence approach to probabilistic forecasting of electricity market signals, such as real-time locational marginal prices and area control error signals. Inspired by the Wiener-Kallianpur innovation representation of nonparametric time series, we propose a weak innovation autoencoder architecture and a novel deep learning algorithm that extracts the canonical independent and identically distributed innovation sequence of the time series, from which samples of future time series are generated. The validity of the proposed approach is established by proving that, under ideal training conditions, the generated samples have the same conditional probability distribution as that of the ground truth. Three applications involving highly dynamic and volatile time series in real-time market operations are considered: (i) locational marginal price forecasting for self-scheduled resources such as battery storage participants, (ii) interregional price spread forecasting for virtual bidders in interchange markets, and (iii) area control error forecasting for frequency regulations. Numerical studies based on market data from multiple independent system operators demonstrate the superior performance of the proposed generative forecaster over leading classical and modern machine learning techniques under both probabilistic and point forecasting metrics.
翻訳日:2024-07-01 21:34:45 公開日:2024-06-28
# SmartML: スマートコントラクトのためのモデリング言語を目指す

SmartML: Towards a Modeling Language for Smart Contracts ( http://arxiv.org/abs/2403.06622v3 )

ライセンス: Link先を確認
Adele Veschetti, Richard Bubel, Reiner Hähnle, (参考訳) スマートコントラクトは現実世界のトランザクションをコーデレートし、事前定義された条件が満たされた場合、コントラクトの条件を自動的に実行します。 本稿では,プラットフォームに依存しない,理解しやすいスマートコントラクトのモデリング言語であるSmartMLを提案する。 セキュリティ脆弱性に対処する上での役割に焦点をあてて、その形式的意味論と型システムについて詳述する。 ケーススタディでは、分散システム内のスマートコントラクトの信頼性とセキュリティを強化する上で、SmartMLがレジリエンスアタックの防止にどのように貢献するかを示す。

Smart contracts codify real-world transactions and automatically execute the terms of the contract when predefined conditions are met. This paper proposes SmartML, a modeling language for smart contracts that is platform independent and easy to comprehend. We detail its formal semantics and type system with a focus on its role in addressing security vulnerabilities. We show along a case study, how SmartML contributes to the prevention of reentrancy attacks, illustrating its efficacy in reinforcing the reliability and security of smart contracts within decentralized systems.
翻訳日:2024-07-01 21:34:45 公開日:2024-06-28
# 逐次学習におけるインクリメンタル手法と応用の最後の反復収束

Last Iterate Convergence of Incremental Methods and Applications in Continual Learning ( http://arxiv.org/abs/2403.06873v2 )

ライセンス: Link先を確認
Xufeng Cai, Jelena Diakonikolas, (参考訳) 増分勾配法と増分近似法は有限和問題を解くために用いられる最適化アルゴリズムの基本的なクラスであり、文献で広く研究されている。 しかし、強い凸性なしでは、その収束保証は主にエルゴディック(平均的)イテレートのために確立されている。 連続学習の応用によって動機付けられ、漸進的勾配法と漸進的近位法の両方について、一般に凸滑らか(両方の場合)と凸リプシッツ(近位変種の場合)という2つの設定の最後の繰り返しに対する最初の収束保証を得る。 我々のオラクルの複雑性は、最後のイテレーションのほぼ一致(すなわち平方根対数やログ係数に一致する)に対して、最もよく知られたオラクルの複雑性は、両方のメソッドのクラスに対して、平均イテレーションに対して有界である。 さらに、重み付けによるイテレーションの重み付けと、更新のランダムな順序付けに対する結果の一般化を得る。 一般化を伴う連続学習のモデルとしての漸進的近位法について検討し,大惨な忘れ込みを防ぐために大量の正規化が不可欠であると主張している。 この結果は, 従来, 無限に多くの解を持つ凸二次問題に対応する過パラメータ化線形モデルに対してのみ知られていた。

Incremental gradient and incremental proximal methods are a fundamental class of optimization algorithms used for solving finite sum problems, broadly studied in the literature. Yet, without strong convexity, their convergence guarantees have primarily been established for the ergodic (average) iterate. Motivated by applications in continual learning, we obtain the first convergence guarantees for the last iterate of both incremental gradient and incremental proximal methods, in general convex smooth (for both) and convex Lipschitz (for the proximal variants) settings. Our oracle complexity bounds for the last iterate nearly match (i.e., match up to a square-root-log or a log factor) the best known oracle complexity bounds for the average iterate, for both classes of methods. We further obtain generalizations of our results to weighted averaging of the iterates with increasing weights and for randomly permuted ordering of updates. We study incremental proximal methods as a model of continual learning with generalization and argue that large amount of regularization is crucial to preventing catastrophic forgetting. Our results generalize last iterate guarantees for incremental methods compared to state of the art, as such results were previously known only for overparameterized linear models, which correspond to convex quadratic problems with infinitely many solutions.
翻訳日:2024-07-01 21:25:00 公開日:2024-06-28
# 概念認識型データ構築は言語モデルの文脈内学習を改善する

Concept-aware Data Construction Improves In-context Learning of Language Models ( http://arxiv.org/abs/2403.09703v2 )

ライセンス: Link先を確認
Michal Štefánik, Marek Kadlčík, Petr Sojka, (参考訳) 近年の多くの言語モデル (LM) はインコンテキスト学習 (ICL) が可能であり、自然言語命令のみから新しいタスクを実行する能力に表れている。 従来のコンテキスト学習者は、ICLが過度な過度なパラメータ化やマルチタスクトレーニングの規模から生まれると仮定していた。 しかし、近年の理論的研究は、ICLが概念に依存したトレーニングデータを作成し、小規模で合成的な設定であっても、コンテキスト内で機能的な学習者を作成することを特徴としている。 本稿では,新たに同定されたICL品質の軸を実際に検討する。 概念認識学習(CoAT)は,実演から類推的推論概念を学習する上で,LMにとって有益な訓練シナリオを構築するためのフレームワークである。 我々は、CoATを用いることで、事前学習されたトランスフォーマーは、デモから新しい潜在概念をより有効に活用することを学び、ICLが以前のモデルの機能的欠陥に対してより堅牢になることを見出した。 最後に,従来のインストラクションチューニングと比較して,概念認識型インコンテキスト学習が新しいタスクの大部分に有効であることを示し,その結果,より多くのトレーニングデータを用いた従来のインコンテキスト学習と同等のパフォーマンスが得られることを示した。

Many recent language models (LMs) are capable of in-context learning (ICL), manifested in the LMs' ability to perform a new task solely from natural-language instruction. Previous work curating in-context learners assumes that ICL emerges from a vast over-parametrization or the scale of multi-task training. However, recent theoretical work attributes the ICL ability to concept-dependent training data and creates functional in-context learners even in small-scale, synthetic settings. In this work, we practically explore this newly identified axis of ICL quality. We propose Concept-aware Training (CoAT), a framework for constructing training scenarios that make it beneficial for the LM to learn to utilize the analogical reasoning concepts from demonstrations. We find that by using CoAT, pre-trained transformers can learn to better utilise new latent concepts from demonstrations and that such ability makes ICL more robust to the functional deficiencies of the previous models. Finally, we show that concept-aware in-context learning is more effective for a majority of new tasks when compared to traditional instruction tuning, resulting in a performance comparable to the previous in-context learners using magnitudes of more training data.
翻訳日:2024-07-01 21:25:00 公開日:2024-06-28
# MIntRec2.0:会話におけるマルチモーダルインテント認識とスコープ外検出のための大規模ベンチマークデータセット

MIntRec2.0: A Large-scale Benchmark Dataset for Multimodal Intent Recognition and Out-of-scope Detection in Conversations ( http://arxiv.org/abs/2403.10943v4 )

ライセンス: Link先を確認
Hanlei Zhang, Xin Wang, Hua Xu, Qianrui Zhou, Kai Gao, Jianhua Su, jinyue Zhao, Wenrui Li, Yanting Chen, (参考訳) マルチモーダルな意図認識は、人間の意図の理解を高めるために、現実世界の文脈から非言語的モダリティを組み込むことが要求される、重大な課題となる。 既存のベンチマークデータセットは規模が限られており、マルチターン対話で発生するスコープ外のサンプルを扱うのに苦労している。 マルチモーダルな意図認識のための大規模ベンチマークデータセットであるMIntRec2.0を紹介する。 1,245の対話と15,040のサンプルがあり、それぞれが30のきめ細かいクラスからなる新しい意図的分類に注釈付けされている。 9,304個のインスコープサンプルに加えて、実世界のシナリオで自然に発生するマルチターンのコンテキストに現れる5,736個のアウトオブスコープサンプルも含まれている。 さらに,各発話における話者の包括的情報を提供し,多人数会話研究に活用する。 我々は,単ターン・多ターン対話データ,モダリティ特徴抽出,マルチモーダル融合,顕微鏡内分類,スコープ外検出をサポートする汎用フレームワークを構築した。 評価ベンチマークは、古典的なマルチモーダル融合法、ChatGPT、人間評価器を用いて構築されている。 非言語情報を用いた既存の手法では、文脈情報を効果的に活用し、スコープ外サンプルを検出することは大きな課題である。 特に、大きな言語モデルでは、認知意図理解タスクにおける機械学習手法の限界が強調され、人間に比べて大きなパフォーマンスギャップが生じる。 私たちは、MIntRec2.0が貴重なリソースとして機能し、人間と機械の対話における研究の先駆的な基盤を提供し、関連するアプリケーションを大幅に促進すると考えている。 完全なデータセットとコードはhttps://github.com/thuiar/MIntRec2.0で公開されている。

Multimodal intent recognition poses significant challenges, requiring the incorporation of non-verbal modalities from real-world contexts to enhance the comprehension of human intentions. Existing benchmark datasets are limited in scale and suffer from difficulties in handling out-of-scope samples that arise in multi-turn conversational interactions. We introduce MIntRec2.0, a large-scale benchmark dataset for multimodal intent recognition in multi-party conversations. It contains 1,245 dialogues with 15,040 samples, each annotated within a new intent taxonomy of 30 fine-grained classes. Besides 9,304 in-scope samples, it also includes 5,736 out-of-scope samples appearing in multi-turn contexts, which naturally occur in real-world scenarios. Furthermore, we provide comprehensive information on the speakers in each utterance, enriching its utility for multi-party conversational research. We establish a general framework supporting the organization of single-turn and multi-turn dialogue data, modality feature extraction, multimodal fusion, as well as in-scope classification and out-of-scope detection. Evaluation benchmarks are built using classic multimodal fusion methods, ChatGPT, and human evaluators. While existing methods incorporating nonverbal information yield improvements, effectively leveraging context information and detecting out-of-scope samples remains a substantial challenge. Notably, large language models exhibit a significant performance gap compared to humans, highlighting the limitations of machine learning methods in the cognitive intent understanding task. We believe that MIntRec2.0 will serve as a valuable resource, providing a pioneering foundation for research in human-machine conversational interactions, and significantly facilitating related applications. The full dataset and codes are available at https://github.com/thuiar/MIntRec2.0.
翻訳日:2024-07-01 21:25:00 公開日:2024-06-28
# CVaR最適化のサンプル効率向上のための簡易混合政策パラメータ化

A Simple Mixture Policy Parameterization for Improving Sample Efficiency of CVaR Optimization ( http://arxiv.org/abs/2403.11062v3 )

ライセンス: Link先を確認
Yudong Luo, Yangchen Pan, Han Wang, Philip Torr, Pascal Poupart, (参考訳) 政策勾配(PG)を利用してリスク条件値(CVaR)を最適化する強化学習アルゴリズムは、サンプルの非効率性において重大な課題に直面し、実用化を妨げている。 この非効率性は、多くのサンプル軌道を見渡すテールエンド性能と、リターン分布の低いテールが過度に平坦であるときに勾配が消える可能性という2つの主要な事実に起因している。 これらの課題に対処するために、簡単な混合ポリシーパラメータ化を提案する。 この方法は、リスク中立ポリシーと調整可能なポリシーを統合し、リスク逆ポリシーを形成する。 この戦略を用いることで、収集されたすべての軌跡を政策更新に利用でき、リスク中立成分を介して高いリターンを刺激し、テールを持ち上げ、平坦化を防止して、勾配の消失を防止できる。 実験により、この混合パラメータ化は様々なベンチマーク領域で一意に有効であることが判明した。 具体的には、従来のCVaR-PGが合理的なポリシーを学習できないいくつかのムジョコ環境において、リスク-逆CVaRポリシーの特定に長けている。

Reinforcement learning algorithms utilizing policy gradients (PG) to optimize Conditional Value at Risk (CVaR) face significant challenges with sample inefficiency, hindering their practical applications. This inefficiency stems from two main facts: a focus on tail-end performance that overlooks many sampled trajectories, and the potential of gradient vanishing when the lower tail of the return distribution is overly flat. To address these challenges, we propose a simple mixture policy parameterization. This method integrates a risk-neutral policy with an adjustable policy to form a risk-averse policy. By employing this strategy, all collected trajectories can be utilized for policy updating, and the issue of vanishing gradients is counteracted by stimulating higher returns through the risk-neutral component, thus lifting the tail and preventing flatness. Our empirical study reveals that this mixture parameterization is uniquely effective across a variety of benchmark domains. Specifically, it excels in identifying risk-averse CVaR policies in some Mujoco environments where the traditional CVaR-PG fails to learn a reasonable policy.
翻訳日:2024-07-01 21:25:00 公開日:2024-06-28
# 量子アニールを用いた実世界のパッケージ配送経路問題の解決

Solving a Real-World Package Delivery Routing Problem Using Quantum Annealers ( http://arxiv.org/abs/2403.15114v3 )

ライセンス: Link先を確認
Eneko Osaba, Esther Villar-Rodriguez, Antón Asla, (参考訳) 近年,量子コンピューティングとルーティング問題との連携に焦点をあてた研究が盛んに行われている。 作品の多くは、トラベルセールスマン問題や自動車ルーティング問題といった古典的な問題を中心に展開している。 これらの問題の現実的な適用性は、考慮された目的や制約に依存する。 いずれにせよ、これらの古典的な定式化に複雑な要件を翻訳することはしばしば困難であり、本研究の主な目的は、元の現実世界問題の特徴と制約をすべて維持しつつ、現実的なインスタンスを扱うための解決方法を提案することである。 このようにして、Q4RPDと呼ばれる量子古典戦略が開発され、車両の異種艦隊、優先配送、パッケージの重みと寸法の2つの値で特徴づけられる能力など、実際の制約の集合を考慮に入れている。 Q4RPDはD波のLeap Constrained Quadratic Model Hybrid Solverを利用する。 Q4RPDの適用を実証するために、6つの異なるインスタンスからなる実験が実施されている。

Research focused on the conjunction between quantum computing and routing problems has been very prolific in recent years. Most of the works revolve around classical problems such as the Traveling Salesman Problem or the Vehicle Routing Problem. The real-world applicability of these problems is dependent on the objectives and constraints considered. Anyway, it is undeniable that it is often difficult to translate complex requirements into these classical formulations.The main objective of this research is to present a solving scheme for dealing with realistic instances while maintaining all the characteristics and restrictions of the original real-world problem. Thus, a quantum-classical strategy has been developed, coined Q4RPD, that considers a set of real constraints such as a heterogeneous fleet of vehicles, priority deliveries, and capacities characterized by two values: weight and dimensions of the packages. Q4RPD resorts to the Leap Constrained Quadratic Model Hybrid Solver of D-Wave. To demonstrate the application of Q4RPD, an experimentation composed of six different instances has been conducted, aiming to serve as illustrative examples.
翻訳日:2024-07-01 21:25:00 公開日:2024-06-28
# パーコレーション量子系のエンタングルメントシグネチャ

Entanglement signatures of a percolating quantum system ( http://arxiv.org/abs/2403.15541v2 )

ライセンス: Link先を確認
Subrata Pachhal, Adhip Agarwala, (参考訳) エンタングルメント対策は、量子相とその遷移を診断するための多用途プローブの1つとして登場した。 普遍的な特徴は、待ち時間障害を含む様々なシステムに応用範囲を広げる。 本研究では, 基礎となる格子がパーコレーション障害を持つとき, 有限密度の自由フェルミオンは, 非常に縮退した基底状態による興味深い絡み合い特性を示すことを示す。 我々は1次元と2次元の両方で、典型的、焼成的、焼成的エンタングルメントエントロピーのような適切なエンタングルメント対策を定義し、計算し、それらがパーコレーションされた量子系の幾何学的側面と電子的相関の両方を捉えることができることを示す。 特に、典型的およびアニードエンタングルメントは、システム内のゼロモードの数に直接依存する体積法的な特徴を示すが、クエンチドエンタングルメントは典型的には古典的なパーコレーション遷移の特徴的なシグネチャを示す領域法である。 本研究は,多体量子系における格子の幾何学的性質と量子絡み合いの間のエキゾチックな相互作用を示す。

Entanglement measures have emerged as one of the versatile probes to diagnose quantum phases and their transitions. Universal features in them expand their applicability to a range of systems, including those with quenched disorder. In this work, we show that when the underlying lattice has percolation disorder, free fermions at a finite density show interesting entanglement properties due to massively degenerate ground states. We define and calculate appropriate entanglement measures such as typical, annealed, and quenched entanglement entropy in both one and two dimensions, showing they can capture both geometrical aspects and electronic correlations of the percolated quantum system. In particular, while typical and annealed entanglement show volume law character directly dependent on the number of zero modes in the system, quenched entanglement is generally area law albeit showing characteristic signatures of the classical percolation transition. Our work presents an exotic interplay between the geometrical properties of a lattice and quantum entanglement in a many-body quantum system.
翻訳日:2024-07-01 21:25:00 公開日:2024-06-28
# イベントフレームゲゼ追跡のための局所グロバル蒸留による状態シフトのモデル化

Modeling State Shifting via Local-Global Distillation for Event-Frame Gaze Tracking ( http://arxiv.org/abs/2404.00548v2 )

ライセンス: Link先を確認
Jiading Li, Zhiyu Zhu, Jinhui Hou, Junhui Hou, Jinjian Wu, (参考訳) 本稿では,イベントデータとフレームデータの両方を用いた受動的視線推定の問題に取り組む。 本質的に異なる生理構造を考えると、与えられた状態に基づいて視線を正確に推定することは困難である。 したがって、現在の状態からいくつかの事前登録されたアンカー状態にシフトする状態の定量化として、視線推定を再構成する。 具体的には、2段階の学習に基づく視線推定フレームワークを提案し、視線全体を、アンカー状態の選択と最終視線位置を含む粗い微細なアプローチに分割する。 さらに,大規模な視線推定ネットワークを直接学習する代わりに,局所的な専門家のグループを学生ネットワークと整合させることにより,新たなデノナイズ蒸留アルゴリズムを導入し,デノナイズ拡散技術を用いてイベントデータ中の固有ノイズを反復的に除去する。 大規模実験により, 最先端手法を15$\%の差で超越した提案手法の有効性が示された。 コードはhttps://github.com/jdjdli/Denoise_distill_EF_gazetrackerで公開されている。

This paper tackles the problem of passive gaze estimation using both event and frame data. Considering the inherently different physiological structures, it is intractable to accurately estimate gaze purely based on a given state. Thus, we reformulate gaze estimation as the quantification of the state shifting from the current state to several prior registered anchor states. Specifically, we propose a two-stage learning-based gaze estimation framework that divides the whole gaze estimation process into a coarse-to-fine approach involving anchor state selection and final gaze location. Moreover, to improve the generalization ability, instead of learning a large gaze estimation network directly, we align a group of local experts with a student network, where a novel denoising distillation algorithm is introduced to utilize denoising diffusion techniques to iteratively remove inherent noise in event data. Extensive experiments demonstrate the effectiveness of the proposed method, which surpasses state-of-the-art methods by a large margin of 15$\%$. The code will be publicly available at https://github.com/jdjdli/Denoise_distill_EF_gazetracker.
翻訳日:2024-07-01 21:25:00 公開日:2024-06-28
# グラディエント老化による確率的人口モデル学習に向けて

Towards Learning Stochastic Population Models by Gradient Descent ( http://arxiv.org/abs/2404.07049v2 )

ライセンス: Link先を確認
Justin N. Kreikemeyer, Philipp Andelfinger, Adelinde M. Uhrmacher, (参考訳) データからメカニスティックモデルを学習する手法の開発に、さらなる努力が注がれている。 このタスクはパラメータの正確な推定だけでなく、適切なモデル構造も必要です。 力学系の発見に関する最近の研究は、この問題を線形方程式系として定式化している。 そこで本研究では,対象データに対する客観的な定式化とより弱い条件において,より自由度の高いシミュレーションに基づく最適化手法について検討する。 比較的小さな確率的集団モデルであっても,パラメータと構造を同時推定することは,最適化手法の大きな課題であることを示す。 特に,機械学習モデルの学習によく用いられる局所確率勾配勾配法の適用について検討する。 モデルの正確な推定を実証するが、擬似的、解釈可能なモデルの推論を強制することは、難易度を劇的に高める。 私たちはこの挑戦がいかに克服できるかを概観する。

Increasing effort is put into the development of methods for learning mechanistic models from data. This task entails not only the accurate estimation of parameters but also a suitable model structure. Recent work on the discovery of dynamical systems formulates this problem as a linear equation system. Here, we explore several simulation-based optimization approaches, which allow much greater freedom in the objective formulation and weaker conditions on the available data. We show that even for relatively small stochastic population models, simultaneous estimation of parameters and structure poses major challenges for optimization procedures. Particularly, we investigate the application of the local stochastic gradient descent method, commonly used for training machine learning models. We demonstrate accurate estimation of models but find that enforcing the inference of parsimonious, interpretable models drastically increases the difficulty. We give an outlook on how this challenge can be overcome.
翻訳日:2024-07-01 21:25:00 公開日:2024-06-28
# AIによる前立腺癌診断のための変形性MRIシークエンス登録

Deformable MRI Sequence Registration for AI-based Prostate Cancer Diagnosis ( http://arxiv.org/abs/2404.09666v2 )

ライセンス: Link先を確認
Alessa Hering, Sarah de Boer, Anindo Saha, Jasper J. Twilt, Mattias P. Heinrich, Derya Yakar, Maarten de Rooij, Henkjan Huisman, Joeran S. Bosma, (参考訳) PI-CAI(Prostate Imaging: Cancer AI)の課題は、臨床上重要な前立腺がん検出のための専門家レベルの診断アルゴリズムに繋がった。 アルゴリズムは入力としてバイパラメトリックMRIスキャンを受け取り、これはT2重みと拡散重み付きスキャンからなる。 これらのスキャンは、スキャンプロセスの複数の要因により、不整合が生じる可能性がある。 画像登録は、シーケンス間の変形を予測することでこの問題を軽減することができる。 画像登録がAIによる前立腺癌診断の診断成績に及ぼす影響について検討した。 まず、MeVisLabで開発された画像登録アルゴリズムを、ペアの病変アノテーションを持つデータセットを用いて解析する。 第2に、元のデータセット、厳密に整列された拡散強調スキャン、または変形的に整列された拡散強調スキャンとのケースレベルがん診断性能を比較して、診断への影響を評価する。 登録は改善されなかった。 変形性登録では病変の重複(中央値の10%以上)が有意に改善し,診断成績はプラスでも有意な改善が認められた(+0.3% AUROC, p=0.18)。 本研究は, 病変アライメントの大幅な改善は, 診断成績の大幅な改善につながるものではないことを示唆している。 定性的分析により、画像登録法と診断AIアルゴリズムを共同開発することで、診断精度と患者の結果が向上することが示唆された。

The PI-CAI (Prostate Imaging: Cancer AI) challenge led to expert-level diagnostic algorithms for clinically significant prostate cancer detection. The algorithms receive biparametric MRI scans as input, which consist of T2-weighted and diffusion-weighted scans. These scans can be misaligned due to multiple factors in the scanning process. Image registration can alleviate this issue by predicting the deformation between the sequences. We investigate the effect of image registration on the diagnostic performance of AI-based prostate cancer diagnosis. First, the image registration algorithm, developed in MeVisLab, is analyzed using a dataset with paired lesion annotations. Second, the effect on diagnosis is evaluated by comparing case-level cancer diagnosis performance between using the original dataset, rigidly aligned diffusion-weighted scans, or deformably aligned diffusion-weighted scans. Rigid registration showed no improvement. Deformable registration demonstrated a substantial improvement in lesion overlap (+10% median Dice score) and a positive yet non-significant improvement in diagnostic performance (+0.3% AUROC, p=0.18). Our investigation shows that a substantial improvement in lesion alignment does not directly lead to a significant improvement in diagnostic performance. Qualitative analysis indicated that jointly developing image registration methods and diagnostic AI algorithms could enhance diagnostic accuracy and patient outcomes.
翻訳日:2024-07-01 21:15:15 公開日:2024-06-28
# QuTracer:Qubitのサブセット追跡による量子ゲートと測定誤差の緩和

QuTracer: Mitigating Quantum Gate and Measurement Errors by Tracing Subsets of Qubits ( http://arxiv.org/abs/2404.19712v2 )

ライセンス: Link先を確認
Peiyi Li, Ji Liu, Alvin Gonzales, Zain Hamid Saleem, Huiyang Zhou, Paul Hovland, (参考訳) 量子誤差緩和は、現在のノイズの中規模量子(NISQ)時代に重要な役割を果たす。 短期的に実用的な量子優位性を達成するために進むと、エラー軽減は必須成分として現れる。 傑出した先行研究であるJigsawは、クォービットのサブセットを測定することで、クロストークエラーの測定を効果的に緩和できることを示した。 Jigsawは元の回路の複数のコピーを実行することで動作し、各時間はキュービットのサブセットだけを測定する。 測定部分集合から得られる局所分布はクロストークの減少に悩まされ、グローバル分布の更新に使用される。 提案するQuTracerは,キュービットのサブセットにおけるゲートおよび測定誤差の軽減を目的としたフレームワークで,計算過程を通じてキュービットのサブセットの状態を追跡する。 この目的を達成するために、回路切断とPauli Check Sandwiching(PCS)を利用したqubit subsetting Pauli checks(QSPC)という手法を導入する。 QuTracerフレームワークは、VQE、QAOA、量子演算回路、QPE、ハミルトンシミュレーションなど、様々なアルゴリズムに適用することができる。 実験では、ノイズの多いシミュレーションと実デバイス実験の両方を行い、QuTracerがスケーラブルであり、最先端のアプローチを著しく上回っていることを示す。

Quantum error mitigation plays a crucial role in the current noisy-intermediate-scale-quantum (NISQ) era. As we advance towards achieving a practical quantum advantage in the near term, error mitigation emerges as an indispensable component. One notable prior work, Jigsaw, demonstrates that measurement crosstalk errors can be effectively mitigated by measuring subsets of qubits. Jigsaw operates by running multiple copies of the original circuit, each time measuring only a subset of qubits. The localized distributions yielded from measurement subsetting suffer from less crosstalk and are then used to update the global distribution, thereby achieving improved output fidelity. Inspired by the idea of measurement subsetting, we propose QuTracer, a framework designed to mitigate both gate and measurement errors in subsets of qubits by tracing the states of qubit subsets throughout the computational process. In order to achieve this goal, we introduce a technique, qubit subsetting Pauli checks (QSPC), which utilizes circuit cutting and Pauli Check Sandwiching (PCS) to trace the qubit subsets distribution to mitigate errors. The QuTracer framework can be applied to various algorithms including, but not limited to, VQE, QAOA, quantum arithmetic circuits, QPE, and Hamiltonian simulations. In our experiments, we perform both noisy simulations and real device experiments to demonstrate that QuTracer is scalable and significantly outperforms the state-of-the-art approaches.
翻訳日:2024-07-01 21:15:15 公開日:2024-06-28
# ULLER: 学習と推論のための統一言語

ULLER: A Unified Language for Learning and Reasoning ( http://arxiv.org/abs/2405.00532v2 )

ライセンス: Link先を確認
Emile van Krieken, Samy Badreddine, Robin Manhaeve, Eleonora Giunchiglia, (参考訳) 学習と推論を組み合わせたニューロシンボリック人工知能(NeSy)の分野は、最近大きな成長を遂げている。 現在、さまざまなNeSyフレームワークがあり、それぞれがバックグラウンド知識を表現するための独自の言語を持ち、それをニューラルネットワークに関連付ける方法がある。 この異種性は新参者へのアクセシビリティを妨げ、異なるNeSyフレームワークの比較を困難にしている。 我々はNeSyのための言語を提案し、それをULLER(Unfied Language for LEarning and Reasoning)と呼ぶ。 ULLERは様々な設定を包含し、その知識が既存のNeSyシステムで利用できることを保証している。 ULLERはNeSyに特化した一階述語論理構文を持ち、古典的なFOL、ファジィ論理、確率論理などの例を提供する。 ULLERはNeSyリサーチをよりアクセシビリティと同等にするための第一歩であり、さまざまなセマンティクス、ナレッジベース、NeSyシステムにわたるトレーニングと評価を合理化するライブラリの道を開くものだと考えています。

The field of neuro-symbolic artificial intelligence (NeSy), which combines learning and reasoning, has recently experienced significant growth. There now are a wide variety of NeSy frameworks, each with its own specific language for expressing background knowledge and how to relate it to neural networks. This heterogeneity hinders accessibility for newcomers and makes comparing different NeSy frameworks challenging. We propose a language for NeSy, which we call ULLER, a Unfied Language for LEarning and Reasoning. ULLER encompasses a wide variety of settings, while ensuring that knowledge described in it can be used in existing NeSy systems. ULLER has a first-order logic syntax specialised for NeSy for which we provide example semantics including classical FOL, fuzzy logic, and probabilistic logic. We believe ULLER is a first step towards making NeSy research more accessible and comparable, paving the way for libraries that streamline training and evaluation across a multitude of semantics, knowledge bases, and NeSy systems.
翻訳日:2024-07-01 21:15:15 公開日:2024-06-28
# 生物システムのためのデジタル双対校正:細胞培養プロセス

Digital Twin Calibration for Biological System-of-Systems: Cell Culture Manufacturing Process ( http://arxiv.org/abs/2405.03913v2 )

ライセンス: Link先を確認
Fuqiang Cheng, Wei Xie, Hua Zheng, (参考訳) バイオマニュファクチャリングの革新は、プロセスと製品の品質を最適化する効率的な実験設計(DoE)に依存している。 従来のDOE法は、基盤となるバイオプロセッシング機構を無視し、しばしば解釈可能性の欠如とサンプル効率の欠如に悩まされる。 この制限は、デジタル双対モデルの校正のための新しい最適学習アプローチを作成する動機となる。 本研究では,細胞培養プロセスのマルチスケール力学モデル(Biological System-of-Systems (Bio-SoS))を考察する。 サブモデルで構成されたモジュラー設計のこのモデルは、さまざまな生産プロセスにまたがるデータの統合を可能にします。 そこで,Bio-SoSディジタルツインを校正するために,モデル予測の平均2乗誤差を評価し,個々のサブモデルのパラメータ推定誤差がデジタルツインの予測精度に与える影響を定量化する計算手法を開発した。

Biomanufacturing innovation relies on an efficient Design of Experiments (DoEs) to optimize processes and product quality. Traditional DoE methods, ignoring the underlying bioprocessing mechanisms, often suffer from a lack of interpretability and sample efficiency. This limitation motivates us to create a new optimal learning approach for digital twin model calibration. In this study, we consider the cell culture process multi-scale mechanistic model, also known as Biological System-of-Systems (Bio-SoS). This model with a modular design, composed of sub-models, allows us to integrate data across various production processes. To calibrate the Bio-SoS digital twin, we evaluate the mean squared error of model prediction and develop a computational approach to quantify the impact of parameter estimation error of individual sub-models on the prediction accuracy of digital twin, which can guide sample-efficient and interpretable DoEs.
翻訳日:2024-07-01 21:15:15 公開日:2024-06-28
# トランスファー可能なテキスト・ツー・イメージ・パーソン・リIDのためのMLLMのパワーの調和

Harnessing the Power of MLLMs for Transferable Text-to-Image Person ReID ( http://arxiv.org/abs/2405.04940v2 )

ライセンス: Link先を確認
Wentao Tan, (参考訳) ReID(text-to-image person re-identification)は、テキスト記述に従って歩行者画像を取得する。 手作業によるテキスト記述の注釈付けには時間がかかり、既存のデータセットのスケールやReIDモデルの一般化能力が制限される。 そこで我々は,提案した大規模データベース上でモデルをトレーニングし,それを様々なデータセットに直接展開して評価を行う。 MLLM(Multi-modal Large Language Models)を用いて,大規模な学習データを得る。 さらに、得られたテキスト記述を利用する上での2つの重要な課題を特定し、対処する。 第一に、MLLMは類似した構造を持つ記述を生成する傾向があるため、モデルは特定の文パターンに過度に適合する。 そこで本稿では,MLLMを用いてテンプレートに応じて画像をキャプションする手法を提案する。 これらのテンプレートは,Large Language Model (LLM) を用いたマルチターン対話を用いて得られる。 したがって、多種多様なテキスト記述を持つ大規模データセットを構築することができる。 第2に、MLLMは誤った記述を生成できる。 そこで本稿では,画像に対応しない記述中の単語を自動的に識別する新しい手法を提案する。 この方法は、1つのテキストとすべてのパッチトークンのイメージへの埋め込みの類似性に基づいている。 そして、これらの単語を、その後の訓練の時期においてより大きな確率で隠蔽し、ノイズの多い文章記述の影響を緩和する。 実験の結果,本手法は直接転送によるReID性能を大幅に向上させることが示された。 事前訓練されたモデル重みから得られる利点は、従来の評価設定において最先端のパフォーマンスを達成することである。

Text-to-image person re-identification (ReID) retrieves pedestrian images according to textual descriptions. Manually annotating textual descriptions is time-consuming, restricting the scale of existing datasets and therefore the generalization ability of ReID models. As a result, we study the transferable text-to-image ReID problem, where we train a model on our proposed large-scale database and directly deploy it to various datasets for evaluation. We obtain substantial training data via Multi-modal Large Language Models (MLLMs). Moreover, we identify and address two key challenges in utilizing the obtained textual descriptions. First, an MLLM tends to generate descriptions with similar structures, causing the model to overfit specific sentence patterns. Thus, we propose a novel method that uses MLLMs to caption images according to various templates. These templates are obtained using a multi-turn dialogue with a Large Language Model (LLM). Therefore, we can build a large-scale dataset with diverse textual descriptions. Second, an MLLM may produce incorrect descriptions. Hence, we introduce a novel method that automatically identifies words in a description that do not correspond with the image. This method is based on the similarity between one text and all patch token embeddings in the image. Then, we mask these words with a larger probability in the subsequent training epoch, alleviating the impact of noisy textual descriptions. The experimental results demonstrate that our methods significantly boost the direct transfer text-to-image ReID performance. Benefiting from the pre-trained model weights, we also achieve state-of-the-art performance in the traditional evaluation settings.
翻訳日:2024-07-01 21:15:15 公開日:2024-06-28
# ProbRadarM3F:mmWaveレーダを用いた確率マップによる人体骨格電位推定

ProbRadarM3F: mmWave Radar based Human Skeletal Pose Estimation with Probability Map Guided Multi-Format Feature Fusion ( http://arxiv.org/abs/2405.05164v2 )

ライセンス: Link先を確認
Bing Zhu, Zixin He, Weiyi Xiong, Guanhua Ding, Jianan Liu, Tao Huang, Wei Chen, Wei Xiang, (参考訳) ミリ波レーダ (mmWave) は非侵襲的プライバシであり、比較的便利で安価な装置であり、人間の屋内ポーズ推定タスクにおいてRGBカメラの代わりに適用可能であることが示されている。 しかし、mmWaveレーダはターゲットからの反射信号の収集に依存しており、情報を含むレーダ信号を完全に適用することは困難である。 これは、ポーズ推定精度の向上に長年の障害となっている。 本稿では,この課題に対処するため,確率マップを用いたマルチフォーマット特徴融合モデルProbRadarM3Fを提案する。 これは、従来のFFT法と確率マップに基づく位置符号化法を並行して用いた新しいレーダ特徴抽出フレームワークである。 ProbRadarM3Fは従来のヒートマップの特徴と位置特徴を融合させ、効果的に14個の人体のキーポイントを推定する。 本稿では,HuPRデータセットを用いた実験により提案したモデルの有効性を実証し,69.9%のAPで実験した他の手法よりも優れた結果を得た。 本研究は,従来のレーダ音声では利用されていない位置情報に着目したものである。 このことは、mmWaveレイダから他の潜在的非冗長情報を調査する方向を与える。

Millimeter wave (mmWave) radar is a non-intrusive privacy and relatively convenient and inexpensive device, which has been demonstrated to be applicable in place of RGB cameras in human indoor pose estimation tasks. However, mmWave radar relies on the collection of reflected signals from the target, and the radar signals containing information is difficult to be fully applied. This has been a long-standing hindrance to the improvement of pose estimation accuracy. To address this major challenge, this paper introduces a probability map guided multi-format feature fusion model, ProbRadarM3F. This is a novel radar feature extraction framework using a traditional FFT method in parallel with a probability map based positional encoding method. ProbRadarM3F fuses the traditional heatmap features and the positional features, then effectively achieves the estimation of 14 keypoints of the human body. Experimental evaluation on the HuPR dataset proves the effectiveness of the model proposed in this paper, outperforming other methods experimented on this dataset with an AP of 69.9 %. The emphasis of our study is focusing on the position information that is not exploited before in radar singal. This provides direction to investigate other potential non-redundant information from mmWave rader.
翻訳日:2024-07-01 21:15:15 公開日:2024-06-28
# FloorSet - 実世界のSoCの設計制約付きVLSIフロアプランニングデータセット

FloorSet -- a VLSI Floorplanning Dataset with Design Constraints of Real-World SoCs ( http://arxiv.org/abs/2405.05480v2 )

ライセンス: Link先を確認
Uday Mallappa, Hesham Mostafa, Mikhail Galkin, Mariano Phielipp, Somdeb Majumdar, (参考訳) システム・オン・ア・チップ(SoC)とそのサブシステムのフロアプランニングは、物理的設計フローの重要かつ非自明なステップである。 これは組合せ最適化の難しさを表している。 120個のパーティションを持つ典型的な大規模SoCは、約10E250の検索空間を生成する。 このような問題に対処するために、新しい機械学習(ML)アプローチが出現するにつれて、既存のベンチマークと比較して現実の制約や目的をよりよく反映する大規模なトレーニングデータセットとパフォーマンスメトリクスを含む、現代的なベンチマークの必要性が高まっている。 このニーズに対処するために、FloorSet -- 実際のSoCの分布を反映した、合成固定アウトラインのフロアプランレイアウトの2つの包括的なデータセットを提供する。 各データセットは100万のトレーニングサンプルと100のテストサンプルを持ち、各サンプルは合成フロアプランである。 FloorSet-Primeは、完全結合された直線分割と、ほぼ最適のワイヤ長からなる。 初期の設計フェーズを反映した単純化されたデータセットであるFloorSet-Liteは、長方形のパーティションで構成され、5%以下のホワイトスペースとほぼ最適ワイヤ長を持つ。 どちらのデータセットも、形状制約、エッジ親和性、グループ化制約、配置前制約など、現代的なデザインフローで見られる厳しい制約を定義している。 FloorSetは、大規模制約付き最適化問題の基礎研究を促進することを目的としている。 重要なことに、FloorSetは、このような問題に対する現代のML駆動ソリューションにおける再現性の中心的な問題を緩和している。 FloorSetは研究コミュニティのためのオープンソースリポジトリとして利用できる。

Floorplanning for systems-on-a-chip (SoCs) and its sub-systems is a crucial and non-trivial step of the physical design flow. It represents a difficult combinatorial optimization problem. A typical large scale SoC with 120 partitions generates a search-space of nearly 10E250. As novel machine learning (ML) approaches emerge to tackle such problems, there is a growing need for a modern benchmark that comprises a large training dataset and performance metrics that better reflect real-world constraints and objectives compared to existing benchmarks. To address this need, we present FloorSet -- two comprehensive datasets of synthetic fixed-outline floorplan layouts that reflect the distribution of real SoCs. Each dataset has 1M training samples and 100 test samples where each sample is a synthetic floor-plan. FloorSet-Prime comprises fully-abutted rectilinear partitions and near-optimal wire-length. A simplified dataset that reflects early design phases, FloorSet-Lite comprises rectangular partitions, with under 5 percent white-space and near-optimal wire-length. Both datasets define hard constraints seen in modern design flows such as shape constraints, edge-affinity, grouping constraints, and pre-placement constraints. FloorSet is intended to spur fundamental research on large-scale constrained optimization problems. Crucially, FloorSet alleviates the core issue of reproducibility in modern ML driven solutions to such problems. FloorSet is available as an open-source repository for the research community.
翻訳日:2024-07-01 21:15:15 公開日:2024-06-28
# ダブル機械学習による器用変数による意思決定ポリシーの学習

Learning Decision Policies with Instrumental Variables through Double Machine Learning ( http://arxiv.org/abs/2405.08498v3 )

ライセンス: Link先を確認
Daqian Shao, Ashkan Soleymani, Francesco Quinzan, Marta Kwiatkowska, (参考訳) データリッチな設定で意思決定ポリシーを学習する際の一般的な問題は、オフラインデータセットの急激な相関であり、これは隠れた共同設立者によって引き起こされる可能性がある。 インスツルメンタル変数(IV)回帰(英: Instrumental variable (IV) regression)は、インスツルメンタル変数として知られる重要な未確立変数を活用するもので、コンストラクターアクション、結果、コンテキスト変数間の因果関係を学習するための標準手法である。 最近のIV回帰アルゴリズムでは、第1段階で学習したディープニューラルネットワーク(DNN)推定器が第2段階で直接接続され、別のDNNを使用して因果効果を推定する2段階のアプローチを採用している。 特に第1段推定器に正規化バイアスが存在する場合、特に第2段推定器をネーリープラグすると大きなバイアスが発生する。 DML-IVは,2段階IV回帰のバイアスを低減する非線形IV回帰法であり,高い性能ポリシーを効果的に学習する。 バイアスを低減し、DML(Double/debiased Machine Learning)フレームワークに従ってDML-IVアルゴリズムを設計する新たな学習目標を導出する。 学習したDML-IV推定器は強い収束率を持ち、$O(N^{-1/2})$サブ最適性はデータセットが未確立のときと一致することを保証している。 DML-IVは、IV回帰ベンチマークで最先端のIV回帰法を上回り、機器の存在下で高い性能のポリシーを学ぶ。

A common issue in learning decision-making policies in data-rich settings is spurious correlations in the offline dataset, which can be caused by hidden confounders. Instrumental variable (IV) regression, which utilises a key unconfounded variable known as the instrument, is a standard technique for learning causal relationships between confounded action, outcome, and context variables. Most recent IV regression algorithms use a two-stage approach, where a deep neural network (DNN) estimator learnt in the first stage is directly plugged into the second stage, in which another DNN is used to estimate the causal effect. Naively plugging the estimator can cause heavy bias in the second stage, especially when regularisation bias is present in the first stage estimator. We propose DML-IV, a non-linear IV regression method that reduces the bias in two-stage IV regressions and effectively learns high-performing policies. We derive a novel learning objective to reduce bias and design the DML-IV algorithm following the double/debiased machine learning (DML) framework. The learnt DML-IV estimator has strong convergence rate and $O(N^{-1/2})$ suboptimality guarantees that match those when the dataset is unconfounded. DML-IV outperforms state-of-the-art IV regression methods on IV regression benchmarks and learns high-performing policies in the presence of instruments.
翻訳日:2024-07-01 21:15:15 公開日:2024-06-28
# MBIAS: コンテキストを維持しながら、大規模言語モデルにおけるバイアスの緩和

MBIAS: Mitigating Bias in Large Language Models While Retaining Context ( http://arxiv.org/abs/2405.11290v3 )

ライセンス: Link先を確認
Shaina Raza, Ananya Raval, Veronica Chatrath, (参考訳) 多様なアプリケーションにLLM(Large Language Models)を配置するには、生成されたコンテンツのコンテキスト整合性を損なうことなく安全性を保証する必要がある。 安全特有の微調整や敵対的なテストを含む伝統的なアプローチは、文脈的意味を犠牲にして安全なアウトプットをもたらすことが多い。 これは、偏見と毒性の微妙な側面を扱う能力の低下をもたらす可能性がある。 これらの課題に対処するために,安全対策に特化して設計されたカスタムデータセットに対して,慎重に微調整を行うLLMフレームワークであるMBIASを紹介した。 MBIASは、主要な情報を保持しながら、LLM出力のバイアスや有害な要素を著しく減少させるように設計されている。 この研究は、人間の監督下でアノテータとして、および生成されたコンテンツの評価者として、LLMのさらなる使用についても詳述している。 実証分析の結果,MBIASは標準評価では30倍以上,人口動態検査では90倍以上,バイアスや毒性の低下を達成し,我々のアプローチの堅牢性を強調した。 我々は、データセットと微調整されたモデルを研究コミュニティに提供し、さらなる調査と再現性を確保する。 このプロジェクトのコードは、https://github.com/shainarazavi/MBIAS/tree/main.comからアクセスすることができる。 警告: この論文には、攻撃的あるいは動揺する可能性のある例が含まれている。

The deployment of Large Language Models (LLMs) in diverse applications necessitates an assurance of safety without compromising the contextual integrity of the generated content. Traditional approaches, including safety-specific fine-tuning or adversarial testing, often yield safe outputs at the expense of contextual meaning. This can result in a diminished capacity to handle nuanced aspects of bias and toxicity, such as underrepresentation or negative portrayals across various demographics. To address these challenges, we introduce MBIAS, an LLM framework carefully instruction fine-tuned on a custom dataset designed specifically for safety interventions. MBIAS is designed to significantly reduce biases and toxic elements in LLM outputs while preserving the main information. This work also details our further use of LLMs: as annotator under human supervision and as evaluator of generated content. Empirical analysis reveals that MBIAS achieves a reduction in bias and toxicity by over 30\% in standard evaluations, and by more than 90\% in diverse demographic tests, highlighting the robustness of our approach. We make the dataset and the fine-tuned model available to the research community for further investigation and ensure reproducibility. The code for this project can be accessed here https://github.com/shainarazavi/MBIAS/tree/main. Warning: This paper contains examples that may be offensive or upsetting.
翻訳日:2024-07-01 21:15:15 公開日:2024-06-28
# FAdam:Adamは対角的な経験的フィッシャー情報を用いた自然な勾配最適化器です。

FAdam: Adam is a natural gradient optimizer using diagonal empirical Fisher information ( http://arxiv.org/abs/2405.12807v7 )

ライセンス: Link先を確認
Dongseong Hwang, (参考訳) 本稿では、Adam Optimizationrの数学的基礎を確立し、リーマン的および情報幾何学による自然勾配降下との関係を解明する。 本研究では,Adam の対角的経験的フィッシャー情報行列 (FIM) を厳密に解析し,実験的 FIM の限界のため,離散分布に基づいたログ確率関数の損失としての利用を推奨する。 解析によって元のAdamアルゴリズムの欠陥が明らかとなり、運動量計算の強化、バイアス補正の調整、適応エプシロン、勾配クリッピングなどの修正が提案された。 我々は、我々の理論的枠組みに基づいて重量減衰項を洗練する。 我々の修正アルゴリズムであるFisher Adam (FAdam) は、LLM、ASR、VQ-VAEを含む様々な領域で優れた性能を示し、ASRにおける最先端の結果を達成する。

This paper establishes a mathematical foundation for the Adam optimizer, elucidating its connection to natural gradient descent through Riemannian and information geometry. We rigorously analyze the diagonal empirical Fisher information matrix (FIM) in Adam, clarifying all detailed approximations and advocating for the use of log probability functions as loss, which should be based on discrete distributions, due to the limitations of empirical FIM. Our analysis uncovers flaws in the original Adam algorithm, leading to proposed corrections such as enhanced momentum calculations, adjusted bias corrections, adaptive epsilon, and gradient clipping. We refine the weight decay term based on our theoretical framework. Our modified algorithm, Fisher Adam (FAdam), demonstrates superior performance across diverse domains including LLM, ASR, and VQ-VAE, achieving state-of-the-art results in ASR.
翻訳日:2024-07-01 21:15:15 公開日:2024-06-28
# 大規模言語モデルの分散投機的推測

Distributed Speculative Inference of Large Language Models ( http://arxiv.org/abs/2405.14105v2 )

ライセンス: Link先を確認
Nadav Timor, Jonathan Mamou, Daniel Korat, Moshe Berchansky, Oren Pereg, Moshe Wasserblat, Tomer Galanti, Michal Gordon, David Harel, (参考訳) 大規模言語モデル(LLM)の推論を加速することは、人工知能において重要な課題である。 本稿では,分散投機推論 (DSI) と従来の自己回帰推論 (非SI) を比較検討する。 他のSIアルゴリズムと同様に、DSIは凍結したLLMで動作し、トレーニングやアーキテクチャの変更を必要とせず、ターゲットの分布を保存する。 SIに関する以前の研究は、実験的なスピードアップ(非SIと比較して)を実証してきたが、高速で正確なドラフトラダーLSMが必要である。 実際には、既成のLLMは、十分に高速で正確であるような、整合したドラフトラを持っていないことが多い。 SIが非SIよりも遅くなるか、より正確でないドラフトラを使う場合、私たちはギャップを示します。 DSIがSIと非SIの両方よりも高速であることを証明することで、このギャップを埋めます。 ターゲットとドラフトの複数のインスタンスをオーケストレーションすることで、DSIはSIよりも高速なだけでなく、SIで加速できないLLMもサポートする。 DSI は SI よりも 1.29-1.92 倍高速である。

Accelerating the inference of large language models (LLMs) is an important challenge in artificial intelligence. This paper introduces distributed speculative inference (DSI), a novel distributed inference algorithm that is provably faster than speculative inference (SI) [leviathan2023fast, chen2023accelerating, miao2023specinfer] and traditional autoregressive inference (non-SI). Like other SI algorithms, DSI works on frozen LLMs, requiring no training or architectural modifications, and it preserves the target distribution. Prior studies on SI have demonstrated empirical speedups (compared to non-SI) but require a fast and accurate drafter LLM. In practice, off-the-shelf LLMs often do not have matching drafters that are sufficiently fast and accurate. We show a gap: SI gets slower than non-SI when using slower or less accurate drafters. We close this gap by proving that DSI is faster than both SI and non-SI given any drafters. By orchestrating multiple instances of the target and drafters, DSI is not only faster than SI but also supports LLMs that cannot be accelerated with SI. Our simulations show speedups of off-the-shelf LLMs in realistic settings: DSI is 1.29-1.92x faster than SI.
翻訳日:2024-07-01 21:15:15 公開日:2024-06-28
# 自己教師付き学習のための自動データキュレーション:クラスタリングに基づくアプローチ

Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach ( http://arxiv.org/abs/2405.15613v2 )

ライセンス: Link先を確認
Huy V. Vo, Vasil Khalidov, Timothée Darcet, Théo Moutakanni, Nikita Smetanin, Marc Szafraniec, Hugo Touvron, Camille Couprie, Maxime Oquab, Armand Joulin, Hervé Jégou, Patrick Labatut, Piotr Bojanowski, (参考訳) 自己管理機能は、現代の機械学習システムの基盤となっている。 これらは典型的には、構築とキュレーションが広範囲な人的努力を必要とするデータ収集に基づいて事前訓練される。 この手動のプロセスは、教師付き学習で遭遇したいくつかの制限、例えば、クラウドソースによるデータの選択はコストと時間を要するため、データセットサイズをスケールすることができない。 本研究では,自己教師付き事前学習のための高品質データセットの自動キュレーションの問題について考察する。 このようなデータセットは大規模で多様性があり、バランスをとるべきであると仮定し、これらの基準を満たすデータセットを構築するためのクラスタリングベースのアプローチを提案する。 本手法は,大規模かつ多種多様なデータリポジトリ上に$k$-meansを連続的かつ階層的に適用して,データ概念間で均一に分散するクラスタを取得し,次いでこれらのクラスタから階層的でバランスの取れたサンプリングステップを行う。 ウェブベースの画像、衛星画像、テキストを含む3つの異なるデータ領域に関する大規模な実験では、自動キュレートされたデータセットでトレーニングされた機能は、手作業によるキュレートされたデータでトレーニングされたデータよりも、未処理のデータでトレーニングされたデータでトレーニングされたデータよりも優れています。 コードはhttps://github.com/facebookresearch/ssl-data-curationで入手できる。

Self-supervised features are the cornerstone of modern machine learning systems. They are typically pre-trained on data collections whose construction and curation typically require extensive human effort. This manual process has some limitations similar to those encountered in supervised learning, e.g., the crowd-sourced selection of data is costly and time-consuming, preventing scaling the dataset size. In this work, we consider the problem of automatic curation of high-quality datasets for self-supervised pre-training. We posit that such datasets should be large, diverse and balanced, and propose a clustering-based approach for building ones satisfying all these criteria. Our method involves successive and hierarchical applications of $k$-means on a large and diverse data repository to obtain clusters that distribute uniformly among data concepts, followed by a hierarchical, balanced sampling step from these clusters. Extensive experiments on three different data domains including web-based images, satellite images and text show that features trained on our automatically curated datasets outperform those trained on uncurated data while being on par or better than ones trained on manually curated data. Code is available at https://github.com/facebookresearch/ssl-data-curation.
翻訳日:2024-07-01 21:05:30 公開日:2024-06-28
# AIGB:拡散モデリングによる生成的自動入札

AIGB: Generative Auto-bidding via Diffusion Modeling ( http://arxiv.org/abs/2405.16141v3 )

ライセンス: Link先を確認
Jiayan Guo, Yusen Huo, Zhilin Zhang, Tianyu Wang, Chuan Yu, Jian Xu, Yan Zhang, Bo Zheng, (参考訳) 自動入札は、広告主に自動入札を提供することによって、オンライン広告を促進する上で重要な役割を担っている。 強化学習(RL)は自動入札で人気を集めている。 しかし、現在のRL自動入札法のほとんどはマルコフ状態遷移を前提としたマルコフ決定過程(MDP)によってモデル化されている。 この仮定は、長い地平線シナリオで実行できることを制限し、高度にランダムなオンライン広告環境を扱う際にモデルを不安定にする。 本稿では,AIGB(AI-Generated Bidding)を提案する。 このパラダイムでは、入札生成のための条件付き拡散モデルであるDiffBidを提案する。 DiffBidはリターンとトラジェクトリ全体の相関を直接モデル化し、長い地平線におけるタイムステップ間のエラー伝播を効果的に回避する。 さらにDiffBidは、特定の制約に固執しながら、与えられた目標を最大化するトラジェクトリを生成するための汎用的なアプローチを提供する。 Alibabaの広告プラットフォーム上での実際のデータセットとオンラインA/Bテストで実施された大規模な実験は、DiffBidの有効性を示し、GMVが2.81%、ROIが3.36%増加した。

Auto-bidding plays a crucial role in facilitating online advertising by automatically providing bids for advertisers. Reinforcement learning (RL) has gained popularity for auto-bidding. However, most current RL auto-bidding methods are modeled through the Markovian Decision Process (MDP), which assumes the Markovian state transition. This assumption restricts the ability to perform in long horizon scenarios and makes the model unstable when dealing with highly random online advertising environments. To tackle this issue, this paper introduces AI-Generated Bidding (AIGB), a novel paradigm for auto-bidding through generative modeling. In this paradigm, we propose DiffBid, a conditional diffusion modeling approach for bid generation. DiffBid directly models the correlation between the return and the entire trajectory, effectively avoiding error propagation across time steps in long horizons. Additionally, DiffBid offers a versatile approach for generating trajectories that maximize given targets while adhering to specific constraints. Extensive experiments conducted on the real-world dataset and online A/B test on Alibaba advertising platform demonstrate the effectiveness of DiffBid, achieving 2.81% increase in GMV and 3.36% increase in ROI.
翻訳日:2024-07-01 21:05:30 公開日:2024-06-28
# 地理的コロケーションは重要か? : 新型コロナウイルス感染時の公衆衛生会話を事例として

Does Geo-co-location Matter? A Case Study of Public Health Conversations during COVID-19 ( http://arxiv.org/abs/2405.17710v2 )

ライセンス: Link先を確認
Paiheng Xu, Louiqa Raschid, Vanessa Frias-Martinez, (参考訳) Twitter(現在のX)のようなソーシャルメディアプラットフォームは、特に新型コロナウイルス(COVID-19)の間、情報発信や公的なエンゲージメントにおいて重要な役割を担っている。 公衆衛生の専門家にとって重要な目標は、マスキングや社交距離といった地域的な成果に影響を及ぼす社会行動を促進することである。 本研究の目的は,局所的なエンゲージメントがソーシャルメディアの会話に与える影響を分析することである。 本研究では,公共衛生専門家(PHE)と公衆の地域的関わりがソーシャルメディアに与える影響について検討した。 2020年1月から2021年11月までのTwitterの会話データセットを分析し、500近いPHEから19万件以上のツイートと350万件の参加者から約800万件の回答を得た。 その結果,ジオコロケーションは,特にマスキング,ロックダウン,教育などの話題に関する会話や,学術・医学専門家との会話において,高いエンゲージメント率と関連していることが明らかとなった。 感情と個人の経験に関連する語彙的特徴は、地理的に共同配置された文脈においてより一般的であった。 この研究は、地理的コロケーションがソーシャルメディアのエンゲージメントにどのように影響するかを洞察し、公衆衛生メッセージングを改善するための戦略を通知する。

Social media platforms like Twitter (now X) have been pivotal in information dissemination and public engagement, especially during COVID-19. A key goal for public health experts was to encourage prosocial behavior that could impact local outcomes such as masking and social distancing. Given the importance of local news and guidance during COVID-19, the objective of our research is to analyze the effect of localized engagement, on social media conversations. This study examines the impact of geographic co-location, as a proxy for localized engagement between public health experts (PHEs) and the public, on social media. We analyze a Twitter conversation dataset from January 2020 to November 2021, comprising over 19 K tweets from nearly five hundred PHEs, along with approximately 800 K replies from 350 K participants. Our findings reveal that geo-co-location is associated with higher engagement rates, especially in conversations on topics including masking, lockdowns, and education, and in conversations with academic and medical professionals. Lexical features associated with emotion and personal experiences were more common in geo-co-located contexts. This research provides insights into how geographic co-location influences social media engagement and can inform strategies to improve public health messaging.
翻訳日:2024-07-01 21:05:30 公開日:2024-06-28
# LLMと記憶:著作権コンプライアンスの品質と特異性について

LLMs and Memorization: On Quality and Specificity of Copyright Compliance ( http://arxiv.org/abs/2405.18492v2 )

ライセンス: Link先を確認
Felix B Mueller, Rebekka Görge, Anna K Bernzen, Janna C Pirk, Maximilian Poretschkin, (参考訳) 大規模言語モデル(LLM)のメモリ化が懸念されている。 LLMは、著作権のある作品を含むトレーニングデータの一部を容易に再現できることが示されている。 これは、欧州AI法と同様に、既存の著作権法に違反している可能性があるため、解決すべき重要な問題である。 本研究では,欧州法を例に,LLMにおける著作権侵害の可能性を定量化するための体系的な分析法を提案する。 従来の研究と異なり、現実的なエンドユーザーシナリオにおける命令精細モデルの評価を行う。 我々の分析は160文字のしきい値に基づいており、ドイツ著作権サービス提供法とファジィテキストマッチングアルゴリズムから借りている。 著作権及びパブリックドメインデータのモデル行動を比較することにより、著作権侵害対策の特異性を分析する。 本研究では,保護されたテキスト(拒絶や幻覚など)を生成する代わりに,行動モデルがどのような行動を示すかを検討するとともに,これらの行動に関する最初の法的評価を行う。 著作権の遵守, 明細性, 適切な拒絶には, 人気のLCM間で大きな違いがあることが判明した。 Alpaca、GPT 4、GPT 3.5、Luminousは、OpenGPT-X、Alpaca、Luminousと比べ、特に低い数の著作権侵害を発生させる。 コードはまもなく公開される予定だ。

Memorization in large language models (LLMs) is a growing concern. LLMs have been shown to easily reproduce parts of their training data, including copyrighted work. This is an important problem to solve, as it may violate existing copyright laws as well as the European AI Act. In this work, we propose a systematic analysis to quantify the extent of potential copyright infringements in LLMs using European law as an example. Unlike previous work, we evaluate instruction-finetuned models in a realistic end-user scenario. Our analysis builds on a proposed threshold of 160 characters, which we borrow from the German Copyright Service Provider Act and a fuzzy text matching algorithm to identify potentially copyright-infringing textual reproductions. The specificity of countermeasures against copyright infringement is analyzed by comparing model behavior on copyrighted and public domain data. We investigate what behaviors models show instead of producing protected text (such as refusal or hallucination) and provide a first legal assessment of these behaviors. We find that there are huge differences in copyright compliance, specificity, and appropriate refusal among popular LLMs. Alpaca, GPT 4, GPT 3.5, and Luminous perform best in our comparison, with OpenGPT-X, Alpaca, and Luminous producing a particularly low absolute number of potential copyright violations. Code will be published soon.
翻訳日:2024-07-01 21:05:30 公開日:2024-06-28
# タスク適応型ルーティングによるオールインワン医療画像復元

All-In-One Medical Image Restoration via Task-Adaptive Routing ( http://arxiv.org/abs/2405.19769v2 )

ライセンス: Link先を確認
Zhiwen Yang, Haowei Chen, Ziniu Qian, Yang Yi, Hui Zhang, Dan Zhao, Bingzheng Wei, Yan Xu, (参考訳) シングルタスクの医療画像復元(MedIR)は目覚ましい成功をみせたが、これらの手法の限定的な一般化は、幅広い応用に重大な障害をもたらす。 本稿では,単一のユニバーサルモデルを用いて,複数の異なるMedIRタスクに対処することを目的とした,オールインワン医療画像復元の課題に焦点を当てた。 それでも、異なるMedIRタスク間で大きな違いがあるため、ユニバーサルモデルのトレーニングは、共通のパラメータを持つ異なるタスクが勾配更新方向で互いに衝突する可能性のあるタスク干渉問題にしばしば遭遇する。 このタスク干渉は、モデル更新方向を最適経路から逸脱させ、モデルの性能に影響を及ぼす。 この問題に対処するために,タスク適応型ルーティング戦略を提案する。これにより,競合するタスクが空間的,チャネル的に異なるネットワークパスを選択でき,タスク干渉を軽減できる。 実験の結果、MedIRの3つのタスク(MRI超解像、CTデノイング、PET合成)において、単一のタスクとオールインワン設定の両方で、最新のパフォーマンスを実現する。 コードとデータは \href{https://github.com/Yaziwel/All-In-One-Medical-Image-Restoration-via-Task-Adaptive-Routing.git}{https://github.com/Yaziwel/AMIR} で入手できる。

Although single-task medical image restoration (MedIR) has witnessed remarkable success, the limited generalizability of these methods poses a substantial obstacle to wider application. In this paper, we focus on the task of all-in-one medical image restoration, aiming to address multiple distinct MedIR tasks with a single universal model. Nonetheless, due to significant differences between different MedIR tasks, training a universal model often encounters task interference issues, where different tasks with shared parameters may conflict with each other in the gradient update direction. This task interference leads to deviation of the model update direction from the optimal path, thereby affecting the model's performance. To tackle this issue, we propose a task-adaptive routing strategy, allowing conflicting tasks to select different network paths in spatial and channel dimensions, thereby mitigating task interference. Experimental results demonstrate that our proposed \textbf{A}ll-in-one \textbf{M}edical \textbf{I}mage \textbf{R}estoration (\textbf{AMIR}) network achieves state-of-the-art performance in three MedIR tasks: MRI super-resolution, CT denoising, and PET synthesis, both in single-task and all-in-one settings. The code and data will be available at \href{https://github.com/Yaziwel/All-In-One-Medical-Image-Restoration-via-Task-Adaptive-Routing.git}{https://github.com/Yaziwel/AMIR}.
翻訳日:2024-07-01 21:05:30 公開日:2024-06-28
# 量子文脈性の統計的シグネチャ

Statistical signatures of quantum contextuality ( http://arxiv.org/abs/2405.20569v2 )

ライセンス: Link先を確認
Holger F. Hofmann, (参考訳) 量子コンテキスト性(Quantum contextuality)とは、異なる測定コンテキストで観測された統計が、システムの独立した実測によって説明できない状況を指す。 最も単純なケースは3次元ヒルベルト空間で観測され、共有測定結果によって5つの異なる測定コンテキストが互いに関連している。 量子形式論は、作用素間の明確に定義された関係の観点からこれらの文脈間の関係を定義し、これらの関係は、有限な測定結果の集合から未知の量子状態の再構成に使用できる。 本稿では,非文脈統計の限界に反する5つの測定コンテキストの関係に基づく再構成手法を提案する。 任意の量子状態の完全な記述は、カークウッド・ディラック準確率の8つの元のうち5つしか必要としないが、11つの元からなるオーバーコンプリート集合のみが5つの文脈全てを曖昧に記述する。 11つの要素の間の5つの基本的な関係の集合は、5つのコンテキストをリンクする決定論的構造を明らかにする。 多くの例で示されるように、これらの関係は5つの文脈全ての測定結果に対する文脈的現実性の一貫した記述を提供する。

Quantum contextuality describes situations where the statistics observed in different measurement contexts cannot be explained by a measurement independent reality of the system. The most simple case is observed in a three-dimensional Hilbert space, with five different measurement contexts related to each other by shared measurement outcomes. The quantum formalism defines the relations between these contexts in terms of well-defined relations between operators, and these relations can be used to reconstruct an unknown quantum state from a finite set of measurement results. Here, I introduce a reconstruction method based on the relations between the five measurement contexts that can violate the bounds of non-contextual statistics. A complete description of an arbitrary quantum state requires only five of the eight elements of a Kirkwood-Dirac quasi probability, but only an overcomplete set of eleven elements provides an unbiased description of all five contexts. A set of five fundamental relations between the eleven elements reveals a deterministic structure that links the five contexts. As illustrated by a number of examples, these relations provide a consistent description of contextual realities for the measurement outcomes of all five contexts.
翻訳日:2024-07-01 21:05:30 公開日:2024-06-28
# LLMからのイベントシーケンス記述のための潜在論理木抽出

Latent Logic Tree Extraction for Event Sequence Explanation from LLMs ( http://arxiv.org/abs/2406.01124v3 )

ライセンス: Link先を確認
Zitao Song, Chao Yang, Chaojie Wang, Bo An, Shuang Li, (参考訳) 医療やロボティクスなどの現代のハイテイクシステムは、しばしば巨大なストリーミングイベントシーケンスを生成する。 我々のゴールは、Large Language Models (LLMs) から論理木に基づく説明を引き出すための効率的なプラグイン・アンド・プレイツールを設計し、観測された各イベントシーケンスに対するカスタマイズされた洞察を提供することです。 本手法は,事象の時間的点過程モデルに基づいて,生成した論理木を評価するために,確率関数をスコアとして利用する。 本稿では,Amortized expectation-Maximization (EM) 学習フレームワークを提案し,論理木を潜伏変数として扱う。 E-stepでは、LLM前処理と観測された事象列の確率を用いて、潜在論理木上の後部分布を評価する。 LLMは、潜在論理木に対して高品質な先行性を提供するが、後部は離散組合せ空間上に構築されているため、閉形式解を得ることはできない。 本稿では,構造化された離散変数に対する多様性探索生成器であるGFlowNetを用いて,後部から論理木サンプルを生成することを提案する。 Mステップは生成した論理規則を用いて後部の辺縁化を近似し、モデルパラメータの学習を容易にし、調整可能なLCM事前パラメータを精算する。 オンライン設定では、ローカルに構築された軽量なモデルが、数回だけ繰り返して、各シーケンスのLSMから最も関連性の高いルールを反復的に抽出します。 実証的なデモでは、我々のフレームワークの有望なパフォーマンスと適応性を示します。

Modern high-stakes systems, such as healthcare or robotics, often generate vast streaming event sequences. Our goal is to design an efficient, plug-and-play tool to elicit logic tree-based explanations from Large Language Models (LLMs) to provide customized insights into each observed event sequence. Built on the temporal point process model for events, our method employs the likelihood function as a score to evaluate generated logic trees. We propose an amortized Expectation-Maximization (EM) learning framework and treat the logic tree as latent variables. In the E-step, we evaluate the posterior distribution over the latent logic trees using an LLM prior and the likelihood of the observed event sequences. LLM provides a high-quality prior for the latent logic trees, however, since the posterior is built over a discrete combinatorial space, we cannot get the closed-form solution. We propose to generate logic tree samples from the posterior using a learnable GFlowNet, which is a diversity-seeking generator for structured discrete variables. The M-step employs the generated logic rules to approximate marginalization over the posterior, facilitating the learning of model parameters and refining the tunable LLM prior parameters. In the online setting, our locally built, lightweight model will iteratively extract the most relevant rules from LLMs for each sequence using only a few iterations. Empirical demonstrations showcase the promising performance and adaptability of our framework.
翻訳日:2024-07-01 21:05:30 公開日:2024-06-28
# インテリジェントで効果的なグラフニューラル付加ネットワーク

The Intelligible and Effective Graph Neural Additive Networks ( http://arxiv.org/abs/2406.01317v2 )

ライセンス: Link先を確認
Maya Bechler-Speicher, Amir Globerson, Ran Gilad-Bachrach, (参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化データを学習するための主要なアプローチとして登場した。 しかし、ほとんどのGNNはブラックボックスモデルとして機能し、ポストホックな説明を必要とする。 本稿では,設計によって解釈可能なGNNを提案する。 我々のモデルであるグラフニューラル付加ネットワーク(GNAN)は、一般化付加モデル(Generalized Additive Models)の解釈可能なクラスの拡張であり、人間によって可視化され、完全に理解することができる。 GNANは完全に解釈可能なように設計されており、モデルを直接視覚化することで、機能とグラフレベルでのグローバルな説明とローカルな説明が可能である。 これらの視覚化は、モデルがターゲット変数、特徴、およびグラフの関係をどのように利用するかを正確に記述する。 我々は、さまざまなタスクやデータセットの一連の例において、GNANの知性を示す。 さらに、GNANの精度はブラックボックスGNNと同等であり、透明性が不可欠である重要なアプリケーションに高い精度で適合することを示す。

Graph Neural Networks (GNNs) have emerged as the predominant approach for learning over graph-structured data. However, most GNNs operate as black-box models and require post-hoc explanations, which may not suffice in high-stakes scenarios where transparency is crucial. In this paper, we present a GNN that is interpretable by design. Our model, Graph Neural Additive Network (GNAN), is a novel extension of the interpretable class of Generalized Additive Models, and can be visualized and fully understood by humans. GNAN is designed to be fully interpretable, allowing both global and local explanations at the feature and graph levels through direct visualization of the model. These visualizations describe the exact way the model uses the relationships between the target variable, the features, and the graph. We demonstrate the intelligibility of GNANs in a series of examples on different tasks and datasets. In addition, we show that the accuracy of GNAN is on par with black-box GNNs, making it suitable for critical applications where transparency is essential, alongside high accuracy.
翻訳日:2024-07-01 21:05:30 公開日:2024-06-28
# 代数的観察宇宙論

Algebraic Observational Cosmology ( http://arxiv.org/abs/2406.01669v2 )

ライセンス: Link先を確認
Jonah Kudler-Flam, Samuel Leutheusser, Gautam Satishchandran, (参考訳) 宇宙の観測者が測定できるものは何か。 この問題に対処するために、FLRW時空において、過去に漸近的にデ・シッター(英語版)の漸近的な観測者に対して、重力的に着飾られた可観測物の代数を構築し、インフレのエポックを記述した。 本質的な量子化された自由度は、インフラトンのゼロモードであり、インフレーション中に有効宇宙定数の変動を引き起こし、半古典的極限における最大エントロピー状態の存在を防ぐ。 宇宙論的な地平線を超えて測定が到達できないため、すべての状態がよく定義されたフォン・ノイマンエントロピー(状態に依存しない定数まで)と混合されることが示される。 半古典状態の場合、フォン・ノイマンのエントロピーは観測者の因果ダイヤモンドの一般化エントロピーに対応する。

What can be measured by an observer in our universe? We address this question by constructing an algebra of gravitationally-dressed observables accessible to a comoving observer in FLRW spacetimes that are asymptotically de Sitter in the past, describing an inflationary epoch. An essential quantized degree of freedom is the zero-mode of the inflaton, which leads to fluctuations in the effective cosmological constant during inflation and prevents the existence of a maximum entropy state in the semiclassical limit. Due to the inaccessibility of measurements beyond our cosmological horizon, we demonstrate that all states are mixed with well-defined von Neumann entropy (up to a state-independent constant). For semiclassical states, the von Neumann entropy corresponds to the generalized entropy of the observer's causal diamond, a fine-grained quantity that is sensitive to the initial conditions of the universe.
翻訳日:2024-07-01 21:05:30 公開日:2024-06-28
# Kernel vs. Kernel: データ構造が神経崩壊に与える影響を探る

Kernel vs. Kernel: Exploring How the Data Structure Affects Neural Collapse ( http://arxiv.org/abs/2406.02105v2 )

ライセンス: Link先を確認
Vignesh Kothapalli, Tom Tirer, (参考訳) 近年、ニューラルネットワーク(NN)分類器をゼロトレーニングエラーポイントを超えてトレーニングする際に発生する「ニューラル・コラプス(Neural Collapse)」現象に多くの文献が注目されている。 NCのコアコンポーネントは、NC1と呼ばれるネットワークの最も深い機能の内部変数の減少である。 NCを研究する理論的研究は典型的には、崩壊の程度におけるデータの影響を隠蔽する単純化されていない特徴モデル(UFM)に基づいている。 本稿では,この制限に悩まされないカーネル解析について述べる。 まず、カーネル関数が与えられたとき、サンプルの特徴の内およびクラス間の共分散行列のトレースの式を定式化し、その結果、NC1メトリックスを導出する。 次に、浅いNNに関連するカーネルに焦点を当てる。 まず、初期化時のネットワークに付随するNN Gaussian Process kernel (NNGP) と、"遅延状態"におけるトレーニングに関連する補完的なNeural Tangent Kernel (NTK) について検討する。 興味深いことに、NTKは、原型データモデルに対するNNGPよりも崩壊した特徴を表現していない。 最近提案された適応カーネルは、NNGPを一般化し、トレーニングデータから学習した特徴マッピングをモデル化する。 これら2つのカーネルに対するNC1解析とは対照的に、NNの実践的なトレーニングで観察された動作と経験的に一致した、崩壊の程度におけるデータ分散の影響についての洞察を得ることができる。

Recently, a vast amount of literature has focused on the "Neural Collapse" (NC) phenomenon, which emerges when training neural network (NN) classifiers beyond the zero training error point. The core component of NC is the decrease in the within class variability of the network's deepest features, dubbed as NC1. The theoretical works that study NC are typically based on simplified unconstrained features models (UFMs) that mask any effect of the data on the extent of collapse. In this paper, we provide a kernel-based analysis that does not suffer from this limitation. First, given a kernel function, we establish expressions for the traces of the within- and between-class covariance matrices of the samples' features (and consequently an NC1 metric). Then, we turn to focus on kernels associated with shallow NNs. First, we consider the NN Gaussian Process kernel (NNGP), associated with the network at initialization, and the complement Neural Tangent Kernel (NTK), associated with its training in the "lazy regime". Interestingly, we show that the NTK does not represent more collapsed features than the NNGP for prototypical data models. As NC emerges from training, we then consider an alternative to NTK: the recently proposed adaptive kernel, which generalizes NNGP to model the feature mapping learned from the training data. Contrasting our NC1 analysis for these two kernels enables gaining insights into the effect of data distribution on the extent of collapse, which are empirically aligned with the behavior observed with practical training of NNs.
翻訳日:2024-07-01 21:05:30 公開日:2024-06-28
# 物理インフォームド深部平衡モデルを用いた微分方程式の解法

Solving Differential Equations using Physics-Informed Deep Equilibrium Models ( http://arxiv.org/abs/2406.03472v2 )

ライセンス: Link先を確認
Bruno Machado Pacheco, Eduardo Camponogara, (参考訳) 本稿では、常微分方程式(ODE)の初期値問題(IVP)を解くための物理インフォームド・ディープ平衡モデル(PIDEQ)を提案する。 近年のDeep equilibrium Model (DEQ) と物理インフォームドニューラルネットワーク (PINN) の進歩を活用して、PIDEQはDQの暗黙的な出力表現と物理インフォームドトレーニング技術を組み合わせる。 我々は、Van der Pol発振器をベンチマーク問題としてPIDEQを検証し、IPPの解法における効率と有効性を実証した。 我々の分析では、PIDEQ性能を最適化するための重要なハイパーパラメータについて考察する。 この研究は、深層学習と物理に基づくモデリングをブリッジすることで、IVPを解くための計算技術を進歩させ、科学計算と工学の応用に寄与する。

This paper introduces Physics-Informed Deep Equilibrium Models (PIDEQs) for solving initial value problems (IVPs) of ordinary differential equations (ODEs). Leveraging recent advancements in deep equilibrium models (DEQs) and physics-informed neural networks (PINNs), PIDEQs combine the implicit output representation of DEQs with physics-informed training techniques. We validate PIDEQs using the Van der Pol oscillator as a benchmark problem, demonstrating their efficiency and effectiveness in solving IVPs. Our analysis includes key hyperparameter considerations for optimizing PIDEQ performance. By bridging deep learning and physics-based modeling, this work advances computational techniques for solving IVPs, with implications for scientific computing and engineering applications.
翻訳日:2024-07-01 21:05:30 公開日:2024-06-28
# MeGA: 遺伝的アルゴリズムに基づく複数の独立学習ニューラルネットワークの統合

MeGA: Merging Multiple Independently Trained Neural Networks Based on Genetic Algorithm ( http://arxiv.org/abs/2406.04607v4 )

ライセンス: Link先を確認
Daniel Yun, (参考訳) 本稿では, 遺伝的アルゴリズムであるMeGAを用いて, 複数の事前学習ニューラルネットワークの重みをマージする手法を提案する。 重量平均法やアンサンブル法といった従来の手法は、事前訓練されたネットワークの能力を十分に活用できないことが多い。 我々のアプローチは、トーナメントの選択、クロスオーバー、突然変異による遺伝的アルゴリズムを利用して重量の組み合わせを最適化し、より効果的な融合を生み出す。 この手法により、融合モデルは両方の親モデルから有利な特徴を引き継ぐことができ、その結果精度と堅牢性が向上する。 CIFAR-10データセットの実験を通じて、遺伝的アルゴリズムに基づく重み付け法は、個々のモデルや従来の手法と比較してテスト精度を向上させることを示した。 このアプローチは、さまざまなディープラーニングアプリケーションにまたがって、複数のトレーニング済みネットワークを統合するためのスケーラブルなソリューションを提供する。 Githubは、https://github.com/YUNBLAK/MeGA-Merging-Multiple-Independently-Trained-Neural-Networks-Based-on-Gene tic-Algorithm.comで入手できる。

In this paper, we introduce a novel method for merging the weights of multiple pre-trained neural networks using a genetic algorithm called MeGA. Traditional techniques, such as weight averaging and ensemble methods, often fail to fully harness the capabilities of pre-trained networks. Our approach leverages a genetic algorithm with tournament selection, crossover, and mutation to optimize weight combinations, creating a more effective fusion. This technique allows the merged model to inherit advantageous features from both parent models, resulting in enhanced accuracy and robustness. Through experiments on the CIFAR-10 dataset, we demonstrate that our genetic algorithm-based weight merging method improves test accuracy compared to individual models and conventional methods. This approach provides a scalable solution for integrating multiple pre-trained networks across various deep learning applications. Github is available at: https://github.com/YUNBLAK/MeGA-Merging-Multiple-Independently-Trained-Neural-Networks-Based-on-Gene tic-Algorithm
翻訳日:2024-07-01 21:05:30 公開日:2024-06-28
# 画像二階微分情報を用いたクロップエッジ検出の学習

Learning to utilize image second-order derivative information for crisp edge detection ( http://arxiv.org/abs/2406.05779v3 )

ライセンス: Link先を確認
Changsong Liu, Wei Zhang, Yanyan Liu, Yimeng Fan, Mingyang Li, Wenlin Li, (参考訳) エッジ検出はコンピュータビジョンの基本課題である。 深層畳み込みニューラルネットワーク(DCNN)の開発において大きな進歩を遂げた。 しかし、近年の最先端エッジ検出手法は、厚くノイズの多いエッジ線を生成する傾向にある。 本研究では,(1)画像エッジに関する事前知識の欠如,(2)不均衡な画素分布の問題という2つの側面からこの問題を解決する。 本稿では,モデルがエッジ事前知識を導入することにより,真のエッジ画素の正確な位置決定を支援するための2階微分型マルチスケールコンテキスト拡張モジュールを提案する。 また、不均衡分布問題を軽減するために、ハイブリッド焦点損失関数(HFL)を構築した。 さらに、条件パラメータ化畳み込み(CondConv)を用いて、最終的な出力エッジマップをさらに洗練する新しい境界改善モジュール(BRM)を開発する。 最後に,SDMCMとBRMをベースとしたLUS-NetというU字型ネットワークを提案する。 提案手法は, BSDS500 データセット (ODS=0.829), NYUD-V2 データセット (ODS=0.768), BIPED データセット (ODS=0.903) の3つの標準ベンチマークに対して広範な実験を行った。

Edge detection is a fundamental task in computer vision. It has made great progress under the development of deep convolutional neural networks (DCNNs), some of which have achieved a beyond human-level performance. However, recent top-performing edge detection methods tend to generate thick and noisy edge lines. In this work, we solve this problem from two aspects: (1) the lack of prior knowledge regarding image edges, and (2) the issue of imbalanced pixel distribution. We propose a second-order derivative-based multi-scale contextual enhancement module (SDMCM) to help the model locate true edge pixels accurately by introducing the edge prior knowledge. We also construct a hybrid focal loss function (HFL) to alleviate the imbalanced distribution issue. In addition, we employ the conditionally parameterized convolution (CondConv) to develop a novel boundary refinement module (BRM), which can further refine the final output edge maps. In the end, we propose a U-shape network named LUS-Net which is based on the SDMCM and BRM for crisp edge detection. We perform extensive experiments on three standard benchmarks, and the experiment results illustrate that our method can predict crisp and clean edge maps and achieves state-of-the-art performance on the BSDS500 dataset (ODS=0.829), NYUD-V2 dataset (ODS=0.768), and BIPED dataset (ODS=0.903).
翻訳日:2024-07-01 21:05:30 公開日:2024-06-28
# MolX: マルチモーダル拡張による分子学習のための大規模言語モデルの実現

MolX: Enhancing Large Language Models for Molecular Learning with A Multi-Modal Extension ( http://arxiv.org/abs/2406.06777v3 )

ライセンス: Link先を確認
Khiem Le, Zhichun Guo, Kaiwen Dong, Xiaobao Huang, Bozhao Nan, Roshni Iyer, Xiangliang Zhang, Olaf Wiest, Wei Wang, Nitesh V. Chawla, (参考訳) 近年,タスクハンドリング能力の強いLarge Language Models (LLMs) は,自然言語理解を超えて,様々な分野において顕著な進歩を見せている。 しかしながら、化学領域におけるそれらの能力は、特にプロの分子関連タスクの解決において制限されている。 この課題は、共通テキスト表現(SMILES文字列)のみを使用する分子の解釈における固有の制限に起因する。 本研究では, 分子の理解能力を高めるために, 分子を多モード外部モジュール, MolX で設計し, 実装することを目的としている。 特に,分子の表現にSMILES文字列を直接使用する代わりに,特定のエンコーダを用いてSMILES文字列と2次元分子グラフ表現の両方から微細な特徴を抽出し,LLMに入力する。 さらに、その埋め込みドメイン知識を活用するために、ヒト定義分子指紋が組み込まれている。 次に、LLMが凍結されたモールXとLLMのテキスト入力空間のアライメントを確立するために、多種多様なタスクを含む多目的戦略を用いて、LLM全体を事前訓練する。 提案手法は,LLMを微調整することなく,分子間翻訳から逆合成まで,様々な下流分子関連タスクのベースラインを上回りながら,少数のトレーニング可能なパラメータしか導入しないことを示す。

Recently, Large Language Models (LLMs) with their strong task-handling capabilities have shown remarkable advancements across a spectrum of fields, moving beyond natural language understanding. However, their proficiency within the chemistry domain remains restricted, especially in solving professional molecule-related tasks. This challenge is attributed to their inherent limitations in comprehending molecules using only common textual representations, i.e., SMILES strings. In this study, we seek to enhance the ability of LLMs to comprehend molecules by designing and equipping them with a multi-modal external module, namely MolX. In particular, instead of directly using a SMILES string to represent a molecule, we utilize specific encoders to extract fine-grained features from both SMILES string and 2D molecular graph representations for feeding into an LLM. Moreover, a human-defined molecular fingerprint is incorporated to leverage its embedded domain knowledge. Then, to establish an alignment between MolX and the LLM's textual input space, the whole model in which the LLM is frozen, is pre-trained with a versatile strategy including a diverse set of tasks. Extensive experimental evaluations demonstrate that our proposed method only introduces a small number of trainable parameters while outperforming baselines on various downstream molecule-related tasks ranging from molecule-to-text translation to retrosynthesis, with and without fine-tuning the LLM.
翻訳日:2024-07-01 21:05:30 公開日:2024-06-28
# 強禁光光時計遷移のコリニア三光子励起

Collinear three-photon excitation of a strongly forbidden optical clock transition ( http://arxiv.org/abs/2406.07902v2 )

ライセンス: Link先を確認
Samuel P. Carman, Jan Rudolph, Benjamin E. Garber, Michael J. Van de Graaff, Hunter Swan, Yijun Jiang, Megan Nantel, Mahiro Abe, Rachel L. Barcklay, Jason M. Hogan, (参考訳) {{^1\mathrm{S}_0}\! -\! ストロンチウム中の{^3\mathrm{P}_0}}$クロック遷移は、世界最高の原子時計の基礎と、クロック原子干渉計における重力波検出器の概念の基礎となっている。 この遷移はフェルミオン同位体$^{87}$Srでは弱いが、ボソニック同位体では強く禁止されている。 ここでは、弱磁場中における新しいコリニア三光子過程を用いて、ボゾン${}^{88}$Srにおける時計転移のコヒーレント励起を示す。 我々は、$\text{W}/\text{cm}^{2}$レーザー強度とガウスレベルの磁場振幅を用いて、最大50〜\text{kHz}$のラビ振動を観測する。 ボゾン同位体における核スピンの欠如は、磁場に対する感度の低下と光学格子光シフトをもたらし、体系的な誤りを減らした原子時計を可能にする。 レーザー場のコリニア伝播は、空間的に分離された原子アンサンブルを共通のレーザーパルスで尋問することを可能にし、ダークマター探索と次世代量子センサーによる重力波検出の鍵となる要件である。

The ${{^1\mathrm{S}_0}\!-\!{^3\mathrm{P}_0}}$ clock transition in strontium serves as the foundation for the world's best atomic clocks and for gravitational wave detector concepts in clock atom interferometry. This transition is weakly allowed in the fermionic isotope $^{87}$Sr but strongly forbidden in bosonic isotopes. Here we demonstrate coherent excitation of the clock transition in bosonic ${}^{88}$Sr using a novel collinear three-photon process in a weak magnetic field. We observe Rabi oscillations with frequencies of up to $50~\text{kHz}$ using $\text{W}/\text{cm}^{2}$ laser intensities and Gauss-level magnetic field amplitudes. The absence of nuclear spin in bosonic isotopes offers decreased sensitivity to magnetic fields and optical lattice light shifts, enabling atomic clocks with reduced systematic errors. The collinear propagation of the laser fields permits the interrogation of spatially separated atomic ensembles with common laser pulses, a key requirement for dark matter searches and gravitational wave detection with next-generation quantum sensors.
翻訳日:2024-07-01 19:11:01 公開日:2024-06-28
# 低リソースマルチドメイン対話生成のための統一データ拡張フレームワーク

A Unified Data Augmentation Framework for Low-Resource Multi-Domain Dialogue Generation ( http://arxiv.org/abs/2406.09881v2 )

ライセンス: Link先を確認
Yongkang Liu, Ercong Nie, Shi Feng, Zheng Hua, Zifeng Ding, Daling Wang, Yifei Zhang, Hinrich Schütze, (参考訳) 現在の最先端の対話システムは、広範なトレーニングデータセットに大きく依存している。 しかし、ドメイン固有のトレーニングデータセットが不十分であるか、完全に欠落しているドメインで課題が発生する。 この課題に対処するために,新しいデータ拡張フレームワークを提案する。これは \textbf{M}ulti-\textbf{D}omain \textbf{D}ialogue \textbf{G}enerationであり,これを \textbf{AMD$^2$G} と呼ぶ。 AMD$2$Gフレームワークは、データ拡張プロセスと、ドメインに依存しないトレーニングとドメイン適応トレーニングという2段階のトレーニングアプローチで構成されている。 ドメインコーパスはドメインに依存しない特徴とドメイン固有の特徴の混合であり、特定の表現パターンはさまざまなドメイン間で共有されていると仮定する。 ドメインに依存しないトレーニングは、モデルがこれらの共通表現パターンを学習できるようにすることを目的としている。 ドメインに依存しない対話コーパスを構築するために,ドメイン固有の特徴を除去するために使用されるデータ処理技術として,textit{\textbf{de- domaining}} を用いる。 ドメイン固有の特徴の影響を緩和することにより、非ドメインコーパスでトレーニングされたモデルは、ドメイン間の共通表現パターンを効果的に学習することができる。 その後、学習したドメインに依存しない特徴を対象ドメインに適応させ、ドメイン適応トレーニングを行う。 我々は,5つのドメインの中国語対話データセットを用いて実験を行い,AMD$^2$Gが対象ドメインの直接学習と5つのドメインのコーパスの集合訓練の両方と比較して優れた性能を発揮することを示す。 我々の研究は、AMD$^2$Gを、低リソースマルチドメインダイアログ生成のための実行可能な代替ソリューションとして評価している。 私たちの作業に関連するコードとデータはGitHubリポジトリ$^{\text 1}$で入手可能です。

Current state-of-the-art dialogue systems heavily rely on extensive training datasets. However, challenges arise in domains where domain-specific training datasets are insufficient or entirely absent. To tackle this challenge, we propose a novel data \textbf{A}ugmentation framework for \textbf{M}ulti-\textbf{D}omain \textbf{D}ialogue \textbf{G}eneration, referred to as \textbf{AMD$^2$G}. The AMD$^2$G framework consists of a data augmentation process and a two-stage training approach: domain-agnostic training and domain adaptation training. We posit that domain corpora are a blend of domain-agnostic and domain-specific features, with certain representation patterns shared among diverse domains. Domain-agnostic training aims to enable models to learn these common expressive patterns. To construct domain-agnostic dialogue corpora, we employ a \textit{\textbf{de-domaining}} data processing technique used to remove domain-specific features. By mitigating the effects of domain-specific features, the model trained on the de-domained corpora can effectively learn common expression patterns in different domains. Subsequently, we adapt the learned domain-agnostic features to the target domain through domain adaptation training. We conduct experiments on Chinese dialogue datasets from five different domains and show that AMD$^2$G achieves superior performance compared to both direct training on the target domain corpus and collective training on all five domain corpora. Our work underscores AMD$^2$G as a viable alternative solution for low-resource multi-domain dialogue generation. Code and data associated with our work are available on GitHub repository$^{\text 1}$.
翻訳日:2024-07-01 19:11:01 公開日:2024-06-28
# QQQ:大規模言語モデルのための品質クアチュアビット量子化

QQQ: Quality Quattuor-Bit Quantization for Large Language Models ( http://arxiv.org/abs/2406.09904v2 )

ライセンス: Link先を確認
Ying Zhang, Peng Zhang, Mincong Huang, Jingyang Xiang, Yujie Wang, Chao Wang, Yineng Zhang, Lei Yu, Chuan Liu, Wei Lin, (参考訳) 量子化は、大きな言語モデルを圧縮する有効な方法として証明されている。 W8A8やW4A16のような一般的なテクニックは、モデルのパフォーマンスを効果的に維持するが、プリフィルと推論の復号を同時に高速化することができないことが多い。 W4A8は両者を加速する上で有望な戦略であり、通常は大幅なパフォーマンス低下につながる。 これらの問題に対処するため、QQQは、4ビットの重みと8ビットのアクティベーションを持つQuality Quattuor-bit Quantization法である。 QQQは適応的平滑化とヘッセン型補償を採用し、広範囲のトレーニングなしに量子化されたモデルの性能を大幅に向上させる。 さらに,W4A8 GEMMカーネルを巧みに設計し,推論速度を向上した。 専用チャネルごとのW4A8 GEMMとグループごとのW4A8 GEMMは、3.67$\times$と3.29$\times$ over FP16 GEMMの大幅な高速化を実現している。 以上の結果から,従来のLLM量子化手法と同等の性能を示すとともに,FP16,W8A8,W4A16と比較して,2.24$\times$,2.10$\times$,1.25$\times$に高速化された。

Quantization is a proven effective method for compressing large language models. Although popular techniques like W8A8 and W4A16 effectively maintain model performance, they often fail to concurrently speed up the prefill and decoding stages of inference. W4A8 is a promising strategy to accelerate both of them while usually leads to a significant performance degradation. To address these issues, we present QQQ, a Quality Quattuor-bit Quantization method with 4-bit weights and 8-bit activations. QQQ employs adaptive smoothing and Hessian-based compensation, significantly enhancing the performance of quantized models without extensive training. Furthermore, we meticulously engineer W4A8 GEMM kernels to increase inference speed. Our specialized per-channel W4A8 GEMM and per-group W4A8 GEMM achieve impressive speed increases of 3.67$\times$ and 3.29 $\times$ over FP16 GEMM. Our extensive experiments show that QQQ achieves performance on par with existing state-of-the-art LLM quantization methods while significantly accelerating inference, achieving speed boosts up to 2.24 $\times$, 2.10$\times$, and 1.25$\times$ compared to FP16, W8A8, and W4A16, respectively.
翻訳日:2024-07-01 19:11:01 公開日:2024-06-28
# 光子数分布のその場制御によるオンチップマイクロ波コヒーレント光源

On-chip microwave coherent source with in-situ control of the photon number distribution ( http://arxiv.org/abs/2406.10597v2 )

ライセンス: Link先を確認
Pasquale Mastrovito, Halima Giovanna Ahmad, Martina Esposito, Davide Massarotti, Francesco Tafuri, (参考訳) コヒーレント光子源は、量子センシングから量子コンピューティングまで、様々な応用において重要な要素である。 回路量子力学の文脈では、光子のコヒーレントな源についての複数の提案があるが、十分に確立された候補がいまだに欠けている。 人工原子のように動く超伝導回路の設計と工学の可能性は、マイクロ波光子生成を含む量子光学プロトコルの実現を支えている。 本稿では,チップ上で直接光子注入が可能な新しい設計を提案し,理論的に検討する。 このスキームは、1つまたは複数のターゲット共振器の光子源として働く超伝導回路の集団反転を開始することに基づいている。 提案手法の主な特徴は、電源とターゲットキャビティ間の通常の容量リンクを調整可能なカプラで置き換えることと、注入された定常光子をオンデマンドで制御できることである。 本研究では, 外部フラックススレッディングにより生成したコヒーレント状態の動的制御を検証するとともに, 複数のボソニック貯水池の状況においても, この方式が適用可能である可能性について議論する。

Coherent photon sources are key elements in different applications, ranging from quantum sensing to quantum computing. In the context of circuit quantum electrodynamics, there have been multiple proposals for potential coherent sources of photons, but a well established candidate is still missing. The possibility of designing and engineering superconducting circuits behaving like artificial atoms supports the realization of quantum optics protocols, including microwave photons generation. Here we propose and theoretically investigate a new design that allows a tunable photon injection directly on-chip. The scheme is based on initiating a population inversion in a superconducting circuit that will act as the photon source of one or multiple target resonators. The key novelty of the proposed layout consists in replacing the usual capacitive link between the source and the target cavity with a tunable coupler, with the advantage of having on-demand control on the injected steady-state photons. We validate the dynamical control of the generated coherent states under the effect of an external flux threading the tunable coupler and discuss the possibility of employing this scheme also in the context of multiple bosonic reservoirs.
翻訳日:2024-07-01 19:11:01 公開日:2024-06-28
# コンテキストグラフ

Context Graph ( http://arxiv.org/abs/2406.11160v3 )

ライセンス: Link先を確認
Chengjin Xu, Muzhi Li, Cehao Yang, Xuhui Jiang, Lumingyuan Tang, Yiyan Qi, Jian Guo, (参考訳) 知識グラフ(KG)は多くのAIアプリケーションの基本構造であり、エンティティと三重項による相互関係を表す。 しかし、3重ベースKGは、包括的な知識表現と効果的な推論に不可欠である時間的ダイナミクスや前駆的詳細といった、関係知識の文脈的な情報を欠いている。 代わりに \textbf{Context Graphs} (CGs) は、時間的妥当性、地理的な位置、および出典の出典などの追加情報を統合することで、従来の構造に拡張する。 この統合により、知識のより微妙で正確な理解が得られ、KGはより豊かな洞察を提供し、より洗練された推論プロセスをサポートすることができる。 本稿ではまず,三重化KGの本質的限界について論じ,知識表現と推論の優位性を強調したCGの概念を紹介した。 次に、大言語モデル(LLM)を利用して、候補エンティティと関連するコンテキストを検索し、検索した情報に基づいてそれらをランク付けし、クエリに答えるために十分な情報が得られたかどうかを判断するコンテキストグラフ推論手法を提案する。 実験の結果、CGR$^3$はKG完了(KGC)およびKG質問応答(KGQA)タスクの性能を著しく向上させ、文脈情報をKG表現と推論に組み込むことの有効性を検証した。

Knowledge Graphs (KGs) are foundational structures in many AI applications, representing entities and their interrelations through triples. However, triple-based KGs lack the contextual information of relational knowledge, like temporal dynamics and provenance details, which are crucial for comprehensive knowledge representation and effective reasoning. Instead, \textbf{Context Graphs} (CGs) expand upon the conventional structure by incorporating additional information such as time validity, geographic location, and source provenance. This integration provides a more nuanced and accurate understanding of knowledge, enabling KGs to offer richer insights and support more sophisticated reasoning processes. In this work, we first discuss the inherent limitations of triple-based KGs and introduce the concept of CGs, highlighting their advantages in knowledge representation and reasoning. We then present a context graph reasoning \textbf{CGR$^3$} paradigm that leverages large language models (LLMs) to retrieve candidate entities and related contexts, rank them based on the retrieved information, and reason whether sufficient information has been obtained to answer a query. Our experimental results demonstrate that CGR$^3$ significantly improves performance on KG completion (KGC) and KG question answering (KGQA) tasks, validating the effectiveness of incorporating contextual information on KG representation and reasoning.
翻訳日:2024-07-01 19:11:01 公開日:2024-06-28
# CLIPからオープンセマンティックスをマイニングする:Few-Shot Learningのためのリレーショナル・トランジション・パースペクティブ

Mining Open Semantics from CLIP: A Relation Transition Perspective for Few-Shot Learning ( http://arxiv.org/abs/2406.11252v2 )

ライセンス: Link先を確認
Cilin Yan, Haochen Wang, Xiaolong Jiang, Yao Hu, Xu Tang, Guoliang Kang, Efstratios Gavves, (参考訳) Contrastive Vision-Language Pre-Training (CLIP) は印象的なゼロショット能力を示す。 CLIPの下流タスクへの適応性を改善する鍵は、CLIPに埋め込まれた有用な知識を効果的にモデル化し、転送する方法にある。 以前の研究は、典型的には限られた視覚サンプルと閉集合意味論(すなわち、下流タスクのターゲットカテゴリセット内)に基づいて知識を掘り下げている。 しかし、一致したCLIP画像/テキストエンコーダは、視覚的特徴とほぼ無限のオープンセマンティクスの間の豊富な関係を含んでいる。 本稿では,アンカーとしてオープンなセマンティクスを抽出し,画像とアンカーの関係から画像とターゲットの関係に遷移して予測を行う手法を提案する。 具体的には、視覚的特徴を"Query"として、アンカーのテキスト特徴を"Key"として、アンカーとターゲットクラスのテキスト特徴を"Value"として、類似度行列を"Value"として、トランスフォーマーモジュールを採用する。 このようにして、そのようなトランスモジュールの出力は、画像と対象カテゴリ、すなわち分類予測の関係を表す。 手動でオープンセマンティクスを選択するのを避けるために、入力テキストの[CLASS]トークンを学習可能にします。 我々は11の代表的な分類データセットについて広範な実験を行った。 提案手法は,少数ショットの分類設定を考慮し,従来の最先端技術に対して良好に機能することを示す。

Contrastive Vision-Language Pre-training(CLIP) demonstrates impressive zero-shot capability. The key to improve the adaptation of CLIP to downstream task with few exemplars lies in how to effectively model and transfer the useful knowledge embedded in CLIP. Previous work mines the knowledge typically based on the limited visual samples and close-set semantics (i.e., within target category set of downstream task). However, the aligned CLIP image/text encoders contain abundant relationships between visual features and almost infinite open semantics, which may benefit the few-shot learning but remains unexplored. In this paper, we propose to mine open semantics as anchors to perform a relation transition from image-anchor relationship to image-target relationship to make predictions. Specifically, we adopt a transformer module which takes the visual feature as "Query", the text features of the anchors as "Key" and the similarity matrix between the text features of anchor and target classes as "Value". In this way, the output of such a transformer module represents the relationship between the image and target categories, i.e., the classification predictions. To avoid manually selecting the open semantics, we make the [CLASS] token of input text embedding learnable. We conduct extensive experiments on eleven representative classification datasets. The results show that our method performs favorably against previous state-of-the-arts considering few-shot classification settings.
翻訳日:2024-07-01 19:11:01 公開日:2024-06-28
# 心電図の逆問題と心電図 : 心電図による検討

Solving the Inverse Problem of Electrocardiography for Cardiac Digital Twins: A Survey ( http://arxiv.org/abs/2406.11445v2 )

ライセンス: Link先を確認
Lei Li, Julia Camps, Blanca Rodriguez, Vicente Grau, (参考訳) 心臓デジタル双生児は、複雑な心臓機構を理解するために使用される、パーソナライズされた仮想表現である。 心電図逆問題(ECG inverse problem)の解決は、正確な仮想心臓モデリングに不可欠であり、記録された表面電位から内部電気活動情報の導出を可能にする。 心臓の複雑さ、ノイズの多い心電図データ、計算効率の課題にもかかわらず、近年の進歩は仮想心臓モデリングの強化に大きく貢献し、最終的には心臓医学における精密医療を進歩させる。 本稿では,心電図逆問題,検証戦略,臨床応用,今後の展望を概観する。 計算手法については,従来の手法と深層学習技術を含む決定論的手法と確率論的手法の2つのカテゴリに大別する。 物理法則をディープラーニングモデルと統合することは有望であるが、動的電気生理学を正確に捉え、正確なドメイン知識にアクセスし、予測の不確実性を定量化するといった課題は継続する。 医療専門家にとって、解釈可能性とユーザビリティを確保しながら、モデルを臨床ワークフローに統合することは不可欠である。 これらの課題を克服すれば、心臓のデジタル双生児の研究がさらに進むことになる。

Cardiac digital twins are personalized virtual representations used to understand complex heart mechanisms. Solving the ECG inverse problem is crucial for accurate virtual heart modelling, enabling the derivation of internal electrical activity information from recorded surface potentials. Despite challenges from cardiac complexity, noisy ECG data, and computational efficiency, recent advancements hold significant promise for enhancing virtual heart modelling, ultimately advancing precision medicine in cardiology. This paper aims to provide a comprehensive review of the methods of solving ECG inverse problem, the validation strategies, the clinical applications, and future perspectives. For the computing methodologies, we broadly classify state-of-the-art approaches into two categories: deterministic and probabilistic methods, including conventional and deep learning-based techniques. Integrating physics laws with deep learning models holds promise, but challenges such as capturing dynamic electrophysiology accurately, accessing accurate domain knowledge, and quantifying prediction uncertainty persist. Integrating models into clinical workflows while ensuring interpretability and usability for healthcare professionals is essential. Overcoming these challenges will drive further research in cardiac digital twins.
翻訳日:2024-07-01 19:11:01 公開日:2024-06-28
# Transcendence: 生成モデルは、トレーニングするエキスパートより優れている

Transcendence: Generative Models Can Outperform The Experts That Train Them ( http://arxiv.org/abs/2406.11741v3 )

ライセンス: Link先を確認
Edwin Zhang, Vincent Zhu, Naomi Saphra, Anat Kleiman, Benjamin L. Edelman, Milind Tambe, Sham M. Kakade, Eran Malach, (参考訳) 生成モデルは、訓練されたデータによって誘導される条件付き確率分布を模倣する単純な目的で訓練される。 したがって、人間が生成したデータに基づいてトレーニングを行う場合、人工モデルが本来の目的において人間より優れているとは期待できない。 本研究では,超越現象(生成モデルがデータを生成する専門家の能力を超える能力を達成する場合)について検討する。 我々は,自動回帰変換器をトレーニングして,ゲームスクリプティングからチェスを学習し,トレーニングされたモデルが,データセットのすべてのプレイヤーよりも優れたパフォーマンスが得られることを示す。 理論的には,超越性は低温サンプリングによって実現可能であることを証明し,この主張を実験的に評価する。 最後に,他の超越源について論じ,この現象の今後の研究の基盤をより広範に展開する。

Generative models are trained with the simple objective of imitating the conditional probability distribution induced by the data they are trained on. Therefore, when trained on data generated by humans, we may not expect the artificial model to outperform the humans on their original objectives. In this work, we study the phenomenon of transcendence: when a generative model achieves capabilities that surpass the abilities of the experts generating its data. We demonstrate transcendence by training an autoregressive transformer to play chess from game transcripts, and show that the trained model can sometimes achieve better performance than all players in the dataset. We theoretically prove that transcendence can be enabled by low-temperature sampling, and rigorously assess this claim experimentally. Finally, we discuss other sources of transcendence, laying the groundwork for future investigation of this phenomenon in a broader setting.
翻訳日:2024-07-01 19:11:01 公開日:2024-06-28
# WellDunn: ウェルネス次元の同定における言語モデルと大規模言語モデルのロバスト性と説明可能性について

WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions ( http://arxiv.org/abs/2406.12058v3 )

ライセンス: Link先を確認
Seyedali Mohammadi, Edward Raff, Jinendra Malekar, Vedant Palit, Francis Ferraro, Manas Gaur, (参考訳) 言語モデル (LM) は, 予後のリスクを高めることで, 臨床実践におけるモデルの有用性の十分なリトマステストにはならない, メンタルヘルスの分野で提案されている。 実践に信頼できるモデルは、説明と臨床的決定の対応性を持つべきであるが、これらのモデルの注意力と、それらの基礎的真理的説明への影響について、事前の研究は行われていない。 本稿では,ウェルネス次元(WD)の同定におけるLMの堅牢性と説明性に着目した評価設計を提案する。 2つのメンタルヘルスと幸福なデータセットに焦点を当てます。 (a)多ラベル分類に基づくMultiWD及び b) 専門家による説明に対する注意機構の妥当性を評価するためのWellXplain ラベルはハルベルト・ダンのウェルネスの理論に基づいている。 1)人間のような能力にもかかわらず、RoBERTaに遅れてGPT-3.5/4ラグ、そしてMedAlpacaでは、微調整のLDMでは、パフォーマンスや説明に顕著な改善が得られなかった。 2)信頼性指向の損失関数に基づくLMの予測を再検討した結果,性能低下が顕著であった。 (3) すべてのLM/LLMにおいて, 注意と説明の整合性は低く, LLMは0.0。 (4)ほとんどの精神保健専門のLM/LLMは、ドメイン固有の知識や価値の低い説明を見落とし、これらの相違の原因となった。 この研究は、精神保健と健康における一貫性と説明について、さらなる研究の必要性を強調している。

Language Models (LMs) are being proposed for mental health applications where the heightened risk of adverse outcomes means predictive performance may not be a sufficient litmus test of a model's utility in clinical practice. A model that can be trusted for practice should have a correspondence between explanation and clinical determination, yet no prior research has examined the attention fidelity of these models and their effect on ground truth explanations. We introduce an evaluation design that focuses on the robustness and explainability of LMs in identifying Wellness Dimensions (WD). We focus on two mental health and well-being datasets: (a) Multi-label Classification-based MultiWD, and (b) WellXplain for evaluating attention mechanism veracity against expert-labeled explanations. The labels are based on Halbert Dunn's theory of wellness, which gives grounding to our evaluation. We reveal four surprising results about LMs/LLMs: (1) Despite their human-like capabilities, GPT-3.5/4 lag behind RoBERTa, and MedAlpaca, a fine-tuned LLM fails to deliver any remarkable improvements in performance or explanations. (2) Re-examining LMs' predictions based on a confidence-oriented loss function reveals a significant performance drop. (3) Across all LMs/LLMs, the alignment between attention and explanations remains low, with LLMs scoring a dismal 0.0. (4) Most mental health-specific LMs/LLMs overlook domain-specific knowledge and undervalue explanations, causing these discrepancies. This study highlights the need for further research into their consistency and explanations in mental health and well-being.
翻訳日:2024-07-01 19:11:01 公開日:2024-06-28
# PruningBench: 構造的プルーニングの総合ベンチマーク

PruningBench: A Comprehensive Benchmark of Structural Pruning ( http://arxiv.org/abs/2406.12315v2 )

ライセンス: Link先を確認
Haoling Li, Changhao Li, Mengqi Xue, Gongfan Fang, Sheng Zhou, Zunlei Feng, Huiqiong Wang, Yong Wang, Lechao Cheng, Mingli Song, Jie Song, (参考訳) より効率的なモデルを作成するための有望なアプローチとして、構造的プルーニングが登場している。 それでも、コミュニティは標準化されたベンチマークとメトリクスの欠如に悩まされており、この分野の進歩は完全には理解されていない。 このギャップを埋めるために、構造的プルーニングのための最初の包括的なベンチマークである「textit{PruningBench}」を提示する。 PruningBench氏は以下の3つの特徴を紹介している。 1)PruningBenchは、多様な構造的プルーニング手法の有効性を評価するために、統一的で一貫した枠組みを採用している。 2)PruningBenchは、16の既存プルーニング手法を体系的に評価し、幅広いモデル(例えば、CNN、ViT)とタスク(例えば、分類と検出)を包含する。 3) PruningBenchは、将来のプルーニングメソッドの実装を容易にするための、実装が容易なインターフェースを提供する。 オンラインプルーニングプラットフォーム http://pruning.vipazoo.cn で、プルーニングタスクをカスタマイズし、すべての結果をこの論文で再現する。 コードはhttps://github.com/HollyLee2000/PruningBench.comで公開される。

Structural pruning has emerged as a promising approach for producing more efficient models. Nevertheless, the community suffers from a lack of standardized benchmarks and metrics, leaving the progress in this area not fully comprehended. To fill this gap, we present the first comprehensive benchmark, termed \textit{PruningBench}, for structural pruning. PruningBench showcases the following three characteristics: 1) PruningBench employs a unified and consistent framework for evaluating the effectiveness of diverse structural pruning techniques; 2) PruningBench systematically evaluates 16 existing pruning methods, encompassing a wide array of models (e.g., CNNs and ViTs) and tasks (e.g., classification and detection); 3) PruningBench provides easily implementable interfaces to facilitate the implementation of future pruning methods, and enables the subsequent researchers to incorporate their work into our leaderboards. We provide an online pruning platform http://pruning.vipazoo.cn for customizing pruning tasks and reproducing all results in this paper. Codes will be made publicly on https://github.com/HollyLee2000/PruningBench.
翻訳日:2024-07-01 19:11:01 公開日:2024-06-28
# MOYU:LLMにおける大量過剰活性化上昇に関する理論的研究

MOYU: A Theoretical Study on Massive Over-activation Yielded Uplifts in LLMs ( http://arxiv.org/abs/2406.12569v2 )

ライセンス: Link先を確認
Chi Ma, Mincong Huang, Chao Wang, Yujie Wang, Lei Yu, (参考訳) 大規模過剰アクティベーション利上げ(MOYU)は大規模言語モデル固有の特性であり、MOYU特性に基づく動的アクティベーション(DA)は、これらのモデルにおける推論を加速するために設計された、巧妙だが未探索の戦略である。 MOYUを利用する既存の手法は、モデル性能の同時維持に苦労し、推論速度を向上し、様々なアーキテクチャにまたがる適用性を拡張するなど、重要な「不可能三位一体」に直面していることが多い。 本論文はMOYU特性の根本原因を解明し、現在のDA法で発生する2つの主要な限界の背後にあるメカニズムを概説する。 1)履歴関連アクティベーションの不確実性、及び 2)意味不明な活性化慣性。 我々の分析は、大規模LLaMAモデルにおける現在の動的アクティベーション戦略の限界を浮き彫りにするだけでなく、将来の疎性スキームの設計を洗練する機会も提案する。

Massive Over-activation Yielded Uplifts(MOYU) is an inherent property of large language models, and dynamic activation(DA) based on the MOYU property is a clever yet under-explored strategy designed to accelerate inference in these models. Existing methods that utilize MOYU often face a significant 'Impossible Trinity': struggling to simultaneously maintain model performance, enhance inference speed, and extend applicability across various architectures. Due to the theoretical ambiguities surrounding MOYU, this paper elucidates the root cause of the MOYU property and outlines the mechanisms behind two primary limitations encountered by current DA methods: 1) history-related activation uncertainty, and 2) semantic-irrelevant activation inertia. Our analysis not only underscores the limitations of current dynamic activation strategies within large-scale LLaMA models but also proposes opportunities for refining the design of future sparsity schemes.
翻訳日:2024-07-01 19:11:01 公開日:2024-06-28
# 原子性物質モデリングのためのグラフ基礎モデルのスケーラブルなトレーニング:HydraGNNを用いたケーススタディ

Scalable Training of Graph Foundation Models for Atomistic Materials Modeling: A Case Study with HydraGNN ( http://arxiv.org/abs/2406.12909v2 )

ライセンス: Link先を確認
Massimiliano Lupo Pasini, Jong Youl Choi, Kshitij Mehta, Pei Zhang, David Rogers, Jonghyun Bae, Khaled Z. Ibrahim, Ashwin M. Aji, Karl W. Schulz, Jorda Polo, Prasanna Balaprakash, (参考訳) 我々は,マルチヘッドグラフ畳み込みニューラルネットワークアーキテクチャであるHydraGNNを用いて,スケーラブルグラフ基盤モデル(GFM)の開発とトレーニングを行う。 HydraGNNは、トレーニングスケールとデータの多様性の両方において、グラフニューラルネットワーク(GNN)の境界を広げている。 メッセージパッシングアルゴリズムを抽象化し、GNNの畳み込みを定義するアルゴリズムの革新を再現および比較できる。 この研究は、何億ものグラフからなるデータセット上の何万ものGPUへのGFMトレーニングのスケールアップを可能にする一連の最適化について論じる。 GFMはマルチタスク学習(MTL)を用いて、全エネルギーや原子力などの原子構造のグラフレベルとノードレベルの特性を同時に学習する。 米国エネルギー省(US-DOE)の2つのスーパーコンピュータ(National Energy Research Scientific Computing CenterのPerlmutter petascale systemとOak Ridge National LaboratoryのFrontier exascale system)で学んだ教訓と合わせて、1億5000万以上の原子構造をトレーニングに利用した。 HydraGNNアーキテクチャにより、GFMは、Perlmutter上の2,000GPUとFrontier上の16,000GPUを使用して、ほぼ直線的な強力なスケーリングパフォーマンスを達成することができる。 ハイパーパラメータ最適化(HPO)はフロンティアの64,000以上のGPU上で実行され、高い精度でGFMアーキテクチャを選択した。 早期停止は各GFMアーキテクチャーに適用され、極端に大規模なタスクを行う際のエネルギー意識が得られた。 最高級のGFMアーキテクチャのアンサンブルの訓練は、アンサンブル学習を伴う不確実量化(UQ)能力を確立するために収束するまで続けられた。 我々の貢献は、AIが加速する材料発見と設計を可能にするために、大規模計算資源を使用して、GFMを迅速に開発、訓練、展開するための扉を開く。

We present our work on developing and training scalable graph foundation models (GFM) using HydraGNN, a multi-headed graph convolutional neural network architecture. HydraGNN expands the boundaries of graph neural network (GNN) in both training scale and data diversity. It abstracts over message passing algorithms, allowing both reproduction of and comparison across algorithmic innovations that define convolution in GNNs. This work discusses a series of optimizations that have allowed scaling up the GFM training to tens of thousands of GPUs on datasets that consist of hundreds of millions of graphs. Our GFMs use multi-task learning (MTL) to simultaneously learn graph-level and node-level properties of atomistic structures, such as the total energy and atomic forces. Using over 150 million atomistic structures for training, we illustrate the performance of our approach along with the lessons learned on two United States Department of Energy (US-DOE) supercomputers, namely the Perlmutter petascale system at the National Energy Research Scientific Computing Center and the Frontier exascale system at Oak Ridge National Laboratory. The HydraGNN architecture enables the GFM to achieve near-linear strong scaling performance using more than 2,000 GPUs on Perlmutter and 16,000 GPUs on Frontier. Hyperparameter optimization (HPO) was performed on over 64,000 GPUs on Frontier to select GFM architectures with high accuracy. Early stopping was applied on each GFM architecture for energy awareness in performing such an extreme-scale task. The training of an ensemble of highest-ranked GFM architectures continued until convergence to establish uncertainty quantification (UQ) capabilities with ensemble learning. Our contribution opens the door for rapidly developing, training, and deploying GFMs using large-scale computational resources to enable AI-accelerated materials discovery and design.
翻訳日:2024-07-01 19:11:01 公開日:2024-06-28
# 心内膜ガイド下リアルタイム心エコー-フレーム-ボリューム登録法

Epicardium Prompt-guided Real-time Cardiac Ultrasound Frame-to-volume Registration ( http://arxiv.org/abs/2406.14534v2 )

ライセンス: Link先を確認
Long Lei, Jun Zhou, Jialun Pei, Baoliang Zhao, Yueming Jin, Yuen-Chun Jeremy Teoh, Jing Qin, Pheng-Ann Heng, (参考訳) 術中2D画像と術前3D容積を超音波フレーム・ボリューム登録に基づいてリアルタイムに融合させることにより、心臓外科手術の総合的なガイダンスを提供することができる。 しかし、心エコー画像は、低信号-雑音比と隣接するフレーム間の小さな差を特徴とし、2次元フレームと3次元ボリュームの有意な寸法変化を併せ持つため、リアルタイムかつ正確な心エコーフレーム-ボリューム登録は非常に難しい課題である。 本稿では,CU-Reg と呼ばれる,軽量でエンドツーエンドなカード・ツー・エンド・超音波フレーム・ツー・ボリューム・レジストレーション・ネットワークを提案する。 具体的には,2次元スパースと3次元濃密な特徴の相互作用を強化するために,心内膜刺激による解剖学的手掛かりを応用し,それに続いて,低品質超音波モダリティの相互整合性を高めるために,拡張された特徴のボクセルワイド局所グロバルアグリゲーションを応用した。 さらに、フレーム間識別正規化項をハイブリッド教師付き学習に組み込んで、隣接するスライスを同一の超音波量で区別し、登録安定性を確保する。 再処理したCAMUSデータセットの実験結果から, CU-Regは, 臨床心臓外科手術の指導要件を満たすため, 登録精度, 効率の面で既存の手法を超越していることが明らかとなった。

A comprehensive guidance view for cardiac interventional surgery can be provided by the real-time fusion of the intraoperative 2D images and preoperative 3D volume based on the ultrasound frame-to-volume registration. However, cardiac ultrasound images are characterized by a low signal-to-noise ratio and small differences between adjacent frames, coupled with significant dimension variations between 2D frames and 3D volumes to be registered, resulting in real-time and accurate cardiac ultrasound frame-to-volume registration being a very challenging task. This paper introduces a lightweight end-to-end Cardiac Ultrasound frame-to-volume Registration network, termed CU-Reg. Specifically, the proposed model leverages epicardium prompt-guided anatomical clues to reinforce the interaction of 2D sparse and 3D dense features, followed by a voxel-wise local-global aggregation of enhanced features, thereby boosting the cross-dimensional matching effectiveness of low-quality ultrasound modalities. We further embed an inter-frame discriminative regularization term within the hybrid supervised learning to increase the distinction between adjacent slices in the same ultrasound volume to ensure registration stability. Experimental results on the reprocessed CAMUS dataset demonstrate that our CU-Reg surpasses existing methods in terms of registration accuracy and efficiency, meeting the guidance requirements of clinical cardiac interventional surgery.
翻訳日:2024-07-01 19:11:01 公開日:2024-06-28
# LatentExplainer: マルチモーダル基礎モデルを用いた深部生成モデルにおける潜在表現の説明

LatentExplainer: Explaining Latent Representations in Deep Generative Models with Multi-modal Foundation Models ( http://arxiv.org/abs/2406.14862v3 )

ライセンス: Link先を確認
Mengdan Zhu, Raasikh Kanjiani, Jiahui Lu, Andrew Choi, Qirui Ye, Liang Zhao, (参考訳) VAEや拡散モデルのような深層生成モデルは、潜伏変数を利用してデータ分布を学習し、高品質なサンプルを生成することによって、様々な生成タスクを進化させてきた。 機械学習モデルの解釈において、説明可能なAIの分野は進歩しているが、生成モデルにおける潜伏変数の理解は依然として困難である。 本稿では,深層生成モデルにおける潜伏変数の意味論的説明を自動的に生成するフレームワークであるLatentExplainerを紹介する。 LatentExplainerは、潜伏変数の意味の推測、帰納的バイアスによる説明の整合、さまざまな説明可能性の扱いの3つの主な課題に取り組む。 このフレームワークは、潜伏変数を摂動させ、生成されたデータの変化を解釈することによって、データ生成プロセスを理解し制御するための体系的なアプローチを提供し、深層生成モデルの透明性と解釈可能性を高める。 提案手法を実環境および合成データセット上で評価し,提案手法は潜伏変数の高品質な説明を生成する上で優れた性能を示す。

Deep generative models like VAEs and diffusion models have advanced various generation tasks by leveraging latent variables to learn data distributions and generate high-quality samples. Despite the field of explainable AI making strides in interpreting machine learning models, understanding latent variables in generative models remains challenging. This paper introduces LatentExplainer, a framework for automatically generating semantically meaningful explanations of latent variables in deep generative models. LatentExplainer tackles three main challenges: inferring the meaning of latent variables, aligning explanations with inductive biases, and handling varying degrees of explainability. By perturbing latent variables and interpreting changes in generated data, the framework provides a systematic approach to understanding and controlling the data generation process, enhancing the transparency and interpretability of deep generative models. We evaluate our proposed method on several real-world and synthetic datasets, and the results demonstrate superior performance in generating high-quality explanations of latent variables.
翻訳日:2024-07-01 19:01:16 公開日:2024-06-28
# 窒素空力中心量子トリットを用いたスピンスクイージング強化量子磁気量計

Spin Squeezing Enhanced Quantum Magnetometry with Nitrogen-Vacancy Center Qutrits ( http://arxiv.org/abs/2406.15324v2 )

ライセンス: Link先を確認
L. Gassab, Ö. E. Müstecaplıoğlu, (参考訳) 本研究では,標準的なラムゼー干渉法パルスプロトコルを用いて,ダイヤモンド中の3レベル(量子)窒素空洞(NV)中心に着目し,量子磁気学における量子スピンスクイーズの有用性について検討する。 本研究は, リンドブラッド量子マスター方程式を用いてモデル化したラムゼー測度におけるNV中心のダイナミクスに対する脱落と緩和の効果を取り入れたものである。 我々は,1つのNV中心と1対のNV中心の計量的能力の比較分析を行い,スピンスクイーズを伴わない量子フィッシャー情報について検討した。 二次元多様体内の北川-上田スピンスクイーズパラメータの評価により,NV中心間の量子相関性を評価する。 さらに、NV中心のための2レベルモデル(キュービット)を用いて並列計算を行う。 以上の結果から,クエトリットとスピンスクイーズを併用すると,デフォーカス効果に制約された磁力測定精度が向上することが明らかとなった。 それでも、環境騒音を緩和する動的デカップリング法がなくても、スクイーズと自由進化の戦略的タイミングは、クォートベースの磁気メトリーの利点を維持できる。

We explore the utility of quantum spin squeezing in quantum magnetometry, focusing on three-level (qutrit) Nitrogen-Vacancy (NV) centers within diamond, utilizing a standard Ramsey interferometry pulse protocol. Our investigation incorporates the effects of dephasing and relaxation on NV centers' dynamics during Ramsey measurements, modeled via the Lindblad quantum master equation. We conduct a comparative analysis between the metrological capabilities of a single NV center and a pair of NV centers, considering Quantum Fisher Information both with and without spin squeezing. The quantum correlations between NV centers are assessed through the evaluation of the Kitagawa-Ueda spin squeezing parameter within a two-level manifold. Additionally, parallel calculations are conducted using a two-level model (qubit) for NV centers. Our findings reveal that leveraging qutrits and spin squeezing yields enhanced magnetometric precision, albeit constrained by dephasing effects. Nevertheless, even in the absence of dynamical decoupling methods to mitigate environmental noise, strategic timing of squeezing and free evolution can sustain the advantages of qutrit-based magnetometry.
翻訳日:2024-07-01 19:01:16 公開日:2024-06-28
# サンプル注意:適応的構造的スパース注意によるLLM推論の非定常高速化

SampleAttention: Near-Lossless Acceleration of Long Context LLM Inference with Adaptive Structured Sparse Attention ( http://arxiv.org/abs/2406.15486v2 )

ライセンス: Link先を確認
Qianchao Zhu, Jiangfei Duan, Chang Chen, Siran Liu, Xiuhong Li, Guanyu Feng, Xin Lv, Huanqi Cao, Xiao Chuanfu, Xingcheng Zhang, Dahua Lin, Chao Yang, (参考訳) 大規模言語モデル(LLM)は、非常に長いコンテキストウィンドウをサポートするようになったが、バニラアテンションの二次的な複雑さにより、TTFT(Time-to-First-Token)レイテンシが非常に長い。 この複雑さに対処する既存のアプローチは、追加の事前訓練や微調整を必要とし、しばしばモデルの精度を犠牲にする。 本稿では,まず,理論的および実証的な基礎を,ほぼ無光沢なスパークス・アテンションのために提示する。 オーバーヘッドの少ないヘッド固有スパースパターンを実行時に動的にキャプチャすることが重要である。 そこで本研究では,適応型構造化とほぼ無意味なスパースアテンションであるSampleAttentionを提案する。 重要なスパースパターンを活用すれば、SampleAttentionは、ローカルウィンドウパターンをキャプチャするために隣接するトークンの一定割合に到達し、2段階のクエリ誘導キー値フィルタリングアプローチを使用して、最小のキー値セットを少ないオーバーヘッドで適応的に選択し、カラムストリップパターンをキャプチャする。 総合的な評価によると、SampleAttentionは市販のLLMのバニラ注意をほぼ精度の低下なしにシームレスに置き換えることができ、また、FlashAttentionと比較してTTFTを最大2.42\times$に下げることができる。

Large language models (LLMs) now support extremely long context windows, but the quadratic complexity of vanilla attention results in significantly long Time-to-First-Token (TTFT) latency. Existing approaches to address this complexity require additional pretraining or finetuning, and often sacrifice model accuracy. In this paper, we first provide both theoretical and empirical foundations for near-lossless sparse attention. We find dynamically capturing head-specific sparse patterns at runtime with low overhead is crucial. To address this, we propose SampleAttention, an adaptive structured and near-lossless sparse attention. Leveraging observed significant sparse patterns, SampleAttention attends to a fixed percentage of adjacent tokens to capture local window patterns, and employs a two-stage query-guided key-value filtering approach, which adaptively select a minimum set of key-values with low overhead, to capture column stripe patterns. Comprehensive evaluations show that SampleAttention can seamlessly replace vanilla attention in off-the-shelf LLMs with nearly no accuracy loss, and reduces TTFT by up to $2.42\times$ compared with FlashAttention.
翻訳日:2024-07-01 19:01:16 公開日:2024-06-28
# QuADTool:アタックディフェンストレーの合成、分析、検証のための橋

QuADTool: Attack-Defense-Tree Synthesis, Analysis and Bridge to Verification ( http://arxiv.org/abs/2406.15605v2 )

ライセンス: Link先を確認
Florian Dorfhuber, Julia Eisentraut, Katharina Klioba, Jan Kretinsky, (参考訳) ランク付けリスクと対策は、量的セキュリティ分析の最も大きな目標の1つである。 工業的にも使われている一般的なフレームワークの1つは、攻撃防御木である。 攻撃防御木に利用可能な標準的な定量的分析は、潜在的な脆弱性と区別することができる。 私たちはこれらのモデルの簡易な合成と分析を可能にするツールを提供し、確率、コスト、時間も備えています。 さらに、既存のモデルチェッカーや分析ツールにさまざまなインターフェースを提供する。 残念ながら、現在利用可能なツールは正確な量的入力(確率、タイミング、攻撃コスト)に依存しており、ほとんど利用できない。 その代わり、統計的で不正確な情報のみが一般に利用可能であり、実際の量のほぼ正しい(PAC)推定が残されている。 ツールの一部として、標準解析手法を拡張して、PAC入力を処理し、解析の最終結果の精度と不確実性について厳密な境界が得られるようにします。

Ranking risks and countermeasures is one of the foremost goals of quantitative security analysis. One of the popular frameworks, used also in industrial practice, for this task are attack-defense trees. Standard quantitative analyses available for attack-defense trees can distinguish likely from unlikely vulnerabilities. We provide a tool that allows for easy synthesis and analysis of those models, also featuring probabilities, costs and time. Furthermore, it provides a variety of interfaces to existing model checkers and analysis tools. Unfortunately, currently available tools rely on precise quantitative inputs (probabilities, timing, or costs of attacks), which are rarely available. Instead, only statistical, imprecise information is typically available, leaving us with probably approximately correct (PAC) estimates of the real quantities. As a part of our tool, we extend the standard analysis techniques so they can handle the PAC input and yield rigorous bounds on the imprecision and uncertainty of the final result of the analysis.
翻訳日:2024-07-01 19:01:16 公開日:2024-06-28
# 極値理論に基づく政策勾配を用いたカタストロフィックリスク対応強化学習

Catastrophic-risk-aware reinforcement learning with extreme-value-theory-based policy gradients ( http://arxiv.org/abs/2406.15612v2 )

ライセンス: Link先を確認
Parisa Davar, Frédéric Godin, Jose Garrido, (参考訳) 本稿では, 逐次的意思決定プロセスの文脈において, 破滅的リスク(頻度が非常に低いが, 重大度が高いリスク)を緩和する問題に取り組む。 この問題は、累積コスト(負の報酬)の分布の極端にある観測の不足のため、特に困難である。 POTPGと呼ばれるポリシー勾配アルゴリズムが開発されている。 これは極値理論から導かれる尾のリスクの近似に基づいている。 数値実験では,経験的分布に依存する一般的なベンチマークよりも,提案手法のアウトパフォーマンスを強調した。 より正確には、金融オプションの動的ヘッジへの金融リスク管理の適用について述べる。

This paper tackles the problem of mitigating catastrophic risk (which is risk with very low frequency but very high severity) in the context of a sequential decision making process. This problem is particularly challenging due to the scarcity of observations in the far tail of the distribution of cumulative costs (negative rewards). A policy gradient algorithm is developed, that we call POTPG. It is based on approximations of the tail risk derived from extreme value theory. Numerical experiments highlight the out-performance of our method over common benchmarks, relying on the empirical distribution. An application to financial risk management, more precisely to the dynamic hedging of a financial option, is presented.
翻訳日:2024-07-01 19:01:16 公開日:2024-06-28
# ウクライナ戦争、新型コロナウイルスワクチン接種、2022年の中間選挙に対するユーザーの共有習慣のマッピング

The Persistence of Contrarianism on Twitter: Mapping users' sharing habits for the Ukraine war, COVID-19 vaccination, and the 2022 Midterm Elections ( http://arxiv.org/abs/2406.16175v2 )

ライセンス: Link先を確認
David Axelrod, Sangyeon Kim, John Paolillo, (参考訳) オンライン偽情報に関する実証的研究は、新型コロナウイルス(COVID-19)のパンデミック、対外選挙干渉、ロシア・ウクライナ戦争などの公共の関心事を強調しており、主にトピックを別々に扱う研究で行われている。 比較して、そのような異なるトピックを関連づけ、彼らが行動を共有する範囲に対処しようとする研究は少ない。 本研究では、新型コロナウイルスのワクチン接種、ウクライナ戦争、2022年の中間選挙に関するTwitterデータ3つのサンプルを比較し、この3つのサンプルで、ユーザのイデオロギー的スタンスがどの程度関連しているかを確認した。 以上の結果から、バイデン政権の外交政策の姿勢とともに、公衆衛生の物語・政治に対する反対によって定義された幅広い反トラスト的姿勢の出現が示唆された。 コントラリアヌス位置における共有活動は、一方の端に外因性含量を持つスペクトルに該当する。 われわれは、Twitterユーザーの間でイデオロギー的に一貫性のあるクロスオブジェクトのスタンスの存在を確認するが、右派政治的指向とは正反対である。

Empirical studies of online disinformation emphasize matters of public concern such as the COVID-19 pandemic, foreign election interference, and the Russo-Ukraine war, largely in studies that treat the topics separately. Comparatively fewer studies attempt to relate such disparate topics and address the extent to which they share behaviors. In this study, we compare three samples of Twitter data on COVID-19 vaccination, the Ukraine war and the 2022 midterm elections, to ascertain how distinct ideological stances of users across the three samples might be related. Our results indicate the emergence of a broad contrarian stance that is defined by its opposition to public health narratives/policies along with the Biden administration's foreign policy stances. Sharing activity within the contrarian position falls on a spectrum with outright conspiratorial content on one end. We confirm the existence of ideologically coherent cross-subject stances among Twitter users, but in a manner not squarely aligned with right-left political orientations.
翻訳日:2024-07-01 19:01:16 公開日:2024-06-28
# シーン分類層に基づくセンチネル2の空間的・時間的カバレッジの評価

Assessment of Sentinel-2 spatial and temporal coverage based on the scene classification layer ( http://arxiv.org/abs/2406.18584v2 )

ライセンス: Link先を確認
Cristhian Sanchez, Francisco Mena, Marcela Charfuelan, Marlon Nuske, Andreas Dengel, (参考訳) センチネル-2(S2)衛星の打ち上げ以来、多くのMLモデルがこのデータを様々な用途に利用してきた。 S2製品内のシーン分類層(SCL)は、クラウドカバレッジの高いイメージをフィルタリングするなど、トレーニングのための豊富な情報を提供する。 しかし、これにはより多くの可能性がある。 本稿では,SITSで表現され,S2ベースのSCLデータを用いて計算された領域のクリーンな光カバレッジを評価する手法を提案する。 提案手法は,手動しきい値とSCLの特定のラベルを用いて,時系列の空間的および時間的カバレッジのパーセンテージと高い/低い評価を割り当てる。 強化農業におけるAI4EO課題を評価した結果,MLモデルの予測結果と相関関係があることが判明した。 空間的・時間的範囲が低い地域での分類は、高い範囲の地域よりも悪い。 最後に,この手法をグローバルデータセットLandCoverNetの全大陸にわたって適用した。

Since the launch of the Sentinel-2 (S2) satellites, many ML models have used the data for diverse applications. The scene classification layer (SCL) inside the S2 product provides rich information for training, such as filtering images with high cloud coverage. However, there is more potential in this. We propose a technique to assess the clean optical coverage of a region, expressed by a SITS and calculated with the S2-based SCL data. With a manual threshold and specific labels in the SCL, the proposed technique assigns a percentage of spatial and temporal coverage across the time series and a high/low assessment. By evaluating the AI4EO challenge for Enhanced Agriculture, we show that the assessment is correlated to the predictive results of ML models. The classification results in a region with low spatial and temporal coverage is worse than in a region with high coverage. Finally, we applied the technique across all continents of the global dataset LandCoverNet.
翻訳日:2024-07-01 19:01:16 公開日:2024-06-28
# LLM倫理をナビゲートする - 進歩,課題,今後の方向性

Navigating LLM Ethics: Advancements, Challenges, and Future Directions ( http://arxiv.org/abs/2406.18841v2 )

ライセンス: Link先を確認
Junfeng Jiao, Saleh Afroogh, Yiming Xu, Connor Phillips, (参考訳) 本研究では,人工知能分野におけるLarge Language Models(LLM)を取り巻く倫理的問題に対処する。 LLMと他のAIシステムによってもたらされる共通の倫理的課題、例えばプライバシと公正性、LLMからユニークな倫理的課題について検討する。 幻覚、検証可能な説明責任、検閲の複雑さの復号化といった課題を強調している。 この研究は、これらの複雑さに取り組み、説明責任を確保し、バイアスを減らし、LLMが情報伝達を形作る上で果たした影響力の透明性を高めることの必要性を強調している。 LLM倫理の緩和戦略と今後の方向性を提案し、学際的な協力を提唱する。 特定のドメインに合わせた倫理的なフレームワークや、さまざまなコンテキストに適応した動的監査システムを推奨している。 このロードマップは、LLMの責任ある開発と統合を導くことを目的としており、倫理的配慮が社会におけるAIの進歩を支配する未来を想定している。

This study addresses ethical issues surrounding Large Language Models (LLMs) within the field of artificial intelligence. It explores the common ethical challenges posed by both LLMs and other AI systems, such as privacy and fairness, as well as ethical challenges uniquely arising from LLMs. It highlights challenges such as hallucination, verifiable accountability, and decoding censorship complexity, which are unique to LLMs and distinct from those encountered in traditional AI systems. The study underscores the need to tackle these complexities to ensure accountability, reduce biases, and enhance transparency in the influential role that LLMs play in shaping information dissemination. It proposes mitigation strategies and future directions for LLM ethics, advocating for interdisciplinary collaboration. It recommends ethical frameworks tailored to specific domains and dynamic auditing systems adapted to diverse contexts. This roadmap aims to guide responsible development and integration of LLMs, envisioning a future where ethical considerations govern AI advancements in society.
翻訳日:2024-07-01 19:01:16 公開日:2024-06-28
# 生成型AIと大規模言語モデルのための学術ガイドラインのグローバルな展望

The global landscape of academic guidelines for generative AI and Large Language Models ( http://arxiv.org/abs/2406.18842v2 )

ライセンス: Link先を確認
Junfeng Jiao, Saleh Afroogh, Kevin Chen, David Atkinson, Amit Dhurandhar, (参考訳) ジェネレーティブ・人工知能(GAI)とLarge Language Models(LLM)の学界への統合は、その潜在的な教育的利益と倫理的考察に関する世界的な議論を刺激している。 ポジティブな反応は、コラボレーティブな創造性、教育へのアクセスの増加、トレーナーとトレーナーの強化など、いくつかの可能性を強調している。 しかし、ネガティブな反応は、倫理的な複雑さ、イノベーションと学術的整合性のバランス、不平等なアクセス、誤情報リスクに関する懸念を引き起こす。 本研究は,グローバルディレクティブと全国ディレクティブの体系的調査とテキストマイニングに基づく分析,独立研究からの洞察,大学レベルの80のガイドラインを通じて,GAIとLLMが教育においてもたらす機会と課題の微妙な理解を提供する。 倫理的配慮に対処し、公平なアクセスと教育成果を確保する一方で、これらの技術の利点を活用するバランスのとれたアプローチの重要性を強調している。 本論文は、学術におけるGAIとLLMの統合を導くために、責任あるイノベーションと倫理的実践を促進するための勧告で締めくくっている。

The integration of Generative Artificial Intelligence (GAI) and Large Language Models (LLMs) in academia has spurred a global discourse on their potential pedagogical benefits and ethical considerations. Positive reactions highlight some potential, such as collaborative creativity, increased access to education, and empowerment of trainers and trainees. However, negative reactions raise concerns about ethical complexities, balancing innovation and academic integrity, unequal access, and misinformation risks. Through a systematic survey and text-mining-based analysis of global and national directives, insights from independent research, and eighty university-level guidelines, this study provides a nuanced understanding of the opportunities and challenges posed by GAI and LLMs in education. It emphasizes the importance of balanced approaches that harness the benefits of these technologies while addressing ethical considerations and ensuring equitable access and educational outcomes. The paper concludes with recommendations for fostering responsible innovation and ethical practices to guide the integration of GAI and LLMs in academia.
翻訳日:2024-07-01 19:01:16 公開日:2024-06-28
# FRED:DNNモデルのウェーハスケール分散トレーニングのためのフレキシブルリダクション・ディストリビューション・インターコネクトと通信実装

FRED: Flexible REduction-Distribution Interconnect and Communication Implementation for Wafer-Scale Distributed Training of DNN Models ( http://arxiv.org/abs/2406.19580v1 )

ライセンス: Link先を確認
Saeed Rashidi, William Won, Sudarshan Srinivasan, Puneet Gupta, Tushar Krishna, (参考訳) 並列化戦略によると、分散ディープニューラルネットワーク(DNN)トレーニングは、トレーニングタスクを複数のアクセラレータに分散することで、トレーニングオーバーヘッドを低減するテクニックである。 しかし、システムの最大高速化と線形スケーリングには、高性能な計算と相互接続が必要である。 ウエハスケールシステムは、ハイエンドアクセラレータと高速ウエハスケールの相互接続を緊密に統合し、分散トレーニングのための魅力的なプラットフォームとなる、有望な技術である。 しかし、ウェハスケールの相互接続は、計算およびメモリ使用量の最大最適化を可能にするために、様々な並列化戦略に対して高い性能と柔軟性を提供する必要がある。 本稿では、ウェハスケールネットワークの高BW要求に適合し、異なる並列化戦略の通信パターンを効率的に実行可能なウェハスケール相互接続FREDを提案する。 さらに、FREDは、ネットワークトラフィックを約2倍に削減する、スウィッチ内の集団通信実行をサポートしている。 その結果, ベースラインウェハスケール2D-Meshファブリックと比較して, FREDは1.76X, 1.87X, 1.34X, 1.4XでResNet-152, Transformer-17B, GPT-3, Transformer-1Tの平均終端トレーニング時間を改善できることがわかった。

Distributed Deep Neural Network (DNN) training is a technique to reduce the training overhead by distributing the training tasks into multiple accelerators, according to a parallelization strategy. However, high-performance compute and interconnects are needed for maximum speed-up and linear scaling of the system. Wafer-scale systems are a promising technology that allows for tightly integrating high-end accelerators with high-speed wafer-scale interconnects, making it an attractive platform for distributed training. However, the wafer-scale interconnect should offer high performance and flexibility for various parallelization strategies to enable maximum optimizations for compute and memory usage. In this paper, we propose FRED, a wafer-scale interconnect that is tailored for the high-BW requirements of wafer-scale networks and can efficiently execute communication patterns of different parallelization strategies. Furthermore, FRED supports in-switch collective communication execution that reduces the network traffic by approximately 2X. Our results show that FRED can improve the average end-to-end training time of ResNet-152, Transformer-17B, GPT-3, and Transformer-1T by 1.76X, 1.87X, 1.34X, and 1.4X, respectively when compared to a baseline waferscale 2D-Mesh fabric.
翻訳日:2024-07-01 18:10:10 公開日:2024-06-28
# HarmonICA: 運動ニューロンの神経非定常性補正と音源分離

HarmonICA: Neural non-stationarity correction and source separation for motor neuron interfaces ( http://arxiv.org/abs/2406.19581v1 )

ライセンス: Link先を確認
Alexander Kenneth Clarke, Agnese Grison, Irene Mendez Guerra, Pranav Mamidanna, Shihan Ma, Silvia Muceli, Dario Farina, (参考訳) 脊髄運動ニューロンと対面する際の大きな問題は、ソース分離ルーチン中の信号の非定常効果を正確に補償する方法である。 これにより、現在のシステムは、制御の自由度を制限する未分化のバルク信号を使用するように強制される。 本研究では、教師なし学習アルゴリズムを用いて、信号非定常性を駆動する潜在過程の効果を盲目的に補正する潜在的な解決策を提案する。 独立成分分析(ICA)の準線形版の理論的枠組みの中で,この方法論を実装した。 提案した設計であるHarmonICAは、非線形ICAの識別可能性の問題の側面を踏襲し、線形ICAに等価な予測可能性を実現すると同時に、非定常潜伏子間の複雑な非線形関係と信号に対するそれらの影響を学習する能力を保持する。 我々はハーモニカを、シミュレーションと実の両方の侵襲的および非侵襲的記録でテストし、それぞれに特異的な非定常効果を盲目的に補償できることを示し、ソース分離ルーチンの品質を著しく向上させる。

A major outstanding problem when interfacing with spinal motor neurons is how to accurately compensate for non-stationary effects in the signal during source separation routines, particularly when they cannot be estimated in advance. This forces current systems to instead use undifferentiated bulk signal, which limits the potential degrees of freedom for control. In this study we propose a potential solution, using an unsupervised learning algorithm to blindly correct for the effects of latent processes which drive the signal non-stationarities. We implement this methodology within the theoretical framework of a quasilinear version of independent component analysis (ICA). The proposed design, HarmonICA, sidesteps the identifiability problems of nonlinear ICA, allowing for equivalent predictability to linear ICA whilst retaining the ability to learn complex nonlinear relationships between non-stationary latents and their effects on the signal. We test HarmonICA on both invasive and non-invasive recordings both simulated and real, demonstrating an ability to blindly compensate for the non-stationary effects specific to each, and thus to significantly enhance the quality of a source separation routine.
翻訳日:2024-07-01 18:10:10 公開日:2024-06-28
# 高精度多パラメータ持続ホモロジーにおけるフィルタリング学習と時系列データの分類

Filtration learning in exact multi-parameter persistent homology and classification of time-series data ( http://arxiv.org/abs/2406.19587v1 )

ライセンス: Link先を確認
Keunsu Kim, Jae-Hun Jung, (参考訳) 与えられた離散データの位相的性質を分析するには、フィルタと呼ばれる連続変換を考える必要がある。 永続ホモロジーは濾過におけるホモロジーの変化を追跡するツールとして機能する。 データのトポロジカル解析の結果は濾過の選択によって異なり、濾過の選択が重要となる。 濾過学習は損失関数を最小化する最適濾過を見つける試みである。 Exact Multi-parameter Persistent Homology (EMPH, Exact Multi-parameter Persistent Homology) が最近提案されている。 本稿では,EMPHのフィルタ学習のためのフレームワークを提案する。 最適化問題を定式化し、その問題を解決するアルゴリズムを提案する。 次に,提案アルゴリズムをいくつかの分類問題に適用する。 特に,フィルタパラメータに対する損失関数の勾配の正確な式を導出し,自動微分を用いることなくフィルタを直接更新し,学習過程を著しく向上させる。

To analyze the topological properties of the given discrete data, one needs to consider a continuous transform called filtration. Persistent homology serves as a tool to track changes of homology in the filtration. The outcome of the topological analysis of data varies depending on the choice of filtration, making the selection of filtration crucial. Filtration learning is an attempt to find an optimal filtration that minimizes the loss function. Exact Multi-parameter Persistent Homology (EMPH) has been recently proposed, particularly for topological time-series analysis, that utilizes the exact formula of rank invariant instead of calculating it. In this paper, we propose a framework for filtration learning of EMPH. We formulate an optimization problem and propose an algorithm for solving the problem. We then apply the proposed algorithm to several classification problems. Particularly, we derive the exact formula of the gradient of the loss function with respect to the filtration parameter, which makes it possible to directly update the filtration without using automatic differentiation, significantly enhancing the learning process.
翻訳日:2024-07-01 18:10:10 公開日:2024-06-28
# オーディオ映像生成のための拡散モデルのネットワーク曲げ

Network Bending of Diffusion Models for Audio-Visual Generation ( http://arxiv.org/abs/2406.19589v1 )

ライセンス: Link先を確認
Luke Dzwonczyk, Carmine Emanuele Cella, David Ban, (参考訳) 本稿では,事前学習,生成,機械学習モデルを用いてアーティストが音楽の可視化を作成できるツールの開発に向けた第一歩について述べる。 まず, 画像生成拡散モデルへのネットワーク曲げ, 生成ネットワークの層内変換の適用について, 点幅, テンソル幅, 形態的演算子の範囲を利用して検討する。 標準的な画像編集ツールでは容易に再現できないものを含む,さまざまな演算子による視覚効果を識別する。 このプロセスは、創造的アプリケーションに役立つ画像生成の連続的、微粒化制御を可能にする。 次に,音声特徴をパラメータとしてネットワーク屈曲演算子に渡すことで,安定拡散を用いた音楽再生ビデオを生成する。 最後に、画像を根本的にシフトさせるある種の変換と、これらの変換に基づいて安定拡散の潜在空間についてより深く学ぶ可能性について述べる。

In this paper we present the first steps towards the creation of a tool which enables artists to create music visualizations using pre-trained, generative, machine learning models. First, we investigate the application of network bending, the process of applying transforms within the layers of a generative network, to image generation diffusion models by utilizing a range of point-wise, tensor-wise, and morphological operators. We identify a number of visual effects that result from various operators, including some that are not easily recreated with standard image editing tools. We find that this process allows for continuous, fine-grain control of image generation which can be helpful for creative applications. Next, we generate music-reactive videos using Stable Diffusion by passing audio features as parameters to network bending operators. Finally, we comment on certain transforms which radically shift the image and the possibilities of learning more about the latent space of Stable Diffusion based on these transforms.
翻訳日:2024-07-01 18:10:10 公開日:2024-06-28
# SK-VQA: 文脈拡張型マルチモーダルLLMの学習のための大規模合成知識生成

SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs ( http://arxiv.org/abs/2406.19593v1 )

ライセンス: Link先を確認
Xin Su, Man Luo, Kris W Pan, Tien Pei Chou, Vasudev Lal, Phillip Howard, (参考訳) 合成データ生成は、近年、大規模ビジョンと言語モデルのトレーニングにおける実用性において大きな注目を集めている。 しかし、合成データのマルチモーダルな文脈拡張生成システムの訓練への応用は、比較的研究されていない。 既存の視覚と言語モデル(VLM)は、文脈拡張生成のために特別に訓練されていないため、既存の作業におけるこのギャップは重要である。 このようなモデルに適応するためのリソースは、検索強化生成(RAG)設定での使用を可能にするために不可欠である。 この課題に対処するために、我々はSK-VQAを生成する: 最終回答を決定するために外部知識を必要とする200万以上の質問応答対を含む大規模な合成マルチモーダルデータセット。 我々のデータセットは、その種類の既存のリソースよりも大きく、非常に多様であり、11倍以上のユニークな質問を持ち、以前提案されたデータセットよりも多種多様なソースの画像を含んでいる。 大規模な実験を通じて、我々の合成データセットは、挑戦的なベンチマークとして機能するだけでなく、既存の生成的マルチモーダルモデルを文脈拡張生成に適用する上でも非常に効果的であることを示した。

Synthetic data generation has gained significant attention recently for its utility in training large vision and language models. However, the application of synthetic data to the training of multimodal context-augmented generation systems has been relatively unexplored. This gap in existing work is important because existing vision and language models (VLMs) are not trained specifically for context-augmented generation. Resources for adapting such models are therefore crucial for enabling their use in retrieval-augmented generation (RAG) settings, where a retriever is used to gather relevant information that is then subsequently provided to a generative model via context augmentation. To address this challenging problem, we generate SK-VQA: a large synthetic multimodal dataset containing over 2 million question-answer pairs which require external knowledge to determine the final answer. Our dataset is both larger and significantly more diverse than existing resources of its kind, possessing over 11x more unique questions and containing images from a greater variety of sources than previously-proposed datasets. Through extensive experiments, we demonstrate that our synthetic dataset can not only serve as a challenging benchmark, but is also highly effective for adapting existing generative multimodal models for context-augmented generation.
翻訳日:2024-07-01 18:10:10 公開日:2024-06-28
# 強化学習による動的アクティブディレクトリにおけるサイバー防御の最適化

Optimizing Cyber Defense in Dynamic Active Directories through Reinforcement Learning ( http://arxiv.org/abs/2406.19596v1 )

ライセンス: Link先を確認
Diksha Goel, Kristen Moore, Mingyu Guo, Derui Wang, Minjune Kim, Seyit Camtepe, (参考訳) 本稿では,ACO(Autonomous Cyber Operations:自律サイバーオペレーション)の文献において,動的で現実的なネットワークにおける効果的なエッジブロッキングACO戦略の欠如について論じる。 具体的には、組織的Active Directory(AD)システムのサイバーセキュリティ脆弱性を対象とする。 本研究は,ADシステムを静的エンティティとみなすエッジブロッキングディフェンスに関する既存の文献とは違って,攻撃者とディフェンダー間のスタックルバーグゲームモデルを通じて,その動的性質を認識し,先進的なエッジブロッキングディフェンスを開発することによって,この問題に対処する。 我々は,RLによる攻撃戦略と,RLによる進化的多様性最適化に基づく防衛戦略を考案する。 多数の動的ADグラフ上でアタッカー・ディフェンダー戦略を訓練する際の計算上の課題に対処するために,環境やニューラルネットワークを刺激して無関係な要素を排除し,大規模グラフの効率的かつスケーラブルなトレーニングを可能にするRLトレーニングファシリテータを提案する。 我々は、高度な攻撃モデルが堅牢な防御に不可欠であるとして、攻撃戦略を広範囲に訓練する。 実験の結果,提案手法は,大規模ADのスケーラビリティを確保しつつ,動的ADグラフの硬化におけるディフェンダーの熟練度を高めることを実証した。

This paper addresses a significant gap in Autonomous Cyber Operations (ACO) literature: the absence of effective edge-blocking ACO strategies in dynamic, real-world networks. It specifically targets the cybersecurity vulnerabilities of organizational Active Directory (AD) systems. Unlike the existing literature on edge-blocking defenses which considers AD systems as static entities, our study counters this by recognizing their dynamic nature and developing advanced edge-blocking defenses through a Stackelberg game model between attacker and defender. We devise a Reinforcement Learning (RL)-based attack strategy and an RL-assisted Evolutionary Diversity Optimization-based defense strategy, where the attacker and defender improve each other strategy via parallel gameplay. To address the computational challenges of training attacker-defender strategies on numerous dynamic AD graphs, we propose an RL Training Facilitator that prunes environments and neural networks to eliminate irrelevant elements, enabling efficient and scalable training for large graphs. We extensively train the attacker strategy, as a sophisticated attacker model is essential for a robust defense. Our empirical results successfully demonstrate that our proposed approach enhances defender's proficiency in hardening dynamic AD graphs while ensuring scalability for large-scale AD.
翻訳日:2024-07-01 18:10:10 公開日:2024-06-28
# LLMの長期意識を高める文脈エキスパートの混在

Mixture of In-Context Experts Enhance LLMs' Long Context Awareness ( http://arxiv.org/abs/2406.19598v1 )

ライセンス: Link先を確認
Hongzhan Lin, Ang Lv, Yuhan Chen, Chen Zhu, Yang Song, Hengshu Zhu, Rui Yan, (参考訳) 多くの研究で、大きな言語モデル(LLM)が異なる文脈的位置に対する不均一な認識を示すことが明らかになっている。 LLMの文脈認識を高めるためにいくつかのアプローチが提案されているが、有効性と効率性の両立は依然として困難であり、本論文では、RoPEを位置埋め込みとして活用するLLMに対して、この課題に対処するために「文脈エキスパートのミクチャー(MoICE)」と呼ばれる新しい手法を導入する。 MoICEは、LLM内の各アテンションヘッドに統合されたルータと、軽量ルータのみのトレーニング最適化戦略の2つの重要なコンポーネントで構成されている。 これにより、各アテンションヘッドは、ルータによって動的に選択された複数のRoPEアングルを使用してトークンを柔軟に処理し、必要な位置に対応する。 このアプローチは、本質的な文脈情報を見渡すリスクを軽減します。 2) ルータのみのトレーニング戦略では, LLMパラメータの凍結と, ルータのみを数ステップで更新する。 Llama や Mistral などのオープンソース LLM に適用すると、MoICE は長いコンテキスト理解と生成に関する複数のタスクにまたがる従来の手法を超越する。

Many studies have revealed that large language models (LLMs) exhibit uneven awareness of different contextual positions.Their limited context awareness can lead to overlooking critical information and subsequent task failures. While several approaches have been proposed to enhance LLMs' context awareness, achieving both effectiveness and efficiency remains challenging.In this paper, for LLMs utilizing RoPE as position embeddings, we introduce a novel method called ``Mixture of In-Context Experts'' (MoICE) to address this challenge. MoICE comprises two key components: a router integrated into each attention head within LLMs and a lightweight router-only training optimization strategy: (1) MoICE views each RoPE angle as an `in-context' expert, demonstrated to be capable of directing the attention of a head to specific contextual positions. Consequently, each attention head flexibly processes tokens using multiple RoPE angles dynamically selected by the router to attend to the needed positions. This approach mitigates the risk of overlooking essential contextual information. (2) The router-only training strategy entails freezing LLM parameters and exclusively updating routers for only a few steps. When applied to open-source LLMs including Llama and Mistral, MoICE surpasses prior methods across multiple tasks on long context understanding and generation, all while maintaining commendable inference efficiency.
翻訳日:2024-07-01 18:10:10 公開日:2024-06-28
# 深層クラスタリングに関する調査--先見的視点から

A Survey on Deep Clustering: From the Prior Perspective ( http://arxiv.org/abs/2406.19602v1 )

ライセンス: Link先を確認
Yiding Lu, Haobin Li, Yunfan Li, Yijie Lin, Xi Peng, (参考訳) ニューラルネットワークの強力な特徴抽出能力によって実現されたディープクラスタリングは、高次元および複雑な実世界のデータを分析する上で大きな成功を収めた。 深層クラスタリング手法の性能は,ネットワーク構造や学習目標など,さまざまな要因に影響される。 しかし、本調査で指摘されているように、深層クラスタリングの本質は、従来の知識の取り込みと活用にある。 データ構造仮定に基づくディープクラスタリング手法の先駆的な開発から、データ拡張不変性に基づく最近のコントラストクラスタリング手法に至るまで、ディープクラスタリングの開発は本質的に、過去の知識の進化と一致する。 本稿では,これらを6種類の事前知識に分類することで,深層クラスタリング手法の総合的なレビューを行う。 一般的に、以前のイノベーションは2つのトレンド、すなわち2つのトレンドに従っている。 一 鉱業から建設まで、及び ii) 内部から外部へ さらに、広く使われている5つのデータセットのベンチマークを提供し、様々な先行してメソッドのパフォーマンスを分析する。 新たな事前知識の視点を提供することで、この調査がいくつかの新しい洞察を与え、深層クラスタリングコミュニティにおける将来の研究を刺激することを期待します。

Facilitated by the powerful feature extraction ability of neural networks, deep clustering has achieved great success in analyzing high-dimensional and complex real-world data. The performance of deep clustering methods is affected by various factors such as network structures and learning objectives. However, as pointed out in this survey, the essence of deep clustering lies in the incorporation and utilization of prior knowledge, which is largely ignored by existing works. From pioneering deep clustering methods based on data structure assumptions to recent contrastive clustering methods based on data augmentation invariances, the development of deep clustering intrinsically corresponds to the evolution of prior knowledge. In this survey, we provide a comprehensive review of deep clustering methods by categorizing them into six types of prior knowledge. We find that in general the prior innovation follows two trends, namely, i) from mining to constructing, and ii) from internal to external. Besides, we provide a benchmark on five widely-used datasets and analyze the performance of methods with diverse priors. By providing a novel prior knowledge perspective, we hope this survey could provide some novel insights and inspire future research in the deep clustering community.
翻訳日:2024-07-01 18:00:20 公開日:2024-06-28
# 列の逆転の多項式複雑性と写像の局所逆転

Polynomial Complexity of Inversion of sequences and Local Inversion of Maps ( http://arxiv.org/abs/2406.19610v1 )

ライセンス: Link先を確認
Virendra Sule, (参考訳) この論文は、二項体上の「有限列のemph{Inversion」問題、多項式によって定義され、その列によって満たされる「emph{Recurrence Relation} (RR)」規則で確認される列のプレフィックス要素を見つける問題に対する解を定義し、探求する。 RRs を定義する固定次数の多項式における変数(順序)の最小数は、その次数の列の \emph{Polynomial Complexity} と呼ばれ、一方、そのような多項式の変数の最小数は、その単項の評価の行列の列の唯一の接頭辞と最大階数となり、選択された次数の次数で \emph{Polynomial Complexity of Inversion} と呼ばれる。 この問題の解は、写像 $F:\ftwo^n\rightarrow\ftwo^n$ at a point $y$ in $\ftwo^n$, that of solve for $x$ in $\ftwo^n$ from the equation $y=F(x)$ である。 写像の局所反転は、この理論に価値を与える重要な応用である。 以前の研究で、列の \emph{Linear Complexity} (LC) と呼ばれる列で満たされる最小順序 \emph{Linear Recurrence Relations} (LRR) は、列が周期列の一部であるときの反転に対する一意の解を与えることを示した。 本稿では, 次数$>1$の多項式で定義され, 列で満たされた 'emph{Non-linear Recurrence Relations' を考えることにより, 逆問題を解決するためのこの理論の拡張について検討する。 列で満たされる多項式の最小順序は、非線形複雑性(RRによって列を決定する最小順序のフィードバックシフトレジスタを定義する)として知られ、その列の 'emph{Maximal Order Complexity} (MOC) と呼ばれる。 しかし、LCとは異なり、任意の程度に一意な多項式反復関係は存在しない。

This Paper defines and explores solution to the problem of \emph{Inversion of a finite Sequence} over the binary field, that of finding a prefix element of the sequence which confirms with a \emph{Recurrence Relation} (RR) rule defined by a polynomial and satisfied by the sequence. The minimum number of variables (order) in a polynomial of a fixed degree defining RRs is termed as the \emph{Polynomial Complexity} of the sequence at that degree, while the minimum number of variables of such polynomials at a fixed degree which also result in a unique prefix to the sequence and maximum rank of the matrix of evaluation of its monomials, is called \emph{Polynomial Complexity of Inversion} at the chosen degree. Solutions of this problems discovers solutions to the problem of \emph{Local Inversion} of a map $F:\ftwo^n\rightarrow\ftwo^n$ at a point $y$ in $\ftwo^n$, that of solving for $x$ in $\ftwo^n$ from the equation $y=F(x)$. Local inversion of maps has important applications which provide value to this theory. In previous work it was shown that minimal order \emph{Linear Recurrence Relations} (LRR) satisfied by the sequence known as the \emph{Linear Complexity} (LC) of the sequence, gives a unique solution to the inversion when the sequence is a part of a periodic sequence. This paper explores extension of this theory for solving the inversion problem by considering \emph{Non-linear Recurrence Relations} defined by a polynomials of a fixed degree $>1$ and satisfied by the sequence. The minimal order of polynomials satisfied by a sequence is well known as non-linear complexity (defining a Feedback Shift Register of smallest order which determines the sequences by RRs) and called as \emph{Maximal Order Complexity} (MOC) of the sequence. However unlike the LC there is no unique polynomial recurrence relation at any degree.
翻訳日:2024-07-01 18:00:20 公開日:2024-06-28
# 精度オンコロジーのためのマルチモーダルデータ統合:課題と今後の方向性

Multimodal Data Integration for Precision Oncology: Challenges and Future Directions ( http://arxiv.org/abs/2406.19611v1 )

ライセンス: Link先を確認
Huajun Zhou, Fengtao Zhou, Chenyu Zhao, Yingxue Xu, Luyang Luo, Hao Chen, (参考訳) 正確な腫瘍学の本質は、腫瘍の個々の特性に基づいて、各患者に標的とした治療とケアの調整を約束することにある。 腫瘍の固有の異質性は、さまざまなデータソースから情報を収集し、様々な観点から貴重な洞察を提供することを必要とし、腫瘍の全体的理解を促進する。 過去10年間で、精度オンコロジーのためのマルチモーダルデータ統合技術は大きな進歩を遂げ、異種データモダリティの複雑な詳細を理解するのに顕著な進歩を見せている。 これらの戦略は、臨床的意思決定とモデル解釈を改善する大きな可能性を示し、がん治療と治療の進歩に寄与している。 得られた急速な進歩を踏まえ、精密腫瘍学における最先端のマルチモーダルデータ統合技術について概説した約300の論文の概要を概説する。 さらに,早期診断,診断,予後,バイオマーカー発見などの重要なメリットを生かした臨床応用をまとめる。 最後に,本調査から得られた知見をもとに,本研究の課題を深く探求し,精度オンコロジーのためのマルチモーダルデータ統合の分野における今後の研究に不可欠な経路を明らかにする。

The essence of precision oncology lies in its commitment to tailor targeted treatments and care measures to each patient based on the individual characteristics of the tumor. The inherent heterogeneity of tumors necessitates gathering information from diverse data sources to provide valuable insights from various perspectives, fostering a holistic comprehension of the tumor. Over the past decade, multimodal data integration technology for precision oncology has made significant strides, showcasing remarkable progress in understanding the intricate details within heterogeneous data modalities. These strides have exhibited tremendous potential for improving clinical decision-making and model interpretation, contributing to the advancement of cancer care and treatment. Given the rapid progress that has been achieved, we provide a comprehensive overview of about 300 papers detailing cutting-edge multimodal data integration techniques in precision oncology. In addition, we conclude the primary clinical applications that have reaped significant benefits, including early assessment, diagnosis, prognosis, and biomarker discovery. Finally, derived from the findings of this survey, we present an in-depth analysis that explores the pivotal challenges and reveals essential pathways for future research in the field of multimodal data integration for precision oncology.
翻訳日:2024-07-01 18:00:20 公開日:2024-06-28
# 機械学習のためのデータ品質寸法とツールに関する調査

A Survey on Data Quality Dimensions and Tools for Machine Learning ( http://arxiv.org/abs/2406.19614v1 )

ライセンス: Link先を確認
Yuhan Zhou, Fengjiao Tu, Kewei Sha, Junhua Ding, Haihua Chen, (参考訳) データ品質(DQ)は、MLモデルの性能、公正性、堅牢性、安全性、スケーラビリティに不可欠です。 データ中心のAIにおける大規模で複雑なデータによって、探索的データ分析(EDA)やクロスバリデーション(CV)といった従来の手法は、DQツールのマスタの重要性を強調しながら、課題に直面している。 本調査では,過去5年間の17のDQ評価・改善ツールについて概観する。 これらのツールに埋め込まれたDQディメンション、メトリクス、主要な機能を導入することで、その強みと制限を比較し、ML用のオープンソースのDQツールを開発するロードマップを提案します。 課題とトレンドの議論に基づいて、MLのDQ評価と改善における大規模言語モデル(LLM)と生成AIの潜在的な応用をさらに強調する。 この総合的な調査は、MLにおけるDQの理解を高め、データ中心のAIの進歩を促進することができると信じています。 この調査で調査された文献の完全なリストは、GitHubのhttps://github.com/haihua0913/awesome-dq4mlで公開されている。

Machine learning (ML) technologies have become substantial in practically all aspects of our society, and data quality (DQ) is critical for the performance, fairness, robustness, safety, and scalability of ML models. With the large and complex data in data-centric AI, traditional methods like exploratory data analysis (EDA) and cross-validation (CV) face challenges, highlighting the importance of mastering DQ tools. In this survey, we review 17 DQ evaluation and improvement tools in the last 5 years. By introducing the DQ dimensions, metrics, and main functions embedded in these tools, we compare their strengths and limitations and propose a roadmap for developing open-source DQ tools for ML. Based on the discussions on the challenges and emerging trends, we further highlight the potential applications of large language models (LLMs) and generative AI in DQ evaluation and improvement for ML. We believe this comprehensive survey can enhance understanding of DQ in ML and could drive progress in data-centric AI. A complete list of the literature investigated in this survey is available on GitHub at: https://github.com/haihua0913/awesome-dq4ml.
翻訳日:2024-07-01 18:00:20 公開日:2024-06-28
# VarteX: 分散変数表現による天気予報の強化

VarteX: Enhancing Weather Forecast through Distributed Variable Representation ( http://arxiv.org/abs/2406.19615v1 )

ライセンス: Link先を確認
Ayumu Ueyama, Kazuhiko Kawamoto, Hiroshi Kera, (参考訳) 天気予報は様々な人間の活動に欠かせない。 近年のデータ駆動型モデルでは, 予測性能の深層学習を利用して, 数値的な天気予報に勝っている。 しかし、複数の気象変数を効率的に扱うことは困難である。 本研究では,新しい変数集約方式と,その課題に対する効率的な学習フレームワークを提案する。 実験の結果、VarteXは予測性能において従来のモデルよりも優れており、パラメータやリソースが大幅に少ないことがわかった。 複数のアグリゲーションと地域分割トレーニングによる学習の有効性を実証し、より効率的で正確な深層学習に基づく天気予報を可能にする。

Weather forecasting is essential for various human activities. Recent data-driven models have outperformed numerical weather prediction by utilizing deep learning in forecasting performance. However, challenges remain in efficiently handling multiple meteorological variables. This study proposes a new variable aggregation scheme and an efficient learning framework for that challenge. Experiments show that VarteX outperforms the conventional model in forecast performance, requiring significantly fewer parameters and resources. The effectiveness of learning through multiple aggregations and regional split training is demonstrated, enabling more efficient and accurate deep learning-based weather forecasting.
翻訳日:2024-07-01 18:00:20 公開日:2024-06-28
# 強い凸性およびリプシッツ・ヘッセン性の下での確率ゼロ階最適化:ミニマックスサンプル複素度

Stochastic Zeroth-Order Optimization under Strongly Convexity and Lipschitz Hessian: Minimax Sample Complexity ( http://arxiv.org/abs/2406.19617v1 )

ライセンス: Link先を確認
Qian Yu, Yining Wang, Baihe Huang, Qi Lei, Jason D. Lee, (参考訳) 確率的ゼロ次フィードバックの下での凸関数の最適化は、オンライン学習において大きな問題であり、課題となっている。 本研究では,アルゴリズムが検索対象関数のノイズ評価にのみアクセス可能な2次スムーズかつ強い凸関数を最適化する問題を考察する。 本研究は, ミニマックス単純後悔率について, 一致した上界と下界を発達させることにより, 初めて厳密な評価を行ったものである。 本稿では,ブートストラッピングステージとミラー・ディフレッシュステージの組み合わせを特徴とするアルゴリズムを提案する。 我々の主な技術革新は、高次滑らか度条件下での球面サンプリング勾配推定器の鋭い評価と、バイアス分散トレードオフの最適バランスと、非有界ヘッセンに対する性能を維持するブートストラッピング段階の新たな反復的手法からなる。

Optimization of convex functions under stochastic zeroth-order feedback has been a major and challenging question in online learning. In this work, we consider the problem of optimizing second-order smooth and strongly convex functions where the algorithm is only accessible to noisy evaluations of the objective function it queries. We provide the first tight characterization for the rate of the minimax simple regret by developing matching upper and lower bounds. We propose an algorithm that features a combination of a bootstrapping stage and a mirror-descent stage. Our main technical innovation consists of a sharp characterization for the spherical-sampling gradient estimator under higher-order smoothness conditions, which allows the algorithm to optimally balance the bias-variance tradeoff, and a new iterative method for the bootstrapping stage, which maintains the performance for unbounded Hessian.
翻訳日:2024-07-01 18:00:20 公開日:2024-06-28
# ScoreFusion:Kullback-Leiblerのバリセンターを経由したスコアベース生成モデル

ScoreFusion: fusing score-based generative models via Kullback-Leibler barycenters ( http://arxiv.org/abs/2406.19619v1 )

ライセンス: Link先を確認
Hao Liu, Junze, Ye, Jose Blanchet, Nian Si, (参考訳) 本研究では, 対象生成モデルの訓練を強化するために, 事前学習された(補助的な)生成モデルを融合する問題について検討する。 そこで本研究では, KL分散重心を最適核融合機構として用いて, 対象個体に対する適切な損失を最小限に抑えるために, バリ中心重心を最適に訓練する手法を提案する。 最適なKL-barycenter重み付けの計算は困難であるが,このプロセスは拡散スコア法に基づいて補助生成モデルもトレーニングした場合に,拡散スコアトレーニングを用いて効率的に実行可能であることを示す。 さらに, 本手法は, 補助モデルがそれぞれのタスクによく適合し, 組み合わせたタスクが目標をうまく捉えている場合, 総変量距離において, 無次元のサンプル複雑性を有することを示す。 本手法の主な特徴は, 補助モデルが十分に訓練されており, 対象モデルに存在する特徴を相互に借りることができれば, 融合法は生成モデルの訓練を著しく改善するということである。 混合モデルと画像データセットを含む数値実験により、融合アルゴリズムの簡潔な計算実装を行い、その効率を低データ方式で検証する。

We study the problem of fusing pre-trained (auxiliary) generative models to enhance the training of a target generative model. We propose using KL-divergence weighted barycenters as an optimal fusion mechanism, in which the barycenter weights are optimally trained to minimize a suitable loss for the target population. While computing the optimal KL-barycenter weights can be challenging, we demonstrate that this process can be efficiently executed using diffusion score training when the auxiliary generative models are also trained based on diffusion score methods. Moreover, we show that our fusion method has a dimension-free sample complexity in total variation distance provided that the auxiliary models are well fitted for their own task and the auxiliary tasks combined capture the target well. The main takeaway of our method is that if the auxiliary models are well-trained and can borrow features from each other that are present in the target, our fusion method significantly improves the training of generative models. We provide a concise computational implementation of the fusion algorithm, and validate its efficiency in the low-data regime with numerical experiments involving mixtures models and image datasets.
翻訳日:2024-07-01 18:00:20 公開日:2024-06-28
# 最新のマルチコアシステムにおけるBLASレベル3のマシンラーニング駆動実行最適化

Machine-Learning-Driven Runtime Optimization of BLAS Level 3 on Modern Multi-Core Systems ( http://arxiv.org/abs/2406.19621v1 )

ライセンス: Link先を確認
Yufan Xia, Giuseppe Maria Junior Barca, (参考訳) BLASレベル3の操作は科学計算には不可欠であるが、現代のマルチコアシステム上でのマルチスレッド実装に最適なスレッド数を見つけることは困難である。 我々は、機械学習を用いてすべてのBLASレベル3操作のランタイムを最適化するアーキテクチャおよびデータ構造対応線形代数(ADSALA)ライブラリの拡張を提示する。 本手法は,行列次元とシステムアーキテクチャに基づいて,各操作に最適なスレッド数を予測する。 我々は,MKLとBLISをベースラインBLAS実装として,IntelとAMDプロセッサの2つのHPCプラットフォーム上でテストを行った。 最大スレッド数と比較して,すべての操作に対して1.5から3.0の高速化を実現しています。 また、異なるBLAS操作のランタイムパターンを分析し、スピードアップの原因を説明します。 本研究は,現代のマルチコアシステムにおけるBLASルーチンを最適化するためのADSALAアプローチの有効性と汎用性を示す。

BLAS Level 3 operations are essential for scientific computing, but finding the optimal number of threads for multi-threaded implementations on modern multi-core systems is challenging. We present an extension to the Architecture and Data-Structure Aware Linear Algebra (ADSALA) library that uses machine learning to optimize the runtime of all BLAS Level 3 operations. Our method predicts the best number of threads for each operation based on the matrix dimensions and the system architecture. We test our method on two HPC platforms with Intel and AMD processors, using MKL and BLIS as baseline BLAS implementations. We achieve speedups of 1.5 to 3.0 for all operations, compared to using the maximum number of threads. We also analyze the runtime patterns of different BLAS operations and explain the sources of speedup. Our work shows the effectiveness and generality of the ADSALA approach for optimizing BLAS routines on modern multi-core systems.
翻訳日:2024-07-01 18:00:20 公開日:2024-06-28
# データ駆動リプシッツ連続性: 対向ロバスト性を改善するためのコスト効果アプローチ

Data-Driven Lipschitz Continuity: A Cost-Effective Approach to Improve Adversarial Robustness ( http://arxiv.org/abs/2406.19622v1 )

ライセンス: Link先を確認
Erh-Chung Chen, Pin-Yu Chen, I-Hsin Chung, Che-Rung Lee, (参考訳) ディープニューラルネットワーク(DNN)のセキュリティと堅牢性はますます懸念されている。 本稿では,DNNの信頼性を確保するための理論的基礎と実践的解決策を提供することを目的とする。 リプシッツ連続性の概念を探求し、敵攻撃に対するDNNの堅牢性を証明し、入力に知覚不能な摂動を加えることでネットワークを誤解させることを目的とする。 本稿では,入力領域を制約範囲に再マップし,リプシッツ定数を低減し,ロバスト性を高める新しいアルゴリズムを提案する。 他のデータセットや生成モデルの追加例を導入することでロバスト性を向上する既存の逆トレーニングモデルとは異なり、本手法は再トレーニングを必要とせずに既存のモデルと統合できるため、ほとんど費用がかからない。 実験により, 各種モデルと組み合わせ, 頑健性の向上を図り, 本手法の一般化可能性を示す。 さらに,この手法は,ロバストベンチのリーダーボード上のCIFAR10,CIFAR100,ImageNetデータセットに対して,最も堅牢な精度を実現する。

The security and robustness of deep neural networks (DNNs) have become increasingly concerning. This paper aims to provide both a theoretical foundation and a practical solution to ensure the reliability of DNNs. We explore the concept of Lipschitz continuity to certify the robustness of DNNs against adversarial attacks, which aim to mislead the network with adding imperceptible perturbations into inputs. We propose a novel algorithm that remaps the input domain into a constrained range, reducing the Lipschitz constant and potentially enhancing robustness. Unlike existing adversarially trained models, where robustness is enhanced by introducing additional examples from other datasets or generative models, our method is almost cost-free as it can be integrated with existing models without requiring re-training. Experimental results demonstrate the generalizability of our method, as it can be combined with various models and achieve enhancements in robustness. Furthermore, our method achieves the best robust accuracy for CIFAR10, CIFAR100, and ImageNet datasets on the RobustBench leaderboard.
翻訳日:2024-07-01 18:00:20 公開日:2024-06-28
# 量子相転移における自発的対称性の破れの実験的観察

Experimental observation of spontaneous symmetry breaking in a quantum phase transition ( http://arxiv.org/abs/2406.19624v1 )

ライセンス: Link先を確認
Wen Ning, Ri-Hua Zheng, Jia-Hao Lü, Fan Wu, Zhen-Biao Yang, Shi-Biao Zheng, (参考訳) 自発対称性の破れ(SSB)は、超流動や超伝導などの相転移に関連する様々な現象を理解する上で中心的な役割を果たす。 これまでのところ、対称真空からマクロ秩序相への遷移は、かなり研究されている。 これら2つの相をブリッジするプロセスは、古典的な世界が量子相転移からどのように現れるかを理解するために重要であるが、今のところ実験では未解明のままである。 本稿では,超伝導回路を用いた量子Rabiモデルを用いた実験実験を行った。 2つの対称性を破る場成分を特徴とする通常の位相から超放射相へ系を移動させるが、そのうちの1つは古典的現実として現れる。 その結果, 環境による脱コヒーレンスがSSBに重要な役割を担っていることが明らかとなった。

Spontaneous symmetry breaking (SSB) plays a central role in understanding a large variety of phenomena associated with phase transitions, such as superfluid and superconductivity. So far, the transition from a symmetric vacuum to a macroscopically ordered phase has been substantially explored. The process bridging these two distinct phases is critical to understanding how a classical world emerges from a quantum phase transition, but so far remains unexplored in experiment. We here report an experimental demonstration of such a process with a quantum Rabi model engineered with a superconducting circuit. We move the system from the normal phase to the superradiant phase featuring two symmetry-breaking field components, one of which is observed to emerge as the classical reality. The results demonstrate that the environment-induced decoherence plays a critical role in the SSB.
翻訳日:2024-07-01 18:00:20 公開日:2024-06-28
# 制約付きRLのフィードバックによる安全性

Safety through feedback in Constrained RL ( http://arxiv.org/abs/2406.19626v1 )

ライセンス: Link先を確認
Shashank Reddy Chirra, Pradeep Varakantham, Praveen Paruchuri, (参考訳) 安全クリティカルなRL設定では、エージェントの安全な振る舞いを保証するために報酬関数を変更するという困難な作業に対して、追加のコスト関数を含めることが好まれる。 しかし、このようなコスト関数の設計や評価は違法にコストがかかる可能性がある。 例えば、自動運転の分野では、安全でないすべての振る舞い(例えば、攻撃的な車線変更)を含むコスト関数を設計するのは本質的に複雑です。 このようなシナリオでは、トレーニングラウンド間のオフラインで収集されたフィードバックからコスト関数を学ぶことができる。 このフィードバックは、トレーニングプロセスを観察している人間からシステム生成または引き起こすことができる。 これまでのアプローチでは、複雑な環境にスケールすることはできず、収集に費用がかかる状態レベルでのフィードバックの受け取りに制約されていた。 この目的のために、我々はより複雑なドメインに拡張し、状態レベルのフィードバックを超えて拡張するアプローチを導入し、評価者の負担を軽減する。 このような設定でコスト関数を推定することは、特に軌道レベルのフィードバックに基づいて個々の状態にクレジットを割り当てる際の問題を引き起こす。 そこで本稿では,この問題を雑音ラベル付き状態レベルの教師付き分類タスクに変換するサロゲート目標を提案する。 さらに、エージェントが生成するすべての軌跡に対するフィードバックを収集することは不可能であることが多いため、2つの根本的な疑問が生じる:(1)どの軌跡を人間に提示すべきか? 効果的な学習には,何つの軌道が必要か? これらの問題に対処するために、エージェントが \textit{novel} 軌道に遭遇したときのみ、評価器を選択的に含む \textit{novelty-based sample} を導入する。 安全体育館環境と現実的な自動運転シナリオのベンチマーク実験により,本手法の有効性を実証する。

In safety-critical RL settings, the inclusion of an additional cost function is often favoured over the arduous task of modifying the reward function to ensure the agent's safe behaviour. However, designing or evaluating such a cost function can be prohibitively expensive. For instance, in the domain of self-driving, designing a cost function that encompasses all unsafe behaviours (e.g. aggressive lane changes) is inherently complex. In such scenarios, the cost function can be learned from feedback collected offline in between training rounds. This feedback can be system generated or elicited from a human observing the training process. Previous approaches have not been able to scale to complex environments and are constrained to receiving feedback at the state level which can be expensive to collect. To this end, we introduce an approach that scales to more complex domains and extends to beyond state-level feedback, thus, reducing the burden on the evaluator. Inferring the cost function in such settings poses challenges, particularly in assigning credit to individual states based on trajectory-level feedback. To address this, we propose a surrogate objective that transforms the problem into a state-level supervised classification task with noisy labels, which can be solved efficiently. Additionally, it is often infeasible to collect feedback on every trajectory generated by the agent, hence, two fundamental questions arise: (1) Which trajectories should be presented to the human? and (2) How many trajectories are necessary for effective learning? To address these questions, we introduce \textit{novelty-based sampling} that selectively involves the evaluator only when the the agent encounters a \textit{novel} trajectory. We showcase the efficiency of our method through experimentation on several benchmark Safety Gymnasium environments and realistic self-driving scenarios.
翻訳日:2024-07-01 18:00:20 公開日:2024-06-28
# 位相空間の測定、デコヒーレンスと古典性

Phase-space measurements, decoherence and classicality ( http://arxiv.org/abs/2406.19628v1 )

ライセンス: Link先を確認
Dorje C. Brody, Eva-Maria Graefe, Rishindra Melanathuru, (参考訳) 量子論における古典的な振る舞いの出現は、しばしば量子系の環境との相互作用によって説明される。 結果として、系の密度行列の対角線外要素は、望ましい観測可能性に基づいて減衰され、しばしばその位置とされ、デコヒーレンス現象をもたらす。 この効果は、位置演算子によって駆動されるリンドブラッド方程式によって動的にモデル化することができる。 ここでは、環境による位置と運動量のモニタリング、すなわち位相空間の測定によるデコヒーレンスの問題に対処する。 位相空間点の検出に対応する標準的な量子オブザーバブルは存在しないが、これはハイゼンベルクの不確実性原理によって禁止されている。 この問題は、環境による位相空間モニタリングをモデル化するためのコヒーレント状態に基づく正の演算子値測定(POVM)によって解決される。 このスキームでは、位相空間におけるデコヒーレンス (decoherence) は、位置および運動量表現における密度行列の対角化を意味する。 これは、位置と運動量が2つの独立なリンドブラッド作用素として現れるリンドブラッド力学と結びついていることが示されている。

The emergence of classical behaviour in quantum theory is often ascribed to the interaction of a quantum system with its environment, which can be interpreted as environmental monitoring of the system. As a result, off-diagonal elements of the density matrix of the system are damped in the basis of a preferred observable, often taken to be the position, leading to the phenomenon of decoherence. This effect can be modelled dynamically in terms of a Lindblad equation driven by the position operator. Here the question of decoherence resulting from a monitoring of position and momentum, i.e. a phase-space measurement, by the environment is addressed. There is no standard quantum observable corresponding to the detection of phase-space points, which is forbidden by Heisenberg's uncertainty principle. This issue is addressed by use of a coherent-state-based positive operator-valued measure (POVM) for modelling phase-space monitoring by the environment. In this scheme, decoherence in phase space implies the diagonalisation of the density matrix in both position and momentum representations. This is shown to be linked to a Lindblad dynamics where position and momentum appear as two independent Lindblad operators.
翻訳日:2024-07-01 18:00:20 公開日:2024-06-28
# 非エルミートトポロジカルセンシングシステムにおける飽和ダイナミクス

Saturation Dynamics in Non-Hermitian Topological Sensing Systems ( http://arxiv.org/abs/2406.19629v1 )

ライセンス: Link先を確認
S. M. Rafi-Ul-Islam, Zhuo Bin Siu, Md. Saddam Hossain Razo, Mansoor B. A. Jalil, (参考訳) 非エルミートトポロジカルセンサ(NTOS)のクラスが最近提案され、NTOSは非エルミートなSu-Schrieffer-Heeger鎖と鎖の両端間の測定依存性のカップリングを含む。 可読信号として機能するシステムの最小エネルギーは、システムサイズに指数関数的に依存するが、臨界サイズ以上は飽和する。 本研究では,センサの感度と飽和挙動がシステムパラメータに与える影響をさらに解明する。 NTOSの挙動は巻線数によって特徴づけられ, 最小の固有エネルギーがシステムサイズとともに指数関数的に減少するか, あるいは臨界サイズまで指数関数的に増加するかを示す。 さらに,センサの両端間の結合に一方向性を持たせることで,最小の固有値のサイズ依存性を指数関数的に増大する傾向から指数関数的に減少する傾向に反転させることができることを示す。 本研究は,飽和現象と終端結合がNTOSのセンサ特性に及ぼす影響について重要な知見を提供するものである。

A class of non-Hermitian topological sensors (NTOSs) was recently proposed in which the NTOS comprises a non-Hermitian Su-Schrieffer-Heeger chain with a measurant-dependent coupling between the two ends of the chain. The smallest eigenenergy of the system, which serves as the readout signal, has an exponential dependence on the system size at small system sizes but saturates above a critical size. In this study, we further elucidate the dependence of the sensor sensitivity and saturation behavior on the system parameters. We explain how the behavior of the NTOS is characterized by a winding number, which indicates whether the smallest eigenenergy decreases to zero exponentially with the system size or grows exponentially up to a critical size. Interestingly, we further show that by imposing unidirectionality on the coupling between the two ends of a sensor, we can flip the size dependence of the smallest eigenenergy value from an exponentially increasing trend to an exponentially decreasing one. Our findings provide important insights into the saturation phenomenon and the impact of terminal couplings on the sensing characteristics of NTOSs.
翻訳日:2024-07-01 18:00:20 公開日:2024-06-28
# Pixel Shift Tracking を用いた最適映像圧縮

Optimal Video Compression using Pixel Shift Tracking ( http://arxiv.org/abs/2406.19630v1 )

ライセンス: Link先を確認
Hitesh Saai Mananchery Panneerselvam, Smit Anand, (参考訳) ビデオは全インターネットトラフィックの約85%を占めていますが、ビデオエンコーディング/圧縮は歴史的にハードコードされたルールで行われています。 ここ数年、MLベースのモデルを用いたビデオ圧縮アルゴリズムが急増しており、その多くはレガシーコーデックよりも優れています。 モデルは、MLアプローチを使用してビデオのエンドツーエンドのエンコーディングから、MLモデルを使用してレガシーコーデックの中間ステップを置き換えて、これらのステップの効率を高めるまで、さまざまです。 ビデオストレージの最適化はビデオ処理の重要な側面であり,各フレームに冗長なデータを避けることによって実現可能なアプローチの1つを提案する。 本稿では,映像圧縮の主なアプローチとして,映像のフレームに冗長性除去のアプローチを導入する。 この手法をShift (R\textsuperscript2S) を用いた冗長除去と呼ぶ。 この方法は、さまざまな機械学習モデルアルゴリズムにまたがって利用することができ、圧縮をよりアクセシビリティと適応性を高めることができる。 本研究では,コンピュータビジョンに基づく画素点追跡手法を用いて,冗長な画素を識別し,最適な記憶のために映像を符号化した。

The Video comprises approximately ~85\% of all internet traffic, but video encoding/compression is being historically done with hard coded rules, which has worked well but only to a certain limit. We have seen a surge in video compression algorithms using ML-based models in the last few years and many of them have outperformed several legacy codecs. The models range from encoding video end to end using an ML approach or replacing some intermediate steps in legacy codecs using ML models to increase the efficiency of those steps. Optimizing video storage is an essential aspect of video processing, so we are proposing one of the possible approaches to achieve it is by avoiding redundant data at each frame. In this paper, we want to introduce the approach of redundancies removal in subsequent frames for a given video as a main approach for video compression. We call this method Redundancy Removal using Shift (R\textsuperscript2S). This method can be utilized across various Machine Learning model algorithms, and make the compression more accessible and adaptable. In this study, we have utilized a computer vision-based pixel point tracking method to identify redundant pixels to encode video for optimal storage.
翻訳日:2024-07-01 18:00:20 公開日:2024-06-28
# フェデレーション・ラーニングにおけるパーソナライズド・解釈--仮想概念のアプローチ

Personalized Interpretation on Federated Learning: A Virtual Concepts approach ( http://arxiv.org/abs/2406.19631v1 )

ライセンス: Link先を確認
Peng Yan, Guodong Long, Jing Jiang, Michael Blumenstein, (参考訳) 非IIDデータに取り組むことは、連邦学習研究におけるオープンな課題である。 既存のFL法は、クライアント間の非IIDの解釈を考慮せずにモデル性能を向上させるために設計されている。 本稿では,クライアント間での非IIDデータのロバスト化と解釈を行う新しいFL法を提案する。 具体的には、各クライアントのデータセットを概念ベクトルの混合として解釈し、各クライアントがエンドユーザに対して解釈可能な概念を表現する。 これらの概念ベクトルは、人間のループプロセスで事前定義されたり、洗練したり、フェデレートされた学習システムの最適化手順を通じて学習することができる。 解釈可能性に加えて、FLシステム上でのトレーニングプロセスの堅牢性を高めるために、クライアント固有のパーソナライゼーションの明確性も適用できる。 提案手法の有効性をベンチマークデータセットで検証した。

Tackling non-IID data is an open challenge in federated learning research. Existing FL methods, including robust FL and personalized FL, are designed to improve model performance without consideration of interpreting non-IID across clients. This paper aims to design a novel FL method to robust and interpret the non-IID data across clients. Specifically, we interpret each client's dataset as a mixture of conceptual vectors that each one represents an interpretable concept to end-users. These conceptual vectors could be pre-defined or refined in a human-in-the-loop process or be learnt via the optimization procedure of the federated learning system. In addition to the interpretability, the clarity of client-specific personalization could also be applied to enhance the robustness of the training process on FL system. The effectiveness of the proposed method have been validated on benchmark datasets.
翻訳日:2024-07-01 18:00:20 公開日:2024-06-28
# PPTFormer:UAVセグメンテーションのための擬似多点変換器

PPTFormer: Pseudo Multi-Perspective Transformer for UAV Segmentation ( http://arxiv.org/abs/2406.19632v1 )

ライセンス: Link先を確認
Deyi Ji, Wenwei Jin, Hongtao Lu, Feng Zhao, (参考訳) 様々な分野における無人航空機(UAV)の上昇は、UAVキャプチャ画像のダイナミックな視点による課題に直面する、効果的なUAV画像セグメンテーションを必要とする。 従来のセグメンテーションアルゴリズムは、UAVパースペクティブの複雑さを正確に模倣することができず、マルチパースペクティブなラベル付きデータセットを取得するコストは禁じられている。 これらの問題に対処するため,UAV画像セグメンテーションに革命をもたらす新しい超多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元 提案手法は,マルチパースペクティブ学習の強化のための疑似視点を作成することによって,実際のマルチパースペクティブデータの必要性を回避する。 PPTFormerネットワークは、パースペクティブ分解、新しいパースペクティブプロトタイプ、およびPseudo Multi-Perspective Attention (PMP Attention)とFusionを通じて優れたセグメンテーション結果を得るための特別なエンコーダとデコーダを備えている。 実験により,PPTFormerは5つのUAVセグメンテーションデータセットの最先端性能を実現し,UAV飛行視点を効果的にシミュレートし,セグメンテーション精度を大幅に向上することを確認した。 この研究は、UAVシーン理解の先駆的な飛躍を示し、セマンティックセグメンテーションにおける将来の発展のための新しいベンチマークを設定する。

The ascension of Unmanned Aerial Vehicles (UAVs) in various fields necessitates effective UAV image segmentation, which faces challenges due to the dynamic perspectives of UAV-captured images. Traditional segmentation algorithms falter as they cannot accurately mimic the complexity of UAV perspectives, and the cost of obtaining multi-perspective labeled datasets is prohibitive. To address these issues, we introduce the PPTFormer, a novel \textbf{P}seudo Multi-\textbf{P}erspective \textbf{T}rans\textbf{former} network that revolutionizes UAV image segmentation. Our approach circumvents the need for actual multi-perspective data by creating pseudo perspectives for enhanced multi-perspective learning. The PPTFormer network boasts Perspective Decomposition, novel Perspective Prototypes, and a specialized encoder and decoder that together achieve superior segmentation results through Pseudo Multi-Perspective Attention (PMP Attention) and fusion. Our experiments demonstrate that PPTFormer achieves state-of-the-art performance across five UAV segmentation datasets, confirming its capability to effectively simulate UAV flight perspectives and significantly advance segmentation precision. This work presents a pioneering leap in UAV scene understanding and sets a new benchmark for future developments in semantic segmentation.
翻訳日:2024-07-01 17:50:12 公開日:2024-06-28
# 電子商取引検索で失敗したリコールを議論する: CoT-prompting テストアプローチ

Combating Missed Recalls in E-commerce Search: A CoT-Prompting Testing Approach ( http://arxiv.org/abs/2406.19633v1 )

ライセンス: Link先を確認
Shengnan Wu, Yongxiang Hu, Yingchuan Wang, Jiazhen Gu, Jin Meng, Liujie Fan, Zhongshi Luan, Xin Wang, Yangfan Zhou, (参考訳) 電子商取引アプリの検索コンポーネント(多くの場合、複雑なAIベースのシステム)は、リコールの欠落につながるバグを起こしやすい。 これは店主をイライラさせ、アプリの利益を損なう可能性がある。 しかし、ユーザによるテストケースの生成が困難であり、オラクルが存在しないため、リコールの欠如に対するテストは困難である。 本稿では,ミスリコールに特化した最初の自動テスト手法であるmDetectorを紹介する。 テストケース生成の課題に対処するために,検索中にユーザがクエリを構築する方法の知見を用いて,LLMによるユーザ整合クエリを生成するCoTプロンプトを生成する。 さらに、一つの店舗で複数のクエリを作成したユーザから学習し、検索結果を比較し、メタモルフィックな関係を通じてテストオラクルを提供する。 オープンアクセスデータを用いた大規模な実験は、mdDetectorが全てのベースラインを最低の偽陽性比で上回ることを示した。 実際の産業データによる実験では、mDetectorは17の偽陽性で100以上のミスリコールを発見した。

Search components in e-commerce apps, often complex AI-based systems, are prone to bugs that can lead to missed recalls - situations where items that should be listed in search results aren't. This can frustrate shop owners and harm the app's profitability. However, testing for missed recalls is challenging due to difficulties in generating user-aligned test cases and the absence of oracles. In this paper, we introduce mrDetector, the first automatic testing approach specifically for missed recalls. To tackle the test case generation challenge, we use findings from how users construct queries during searching to create a CoT prompt to generate user-aligned queries by LLM. In addition, we learn from users who create multiple queries for one shop and compare search results, and provide a test oracle through a metamorphic relation. Extensive experiments using open access data demonstrate that mrDetector outperforms all baselines with the lowest false positive ratio. Experiments with real industrial data show that mrDetector discovers over one hundred missed recalls with only 17 false positives.
翻訳日:2024-07-01 17:50:12 公開日:2024-06-28
# 構造化図形モデルと変圧器を用いたモデル予測シミュレーション

Model Predictive Simulation Using Structured Graphical Models and Transformers ( http://arxiv.org/abs/2406.19635v1 )

ライセンス: Link先を確認
Xinghua Lou, Meet Dave, Shrinu Kushagra, Miguel Lazaro-Gredilla, Kevin Murphy, (参考訳) 本稿では、トランスフォーマと確率的グラフィカルモデル(PGM)に基づいて、複数の対話エージェント(道路利用者)の軌跡をシミュレーションし、Waymo SimAgentsチャレンジに適用する手法を提案する。 変圧器のベースラインはMTRモデルに基づいており、過去の軌跡と静的な道路レイアウトの特徴に基づいて複数の将来の軌跡を予測している。 PGMは、スムーズな軌道の好みや静的な障害物や他の移動エージェントとの衝突の回避など、事前の知識を符号化する要素を含む。 このPGMではガウスニュートン法を用いて(近似)MAP推論を行う。 最後に、次の$T=8 \Delta$タイムステップの$N \sim 100$エージェントに対して$K=32$ trajectoriesをサンプリングします。 モデル予測制御(MPC)のパラダイムに従い、各ステップで予測された軌道の最初の要素のみを返却し、次に再計画し、シミュレーションがその変化する環境に常に適応できるようにします。 そこで我々は,モデル予測シミュレーション (Model Predictive Simulation, MPS) と呼ぶ。 我々はMPSがMTRベースラインを改善することを示し、特に衝突速度などの安全クリティカルな指標について述べる。 さらに、我々のアプローチは、基礎となる予測モデルと互換性があり、追加のトレーニングを必要としないので、コミュニティに価値ある貢献だと信じています。

We propose an approach to simulating trajectories of multiple interacting agents (road users) based on transformers and probabilistic graphical models (PGMs), and apply it to the Waymo SimAgents challenge. The transformer baseline is based on the MTR model, which predicts multiple future trajectories conditioned on the past trajectories and static road layout features. We then improve upon these generated trajectories using a PGM, which contains factors which encode prior knowledge, such as a preference for smooth trajectories, and avoidance of collisions with static obstacles and other moving agents. We perform (approximate) MAP inference in this PGM using the Gauss-Newton method. Finally we sample $K=32$ trajectories for each of the $N \sim 100$ agents for the next $T=8 \Delta$ time steps, where $\Delta=10$ is the sampling rate per second. Following the Model Predictive Control (MPC) paradigm, we only return the first element of our forecasted trajectories at each step, and then we replan, so that the simulation can constantly adapt to its changing environment. We therefore call our approach "Model Predictive Simulation" or MPS. We show that MPS improves upon the MTR baseline, especially in safety critical metrics such as collision rate. Furthermore, our approach is compatible with any underlying forecasting model, and does not require extra training, so we believe it is a valuable contribution to the community.
翻訳日:2024-07-01 17:50:12 公開日:2024-06-28
# ニューラル気候エミュレータにおける等価性

Enforcing Equity in Neural Climate Emulators ( http://arxiv.org/abs/2406.19636v1 )

ライセンス: Link先を確認
William Yik, Sam J. Silva, (参考訳) ニューラルネットワークエミュレータは、さまざまな気候や天気予報タスクにおいて、貴重なツールとなっている。 驚くほど有望な結果を示す一方で、これらのネットワークは等価な予測を生成する固有の能力を持っていない。 つまり、特定のクラスやグループに沿って予測の均一な品質を提供することは保証されていない。 この不平等な予測のポテンシャルは、これらのニューラルネットワークにおける公正性の明示的な表現の必要性を動機付けている。 そこで我々は,ニューラルネットワークにおける解析的物理的制約を,より公平な予測に向けてバイアスネットワークに強制する手法を考案した。 我々は,気候モデルエミュレーションの課題を用いて,この方法論の可能性を実証する。 具体的には、人間開発指標(HDI)を用いて、事前に特定された地域やカテゴリーにまたがる予測の不平等な品質でエミュレータを罰するカスタム・ロス関数を提案する。 この損失関数は、エクイティカテゴリー(HDI)に沿った不等式を捉え、トレーニング前の各項の優先順位を調整することができる別の指標に対する平均二乗誤差のような標準的な損失計量を重み付けする。 重要なのは、損失関数がニューラルネットワークをバイアスする特定の株式の定義を指定せず、カスタムフェアネスメトリクスの扉を開くことだ。 その結果, 損失関数でトレーニングしたニューラル気候エミュレータは, より公平な予測が可能であり, 損失関数の重み付けにより, エクイティ指標が向上することが示唆された。 トレーニング中に後者を優先する場合、精度とエクイティとの間にトレードオフがあることを実証的に示すが、エクイティ優先度ハイパーパラメータの適切な選択は、パフォーマンスの損失を最小限に抑えることができる。

Neural network emulators have become an invaluable tool for a wide variety of climate and weather prediction tasks. While showing incredibly promising results, these networks do not have an inherent ability to produce equitable predictions. That is, they are not guaranteed to provide a uniform quality of prediction along any particular class or group of people. This potential for inequitable predictions motivates the need for explicit representations of fairness in these neural networks. To that end, we draw on methods for enforcing analytical physical constraints in neural networks to bias networks towards more equitable predictions. We demonstrate the promise of this methodology using the task of climate model emulation. Specifically, we propose a custom loss function which punishes emulators with unequal quality of predictions across any prespecified regions or category, here defined using human development index (HDI). This loss function weighs a standard loss metric such as mean squared error against another metric which captures inequity along the equity category (HDI), allowing us to adjust the priority of each term before training. Importantly, the loss function does not specify a particular definition of equity to bias the neural network towards, opening the door for custom fairness metrics. Our results show that neural climate emulators trained with our loss function provide more equitable predictions and that the equity metric improves with greater weighting in the loss function. We empirically demonstrate that while there is a tradeoff between accuracy and equity when prioritizing the latter during training, an appropriate selection of the equity priority hyperparameter can minimize loss of performance.
翻訳日:2024-07-01 17:50:12 公開日:2024-06-28
# 精度:弱教師付きセマンティックセグメンテーションのための精度認識アンサンブル

Precision matters: Precision-aware ensemble for weakly supervised semantic segmentation ( http://arxiv.org/abs/2406.19638v1 )

ライセンス: Link先を確認
Junsung Park, Hyunjung Shim, (参考訳) Weakly Supervised Semantic Segmentation (WSSS) は、画像レベルのラベルなどの弱い監督を、セグメンテーションモデルをトレーニングするために採用している。 近年のWSSS手法における顕著な成果にもかかわらず、高い平均的ユニオン区間 (mIoU) を持つ弱いラベルの導入は、高いセグメンテーション性能を保証しない。 既存の研究は、全体的な性能を改善するために精度の優先順位付けとノイズの低減の重要性を強調している。 また,WSSSに適した高度なアンサンブルアプローチであるORANDNetを提案する。 ORANDNetは2つの異なる分類器からクラス活性化マップ(CAM)を組み合わせて擬似マスク(PM)の精度を高める。 PMの小さなノイズを緩和するため,カリキュラム学習を取り入れた。 これには、最初は小さな画像と対応するPMのペアでセグメンテーションモデルをトレーニングし、徐々にオリジナルサイズのペアに移行する。 ResNet-50 と ViT のオリジナルの CAM を組み合わせることで,シングルベストモデルとナイーブアンサンブルモデルとのセグメンテーション性能を大幅に向上する。 さらに,AMN (ResNet-like) モデルと MCTformer (ViT-like) モデルから CAM へのアンサンブル手法の拡張を行い,WSSS モデルの性能向上を実現した。 WSSSモデルの最終的なアドオンモジュールとしてのORANDNetの可能性を強調します。

Weakly Supervised Semantic Segmentation (WSSS) employs weak supervision, such as image-level labels, to train the segmentation model. Despite the impressive achievement in recent WSSS methods, we identify that introducing weak labels with high mean Intersection of Union (mIoU) does not guarantee high segmentation performance. Existing studies have emphasized the importance of prioritizing precision and reducing noise to improve overall performance. In the same vein, we propose ORANDNet, an advanced ensemble approach tailored for WSSS. ORANDNet combines Class Activation Maps (CAMs) from two different classifiers to increase the precision of pseudo-masks (PMs). To further mitigate small noise in the PMs, we incorporate curriculum learning. This involves training the segmentation model initially with pairs of smaller-sized images and corresponding PMs, gradually transitioning to the original-sized pairs. By combining the original CAMs of ResNet-50 and ViT, we significantly improve the segmentation performance over the single-best model and the naive ensemble model, respectively. We further extend our ensemble method to CAMs from AMN (ResNet-like) and MCTformer (ViT-like) models, achieving performance benefits in advanced WSSS models. It highlights the potential of our ORANDNet as a final add-on module for WSSS models.
翻訳日:2024-07-01 17:50:12 公開日:2024-06-28
# 再帰的マルチブランチ融合によるイベントストリーム超解法

Efficient Event Stream Super-Resolution with Recursive Multi-Branch Fusion ( http://arxiv.org/abs/2406.19640v1 )

ライセンス: Link先を確認
Quanmin Liang, Zhilin Huang, Xiawu Zheng, Feidiao Yang, Jun Peng, Kai Huang, Yonghong Tian, (参考訳) 現在のイベントストリーム超解法(ESR)は、イベントストリーム内の正および負のイベントに存在する冗長かつ相補的な情報を見落とし、超解像の直接混合アプローチを用いて、詳細な損失と非効率性をもたらす可能性がある。 これらの課題に対処するために,補完情報抽出のための正・負のイベントを分離し,相互補完と改善を行う,効率的な再帰型マルチブランチ情報融合ネットワーク(RMFNet)を提案する。 特に,機能融合モジュール (FFM) と機能交換モジュール (FEM) を紹介する。 FFMは、近隣のイベントストリーム内のコンテキスト情報の融合のために設計されており、正と負のイベント間の結合関係を利用して、各ブランチにおけるノイズの誤解を緩和する。 FEMは、正および負の分岐間の情報の融合と交換を効率的に促進し、より優れた局所情報拡張とグローバル情報補完を可能にする。 実験の結果,2.3X加速を伴う合成データセットと実データセットの17%以上と31%の改善が得られた。 さらに,2つの下流イベント駆動型アプリケーション,‘emph{i.e.},オブジェクト認識とビデオ再構成について評価し,既存の手法よりも優れた結果を得た。 私たちのコードとSupplementary Materialはhttps://github.com/Lqm26/RMFNet.comで公開されています。

Current Event Stream Super-Resolution (ESR) methods overlook the redundant and complementary information present in positive and negative events within the event stream, employing a direct mixing approach for super-resolution, which may lead to detail loss and inefficiency. To address these issues, we propose an efficient Recursive Multi-Branch Information Fusion Network (RMFNet) that separates positive and negative events for complementary information extraction, followed by mutual supplementation and refinement. Particularly, we introduce Feature Fusion Modules (FFM) and Feature Exchange Modules (FEM). FFM is designed for the fusion of contextual information within neighboring event streams, leveraging the coupling relationship between positive and negative events to alleviate the misleading of noises in the respective branches. FEM efficiently promotes the fusion and exchange of information between positive and negative branches, enabling superior local information enhancement and global information complementation. Experimental results demonstrate that our approach achieves over 17% and 31% improvement on synthetic and real datasets, accompanied by a 2.3X acceleration. Furthermore, we evaluate our method on two downstream event-driven applications, \emph{i.e.}, object recognition and video reconstruction, achieving remarkable results that outperform existing methods. Our code and Supplementary Material are available at https://github.com/Lqm26/RMFNet.
翻訳日:2024-07-01 17:50:12 公開日:2024-06-28
# IDT: プライバシー保護のための二重対面攻撃

IDT: Dual-Task Adversarial Attacks for Privacy Protection ( http://arxiv.org/abs/2406.19642v1 )

ライセンス: Link先を確認
Pedro Faustini, Shakila Mahjabin Tonni, Annabelle McIver, Qiongkai Xu, Mark Dras, (参考訳) 自然言語処理(NLP)モデルは、メンバシップ推論、再構築、属性推論攻撃など、さまざまな方法で個人情報をリークする可能性がある。 センシティブな情報はテキストでは明示されていないかもしれないが、基礎となる書き込み特性には隠されている。 プライバシを保護する方法は、センシティブな属性を検出できないことを示すモデル内部の表現を使用する場合や、モデルにアクセスできる前に生テキストを変更する場合などである。 テキストの書き直しは、誰かがセンシティブな属性(例えば、著者の性別や、執筆スタイルによる位置など)を推測するのを防止し、テキストを元の意図(例えば、製品レビューの感情)に役立てることを目的としている。 これに取り組む数少ない研究は、生成技術に焦点を当てている。 しかし、これらはオリジナルのテキストと大きく異なるテキストを生成したり、モード崩壊などの問題に直面したりすることが多い。 本稿では,あるタスク (プライバシ) に対して,別のタスク (ユーティリティ) に対して訓練した他の分類器の予測を一定に保ちながら,あるタスク (プライバシ) を欺くためにテキストを操作するために,敵対的攻撃手法の新たな適応について検討する。 IDTは,プライバシタスクにおいて,どのトークンが重要なのか,どのトークンがユーティリティタスクのために保持されるべきなのかを,補助的および解釈可能なモデルで予測する手法である。 我々は、異なるタスクに適したNLPのための異なるデータセットを評価する。 自動的および人的評価は、IDTがテキストの有用性を維持し、また、分類器w.r.tのプライバシータスクを判断する際の既存の手法よりも優れていることを示している。

Natural language processing (NLP) models may leak private information in different ways, including membership inference, reconstruction or attribute inference attacks. Sensitive information may not be explicit in the text, but hidden in underlying writing characteristics. Methods to protect privacy can involve using representations inside models that are demonstrated not to detect sensitive attributes or -- for instance, in cases where users might not trust a model, the sort of scenario of interest here -- changing the raw text before models can have access to it. The goal is to rewrite text to prevent someone from inferring a sensitive attribute (e.g. the gender of the author, or their location by the writing style) whilst keeping the text useful for its original intention (e.g. the sentiment of a product review). The few works tackling this have focused on generative techniques. However, these often create extensively different texts from the original ones or face problems such as mode collapse. This paper explores a novel adaptation of adversarial attack techniques to manipulate a text to deceive a classifier w.r.t one task (privacy) whilst keeping the predictions of another classifier trained for another task (utility) unchanged. We propose IDT, a method that analyses predictions made by auxiliary and interpretable models to identify which tokens are important to change for the privacy task, and which ones should be kept for the utility task. We evaluate different datasets for NLP suitable for different tasks. Automatic and human evaluations show that IDT retains the utility of text, while also outperforming existing methods when deceiving a classifier w.r.t privacy task.
翻訳日:2024-07-01 17:50:12 公開日:2024-06-28
# 警告文生成のための議論駆動型テキストプランニング機能を備えたペルソナ型マルチエージェントフレームワーク

Unlocking Varied Perspectives: A Persona-Based Multi-Agent Framework with Debate-Driven Text Planning for Argument Generation ( http://arxiv.org/abs/2406.19643v1 )

ライセンス: Link先を確認
Zhe Hu, Hou Pong Chan, Jing Li, Yu Yin, (参考訳) 説得力のある議論を書くことは、人間と機械の両方にとって難しい課題である。 トピックに関する様々な観点からのハイレベルな信念を取り入れ、意図的な推論と一貫性のある物語の構築を計画する。 現在の言語モデルは、しばしば表面トークンを自動回帰的に生成し、基礎となる制御の明示的な統合が欠如し、出力の多様性と一貫性が制限される。 本研究では,議論記述のためのペルソナに基づくマルチエージェントフレームワークを提案する。 人的議論に触発されて、我々はまず、各エージェントに、その高レベルの信念を表すペルソナをユニークな視点から割り当て、次にエージェントのインタラクションプロセスを設計し、エージェントが協調して議論し、議論し、議論のための全体計画を形成することができるようにします。 このような議論のプロセスは、アイデアの流動的および非線形な発展を可能にする。 我々は議論的エッセイ執筆の枠組みを評価する。 その結果、我々のフレームワークは、自動評価と人的評価の両方により、より多様で説得力のある議論を生成できることがわかった。

Writing persuasive arguments is a challenging task for both humans and machines. It entails incorporating high-level beliefs from various perspectives on the topic, along with deliberate reasoning and planning to construct a coherent narrative. Current language models often generate surface tokens autoregressively, lacking explicit integration of these underlying controls, resulting in limited output diversity and coherence. In this work, we propose a persona-based multi-agent framework for argument writing. Inspired by the human debate, we first assign each agent a persona representing its high-level beliefs from a unique perspective, and then design an agent interaction process so that the agents can collaboratively debate and discuss the idea to form an overall plan for argument writing. Such debate process enables fluid and nonlinear development of ideas. We evaluate our framework on argumentative essay writing. The results show that our framework can generate more diverse and persuasive arguments through both automatic and human evaluations.
翻訳日:2024-07-01 17:50:12 公開日:2024-06-28
# 人間の嗜好を超えて:LLMによる強化学習の軌道評価と改善を探る

Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs ( http://arxiv.org/abs/2406.19644v1 )

ライセンス: Link先を確認
Zichao Shen, Tianchen Zhu, Qingyun Sun, Shiqi Gao, Jianxin Li, (参考訳) 強化学習(RL)は、包括的かつ正確な報酬関数を設計することの難しさから、複雑なゲームタスクにおけるポリシートラジェクトリを評価する上での課題に直面している。 この固有の困難さは、様々な制約によって特徴づけられるゲーム環境におけるRLの広範な適用を困難にしている。 嗜好に基づく強化学習(PbRL)は、人間の嗜好を重要な報酬信号として活用する先駆的な枠組みを示し、巧妙な報酬工学の必要性を回避する。 しかし、人間の専門家から選好データを得るのは費用がかかり非効率であり、特に複雑な制約によって特徴づけられる条件下では。 この課題に対処するため, LLM4PG と呼ばれる LLM 対応自動選好生成フレームワークを提案する。 複雑な言語制約を伴うタスクの実験では、LLM対応報酬関数の有効性、RL収束の促進、元の報酬構造下での遅滞や欠落による停滞の克服が示された。 このアプローチは、人間の専門知識への依存を緩和し、野生の複雑な環境におけるLLの有効性を高めるLLMの可能性を実証する。

Reinforcement learning (RL) faces challenges in evaluating policy trajectories within intricate game tasks due to the difficulty in designing comprehensive and precise reward functions. This inherent difficulty curtails the broader application of RL within game environments characterized by diverse constraints. Preference-based reinforcement learning (PbRL) presents a pioneering framework that capitalizes on human preferences as pivotal reward signals, thereby circumventing the need for meticulous reward engineering. However, obtaining preference data from human experts is costly and inefficient, especially under conditions marked by complex constraints. To tackle this challenge, we propose a LLM-enabled automatic preference generation framework named LLM4PG , which harnesses the capabilities of large language models (LLMs) to abstract trajectories, rank preferences, and reconstruct reward functions to optimize conditioned policies. Experiments on tasks with complex language constraints demonstrated the effectiveness of our LLM-enabled reward functions, accelerating RL convergence and overcoming stagnation caused by slow or absent progress under original reward structures. This approach mitigates the reliance on specialized human knowledge and demonstrates the potential of LLMs to enhance RL's effectiveness in complex environments in the wild.
翻訳日:2024-07-01 17:50:12 公開日:2024-06-28
# Sparse Surrogate Gradient を用いた時間スパイクニューラルネットワークの直接訓練

Directly Training Temporal Spiking Neural Network with Sparse Surrogate Gradient ( http://arxiv.org/abs/2406.19645v1 )

ライセンス: Link先を確認
Yang Li, Feifei Zhao, Dongcheng Zhao, Yi Zeng, (参考訳) 脳にインスパイアされたスパイキングニューラルネットワーク(SNN)は、イベントベースのコンピューティングとエネルギー効率の良い機能によって、多くの注目を集めている。 しかし、スパイクするオール・オア・ナインの性質は、様々な用途においてSNNの直接訓練を妨げている。 代理勾配(SG)アルゴリズムは、最近、スパイクニューラルネットワークがニューロモルフィックハードウェアで輝くことを可能にした。 しかし、サロゲート勾配を導入することで、SNNは元のスパシティを失うことになり、パフォーマンスが低下する可能性がある。 本稿では,まず,SGを用いた直接訓練の問題点を分析し,学習の有効性と勾配の疎度を両立させるため,MSG(Masked Surrogate Gradients)を提案し,SNNの一般化能力を向上させる。 さらに,ネットワーク出力を復号化するための時間重み付き出力(TWO)手法を導入し,正しい時間ステップの重要性を補強する。 多様なネットワーク構造とデータセットに関する大規模な実験は、MSGとTWOによるトレーニングがSOTA技術を上回ることを示している。

Brain-inspired Spiking Neural Networks (SNNs) have attracted much attention due to their event-based computing and energy-efficient features. However, the spiking all-or-none nature has prevented direct training of SNNs for various applications. The surrogate gradient (SG) algorithm has recently enabled spiking neural networks to shine in neuromorphic hardware. However, introducing surrogate gradients has caused SNNs to lose their original sparsity, thus leading to the potential performance loss. In this paper, we first analyze the current problem of direct training using SGs and then propose Masked Surrogate Gradients (MSGs) to balance the effectiveness of training and the sparseness of the gradient, thereby improving the generalization ability of SNNs. Moreover, we introduce a temporally weighted output (TWO) method to decode the network output, reinforcing the importance of correct timesteps. Extensive experiments on diverse network structures and datasets show that training with MSG and TWO surpasses the SOTA technique.
翻訳日:2024-07-01 17:50:12 公開日:2024-06-28
# ヒューマンAI通信のためのマルチチャットボットインタフェースの設計と評価:説得課題からの予備的発見

Designing and Evaluating Multi-Chatbot Interface for Human-AI Communication: Preliminary Findings from a Persuasion Task ( http://arxiv.org/abs/2406.19648v1 )

ライセンス: Link先を確認
Sion Yoon, Tae Eun Kim, Yoo Jung Oh, (参考訳) 人間とAIのコミュニケーションのダイナミクスは、ChatGPTのような言語モデルによって作り直されている。 しかし、現存する研究は主にダイアドコミュニケーションに重点を置いており、グループ設定における人間とAIのコミュニケーションのダイナミクスについて多くの研究がなされている。 複数の言語モデルチャットボットが利用できることは、学者が人間と複数のチャットボットとの相互作用をよりよく理解するユニークな機会となる。 本研究では, 特定の説得環境におけるマルチチャットボットコミュニケーションの効果について検討した。 我々は,複数チャットボットのコミュニケーションを可能にするオンライン環境を開発し,GPTベースの2つのチャットボットであるSave the ChildrenとUNICEFチャットボットを用いて,慈善寄付を促進する実験を行った。 本研究では,マルチチャットボットインタフェースの開発プロセスと,パイロット実験による予備的な結果について述べる。 定性的、定量的なフィードバックの分析を行い、限界に対処する。

The dynamics of human-AI communication have been reshaped by language models such as ChatGPT. However, extant research has primarily focused on dyadic communication, leaving much to be explored regarding the dynamics of human-AI communication in group settings. The availability of multiple language model chatbots presents a unique opportunity for scholars to better understand the interaction between humans and multiple chatbots. This study examines the impact of multi-chatbot communication in a specific persuasion setting: promoting charitable donations. We developed an online environment that enables multi-chatbot communication and conducted a pilot experiment utilizing two GPT-based chatbots, Save the Children and UNICEF chatbots, to promote charitable donations. In this study, we present our development process of the multi-chatbot interface and present preliminary findings from a pilot experiment. Analysis of qualitative and quantitative feedback are presented, and limitations are addressed.
翻訳日:2024-07-01 17:50:12 公開日:2024-06-28
# AstMatch:半監督医用画像分割のための対向的自己学習一貫性フレームワーク

AstMatch: Adversarial Self-training Consistency Framework for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2406.19649v1 )

ライセンス: Link先を確認
Guanghao Zhu, Jing Zhang, Juanxiu Liu, Xiaohui Du, Ruqian Hao, Yong Liu, Lin Liu, (参考訳) 半教師付き学習 (SSL) は, 整合性正規化と擬似ラベルの活用を主眼として, 医用画像のセグメンテーションにおいて有意な可能性を示している。 しかし、多くのSSLアプローチは低レベルの一貫性にのみ注意を払っており、擬似ラベル信頼性の重要性を見落としている。 そこで本研究では,対戦型自己学習一貫性フレームワーク(AstMatch)を提案する。 まず, 逆整合性正規化(ACR)アプローチを設計し, 異なる摂動強度下での知識伝達の促進と予測整合性の強化を図る。 第2に、高レベルの整合性正規化を組み込むために、敵の訓練に特徴整合損失を適用した。 さらに、識別器の性能を向上させるために、ピラミッドチャネルアテンション(PCA)と効率的なチャネルと空間アテンション(ECSA)モジュールを提示する。 最後に,擬似ラベルの品質を確保するための適応型自己学習(AST)手法を提案する。 提案されたAstMatchは、3つの公開データセット上の最先端SSLメソッドで広く評価されている。 ラベル付き比率の異なる実験結果から、AstMatchは他の既存手法よりも優れた性能を示し、新しい最先端性能を実現している。 私たちのコードはhttps://github.com/GuanghaoZhu663/AstMatch.comで公開されます。

Semi-supervised learning (SSL) has shown considerable potential in medical image segmentation, primarily leveraging consistency regularization and pseudo-labeling. However, many SSL approaches only pay attention to low-level consistency and overlook the significance of pseudo-label reliability. Therefore, in this work, we propose an adversarial self-training consistency framework (AstMatch). Firstly, we design an adversarial consistency regularization (ACR) approach to enhance knowledge transfer and strengthen prediction consistency under varying perturbation intensities. Second, we apply a feature matching loss for adversarial training to incorporate high-level consistency regularization. Additionally, we present the pyramid channel attention (PCA) and efficient channel and spatial attention (ECSA) modules to improve the discriminator's performance. Finally, we propose an adaptive self-training (AST) approach to ensure the pseudo-labels' quality. The proposed AstMatch has been extensively evaluated with cutting-edge SSL methods on three public-available datasets. The experimental results under different labeled ratios indicate that AstMatch outperforms other existing methods, achieving new state-of-the-art performance. Our code will be available at https://github.com/GuanghaoZhu663/AstMatch.
翻訳日:2024-07-01 17:50:12 公開日:2024-06-28
# DECOR: インコヒーレンス検出・推論・書き換えのための新しいベンチマークによるL2英語文字のコヒーレンス向上

DECOR: Improving Coherence in L2 English Writing with a Novel Benchmark for Incoherence Detection, Reasoning, and Rewriting ( http://arxiv.org/abs/2406.19650v1 )

ライセンス: Link先を確認
Xuanming Zhang, Anthony Diaz, Zixun Chen, Qingyang Wu, Kun Qian, Erik Voss, Zhou Yu, (参考訳) コヒーレンス(Coherence in writing)は、第二言語(L2)の英語学習者がしばしば苦労する側面であり、L2の英語の文章を評価する上で重要である。 既存の自動筆記評価システムは主に、筆記におけるコヒーレンスを検出するために基本的表面言語的特徴を使用する。 しかし、検出された不整合を補正する努力はほとんど行われていないため、L2言語学習者が書き方を改善するのに大いに役立つだろう。 このギャップを埋めるために,L2 の英語文における不整合の検出,その原因の特定,不整合文の書き直しのための専門家アノテーションを含む新しいベンチマークである DECOR を導入する。 我々の知る限り、DECORはL2英語の文章を改善するために特別に設計された最初のコヒーレンス評価データセットである。 さらに,学生エッセイにおける不整合を自動的に検出し,書き直しするモデルを微調整した。 微調整中に不整合性の特定の理由を取り入れることで、書き直しの品質が一貫して向上し、自動評価と人的評価の両方で好まれる結果が得られます。

Coherence in writing, an aspect that second-language (L2) English learners often struggle with, is crucial in assessing L2 English writing. Existing automated writing evaluation systems primarily use basic surface linguistic features to detect coherence in writing. However, little effort has been made to correct the detected incoherence, which could significantly benefit L2 language learners seeking to improve their writing. To bridge this gap, we introduce DECOR, a novel benchmark that includes expert annotations for detecting incoherence in L2 English writing, identifying the underlying reasons, and rewriting the incoherent sentences. To our knowledge, DECOR is the first coherence assessment dataset specifically designed for improving L2 English writing, featuring pairs of original incoherent sentences alongside their expert-rewritten counterparts. Additionally, we fine-tuned models to automatically detect and rewrite incoherence in student essays. We find that incorporating specific reasons for incoherence during fine-tuning consistently improves the quality of the rewrites, achieving a result that is favored in both automatic and human evaluations.
翻訳日:2024-07-01 17:50:12 公開日:2024-06-28
# CANDY: 動的データ取り込みによる近接探索の連続近似ベンチマーク

CANDY: A Benchmark for Continuous Approximate Nearest Neighbor Search with Dynamic Data Ingestion ( http://arxiv.org/abs/2406.19651v1 )

ライセンス: Link先を確認
Xianzhi Zeng, Zhuoyan Wu, Xinjing Hu, Xuanhua Shi, Shixuan Sun, Shuhao Zhang, (参考訳) Approximate K Nearest Neighbor (AKNN)アルゴリズムは、情報検索、コンピュータビジョン、自然言語処理など、さまざまなAIアプリケーションにおいて重要な役割を果たす。 AKNNアルゴリズムとベンチマークは、その有効性を評価するために最近開発されたが、実世界のデータの動的な性質は、既存のベンチマークが対処できない重大な課題を示している。 従来のベンチマークは、主に静的なコンテキストにおける検索効率を評価し、しばしば更新効率を見落としている。 この制限により、データパターンの変化に適応できるAKNNアルゴリズムの不完全な評価が行われ、それによって動的環境におけるパフォーマンスに対する洞察が制限される。 これらのギャップに対処するため、私たちは、動的データ取り込みによる連続近似Nearest Neighbor Searchに適したベンチマークであるCANDYを紹介します。 CANDYは、幅広いAKNNアルゴリズムを包括的に評価し、機械学習による推論のような高度な最適化を統合し、従来のヒューリスティックスキャンに取って代わり、計算オーバーヘッドを減らすために距離計算法を改善した。 多様なデータセットに対する広範な評価は、単純なAKNNベースラインがリコールやレイテンシという点で、より複雑な代替手段を超越していることを示している。 これらの発見は,高い性能を実現するためにアルゴリズムの複雑さが必要であるという信念の確立に挑戦した。 さらに,本研究は,既存の課題を浮き彫りにし,今後の研究機会を照らし出すものである。 データセットと実装メソッドは、https://github.com/intellistream/candy.comで公開しています。

Approximate K Nearest Neighbor (AKNN) algorithms play a pivotal role in various AI applications, including information retrieval, computer vision, and natural language processing. Although numerous AKNN algorithms and benchmarks have been developed recently to evaluate their effectiveness, the dynamic nature of real-world data presents significant challenges that existing benchmarks fail to address. Traditional benchmarks primarily assess retrieval effectiveness in static contexts and often overlook update efficiency, which is crucial for handling continuous data ingestion. This limitation results in an incomplete assessment of an AKNN algorithms ability to adapt to changing data patterns, thereby restricting insights into their performance in dynamic environments. To address these gaps, we introduce CANDY, a benchmark tailored for Continuous Approximate Nearest Neighbor Search with Dynamic Data Ingestion. CANDY comprehensively assesses a wide range of AKNN algorithms, integrating advanced optimizations such as machine learning-driven inference to supplant traditional heuristic scans, and improved distance computation methods to reduce computational overhead. Our extensive evaluations across diverse datasets demonstrate that simpler AKNN baselines often surpass more complex alternatives in terms of recall and latency. These findings challenge established beliefs about the necessity of algorithmic complexity for high performance. Furthermore, our results underscore existing challenges and illuminate future research opportunities. We have made the datasets and implementation methods available at: https://github.com/intellistream/candy.
翻訳日:2024-07-01 17:50:12 公開日:2024-06-28
# ACES:イベントストリームデータセットの自動コホート抽出システム

ACES: Automatic Cohort Extraction System for Event-Stream Datasets ( http://arxiv.org/abs/2406.19653v1 )

ライセンス: Link先を確認
Justin Xu, Jack Gallifant, Alistair E. W. Johnson, Matthew B. A. McDermott, (参考訳) 医療における機械学習(ML)において、再現性は依然として重要な課題である。 この分野では、データセット、モデルパイプライン、タスク/コホート定義さえもプライベートであり、電子健康記録(EHR)データセット上でのML結果の共有、イテレーション、理解において大きな障壁となる。 本稿では,イベントストリームデータセットの自動コホート抽出システム(ACES)を導入することで,この問題に対処する。 このツールは、医療におけるMLのタスク/コホートの開発を同時に単純化し、単一のデータセットの正確なレベルとデータセット間の概念レベルの両方において、これらのコホートを再現可能にするように設計されている。 これを実現するために、(1)データセット固有の概念とデータセットに依存しない包含/排他的基準の両方を定義するための、非常に直感的で表現力豊かな構成言語、(2)現実世界のデータから、これらの定義された基準を満たす患者の記録を自動的に抽出するパイプラインを提供する。 ACESは、医療イベントデータ標準(MEDS)またはイベントStreamGPT(ESGPT)フォーマットの任意のデータセットや、必要なタスク固有の述語をイベントストリーム形式で抽出可能な*any*データセットに自動的に適用される。 ACESは、MLタスク定義の参入障壁を著しく低くし、研究者がEHRデータセットと対話する方法を再定義し、このモダリティにおけるML研究の再現可能性の状態を著しく改善する可能性がある。 ACESはhttps://github.com/justin13601/acesで入手できる。

Reproducibility remains a significant challenge in machine learning (ML) for healthcare. In this field, datasets, model pipelines, and even task/cohort definitions are often private, leading to a significant barrier in sharing, iterating, and understanding ML results on electronic health record (EHR) datasets. In this paper, we address a significant part of this problem by introducing the Automatic Cohort Extraction System for Event-Stream Datasets (ACES). This tool is designed to simultaneously simplify the development of task/cohorts for ML in healthcare and enable the reproduction of these cohorts, both at an exact level for single datasets and at a conceptual level across datasets. To accomplish this, ACES provides (1) a highly intuitive and expressive configuration language for defining both dataset-specific concepts and dataset-agnostic inclusion/exclusion criteria, and (2) a pipeline to automatically extract patient records that meet these defined criteria from real-world data. ACES can be automatically applied to any dataset in either the Medical Event Data Standard (MEDS) or EventStreamGPT (ESGPT) formats, or to *any* dataset for which the necessary task-specific predicates can be extracted in an event-stream form. ACES has the potential to significantly lower the barrier to entry for defining ML tasks, redefine the way researchers interact with EHR datasets, and significantly improve the state of reproducibility for ML studies in this modality. ACES is available at https://github.com/justin13601/aces.
翻訳日:2024-07-01 17:50:12 公開日:2024-06-28
# Basketball-SORT:Basketball Multi-object Trackingにおける複合多対象閉塞問題に対するアソシエーション手法

Basketball-SORT: An Association Method for Complex Multi-object Occlusion Problems in Basketball Multi-object Tracking ( http://arxiv.org/abs/2406.19655v1 )

ライセンス: Link先を確認
Qingrui Hu, Atom Scott, Calvin Yeung, Keisuke Fujii, (参考訳) 近年の深層学習に基づくオブジェクト検出手法は,多目的追跡(MOT)アルゴリズムに大きな進歩をもたらした。 現在のMOT方式は主に歩行者や車両のシーンに焦点を当てているが、バスケットボールのスポーツシーンには3つ以上の物体閉塞問題があり、類似した外観や高強度の複合動作が伴われ、複合多目的閉塞(CMOO)と呼ばれる。 本稿では,バスケットボールビデオにおけるCMOO問題に着目した,オンラインかつ堅牢なMOT手法であるBasketball-SORTを提案する。 CMOO問題を克服するため,プレイヤーの投影位置に基づいて隣接するフレームの軌跡を利用する。 本手法は,バスケットボールシーンの特徴に基づいて,バスケットボールゲーム制限 (BGR) とLLLI (Rong-Lost ID) を再獲得する。 実験結果から, バスケットボールの固定ビデオデータセットにおいて, 高次追跡精度(HOTA)の63.48$\%のスコアを達成し, その他の一般的な手法よりも優れていることがわかった。 近年のMOTアルゴリズムよりもCMOO問題を効果的に解いた。

Recent deep learning-based object detection approaches have led to significant progress in multi-object tracking (MOT) algorithms. The current MOT methods mainly focus on pedestrian or vehicle scenes, but basketball sports scenes are usually accompanied by three or more object occlusion problems with similar appearances and high-intensity complex motions, which we call complex multi-object occlusion (CMOO). Here, we propose an online and robust MOT approach, named Basketball-SORT, which focuses on the CMOO problems in basketball videos. To overcome the CMOO problem, instead of using the intersection-over-union-based (IoU-based) approach, we use the trajectories of neighboring frames based on the projected positions of the players. Our method designs the basketball game restriction (BGR) and reacquiring Long-Lost IDs (RLLI) based on the characteristics of basketball scenes, and we also solve the occlusion problem based on the player trajectories and appearance features. Experimental results show that our method achieves a Higher Order Tracking Accuracy (HOTA) score of 63.48$\%$ on the basketball fixed video dataset and outperforms other recent popular approaches. Overall, our approach solved the CMOO problem more effectively than recent MOT algorithms.
翻訳日:2024-07-01 17:39:39 公開日:2024-06-28
# LLMEasyQuant - LLM量子化のためのツールキット

LLMEasyQuant -- An Easy to Use Toolkit for LLM Quantization ( http://arxiv.org/abs/2406.19657v1 )

ライセンス: Link先を確認
Dong Liu, Meng Jiang, Kaiser Pister, (参考訳) 現在、LLM量子化には多くの量子化方法が存在するが、ユーザフレンドリで、ローカルにデプロイしやすいものはほとんどない。 TensorRTやQuantohaveのようなパッケージは、多くの基盤構造と自己起動内部機能を持ち、開発者のパーソナライズされた開発とデプロイメントの学習には影響しない。 そこで我々は,LLMEasyQuantを開発し,初心者の学習に適したユーザフレンドリな量子化展開を目的としたパッケージである。

Currently, there are many quantization methods appeared for LLM quantization, yet few are user-friendly and easy to be deployed locally. Packages like TensorRT and Quantohave many underlying structures and self-invoking internal functions, which are not conducive to developers' personalized development and learning for deployment. Therefore, we develop LLMEasyQuant, it is a package aiming to for easy quantization deployment which is user-friendly and suitable for beginners' learning.
翻訳日:2024-07-01 17:39:39 公開日:2024-06-28
# 有限基底 Kolmogorov-Arnold ネットワーク:データ駆動および物理インフォームド問題に対する領域分解

Finite basis Kolmogorov-Arnold networks: domain decomposition for data-driven and physics-informed problems ( http://arxiv.org/abs/2406.19662v1 )

ライセンス: Link先を確認
Amanda A. Howard, Bruno Jacob, Sarah H. Murphy, Alexander Heinlein, Panos Stinis, (参考訳) Kolmogorov-Arnoldネットワーク(KAN)は、近年、科学機械学習のための多層パーセプトロン(MLP)の代替として注目されている。 しかし、カンは比較的小さなネットワークでも訓練に費用がかかる。 本研究では,有限基底物理インフォームドニューラルネットワーク(FBPINN)に着想を得て,数個の小さなkanを並列に訓練し,マルチスケール問題に対する正確な解が得られるように,kanの領域分解法を開発した。 有限基底kans (FBKANs) はノイズデータと物理インフォームドトレーニングのための正確な結果が得られることを示す。

Kolmogorov-Arnold networks (KANs) have attracted attention recently as an alternative to multilayer perceptrons (MLPs) for scientific machine learning. However, KANs can be expensive to train, even for relatively small networks. Inspired by finite basis physics-informed neural networks (FBPINNs), in this work, we develop a domain decomposition method for KANs that allows for several small KANs to be trained in parallel to give accurate solutions for multiscale problems. We show that finite basis KANs (FBKANs) can provide accurate results with noisy data and for physics-informed training.
翻訳日:2024-07-01 17:39:39 公開日:2024-06-28
# PM-VIS+:ビデオアノテーションのない高性能ビデオインスタンスセグメンテーション

PM-VIS+: High-Performance Video Instance Segmentation without Video Annotation ( http://arxiv.org/abs/2406.19665v1 )

ライセンス: Link先を確認
Zhangjing Yang, Dun Liu, Xin Wang, Zhe Li, Barathwaj Anandan, Yi Wu, (参考訳) ビデオインスタンスのセグメンテーションには、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡する必要がある。 本稿では,画像データセットを利用してビデオアノテーションを除去する手法を提案する。 PM-VISアルゴリズムは、バウンディングボックスとインスタンスレベルのピクセルアノテーションの両方を動的に扱うように適応されている。 ビデオデータセットの欠落したカテゴリを補完するImageNet-bboxを導入し、アノテーションタイプに基づいた調整を行うPM-VIS+アルゴリズムを提案する。 精度を高めるために、未注釈映像データに対して擬似マスクと半教師付き最適化手法を用いる。 本手法は,手動の動画アノテーションを使わずに高精細度ビデオインスタンスセグメンテーション性能を実現し,コスト効率の高いソリューションとビデオインスタンスセグメンテーションアプリケーションのための新たな視点を提供する。 コードはhttps://github.com/ldknight/PM-VIS-plusで入手できる。

Video instance segmentation requires detecting, segmenting, and tracking objects in videos, typically relying on costly video annotations. This paper introduces a method that eliminates video annotations by utilizing image datasets. The PM-VIS algorithm is adapted to handle both bounding box and instance-level pixel annotations dynamically. We introduce ImageNet-bbox to supplement missing categories in video datasets and propose the PM-VIS+ algorithm to adjust supervision based on annotation types. To enhance accuracy, we use pseudo masks and semi-supervised optimization techniques on unannotated video data. This method achieves high video instance segmentation performance without manual video annotations, offering a cost-effective solution and new perspectives for video instance segmentation applications. The code will be available in https://github.com/ldknight/PM-VIS-plus
翻訳日:2024-07-01 17:39:39 公開日:2024-06-28
# CSAKD:ハイパースペクトル・マルチスペクトル画像融合のためのクロス自己注意による知識蒸留

CSAKD: Knowledge Distillation with Cross Self-Attention for Hyperspectral and Multispectral Image Fusion ( http://arxiv.org/abs/2406.19666v1 )

ライセンス: Link先を確認
Chih-Chung Hsu, Chih-Chien Ni, Chia-Ming Lee, Li-Wei Kang, (参考訳) ハイパースペクトルイメージング(Hyperspectral imaging)は、各ピクセルの詳細なスペクトル情報をキャプチャし、様々な科学的、産業的応用において重要である。 しかし、既存のイメージングシステムのハードウェアの限界のため、高分解能(HR)ハイパースペクトル画像(HSI)の取得は、しばしば対処する必要がある。 一般的な回避策として、高分解能マルチスペクトル像 (HR-MSI) と低分解能 (LR) HSI の両方を捉えることがあり、その後、所望のHR-HSIを得る。 深層学習に基づく手法はHR-MSI/LR-HSI融合やLR-HSI超解像(SR)において有望であることを示しているが、それらのモデルの複雑さはリソース制約された撮像装置への展開を妨げる。 本稿では, HR-MSI/LR-HSI融合のための新しい知識蒸留(KD)フレームワークを導入し, LR-HSIのSRを実現する。 我々のKDフレームワークは、提案したCLRAブロックを統合して、LR-HSIとHR-MSIからジョイントと異なる特徴を同時に抽出するDTS(Dual Two-Streamed)ネットワーク構造の構築効率を向上させる。 LR-HSI と HR-MSI の空間的特徴表現とスペクトル的特徴表現を完全に活用するために,再構成した HR-HSI の空間的特徴とスペクトル的品質を改善するために,これらの特徴を適応的に融合する新たな CSA (Cross Self-Attention) 融合モジュールを提案する。 最後に,提案するKDを用いた共同損失関数を用いて,教師と学生のネットワークを協調訓練する。 実験の結果,学生モデルはLR-HSI SRの性能に匹敵するだけでなく,モデルサイズや計算要求を大幅に削減できることがわかった。 これは既存の最先端の手法よりも大幅に進歩している。 ソースコードはhttps://github.com/ming053l/CSAKDで入手できる。

Hyperspectral imaging, capturing detailed spectral information for each pixel, is pivotal in diverse scientific and industrial applications. Yet, the acquisition of high-resolution (HR) hyperspectral images (HSIs) often needs to be addressed due to the hardware limitations of existing imaging systems. A prevalent workaround involves capturing both a high-resolution multispectral image (HR-MSI) and a low-resolution (LR) HSI, subsequently fusing them to yield the desired HR-HSI. Although deep learning-based methods have shown promising in HR-MSI/LR-HSI fusion and LR-HSI super-resolution (SR), their substantial model complexities hinder deployment on resource-constrained imaging devices. This paper introduces a novel knowledge distillation (KD) framework for HR-MSI/LR-HSI fusion to achieve SR of LR-HSI. Our KD framework integrates the proposed Cross-Layer Residual Aggregation (CLRA) block to enhance efficiency for constructing Dual Two-Streamed (DTS) network structure, designed to extract joint and distinct features from LR-HSI and HR-MSI simultaneously. To fully exploit the spatial and spectral feature representations of LR-HSI and HR-MSI, we propose a novel Cross Self-Attention (CSA) fusion module to adaptively fuse those features to improve the spatial and spectral quality of the reconstructed HR-HSI. Finally, the proposed KD-based joint loss function is employed to co-train the teacher and student networks. Our experimental results demonstrate that the student model not only achieves comparable or superior LR-HSI SR performance but also significantly reduces the model-size and computational requirements. This marks a substantial advancement over existing state-of-the-art methods. The source code is available at https://github.com/ming053l/CSAKD.
翻訳日:2024-07-01 17:39:39 公開日:2024-06-28
# PopAlign: テキスト対画像生成のための人口レベルアライメント

PopAlign: Population-Level Alignment for Fair Text-to-Image Generation ( http://arxiv.org/abs/2406.19668v1 )

ライセンス: Link先を確認
Shufan Li, Harkanwar Singh, Aditya Grover, (参考訳) テキスト・ツー・イメージ(T2I)モデルは大規模なデータセットの広範なトレーニングを通じて高忠実度生成を実現する。 しかしながら、これらのモデルは、性別や民族中立性のプロンプトにおける特定のアイデンティティの過剰表現など、トレーニングデータの望ましくない偏見を意図せずに拾うことができる。 Reinforcement Learning from Human Feedback (RLHF) や Direct Preference Optimization (DPO) のような既存のアライメント手法では、個々のサンプルからなるペアの選好で機能するのに対して、上記のバイアスは人口レベルでのみ測定できるため、この問題に効果的に対処できない。 例えば、プロンプト「ドクター」の1つのサンプルは男性か女性かもしれないが、繰り返しサンプリングされた場合でも主に男性医師を生成するモデルは、性別バイアスを反映している。 この制限に対処するために、PopAlignを導入し、PopAlignは集団レベルの選好最適化の新しいアプローチであり、標準最適化はサンプル全体の集合を他よりも優先する。 さらに、よりスケーラブルなトレーニングのために、好まれる個体群から個々の標本を直接最適化する確率的下界を導出する。 人間の評価と標準的な画像品質とバイアスの指標を用いて、PopAlignは事前学習したT2Iモデルのバイアスを著しく軽減し、生成品質をほぼ保っていることを示す。 コードはhttps://github.com/jacklishufan/PopAlignSDXLで入手できる。

Text-to-image (T2I) models achieve high-fidelity generation through extensive training on large datasets. However, these models may unintentionally pick up undesirable biases of their training data, such as over-representation of particular identities in gender or ethnicity neutral prompts. Existing alignment methods such as Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) fail to address this problem effectively because they operate on pairwise preferences consisting of individual samples, while the aforementioned biases can only be measured at a population level. For example, a single sample for the prompt "doctor" could be male or female, but a model generating predominantly male doctors even with repeated sampling reflects a gender bias. To address this limitation, we introduce PopAlign, a novel approach for population-level preference optimization, while standard optimization would prefer entire sets of samples over others. We further derive a stochastic lower bound that directly optimizes for individual samples from preferred populations over others for scalable training. Using human evaluation and standard image quality and bias metrics, we show that PopAlign significantly mitigates the bias of pretrained T2I models while largely preserving the generation quality. Code is available at https://github.com/jacklishufan/PopAlignSDXL.
翻訳日:2024-07-01 17:39:39 公開日:2024-06-28
# Function+Data Flow: デジタルツインニングのための機械学習パイプラインを特定するフレームワーク

Function+Data Flow: A Framework to Specify Machine Learning Pipelines for Digital Twinning ( http://arxiv.org/abs/2406.19670v1 )

ライセンス: Link先を確認
Eduardo de Conto, Blaise Genest, Arvind Easwaran, (参考訳) 物理システムのためのデジタルツイン(DT)の開発は、人工知能(AI)をますます活用し、特に異なるソースからのデータを組み合わせたり、計算効率の良い縮小次元モデルを作成するために利用される。 実際、非常に異なるアプリケーションドメインでも、ツインニングはモデルオーダーの削減やハイブリッドデータによるモデル化(つまり、物理ベースのモデルとセンサーの両方から得られたデータ)といった一般的な技術を採用している。 この明らかな一般化にもかかわらず、現在の開発プラクティスはアドホックであり、デジタルツインニングのためのAIパイプラインの設計と時間を要する。 本稿では、DT内のAIパイプラインを記述するためのドメイン固有言語(DSL)であるFunction+Data Flow(FDF)を提案する。 FDFはデジタル双生児の設計と検証を容易にすることを目的としている。 具体的には、FDFは関数を第一級市民として扱い、AIで学んだモデルの効果的な操作を可能にする。 本研究の目的は, 構造物の塑性ひずみを予測し, 軸受の電磁挙動をモデル化することである。

The development of digital twins (DTs) for physical systems increasingly leverages artificial intelligence (AI), particularly for combining data from different sources or for creating computationally efficient, reduced-dimension models. Indeed, even in very different application domains, twinning employs common techniques such as model order reduction and modelization with hybrid data (that is, data sourced from both physics-based models and sensors). Despite this apparent generality, current development practices are ad-hoc, making the design of AI pipelines for digital twinning complex and time-consuming. Here we propose Function+Data Flow (FDF), a domain-specific language (DSL) to describe AI pipelines within DTs. FDF aims to facilitate the design and validation of digital twins. Specifically, FDF treats functions as first-class citizens, enabling effective manipulation of models learned with AI. We illustrate the benefits of FDF on two concrete use cases from different domains: predicting the plastic strain of a structure and modeling the electromagnetic behavior of a bearing.
翻訳日:2024-07-01 17:39:39 公開日:2024-06-28
# 一階を超えて - フィンガークナックルプリントバイオメトリックスへのマルチスケールアプローチ

Beyond First-Order: A Multi-Scale Approach to Finger Knuckle Print Biometrics ( http://arxiv.org/abs/2406.19672v1 )

ライセンス: Link先を確認
Chengrui Gao, Ziyuan Yang, Andrew Beng Jin Teoh, Min Zhu, (参考訳) 近年,フィンガーナックルプリント (FKPs) が注目されている。 以前のFKP認識手法は、複雑なテクスチャの詳細をキャプチャするが構造情報を考慮できない一階特徴記述子を主に利用していた。 しかし、新しい研究は、テクスチャの曲線と弧を記述する2階テクスチャが、見過ごされた構造情報を含んでいることを示唆している。 本稿では,FKP画像のテクスチャ情報を包括的にキャプチャするための新しいFKP認識手法であるDual-Order Texture Competition Network (DOTCNet)を提案する。 DOTCNetには3つの二階テクスチャ競合モジュール(DTCM)があり、それぞれ異なるスケールでテクスチャをターゲットにしている。 各DTCMは学習可能なテクスチャ記述子、特に学習可能なGaborフィルタ(LGF)を用いてテクスチャの特徴を抽出する。 LGFを利用することで、ネットワークは第1および第2のテクスチャを抽出し、きめ細かいテクスチャと構造的特徴を網羅的に記述する。 さらに、注意機構は、第1次特徴の関連性を高め、重要なテクスチャの詳細を強調させる。 2次の特徴に対して、競合メカニズムは、高次の特徴からノイズを低減しながら構造情報を強調する。 大規模な実験結果から、DOTCNetは一般に公開されているPolyU-FKPデータセット上で、いくつかの標準アルゴリズムを著しく上回っていることが明らかとなった。

Recently, finger knuckle prints (FKPs) have gained attention due to their rich textural patterns, positioning them as a promising biometric for identity recognition. Prior FKP recognition methods predominantly leverage first-order feature descriptors, which capture intricate texture details but fail to account for structural information. Emerging research, however, indicates that second-order textures, which describe the curves and arcs of the textures, encompass this overlooked structural information. This paper introduces a novel FKP recognition approach, the Dual-Order Texture Competition Network (DOTCNet), designed to capture texture information in FKP images comprehensively. DOTCNet incorporates three dual-order texture competitive modules (DTCMs), each targeting textures at different scales. Each DTCM employs a learnable texture descriptor, specifically a learnable Gabor filter (LGF), to extract texture features. By leveraging LGFs, the network extracts first and second order textures to describe fine textures and structural features thoroughly. Furthermore, an attention mechanism enhances relevant features in the first-order features, thereby highlighting significant texture details. For second-order features, a competitive mechanism emphasizes structural information while reducing noise from higher-order features. Extensive experimental results reveal that DOTCNet significantly outperforms several standard algorithms on the publicly available PolyU-FKP dataset.
翻訳日:2024-07-01 17:39:39 公開日:2024-06-28
# Webスケールデータのない正確な音声認識と翻訳

Less is More: Accurate Speech Recognition & Translation without Web-Scale Data ( http://arxiv.org/abs/2406.19674v1 )

ライセンス: Link先を確認
Krishna C. Puvvada, Piotr Żelasko, He Huang, Oleksii Hrinchuk, Nithin Rao Koluguri, Kunal Dhawan, Somshubra Majumdar, Elena Rastorgueva, Zhehuai Chen, Vitaly Lavrukhin, Jagadeesh Balam, Boris Ginsburg, (参考訳) 音声認識と翻訳の最近の進歩は、何十万時間ものインターネット音声データに依存している。 我々は、Webスケールのデータに頼ることなく、最先端の精度を達成できると主張している。 カナリア(Canary) - 多言語ASRおよび音声翻訳モデルは、現在の最先端モデル(Whisper、OWSM、Seamless-M4T)よりも優れており、これらのモデルよりも桁違いに少ないデータで訓練されている。 1) ファストコンフォーマーベースのアテンションエンコーダ・デコーダアーキテクチャ(2) 機械翻訳で生成された合成データのトレーニング,(3) データバランシング, 動的データブレンディング, 動的バケットリング, ノイズロバスト微調整といった高度なトレーニング技術。 モデル、ウェイト、トレーニングコードはオープンソースになる予定だ。

Recent advances in speech recognition and translation rely on hundreds of thousands of hours of Internet speech data. We argue that state-of-the art accuracy can be reached without relying on web-scale data. Canary - multilingual ASR and speech translation model, outperforms current state-of-the-art models - Whisper, OWSM, and Seamless-M4T on English, French, Spanish, and German languages, while being trained on an order of magnitude less data than these models. Three key factors enables such data-efficient model: (1) a FastConformer-based attention encoder-decoder architecture (2) training on synthetic data generated with machine translation and (3) advanced training techniques: data-balancing, dynamic data blending, dynamic bucketing and noise-robust fine-tuning. The model, weights, and training code will be open-sourced.
翻訳日:2024-07-01 17:39:39 公開日:2024-06-28
# 単眼画像と映像からの深層学習に基づく深度推定法:総合的調査

Deep Learning-based Depth Estimation Methods from Monocular Image and Videos: A Comprehensive Survey ( http://arxiv.org/abs/2406.19675v1 )

ライセンス: Link先を確認
Uchitha Rajapaksha, Ferdous Sohel, Hamid Laga, Dean Diepeveen, Mohammed Bennamoun, (参考訳) 単一のRGB画像とビデオから深度を推定することは、自動運転、3D再構築、デジタルエンターテイメント、ロボット工学など、多くの分野で応用されているため、広く関心を集めている。 過去10年間に500以上のディープラーニングベースの論文が出版され、タスクへの関心が高まりつつあることを示している。 本稿では,既存のディープラーニング手法,その課題,アーキテクチャや監視手法の進化について,包括的調査を行った。 入力と出力のモダリティ、ネットワークアーキテクチャ、学習方法に基づいて、現在の作業を分類するための分類を提供する。 また、単眼深度推定の歴史における主要なマイルストーンと、既存のメソッドで使用されるさまざまなパイプライン、データセット、評価メトリクスについても論じている。

Estimating depth from single RGB images and videos is of widespread interest due to its applications in many areas, including autonomous driving, 3D reconstruction, digital entertainment, and robotics. More than 500 deep learning-based papers have been published in the past 10 years, which indicates the growing interest in the task. This paper presents a comprehensive survey of the existing deep learning-based methods, the challenges they address, and how they have evolved in their architecture and supervision methods. It provides a taxonomy for classifying the current work based on their input and output modalities, network architectures, and learning methods. It also discusses the major milestones in the history of monocular depth estimation, and different pipelines, datasets, and evaluation metrics used in existing methods.
翻訳日:2024-07-01 17:39:39 公開日:2024-06-28
# MimicMotion:信頼を意識した姿勢誘導による高品質な人間のモーションビデオ生成

MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance ( http://arxiv.org/abs/2406.19680v1 )

ライセンス: Link先を確認
Yuang Zhang, Jiaxi Gu, Li-Wen Wang, Han Wang, Junqi Cheng, Yuefeng Zhu, Fangyuan Zou, (参考訳) 近年、生成人工知能は画像生成の分野で大きな進歩を遂げ、様々な応用を生み出している。 しかし、ビデオ生成は、制御性、ビデオの長さ、詳細性の豊かさなど、様々な面で大きな課題に直面しており、この技術の適用と普及を妨げている。 本研究では,特定の動作指示を模倣した任意の長さの高品質なビデオを生成することができるMimicMotionという,制御可能なビデオ生成フレームワークを提案する。 従来の手法と比較して,本手法にはいくつかの特徴がある。 まず、高いフレーム品質と時間的滑らか性を保証する信頼度対応ポーズガイダンスを導入する。 第2に、ポーズ信頼度に基づく局所的損失増幅を導入し、画像歪みを大幅に低減する。 最後に、長大かつスムーズなビデオを生成するために、進行的な潜伏融合戦略を提案する。 これにより、任意の長さの動画を、許容範囲のリソース消費で作成することができる。 広範な実験とユーザスタディにより、MimicMotionは様々な面で以前のアプローチよりも大幅に改善されている。 詳細な結果と比較はプロジェクトのページで確認できる。

In recent years, generative artificial intelligence has achieved significant advancements in the field of image generation, spawning a variety of applications. However, video generation still faces considerable challenges in various aspects, such as controllability, video length, and richness of details, which hinder the application and popularization of this technology. In this work, we propose a controllable video generation framework, dubbed MimicMotion, which can generate high-quality videos of arbitrary length mimicking specific motion guidance. Compared with previous methods, our approach has several highlights. Firstly, we introduce confidence-aware pose guidance that ensures high frame quality and temporal smoothness. Secondly, we introduce regional loss amplification based on pose confidence, which significantly reduces image distortion. Lastly, for generating long and smooth videos, we propose a progressive latent fusion strategy. By this means, we can produce videos of arbitrary length with acceptable resource consumption. With extensive experiments and user studies, MimicMotion demonstrates significant improvements over previous approaches in various aspects. Detailed results and comparisons are available on our project page: https://tencent.github.io/MimicMotion .
翻訳日:2024-07-01 17:39:39 公開日:2024-06-28
# コンベックスルーフ資源対策の統一化フレームワーク

Unified Framework for Calculating Convex Roof Resource Measures ( http://arxiv.org/abs/2406.19683v1 )

ライセンス: Link先を確認
Xuanran Zhu, Chao Zhang, Zheng An, Bei Zeng, (参考訳) 量子資源理論(QRT)は、様々な量子現象を分析するための包括的で実用的な枠組みを提供する。 QRTの基本的な課題は、与えられた量子状態に固有の資源の定量化である。 本稿では,コンベックスルーフ拡張から導かれる,広く利用されている量子資源測定のクラスに対する統一的な計算フレームワークを提案する。 我々は、これらの凸屋根資源測度の計算をスティーフェル多様体上の最適化問題として再定式化できることを確立し、これは極性射影によりさらに非拘束にすることができる。 半定値プログラミング(SDP)や勾配に基づく手法,あるいはシーソー戦略を用いた既存手法と比較して,本手法は計算効率を向上するだけでなく,合理化ワークフロー内の様々なシナリオに適用性も維持する。 我々は,この手法の有効性を,絡み合い,コヒーレンス,マジック状態など,いくつかの重要な量子資源に適用することによって実証する。 さらに,提案手法は資源理論の領域を超えて,他の凸屋根量にまで容易に拡張でき,量子情報理論の領域で広く適用可能であることを示唆している。

Quantum resource theories (QRTs) provide a comprehensive and practical framework for the analysis of diverse quantum phenomena. A fundamental task within QRTs is the quantification of resources inherent in a given quantum state. In this letter, we introduce a unified computational framework for a class of widely utilized quantum resource measures, derived from convex roof extensions. We establish that the computation of these convex roof resource measures can be reformulated as an optimization problem over a Stiefel manifold, which can be further unconstrained through polar projection. Compared to existing methods employing semi-definite programming (SDP), gradient-based techniques or seesaw strategy, our approach not only demonstrates superior computational efficiency but also maintains applicability across various scenarios within a streamlined workflow. We substantiate the efficacy of our method by applying it to several key quantum resources, including entanglement, coherence, and magic states. Moreover, our methodology can be readily extended to other convex roof quantities beyond the domain of resource theories, suggesting broad applicability in the realm of quantum information theory.
翻訳日:2024-07-01 17:39:39 公開日:2024-06-28
# 放射線診断の強化: 視覚的ミス訂正のためのAIと人間の専門知識を統合する協調的アプローチ

Enhancing Radiological Diagnosis: A Collaborative Approach Integrating AI and Human Expertise for Visual Miss Correction ( http://arxiv.org/abs/2406.19686v1 )

ライセンス: Link先を確認
Akash Awasthi, Ngan Le, Zhigang Deng, Carol C. Wu, Hien Van Nguyen, (参考訳) 胸部X線写真における知覚的誤りを識別し、正すための人間とAIのコラボレーションは、これまで検討されていない。 本研究では, 胸部放射線診断における診断精度を高めるために, 視線データと放射線診断情報を統合した協調型AIシステムであるCoRaXを開発することを目的とした。 公開データセット REFLACX と EGD-CXR を用いて、大規模なマルチモーダルモデルを用いて、画像埋め込み、視線データ、放射線学レポートを分析した。 本システムの有効性は, 基準作成プロセス, 基準の品質, 協調診断における性能に基づいて評価された。 CoRaXは28%(332)の異常を欠いた271サンプルのシミュレーションエラーデータセットで試験された。 このシステムはこれらのエラーの21%(332件中71件)を修正し、7%(312件中22件)を未解決に残した。 Referral-Usefulnessスコアは、すべての真の参照領域の予測領域の精度を示すもので、0.63(95% CI 0.59, 0.68)であった。 CoRaXの放射線学者との相互作用の診断精度を反映したTotal-Usefulnessスコアは、これらの相互作用の84%(280点中237点)が0.40点以上であった。 結論として、CoRaXは放射線科医と効率よく協力し、様々な異常にまたがる知覚的誤りに対処し、初心者放射線科医の教育や訓練に応用できる可能性がある。

Human-AI collaboration to identify and correct perceptual errors in chest radiographs has not been previously explored. This study aimed to develop a collaborative AI system, CoRaX, which integrates eye gaze data and radiology reports to enhance diagnostic accuracy in chest radiology by pinpointing perceptual errors and refining the decision-making process. Using public datasets REFLACX and EGD-CXR, the study retrospectively developed CoRaX, employing a large multimodal model to analyze image embeddings, eye gaze data, and radiology reports. The system's effectiveness was evaluated based on its referral-making process, the quality of referrals, and performance in collaborative diagnostic settings. CoRaX was tested on a simulated error dataset of 271 samples with 28% (93 of 332) missed abnormalities. The system corrected 21% (71 of 332) of these errors, leaving 7% (22 of 312) unresolved. The Referral-Usefulness score, indicating the accuracy of predicted regions for all true referrals, was 0.63 (95% CI 0.59, 0.68). The Total-Usefulness score, reflecting the diagnostic accuracy of CoRaX's interactions with radiologists, showed that 84% (237 of 280) of these interactions had a score above 0.40. In conclusion, CoRaX efficiently collaborates with radiologists to address perceptual errors across various abnormalities, with potential applications in the education and training of novice radiologists.
翻訳日:2024-07-01 17:39:39 公開日:2024-06-28
# 微細結晶粒度保存を用いた脳腫瘍分類のための深部核融合モデル

Deep Fusion Model for Brain Tumor Classification Using Fine-Grained Gradient Preservation ( http://arxiv.org/abs/2406.19690v1 )

ライセンス: Link先を確認
Niful Islam, Mohaiminul Islam Bhuiyan, Jarin Tasnim Raya, Nur Shazwani Kamarudin, Khan Md Hasib, M. F. Mridha, Dewan Md. Farid, (参考訳) 脳腫瘍は、早期に診断されない場合、早期死亡につながる最も一般的な疾患の1つである。 従来の診断アプローチは非常に時間がかかり、エラーを起こしやすい。 この文脈において、コンピュータビジョンに基づくアプローチは、正確な脳腫瘍分類のための有効なツールとして現れてきた。 既存のソリューションの中には、注目すべき精度を示すものもあるが、計算資源が限られている領域では、モデルをデプロイすることができない。 本研究は,脳腫瘍の高精度かつ迅速な分類の必要性に対処するものである。 この研究は、事前訓練されたResNet152V2と修正VGG16モデルを融合した、正確な脳腫瘍分類のための新しいアーキテクチャを提案する。 提案したアーキテクチャは、脳腫瘍の効果的な分類に不可欠なディープニューラルネットワークに微細勾配が保存されることを保証する、厳密な微調整プロセスを実行する。 提案手法は,画像品質向上のために様々な画像処理技術を導入し,FigshareデータセットとKaggleデータセットでそれぞれ98.36%,98.04%の精度を実現している。 このアーキテクチャは、トレーニング可能なパラメータはわずか280万である。 我々は8ビット量子化を利用して73.881 MBのモデルを作成し、289.45 MBの以前のサイズから大幅に削減し、資源制約のある領域でもエッジデバイスへのスムーズな展開を確実にした。 さらに、Grad-CAMの使用はモデルの解釈可能性を改善し、意思決定プロセスに関する洞察力のある情報を提供する。 高い判別能力のため、このモデルは正確な脳腫瘍分類のための信頼できる選択肢となりうる。

Brain tumors are one of the most common diseases that lead to early death if not diagnosed at an early stage. Traditional diagnostic approaches are extremely time-consuming and prone to errors. In this context, computer vision-based approaches have emerged as an effective tool for accurate brain tumor classification. While some of the existing solutions demonstrate noteworthy accuracy, the models become infeasible to deploy in areas where computational resources are limited. This research addresses the need for accurate and fast classification of brain tumors with a priority of deploying the model in technologically underdeveloped regions. The research presents a novel architecture for precise brain tumor classification fusing pretrained ResNet152V2 and modified VGG16 models. The proposed architecture undergoes a diligent fine-tuning process that ensures fine gradients are preserved in deep neural networks, which are essential for effective brain tumor classification. The proposed solution incorporates various image processing techniques to improve image quality and achieves an astounding accuracy of 98.36% and 98.04% in Figshare and Kaggle datasets respectively. This architecture stands out for having a streamlined profile, with only 2.8 million trainable parameters. We have leveraged 8-bit quantization to produce a model of size 73.881 MB, significantly reducing it from the previous size of 289.45 MB, ensuring smooth deployment in edge devices even in resource-constrained areas. Additionally, the use of Grad-CAM improves the interpretability of the model, offering insightful information regarding its decision-making process. Owing to its high discriminative ability, this model can be a reliable option for accurate brain tumor classification.
翻訳日:2024-07-01 17:39:39 公開日:2024-06-28
# MMRo:マルチモーダルLLMは家庭内ロボティクスの頭脳として使えるか?

MMRo: Are Multimodal LLMs Eligible as the Brain for In-Home Robotics? ( http://arxiv.org/abs/2406.19693v1 )

ライセンス: Link先を確認
Jinming Li, Yichen Zhu, Zhiyuan Xu, Jindong Gu, Minjie Zhu, Xin Liu, Ning Liu, Yaxin Peng, Feifei Feng, Jian Tang, (参考訳) ロボットは、知覚、言語理解、推論、計画など、ロボット工学にまたがる様々なサブプロブレムに対処する必要があるため、人間の環境で有用なアシスタントとして機能することは基本的に困難である。 MLLM(Multimodal Large Language Models)の最近の進歩は、複雑な数学的問題を解き、コモンセンスと抽象的推論を習得する際、その例外的な能力を実証している。 これによりMLLMをロボットシステムにおける脳として利用し、これらのモデルがタスク実行のための低レベル制御アクションをトリガーする前に高レベルな計画を実行できるようになる。 しかし、既存のMLLMがロボットの脳の役割を担っているかどうかは不明である。 本研究では,Multimodal LLM for Robotic (MMRo)ベンチマークを評価するための最初のベンチマークを紹介する。 具体的には、MLLMがロボットの中央処理ユニットとして持つべき4つの重要な能力知覚、タスク計画、視覚的推論、安全性の測定を同定する。 それぞれの能力に関するいくつかのシナリオを開発しました。その結果、合計14のメトリクスが評価されます。 本稿では,既存のシステムの性能を評価するために,商用モデルとオープンソースモデルの両方を含む各種MLLMの実験結果を示す。 以上の結果から,現在のMLLMはロボットの認知コアとして機能するほど信頼できないことが示唆された。 私たちのデータはhttps://mm-robobench.github.io/で確認できます。

It is fundamentally challenging for robots to serve as useful assistants in human environments because this requires addressing a spectrum of sub-problems across robotics, including perception, language understanding, reasoning, and planning. The recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated their exceptional abilities in solving complex mathematical problems, mastering commonsense and abstract reasoning. This has led to the recent utilization of MLLMs as the brain in robotic systems, enabling these models to conduct high-level planning prior to triggering low-level control actions for task execution. However, it remains uncertain whether existing MLLMs are reliable in serving the brain role of robots. In this study, we introduce the first benchmark for evaluating Multimodal LLM for Robotic (MMRo) benchmark, which tests the capability of MLLMs for robot applications. Specifically, we identify four essential capabilities perception, task planning, visual reasoning, and safety measurement that MLLMs must possess to qualify as the robot's central processing unit. We have developed several scenarios for each capability, resulting in a total of 14 metrics for evaluation. We present experimental results for various MLLMs, including both commercial and open-source models, to assess the performance of existing systems. Our findings indicate that no single model excels in all areas, suggesting that current MLLMs are not yet trustworthy enough to serve as the cognitive core for robots. Our data can be found in https://mm-robobench.github.io/.
翻訳日:2024-07-01 17:39:39 公開日:2024-06-28
# シングルイメージデハージングのためのキー選択ルーティングアテンション付き視覚変換器

Vision Transformer with Key-select Routing Attention for Single Image Dehazing ( http://arxiv.org/abs/2406.19703v1 )

ライセンス: Link先を確認
Lihan Tong, Weijia Li, Qingxia Yang, Liyuan Chen, Peng Chen, (参考訳) Ksformerは、マルチチャネル、トップk演算子付きマルチスケールウィンドウ、およびLFPM(Lightweight Frequency Processing Module)を用いて、キー領域のインテリジェントな選択にMKRA(Multiscale Key-Select Routing Attention)を利用する。

We present Ksformer, utilizing Multi-scale Key-select Routing Attention (MKRA) for intelligent selection of key areas through multi-channel, multi-scale windows with a top-k operator, and Lightweight Frequency Processing Module (LFPM) to enhance high-frequency features, outperforming other dehazing methods in tests.
翻訳日:2024-07-01 17:29:51 公開日:2024-06-28
# DISCO: 大規模組合せ最適化問題に対する効率的な拡散解法

DISCO: Efficient Diffusion Solver for Large-Scale Combinatorial Optimization Problems ( http://arxiv.org/abs/2406.19705v1 )

ライセンス: Link先を確認
Kexiong Yu, Hang Zhao, Yuhang Huang, Renjiao Yi, Kai Xu, Chenyang Zhu, (参考訳) 組合せ最適化(CO)問題は、膨大なソリューション空間と時間に敏感な応答を必要とすることが特徴で、様々な産業にまたがる多くの実践的応用において、基本的に重要な問題である。 最近のニューラルソルバによる顕著な進歩にもかかわらず、その限定的な表現性はCOランドスケープのマルチモーダルな性質とよく一致しない。 拡散モデルに向かっている研究もあるが、サンプルを生成するには多くのステップでマルコフ連鎖をシミュレートする必要がある。 本稿では,解の質と推論速度の両面において優れる,解法最適化のための効率的な拡散解法であるdisCOを提案する。 DISCOの有効性は2つある: まず、分析的に解ける形で解を素早く分解し、非常に少ない逆時間ステップで解空間から直接サンプリングし、推論時間を劇的に短縮する。 第二に、 DisCO は、サンプリング空間を、解残基によって導かれるより制約された有意義な領域に制限し、出力確率分布の本質的にの多重モダリティを保ったまま、解の質を高める。 DISCOは10000のノードを持ち、最大独立セットのベンチマークに挑戦する非常に大きなトラベリングセールスマン問題に対する最先端の結果を達成し、そのインスタンスごとの遅延時間は44.8倍速くなった。 DISCOはディバイド・アンド・コンカ戦略をさらに組み合わせることで、任意のスケールの問題を棚から解けるように一般化することができる。

Combinatorial Optimization (CO) problems are fundamentally crucial in numerous practical applications across diverse industries, characterized by entailing enormous solution space and demanding time-sensitive response. Despite significant advancements made by recent neural solvers, their limited expressiveness does not conform well to the multi-modal nature of CO landscapes. While some research has pivoted towards diffusion models, they require simulating a Markov chain with many steps to produce a sample, which is time-consuming and does not meet the efficiency requirement of real applications, especially at scale. We propose DISCO, an efficient DIffusion Solver for Combinatorial Optimization problems that excels in both solution quality and inference speed. DISCO's efficacy is two-pronged: Firstly, it achieves rapid denoising of solutions through an analytically solvable form, allowing for direct sampling from the solution space with very few reverse-time steps, thereby drastically reducing inference time. Secondly, DISCO enhances solution quality by restricting the sampling space to a more constrained, meaningful domain guided by solution residues, while still preserving the inherent multi-modality of the output probabilistic distributions. DISCO achieves state-of-the-art results on very large Traveling Salesman Problems with 10000 nodes and challenging Maximal Independent Set benchmarks, with its per-instance denoising time up to 44.8 times faster. Through further combining a divide-and-conquer strategy, DISCO can be generalized to solve arbitrary-scale problem instances off the shelf, even outperforming models trained specifically on corresponding scales.
翻訳日:2024-07-01 17:29:51 公開日:2024-06-28
# InfiniGen:動的KVキャッシュ管理による大規模言語モデルの効率的な生成推論

InfiniGen: Efficient Generative Inference of Large Language Models with Dynamic KV Cache Management ( http://arxiv.org/abs/2406.19707v1 )

ライセンス: Link先を確認
Wonbeom Lee, Jungi Lee, Junghwan Seo, Jaewoong Sim, (参考訳) トランスフォーマーベースの大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる優れたパフォーマンスを示す。 しかし、長いコンテンツを生成するためのLLM推論を実行することは、キー値(KV)キャッシュとして知られる過渡状態の巨大なメモリフットプリントが、シーケンス長とバッチサイズでスケールするため、課題となる。 本稿では,新しいKVキャッシュ管理フレームワークであるInfiniGenについて述べる。 InfiniGenは、Transformer内の後続の注目層を計算するのに不可欠な重要なトークンが、現在のレイヤの入力とクエリの重みの一部と後続のレイヤのキーキャッシュとを最小限のリハーサルを実行することで推測できるという重要な洞察を活用している。 これにより、必須のKVキャッシュエントリのみをプリフェッチし(すべてフェッチせずに)、オフロードベースのLLMサービスシステムでホストメモリからのフェッチオーバーヘッドを軽減できます。 InfiniGenは,従来のKVキャッシュ管理手法に比べて最大3.00倍の性能向上を実現し,モデル精度も大幅に向上した。

Transformer-based large language models (LLMs) demonstrate impressive performance across various natural language processing tasks. Serving LLM inference for generating long contents, however, poses a challenge due to the enormous memory footprint of the transient state, known as the key-value (KV) cache, which scales with the sequence length and batch size. In this paper, we present InfiniGen, a novel KV cache management framework tailored for long-text generation, which synergistically works with modern offloading-based inference systems. InfiniGen leverages the key insight that a few important tokens that are essential for computing the subsequent attention layer in the Transformer can be speculated by performing a minimal rehearsal with the inputs of the current layer and part of the query weight and key cache of the subsequent layer. This allows us to prefetch only the essential KV cache entries (without fetching them all), thereby mitigating the fetch overhead from the host memory in offloading-based LLM serving systems. Our evaluation on several representative LLMs shows that InfiniGen improves the overall performance of a modern offloading-based system by up to 3.00x compared to prior KV cache management methods while offering substantially better model accuracy.
翻訳日:2024-07-01 17:29:51 公開日:2024-06-28
# マルチスケール脳モデルへの微分可能なアプローチ

A Differentiable Approach to Multi-scale Brain Modeling ( http://arxiv.org/abs/2406.19708v1 )

ライセンス: Link先を確認
Chaoming Wang, Muyang Lyu, Tianqiu Zhang, Sichao He, Si Wu, (参考訳) 本稿では,脳のシミュレーションを精度の高い勾配に基づく最適化と組み合わせた独自の脳シミュレータBrainPyを用いた,マルチスケールの微分脳モデリングワークフローを提案する。 我々は、異なる脳スケールでBrainPyのこの能力を活用します。 単一ニューロンレベルでは、微分可能なニューロンモデルを実装し、電気生理学的データへの適合を最適化するために勾配法を用いる。 ネットワークレベルでは、生物学的に制約されたネットワークモデルを構築するためにコネクトロミックデータを組み込む。 最後に、動物行動の再現を目的として、勾配に基づく学習規則を用いて、これらのモデルを認知タスクで訓練する。 実験により, 一般化されたインテリジェンス・アンド・ファイアとホジキン・ハクスリー単一ニューロンモデルに適合させることで, より優れた性能と速度が得られることを示した。 さらに、生物学的にインフォームドされた興奮性および抑制性スパイキングニューロンのネットワークをトレーニングし、観察された神経活動とシナプスの重量分布を正常に再現する。 全体として、我々の異なるマルチスケールのシミュレーションアプローチは、電気生理学的、解剖学的、行動的スケールにまたがる神経科学データを橋渡しする有望なツールを提供する。

We present a multi-scale differentiable brain modeling workflow utilizing BrainPy, a unique differentiable brain simulator that combines accurate brain simulation with powerful gradient-based optimization. We leverage this capability of BrainPy across different brain scales. At the single-neuron level, we implement differentiable neuron models and employ gradient methods to optimize their fit to electrophysiological data. On the network level, we incorporate connectomic data to construct biologically constrained network models. Finally, to replicate animal behavior, we train these models on cognitive tasks using gradient-based learning rules. Experiments demonstrate that our approach achieves superior performance and speed in fitting generalized leaky integrate-and-fire and Hodgkin-Huxley single neuron models. Additionally, training a biologically-informed network of excitatory and inhibitory spiking neurons on working memory tasks successfully replicates observed neural activity and synaptic weight distributions. Overall, our differentiable multi-scale simulation approach offers a promising tool to bridge neuroscience data across electrophysiological, anatomical, and behavioral scales.
翻訳日:2024-07-01 17:29:51 公開日:2024-06-28
# CHASE:マルチモーダルマイクロサービスシステムにおけるルート原因解析のための因果不均一グラフベースのフレームワーク

CHASE: A Causal Heterogeneous Graph based Framework for Root Cause Analysis in Multimodal Microservice Systems ( http://arxiv.org/abs/2406.19711v1 )

ライセンス: Link先を確認
Ziming Zhao, Tiehua Zhang, Zhishu Shen, Hai Dong, Xingjun Ma, Xianhui Liu, Yun Yang, (参考訳) 近年、業界内で分散マイクロサービスアーキテクチャが広く採用され、システムの可用性と堅牢性の向上に対する需要が大幅に増加した。 エンタープライズレベルのマイクロサービスシステムにおける複雑なサービス呼び出しパスと依存関係のため、サービス呼び出し中に即座に異常を見つけることは困難であり、通常のシステム操作やメンテナンスには難解な問題が発生する。 本稿では,トレースやログ,システム監視といったマルチモーダルデータを持つマイクロサービスシステムを対象とした,根本原因分析のためのCausal Heterogeneous grAph baSed framEworkを提案する。 具体的には、関連情報を代表埋め込みに符号化し、さらにマルチモーダルな呼び出しグラフでモデル化する。 その後、各インスタンスノードで異常検出を行い、隣り合うメトリックとログノードから注意深い異種メッセージが渡される。 最終的にCHASEは、因果関係の流れを表すハイパーエッジを持つ構築されたハイパーグラフから学習し、根本原因の局所化を行う。 提案したフレームワークを、異なる属性を持つ2つのパブリックなマイクロサービスデータセット上で評価し、最先端の手法と比較する。 結果は、CHASEが最高性能を36.2%(A@1)と29.4%(Percentage@1)に引き上げたことを示している。

In recent years, the widespread adoption of distributed microservice architectures within the industry has significantly increased the demand for enhanced system availability and robustness. Due to the complex service invocation paths and dependencies at enterprise-level microservice systems, it is challenging to locate the anomalies promptly during service invocations, thus causing intractable issues for normal system operations and maintenance. In this paper, we propose a Causal Heterogeneous grAph baSed framEwork for root cause analysis, namely CHASE, for microservice systems with multimodal data, including traces, logs, and system monitoring metrics. Specifically, related information is encoded into representative embeddings and further modeled by a multimodal invocation graph. Following that, anomaly detection is performed on each instance node with attentive heterogeneous message passing from its adjacent metric and log nodes. Finally, CHASE learns from the constructed hypergraph with hyperedges representing the flow of causality and performs root cause localization. We evaluate the proposed framework on two public microservice datasets with distinct attributes and compare with the state-of-the-art methods. The results show that CHASE achieves the average performance gain up to 36.2%(A@1) and 29.4%(Percentage@1), respectively to its best counterpart.
翻訳日:2024-07-01 17:29:51 公開日:2024-06-28
# 凸ハル解析による大言語モデルの不確かさの定量化

Uncertainty Quantification in Large Language Models Through Convex Hull Analysis ( http://arxiv.org/abs/2406.19712v1 )

ライセンス: Link先を確認
Ferhat Ozgur Catak, Murat Kuzlu, (参考訳) 不確かさの定量化アプローチは、大規模言語モデル(LLM)、特に信頼性の高い出力を必要とする高リスクアプリケーションにおいてより重要になっている。 しかし、確率モデルやアンサンブル手法のような従来の不確実性定量化手法は、LLM生成出力の複雑で高次元的な性質に適用した場合、課題に直面している。 本研究では凸船体解析を用いた不確実性定量化のための新しい幾何学的手法を提案する。 提案手法は, 応答埋め込みの空間特性を利用して, モデル出力の分散と可変性を計測する。 プロンプトは「easy」、「moderate」、そして「confusing」の3つのタイプに分類され、異なるLLMを用いて異なる温度設定で複数の応答を生成する。 応答はBERTモデルを介して高次元埋め込みに変換され、その後主成分分析(PCA)を用いて二次元空間に投影される。 密度に基づくノイズ付きアプリケーションの空間クラスタリング(DBSCAN)アルゴリズムを用いて、埋め込みをクラスタ化し、選択したクラスタ毎に凸殻を計算する。 実験結果から, LLMのモデルの不確実性は, 迅速な複雑性, モデル, 温度設定に依存することが明らかとなった。

Uncertainty quantification approaches have been more critical in large language models (LLMs), particularly high-risk applications requiring reliable outputs. However, traditional methods for uncertainty quantification, such as probabilistic models and ensemble techniques, face challenges when applied to the complex and high-dimensional nature of LLM-generated outputs. This study proposes a novel geometric approach to uncertainty quantification using convex hull analysis. The proposed method leverages the spatial properties of response embeddings to measure the dispersion and variability of model outputs. The prompts are categorized into three types, i.e., `easy', `moderate', and `confusing', to generate multiple responses using different LLMs at varying temperature settings. The responses are transformed into high-dimensional embeddings via a BERT model and subsequently projected into a two-dimensional space using Principal Component Analysis (PCA). The Density-Based Spatial Clustering of Applications with Noise (DBSCAN) algorithm is utilized to cluster the embeddings and compute the convex hull for each selected cluster. The experimental results indicate that the uncertainty of the model for LLMs depends on the prompt complexity, the model, and the temperature setting.
翻訳日:2024-07-01 17:29:51 公開日:2024-06-28
# 弦網モデルの有限温度特性

Finite-temperature properties of string-net models ( http://arxiv.org/abs/2406.19713v1 )

ライセンス: Link先を確認
Anna Ritz-Zwilling, Jean-Noël Fuchs, Steven H. Simon, Julien Vidal, (参考訳) 我々は,各プラケット励起に異なるエネルギーコストを割り当てる文字列ネットモデルの洗練されたバージョンを考える。 最近のエネルギーレベルの縮退の正確な計算を用いて、このモデルの分割関数を計算し、いくつかの熱力学量を調べる。 熱力学の限界において、分配関数は純粋フラックスロンと呼ばれる特別な粒子の寄与によって支配されることを示す。 また、励起に付随するウェグナー・ウィルソンループの挙動を解析し、領域法則に従うことを示す。 最後に、最近提案された予想を用いて、系のサイズと温度の間の非自明なスケーリングを特徴とする位相的相互情報を有限温度で計算する。

We consider a refined version of the string-net model which assigns a different energy cost to each plaquette excitation. Using recent exact calculations of the energy-level degeneracies we compute the partition function of this model and investigate several thermodynamical quantities. In the thermodynamic limit, we show that the partition function is dominated by the contribution of special particles, dubbed pure fluxons, which trivially braid with all other (product of) fluxons. We also analyze the behavior of Wegner-Wilson loops associated to excitations and show that they obey an area law, indicating confinement, for any finite temperature except for pure fluxons that always remain deconfined. Finally, using a recently proposed conjecture, we compute the topological mutual information at finite temperature, which features a nontrivial scaling between system size and temperature.
翻訳日:2024-07-01 17:29:51 公開日:2024-06-28
# 適応型アクティブオートマタ学習における状態マッチングと多重参照

State Matching and Multiple References in Adaptive Active Automata Learning ( http://arxiv.org/abs/2406.19714v1 )

ライセンス: Link先を確認
Loes Kruger, Sebastian Junges, Jurriaan Rot, (参考訳) アクティブオートマタ学習(アクティブオートマタラーニング、英: Active Automatica Learning、AAL)は、ブラックボックスシステムと相互作用して状態マシンを推論する手法である。 Adaptive AALは、ドメイン固有の知識を(類似した)参照モデルに組み込むことによって、AALのサンプルの複雑さを低減することを目的としている。 このような参照モデルは、ソフトウェアシステムの複数のバージョンや変種を学ぶときに自然に現れる。 本稿では,これらの参照モデルの構造を学習者によって柔軟に活用できる状態マッチングを提案する。 状態マッチングは、適応学習のための新しいフレームワークであるアダプティブL#の主要な要素であり、L#の上に構築されている。 我々の経験的評価は、適応的なL#が最先端を最大2桁改善することを示している。

Active automata learning (AAL) is a method to infer state machines by interacting with black-box systems. Adaptive AAL aims to reduce the sample complexity of AAL by incorporating domain specific knowledge in the form of (similar) reference models. Such reference models appear naturally when learning multiple versions or variants of a software system. In this paper, we present state matching, which allows flexible use of the structure of these reference models by the learner. State matching is the main ingredient of adaptive L#, a novel framework for adaptive learning, built on top of L#. Our empirical evaluation shows that adaptive L# improves the state of the art by up to two orders of magnitude.
翻訳日:2024-07-01 17:29:51 公開日:2024-06-28
# CUPID:再試合システムによるオンラインMOBAゲームにおけるバトルフェアネスとポジション満足度の改善

CUPID: Improving Battle Fairness and Position Satisfaction in Online MOBA Games with a Re-matchmaking System ( http://arxiv.org/abs/2406.19720v1 )

ライセンス: Link先を確認
Ge Fan, Chaoyun Zhang, Kai Wang, Yingjie Li, Junyang Chen, Zenglin Xu, (参考訳) マルチプレイヤーオンラインバトルアリーナ(MOBA)ジャンルは、ヒューマン・コンピュータ・インタラクション・コミュニティ内でかなりの研究関心を集め、大きな人気と経済的成功をもたらした。 ゲーム体験の強化には、プレイヤーの振る舞いの深い理解が必要であり、MOBAゲームの重要な側面は、同等のスキルレベルのチームを組み立てることを目的としたマッチメイキングである。 しかし、既存のマッチメイキングシステムはプレイヤーの位置選好やチームの割り当てといった重要な要素を無視し、不均衡な試合とプレイヤーの満足度を低下させる。 このような制約に対処するため,本論文では,チームとポジションの割り当てを最適化し,公平さと選手の満足度を両立させる,CUPIDと呼ばれる新しいフレームワークを提案する。 CUPIDは、マッチング品質の最小レベルを確保するために、事前フィルタリングステップを組み込んだ後、潜在的な割り当ての公平性を評価する事前マッチの勝利率予測モデルが続く。 プレイヤーの位置満足度とゲームフェアネスを同時に考慮することで、CUPIDはより高度なマッチメイキング体験を提供することを目指している。 CUPIDの有効性を検証するために、2つの大規模な実世界のMOBAデータセットで大規模な実験を行った。 結果は既存の最先端のベースラインを抜いて、勝利予測精度の平均相対的な改善は7.18%である。 さらに、CUPIDは人気のあるオンラインモバイルMOBAゲームにうまくデプロイされている。 この展開は、A/Bテストを通じて観察されたユーザビリティ、アクセシビリティ、エンゲージメントに関する人-コンピュータインタラクション(HCI)の重要な指標によって証明されたように、マッチフェアネスとプレイヤーの満足度を大幅に改善した。 我々の知る限りでは、CUPIDは大規模なMOBAゲーム用に特別に設計された最初の再マッチングシステムである。

The multiplayer online battle arena (MOBA) genre has gained significant popularity and economic success, attracting considerable research interest within the Human-Computer Interaction community. Enhancing the gaming experience requires a deep understanding of player behavior, and a crucial aspect of MOBA games is matchmaking, which aims to assemble teams of comparable skill levels. However, existing matchmaking systems often neglect important factors such as players' position preferences and team assignment, resulting in imbalanced matches and reduced player satisfaction. To address these limitations, this paper proposes a novel framework called CUPID, which introduces a novel process called ``re-matchmaking'' to optimize team and position assignments to improve both fairness and player satisfaction. CUPID incorporates a pre-filtering step to ensure a minimum level of matchmaking quality, followed by a pre-match win-rate prediction model that evaluates the fairness of potential assignments. By simultaneously considering players' position satisfaction and game fairness, CUPID aims to provide an enhanced matchmaking experience. Extensive experiments were conducted on two large-scale, real-world MOBA datasets to validate the effectiveness of CUPID. The results surpass all existing state-of-the-art baselines, with an average relative improvement of 7.18% in terms of win prediction accuracy. Furthermore, CUPID has been successfully deployed in a popular online mobile MOBA game. The deployment resulted in significant improvements in match fairness and player satisfaction, as evidenced by critical Human-Computer Interaction (HCI) metrics covering usability, accessibility, and engagement, observed through A/B testing. To the best of our knowledge, CUPID is the first re-matchmaking system designed specifically for large-scale MOBA games.
翻訳日:2024-07-01 17:29:51 公開日:2024-06-28
# ランダム積分を用いた特殊ベイズガウスコックス過程

Exact Bayesian Gaussian Cox Processes Using Random Integral ( http://arxiv.org/abs/2406.19722v1 )

ライセンス: Link先を確認
Bingjing Tang, Julia Palacios, (参考訳) ガウスコックス過程は点過程データの一般的なモデルであり、強度関数はガウス過程の変換である。 この強度関数の後方推論は、二重の求心性後分布をもたらす可能性の求心性積分(すなわち累積強度関数)を含む。 本稿では,不均一なポアソン過程の強度関数を,大容量データ増大や近似に依存することなく推定する非パラメトリックベイズアプローチを提案する。 本稿では, 累積強度関数を変換したガウス過程として, 累積強度関数および累積強度関数を共同でモデル化し, 累積強度関数を近似する必要性を直接回避することを提案する。 後部推論のための正確なMCMCサンプリング手法を提案し,その性能をシミュレーションデータで評価する。 我々は,時間的・空間的な事象データや,複数の解像度で収集した時系列データを含む実世界の3つのシナリオにおいて,本手法の有用性を実証する。 最後に,提案手法の他の点への拡張について述べる。

A Gaussian Cox process is a popular model for point process data, in which the intensity function is a transformation of a Gaussian process. Posterior inference of this intensity function involves an intractable integral (i.e., the cumulative intensity function) in the likelihood resulting in doubly intractable posterior distribution. Here, we propose a nonparametric Bayesian approach for estimating the intensity function of an inhomogeneous Poisson process without reliance on large data augmentation or approximations of the likelihood function. We propose to jointly model the intensity and the cumulative intensity function as a transformed Gaussian process, allowing us to directly bypass the need of approximating the cumulative intensity function in the likelihood. We propose an exact MCMC sampler for posterior inference and evaluate its performance on simulated data. We demonstrate the utility of our method in three real-world scenarios including temporal and spatial event data, as well as aggregated time count data collected at multiple resolutions. Finally, we discuss extensions of our proposed method to other point processes.
翻訳日:2024-07-01 17:29:51 公開日:2024-06-28
# EPOCH:カメラと人間の3Dマップを共同で推定

EPOCH: Jointly Estimating the 3D Pose of Cameras and Humans ( http://arxiv.org/abs/2406.19726v1 )

ライセンス: Link先を確認
Nicola Garau, Giulia Martinelli, Niccolò Bisagno, Denis Tomè, Carsten Stoll, (参考訳) HPE (Monocular Human Pose Estimation) は、カメラが捉えた単一の2D画像から、人間の関節の3D位置を決定することを目的としている。 しかし、画像内の1つの2Dポイントは、3D空間内の複数のポイントに対応しているかもしれない。 通常、2D-3D関係の特異性は、直観的または弱視的カメラモデルを用いて近似される。 本研究では,近似に頼らず,全視点カメラモデルの利用を提唱する。 これには、カメラパラメータを推定し、正確な2D-3D関係を確立することが含まれる。 そこで本研究では,ポーズリフタネットワーク(LiftNet)とポーズレグレッタネットワーク(RegNet)の2つの主要コンポーネントからなるEPOCHフレームワークを紹介する。 LiftNetは、フルパースペクティブカメラモデルを使用して、教師なしの方法で3Dポーズを正確に推定する。 2Dポーズとカメラパラメータを入力として、対応する3Dポーズ推定を生成する。 これらの入力は、単一のイメージから始まり、2Dポーズとカメラパラメータの見積もりを提供するRegNetから得られる。 RegNetは、弱い監視として2Dポーズデータのみを使用する。 内部的には、RegNetは3Dのポーズを予測し、推定カメラパラメータを使って2Dに投影する。 このプロセスにより、RegNetは曖昧な2D-3D関係を確立することができる。 本実験により,リフティングをループ内カメラを用いた教師なしタスクとしてモデル化することにより,未確認データへのより優れた一般化が得られた。 我々はHuman3.6MとMPI-INF-3DHPデータセットの3D HPEの最先端結果を得た。 私たちのコードは以下の通りです。

Monocular Human Pose Estimation (HPE) aims at determining the 3D positions of human joints from a single 2D image captured by a camera. However, a single 2D point in the image may correspond to multiple points in 3D space. Typically, the uniqueness of the 2D-3D relationship is approximated using an orthographic or weak-perspective camera model. In this study, instead of relying on approximations, we advocate for utilizing the full perspective camera model. This involves estimating camera parameters and establishing a precise, unambiguous 2D-3D relationship. To do so, we introduce the EPOCH framework, comprising two main components: the pose lifter network (LiftNet) and the pose regressor network (RegNet). LiftNet utilizes the full perspective camera model to precisely estimate the 3D pose in an unsupervised manner. It takes a 2D pose and camera parameters as inputs and produces the corresponding 3D pose estimation. These inputs are obtained from RegNet, which starts from a single image and provides estimates for the 2D pose and camera parameters. RegNet utilizes only 2D pose data as weak supervision. Internally, RegNet predicts a 3D pose, which is then projected to 2D using the estimated camera parameters. This process enables RegNet to establish the unambiguous 2D-3D relationship. Our experiments show that modeling the lifting as an unsupervised task with a camera in-the-loop results in better generalization to unseen data. We obtain state-of-the-art results for the 3D HPE on the Human3.6M and MPI-INF-3DHP datasets. Our code is available at: [Github link upon acceptance, see supplementary materials].
翻訳日:2024-07-01 17:29:51 公開日:2024-06-28
# ファミーユの意識 : モットの母子関係の分析

Le sens de la famille : analyse du vocabulaire de la parent{é} par les plongements de mots ( http://arxiv.org/abs/2406.19729v1 )

ライセンス: Link先を確認
Ludovic Tanguy, Cécile Fabre, Nabil Hathout, Lydia-Mai Ho-Dac, (参考訳) 本研究では, 家族関係の語彙として, 密度が高く, 高度に構造化された, フランスのレキシコンの領域のコーパス解析を提案する。 主関係(子、従兄弟、母、祖父、義理の姉妹など)を表す25の名詞の辞書から始め、コーパスにおけるこれらの用語の使用に基づく分布解析を通して、これらの用語が相互にどのように位置づけられているかを検討する。 分布情報は,この語彙を構成する特定の特徴(未成年者,同盟者,兄弟姉妹,ジャンル)を,比較したコーパスによって異なる方法で捉えることができることを示す。

In this study, we propose a corpus analysis of an area of the French lexicon that is both dense and highly structured: the vocabulary of family relationships. Starting with a lexicon of 25 nouns designating the main relationships (son, cousin, mother, grandfather, sister-in-law etc.), we examine how these terms are positioned in relation to each other through distributional analyses based on the use of these terms in corpora. We show that distributional information can capture certain features that organize this vocabulary (descent, alliance, siblings, genre), in ways that vary according to the different corpora compared.
翻訳日:2024-07-01 17:29:51 公開日:2024-06-28
# 量子化によるセキュアな投票プロトコル

Quantum-Enhanced Secure Approval Voting Protocol ( http://arxiv.org/abs/2406.19730v1 )

ライセンス: Link先を確認
Saiyam Sakhuja, S. Balakrishnan, (参考訳) 選挙が社会のあらゆる面に触れる世界では、安全な投票の必要性が最重要である。 古典的な暗号に基づく従来のセーフガードは、大量の因子を分解するといった複雑な数学の問題に依存している。 しかし、量子コンピューティングはゲームを変えつつある。 量子技術の最近の進歩は、古典的な暗号手法が、私たちが思ったほど安全でないことを示唆している。 本稿では、量子投票プロトコル、量子原理(絡み合いと重ね合わせ)、ブロックチェーン技術、およびデジタル署名を組み合わせて、すべて$\log_2{n}$ qubitsで実現し、n人の候補者による承認投票のために設計された。 その結果、セキュリティ機能 – バインディング、匿名性、非再利用性、妥当性、適性、公正性 – のシンフォニーが、新たな投票セキュリティコースをグラフ化した。 IBMの量子ハードウェア上でこのプロトコルをテストしたところ、実世界のベコンは4回の選挙でわずか1.17%という驚くほど低いエラー率を達成した。

In a world where elections touch every aspect of society, the need for secure voting is paramount. Traditional safeguards, based on classical cryptography, rely on complex math problems like factoring large numbers. However, quantum computing is changing the game. Recent advances in quantum technology suggest that classical cryptographic methods may not be as secure as we thought. This paper introduces a quantum voting protocol, a blend of quantum principles (entanglement and superposition), blockchain technology, and digital signatures, all powered by $\log_2{n}$ qubits, and designed for approval voting with n candidates. The result is a symphony of security features - binding, anonymity, non-reusability, verifiability, eligibility, and fairness - that chart a new course for voting security. The real world beckons, as we tested this protocol on IBM quantum hardware, achieving impressively low error rates of just 1.17% in a four-candidate election.
翻訳日:2024-07-01 17:29:51 公開日:2024-06-28
# トロイシ{è}me型に関するメッセージ : インプット・ディアン・ティアス・ダン・アン・ダイアログ・アン・リグン

Message du troisi{è}me type : irruption d'un tiers dans un dialogue en ligne ( http://arxiv.org/abs/2406.19731v1 )

ライセンス: Link先を確認
Ludovic Tanguy, Céline Poudat, Lydia-Mai Ho-Dac, (参考訳) 本研究は,オンラインインタラクションにおけるコントリビュータの行動を分析するグローバルな視点から,ウィキペディアのトークページに焦点を当てた。 フランス語のすべてのウィキペディアの講演ページからなるコーパスを用いて,300,000以上の議論スレッドを用いて,2人以上の参加者(複数者の会話)との議論がどのように展開されるかを検討するとともに,すでに2人のウィキペディアの参加者が交流を始めた場合に,第三者の介入が果たす役割について検討する。 本論では,これらの相互作用の逐次的構造を,異なる参加者間の調音の観点から集中させ,その語彙的特異性を探究し,第3の参加者のメッセージの役割と先行するメッセージとの整合性について,初期タイプロジを提案しながら,この第3のメッセージを特定することを目的とする。

Our study focuses on Wikipedia talk pages, from a global perspective analyzing contributors' behaviors in online interactions. Using a corpus comprising all Wikipedia talk pages in French, totaling more than 300,000 discussion threads, we examine how discussions with more than two participants (multiparty conversation) unfold and we specifically investigate the role of a third participant's intervention when two Wikipedians have already initiated an exchange. In this regard, we concentrate on the sequential structure of these interactions in terms of articulation among different participants and aim to specify this third message by exploring its lexical particularities, while also proposing an initial typology of the third participant's message role and how it aligns with preceding messages.
翻訳日:2024-07-01 17:29:51 公開日:2024-06-28
# MM-インストラクション:大規模マルチモーダルモデルアライメントのためのビジュアルインストラクションの生成

MM-Instruct: Generated Visual Instructions for Large Multimodal Model Alignment ( http://arxiv.org/abs/2406.19736v1 )

ライセンス: Link先を確認
Jihao Liu, Xin Huang, Jinliang Zheng, Boxiao Liu, Jia Wang, Osamu Yoshie, Yu Liu, Hongsheng Li, (参考訳) 本稿では,大規模マルチモーダルモデル(LMM)の命令追従能力を高めるために,多種多様な高品質な視覚的命令データの大規模データセットであるMM-Instructを紹介する。 既存のビジュアルインストラクションデータセットは、しばしば質問回答に焦点を当てるが、クリエイティブな記述や要約、イメージ分析といった、より広範なアプリケーションシナリオへの一般化に苦慮している。 これらの制約に対処するために,既存のLLMの強力な命令追従機能を活用して,大規模だが従来型の画像キャプションデータセットから新たな視覚的命令データを生成するMM-インストラクトの構築手法を提案する。 MM-InstructはまずChatGPTを利用して、拡張と要約を通じて、小さなシード命令セットから多様な命令を自動的に生成する。 次に、これらの命令をイメージとマッチングし、オープンソースの大言語モデル(LLM)を使用して、命令-イメージペアに対する一貫性のある回答を生成する。 LLMは、全回答生成プロセスにおける画像の詳細なテキスト記述により、命令データのアライメントを保証する。 さらに、既存のLMMの命令追従能力を評価するために、生成された命令データに基づくベンチマークを導入する。 LLaVA-1.5モデルに対して,LLaVA-1.5モデルに対するMM-Instructの有効性を示す。 MM-Instructのデータセット、ベンチマーク、事前トレーニングされたモデルはhttps://github.com/jihaonew/MM-Instructで入手できる。

This paper introduces MM-Instruct, a large-scale dataset of diverse and high-quality visual instruction data designed to enhance the instruction-following capabilities of large multimodal models (LMMs). While existing visual instruction datasets often focus on question-answering, they struggle to generalize to broader application scenarios such as creative writing, summarization, or image analysis. To address these limitations, we propose a novel approach to constructing MM-Instruct that leverages the strong instruction-following capabilities of existing LLMs to generate novel visual instruction data from large-scale but conventional image captioning datasets. MM-Instruct first leverages ChatGPT to automatically generate diverse instructions from a small set of seed instructions through augmenting and summarization. It then matches these instructions with images and uses an open-sourced large language model (LLM) to generate coherent answers to the instruction-image pairs. The LLM is grounded by the detailed text descriptions of images in the whole answer generation process to guarantee the alignment of the instruction data. Moreover, we introduce a benchmark based on the generated instruction data to evaluate the instruction-following capabilities of existing LMMs. We demonstrate the effectiveness of MM-Instruct by training a LLaVA-1.5 model on the generated data, denoted as LLaVA-Instruct, which exhibits significant improvements in instruction-following capabilities compared to LLaVA-1.5 models. The MM-Instruct dataset, benchmark, and pre-trained models are available at https://github.com/jihaonew/MM-Instruct.
翻訳日:2024-07-01 17:29:51 公開日:2024-06-28
# パラメータ化量子状態における絡み合い検出のための古典的帯域幅アルゴリズム

Classical Bandit Algorithms for Entanglement Detection in Parameterized Qubit States ( http://arxiv.org/abs/2406.19738v1 )

ライセンス: Link先を確認
Bharati. K, Vikesh Siddhu, Krishna Jagannathan, (参考訳) 絡み合い(Entanglement)は、量子情報とコンピューティングにおける幅広いタスクの鍵となるリソースである。 したがって、この量子資源の有効性を検証することが不可欠である。 エンタングルメント検出に関する広範囲にわたる研究は、適応的あるいは関節的測定のない状態でのフルステートトモグラフィ(FST)の必要性を強調するノーゴー定理(Lu et al [Phys. Lett. 116, 230501 (2016)])を導いた。 Zhu, Teo, and Englert [Phys. Rev. A, 81, 052339, 2010] が提唱した最近の進歩は、特定の絡み合った状態を確定的に検出し、すべての観測結果が不確定な場合にのみFSTに頼ることのできる、単一パラメータの絡み合った観測者群を導入している。 我々は、この証人族の下で決定的な結果をもたらす様々な現実的な2量子ビット量子状態 $\mathcal{F}$ を見つける。 我々は、$K$量子状態間の絡み合いを検出する問題を$\mathcal{F}$で解決し、$m$状態が絡み合っていて、潜在的に$m$が未知である。 我々は、確率的マルチアーマッドバンド(MAB)におけるバッドアーム同定問題とこの問題の構造的関連性を認識する。 既存の量子バンディットフレームワークとは対照的に、絡み検出に適した新しい対応を確立し、それを$(m,K)$-quantum Multi-Armed Banditと呼ぶ。 我々は、$\mathcal{F}$から導かれる任意の状態に対する2つのよく知られたMABポリシーを実装し、測定/サンプルの複雑さに関する理論的保証を示し、数値シミュレーションによるポリシーの実用性を実証する。 より広範に、量子絡み検出に古典的な機械学習技術を用いる可能性を強調した。

Entanglement is a key resource for a wide range of tasks in quantum information and computing. Thus, verifying availability of this quantum resource is essential. Extensive research on entanglement detection has led to no-go theorems (Lu et al. [Phys. Rev. Lett., 116, 230501 (2016)]) that highlight the need for full state tomography (FST) in the absence of adaptive or joint measurements. Recent advancements, as proposed by Zhu, Teo, and Englert [Phys. Rev. A, 81, 052339, 2010], introduce a single-parameter family of entanglement witness measurements which are capable of conclusively detecting certain entangled states and only resort to FST when all witness measurements are inconclusive. We find a variety of realistic noisy two-qubit quantum states $\mathcal{F}$ that yield conclusive results under this witness family. We solve the problem of detecting entanglement among $K$ quantum states in $\mathcal{F}$, of which $m$ states are entangled, with $m$ potentially unknown. We recognize a structural connection of this problem to the Bad Arm Identification problem in stochastic Multi-Armed Bandits (MAB). In contrast to existing quantum bandit frameworks, we establish a new correspondence tailored for entanglement detection and term it the $(m,K)$-quantum Multi-Armed Bandit. We implement two well-known MAB policies for arbitrary states derived from $\mathcal{F}$, present theoretical guarantees on the measurement/sample complexity and demonstrate the practicality of the policies through numerical simulations. More broadly, this paper highlights the potential for employing classical machine learning techniques for quantum entanglement detection.
翻訳日:2024-07-01 17:20:03 公開日:2024-06-28
# ROS-LLM:タスクフィードバックと構造化推論を備えたAI具体化のためのROSフレームワーク

ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning ( http://arxiv.org/abs/2406.19741v1 )

ライセンス: Link先を確認
Christopher E. Mower, Yuhui Wan, Hongzhan Yu, Antoine Grosnit, Jonas Gonzalez-Billandon, Matthieu Zimmer, Jinlong Wang, Xinyu Zhang, Yao Zhao, Anbang Zhai, Puze Liu, Davide Tateo, Cesar Cadena, Marco Hutter, Jan Peters, Guangjian Tian, Yuzheng Zhuang, Kun Shao, Xingyue Quan, Jianye Hao, Jun Wang, Haitham Bou-Ammar, (参考訳) 本稿では,ロボットオペレーティング・システム(ROS)の自然言語プロンプトと文脈情報を活用する,非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。 我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。 フレームワークの主な特徴は、オープンソースのLLMと接続されたAIエージェントとのROSの統合、LLM出力からの行動の自動抽出、ROSアクション/サービスの実行、3つの動作モード(シーケンス、行動ツリー、状態マシン)のサポート、可能なアクションのライブラリに新しいロボットアクションを追加する模倣学習、人間と環境のフィードバックによるLCMリフレクションである。 大規模な実験により、長期のタスク、テーブルトップの再配置、リモート監視制御など、さまざまなシナリオにおける堅牢性、スケーラビリティ、汎用性を示すフレームワークが検証された。 フレームワークの採用を容易にし、その結果の再現をサポートするため、コードをオープンソースにしました。 https://github.com/huawei-noah/HEBO/tree/master/ROSLLM

We present a framework for intuitive robot programming by non-experts, leveraging natural language prompts and contextual information from the Robot Operating System (ROS). Our system integrates large language models (LLMs), enabling non-experts to articulate task requirements to the system through a chat interface. Key features of the framework include: integration of ROS with an AI agent connected to a plethora of open-source and commercial LLMs, automatic extraction of a behavior from the LLM output and execution of ROS actions/services, support for three behavior modes (sequence, behavior tree, state machine), imitation learning for adding new robot actions to the library of possible actions, and LLM reflection via human and environment feedback. Extensive experiments validate the framework, showcasing robustness, scalability, and versatility in diverse scenarios, including long-horizon tasks, tabletop rearrangements, and remote supervisory control. To facilitate the adoption of our framework and support the reproduction of our results, we have made our code open-source. You can access it at: https://github.com/huawei-noah/HEBO/tree/master/ROSLLM.
翻訳日:2024-07-01 17:20:03 公開日:2024-06-28
# SPIRONet: 容器セグメンテーションのための空間周波数学習とトポロジカルチャネルインタラクションネットワーク

SPIRONet: Spatial-Frequency Learning and Topological Channel Interaction Network for Vessel Segmentation ( http://arxiv.org/abs/2406.19749v1 )

ライセンス: Link先を確認
De-Xing Huang, Xiao-Hu Zhou, Xiao-Liang Xie, Shi-Qi Liu, Shuang-Yi Wang, Zhen-Qiu Feng, Mei-Jiang Gui, Hao Li, Tian-Yu Xiang, Bo-Xian Yao, Zeng-Guang Hou, (参考訳) 船舶の自動セグメンテーションは、次世代の干渉航法システムを開発する上で最重要課題である。 しかし, 術中画像(低信号-雑音比, 小型血管, 細い血管, 強い干渉)の重大な問題により, 現在のアプローチは, 最適セグメンテーション性能に悩まされている。 本稿では,空間周波数学習とトポロジカルチャネル相互作用ネットワーク(SPIRONet)を提案する。 具体的には、デュアルエンコーダを使用して、局所的な空間的および大域的な周波数容器の特徴を包括的にキャプチャする。 そして、空間的特徴と周波数的特徴を効果的に融合させ、特徴識別性を高めるために、クロスアテンション融合モジュールを導入する。 さらに、トポロジカルチャネル相互作用モジュールは、グラフニューラルネットワークに基づいてタスク非関連応答をフィルタリングするように設計されている。 いくつかの挑戦的データセット(CADSA, CAXF, DCA1, XCAD)の大規模な実験結果から,本手法の最先端性能が示された。 さらに、SPIRONetの推論速度は512x512入力サイズで21FPSであり、臨床リアルタイム要件(6〜12FPS)を超えている。 これらの有望な結果は、SPIRONetが血管介入ナビゲーションシステムに統合される可能性を示している。 コードはhttps://github.com/Dxhuang-CASIA/SPIRONetで入手できる。

Automatic vessel segmentation is paramount for developing next-generation interventional navigation systems. However, current approaches suffer from suboptimal segmentation performances due to significant challenges in intraoperative images (i.e., low signal-to-noise ratio, small or slender vessels, and strong interference). In this paper, a novel spatial-frequency learning and topological channel interaction network (SPIRONet) is proposed to address the above issues. Specifically, dual encoders are utilized to comprehensively capture local spatial and global frequency vessel features. Then, a cross-attention fusion module is introduced to effectively fuse spatial and frequency features, thereby enhancing feature discriminability. Furthermore, a topological channel interaction module is designed to filter out task-irrelevant responses based on graph neural networks. Extensive experimental results on several challenging datasets (CADSA, CAXF, DCA1, and XCAD) demonstrate state-of-the-art performances of our method. Moreover, the inference speed of SPIRONet is 21 FPS with a 512x512 input size, surpassing clinical real-time requirements (6~12FPS). These promising outcomes indicate SPIRONet's potential for integration into vascular interventional navigation systems. Code is available at https://github.com/Dxhuang-CASIA/SPIRONet.
翻訳日:2024-07-01 17:20:03 公開日:2024-06-28
# 進行波ジョセフソンデバイスにおける逆伝搬信号の混合

Mixing of counterpropagating signals in a traveling-wave Josephson device ( http://arxiv.org/abs/2406.19751v1 )

ライセンス: Link先を確認
Matthieu Praquin, Vincent Lienhard, Anthony Giraudo, Aron Vanselow, Zaki Leghtas, Philippe Campagne-Ibarcq, (参考訳) 光波は真空中では相互作用しないが、非線形媒質中を移動する際に様々なパラメトリック過程を通して混合することがある。 特に、相互作用する光子の総エネルギーと運動量が保存されている限り、高振幅波を利用して低振幅信号を周波数変換することができる。 これらの条件は通常、全ての波が特定の軸に沿って同じ位相速度で媒質中に伝播するときに満たされる。 本研究では,1次元ジョセフソンメタマテリアルに沿って伝搬する入力マイクロ波信号を反対方向に伝搬する出力波に変換する方式について検討する。 相互作用は低相速度で伝播するポンプ波によって媒介される。 この新しい状態において、入力信号はデバイスを下るときに指数関数的に減衰する。 我々は、このプロセスを利用して、相互に調整可能なカップラに再構成できる堅牢なオンチップマイクロ波アイソレータを実装する。 動作モードは、広帯域での動作周波数とともに、その場で選択される。 5.5-8.5GHz帯では、100MHzの典型的な帯域で15dB以上のアイソレータを計測する。 改良のための実質的マージンは、設計最適化と製造障害の低減を通じて存在し、超伝導回路におけるマイクロ波ルーティングと処理のための新たな道を開く。

Light waves do not interact in vacuum, but may mix through various parametric processes when traveling in a nonlinear medium. In particular, a high-amplitude wave can be leveraged to frequency convert a low-amplitude signal, as long as the overall energy and momentum of interacting photons are conserved. These conditions are typically met when all waves propagate in the medium with identical phase velocity along a particular axis. In this work, we investigate an alternative scheme by which an input microwave signal propagating along a 1-dimensional Josephson metamaterial is converted to an output wave propagating in the opposite direction. The interaction is mediated by a pump wave propagating at low phase velocity. In this novel regime, the input signal is exponentially attenuated as it travels down the device. We exploit this process to implement a robust on-chip microwave isolator that can be reconfigured into a reciprocal and tunable coupler. The device mode of operation is selected in situ, along with its working frequency over a wide microwave range. In the 5.5-8.5 GHz range, we measure an isolation over 15 dB on a typical bandwidth of 100 MHz, on par with the best existing on-chip isolators. Substantial margin for improvement exists through design optimization and by reducing fabrication disorder, opening new avenues for microwave routing and processing in superconducting circuits.
翻訳日:2024-07-01 17:20:03 公開日:2024-06-28
# 進行波パラメトリック増幅器アイソレータ

A Traveling Wave Parametric Amplifier Isolator ( http://arxiv.org/abs/2406.19752v1 )

ライセンス: Link先を確認
Arpit Ranadive, Bekim Fazliji, Gwenael Le Gal, Giulio Cappelli, Guilliam Butseraen, Edgar Bonet, Eric Eyraud, Sina Böhling, Luca Planat, A. Metelmann, Nicolas Roch, (参考訳) 超伝導進行波パラメトリック増幅器はマイクロ波信号のほぼ量子制限ブロードバンド増幅のための高い有望なデバイスとして登場し、高量子効率マイクロ波リードアウト線に必須である。 内蔵された孤立は、入力ポートへの電磁放射の後方移動による真の指向性の欠如に対処する。 ここではジョセフソン接合を用いた移動波パラメトリック増幅器のアイソレータについて述べる。 3階非線形性を利用して増幅し、2階非線形性を利用して後方伝播モードの周波数アップコンバージョンを行い、逆分離を行う。 これらのパラメトリックプロセスは、新しい位相マッチング機構によって強化され、最大20〜dBのゲインを示し、500〜dB以上の静的な3〜dB帯域上で最大30〜dBの逆分離を示す。 このブロードバンド真の指向性増幅器のデモンストレーションは、最終的に、バルク磁気アイソレータを使わずに、バックアクションを阻害したブロードバンド量子制限型マイクロ波増幅線路への道を開く。

Superconducting traveling-wave parametric amplifiers have emerged as highly promising devices for near-quantum-limited broadband amplification of microwave signals and are essential for high quantum-efficiency microwave readout lines. Built-in isolation, as well as gain, would address their primary limitation: lack of true directionality due to potential backward travel of electromagnetic radiation to their input port. Here, we demonstrate a Josephson-junction-based traveling-wave parametric amplifier isolator. It utilizes third-order nonlinearity for amplification and second-order nonlinearity for frequency upconversion of backward propagating modes to provide reverse isolation. These parametric processes, enhanced by a novel phase matching mechanism, exhibit gain of up to 20~dB and reverse isolation of up to 30~dB over a static 3~dB bandwidth greater than 500~MHz, while keeping near-quantum limited added noise. This demonstration of a broadband truly directional amplifier ultimately paves the way towards broadband quantum-limited microwave amplification lines without bulky magnetic isolators and with inhibited back-action.
翻訳日:2024-07-01 17:20:03 公開日:2024-06-28
# プロンプト型連続学習におけるバックドアアタック

Backdoor Attack in Prompt-Based Continual Learning ( http://arxiv.org/abs/2406.19753v1 )

ライセンス: Link先を確認
Trang Nguyen, Anh Tran, Nhat Ho, (参考訳) Promptベースのアプローチは、継続的な学習におけるデータのプライバシ問題に対する最先端のソリューションを提供する。 最先端のパフォーマンスを提供するにもかかわらず、その印象的な記憶能力は二刃の剣になり、プライベートユーザーデータから学習中に注入された有毒な知識を不注意に保持する可能性があるため、セキュリティ上の懸念が高まる。 この知見に従い、本論文では、バックドアアタック(バックドアアタック)という、特定のトリガーが存在するときいつでも、モデルに望ましい敵の標的を追従させるとともに、正常にクリーンなサンプル上で動作させる、継続的な学習を潜在的脅威に晒す。 我々は,段階的な学習者に対するバックドア攻撃の実行における3つの重要な課題を強調し,それに対応するソリューションを提案する。(1) \emph{Transferability}:サロゲートデータセットを使用し,他のサプライヤからのデータにバックドア知識を転送するための迅速な選択を操作する。(2) \emph{Resiliency}: 被害者の静的および動的状態をシミュレートして,過度な漸進的学習プロセスにおいてバックドアトリガが堅牢であることを保証する。(3) \emph{Authenticity}: バイナリクロスエントロピー損失を適用して,バックドアトリガが対向ノイズに陥るのを防ぐ。 さまざまなベンチマークデータセットと継続的な学習者による大規模な実験は、我々の連続したバックドアフレームワークを検証し、最大100\%の攻撃成功率を達成する。

Prompt-based approaches offer a cutting-edge solution to data privacy issues in continual learning, particularly in scenarios involving multiple data suppliers where long-term storage of private user data is prohibited. Despite delivering state-of-the-art performance, its impressive remembering capability can become a double-edged sword, raising security concerns as it might inadvertently retain poisoned knowledge injected during learning from private user data. Following this insight, in this paper, we expose continual learning to a potential threat: backdoor attack, which drives the model to follow a desired adversarial target whenever a specific trigger is present while still performing normally on clean samples. We highlight three critical challenges in executing backdoor attacks on incremental learners and propose corresponding solutions: (1) \emph{Transferability}: We employ a surrogate dataset and manipulate prompt selection to transfer backdoor knowledge to data from other suppliers; (2) \emph{Resiliency}: We simulate static and dynamic states of the victim to ensure the backdoor trigger remains robust during intense incremental learning processes; and (3) \emph{Authenticity}: We apply binary cross-entropy loss as an anti-cheating factor to prevent the backdoor trigger from devolving into adversarial noise. Extensive experiments across various benchmark datasets and continual learners validate our continual backdoor framework, achieving up to $100\%$ attack success rate, with further ablation studies confirming our contributions' effectiveness.
翻訳日:2024-07-01 17:20:03 公開日:2024-06-28
# シーケンス情報埋め込みによるタンパク質表現学習:常により良いパフォーマンスをもたらすか?

Protein Representation Learning with Sequence Information Embedding: Does it Always Lead to a Better Performance? ( http://arxiv.org/abs/2406.19755v1 )

ライセンス: Link先を確認
Yang Tan, Lirong Zheng, Bozitao Zhong, Liang Hong, Bingxin Zhou, (参考訳) 深層学習はタンパク質を研究する上で重要なツールとなっている。 タンパク質構造モデリングの重要性は文献で広く議論されているが、多くの推論タスクのデフォルト操作として、アミノ酸タイプが入力に含まれるのが一般的である。 本研究は, アミノ酸型を組み込んだ構造アライメントタスクによって, 深層学習モデルの表現性向上に寄与しない可能性が示唆された。 そこで本研究では,アミノ酸構造表現のみに基づく局所幾何アライメント手法であるProtLOCAを提案する。 ProtLOCAの有効性を,CATHラベルに基づく独立したテストデータセットを用いたタンパク質対に対するグローバルな構造マッチングタスクを用いて検討した。 本手法は,構造的に整合性のあるタンパク質ドメインとより迅速かつ正確にマッチングすることで,既存の配列および構造に基づく表現学習法より優れる。 さらに、局所構造ペアリングタスクでは、ProtLOCAが初めて、異なる全体構造を持つタンパク質間の共通局所構造をハイライトする有効なソリューションを提供する。 このことは、タンパク質構造を解析して機能を推論する深層学習手法の新たな可能性を示している。

Deep learning has become a crucial tool in studying proteins. While the significance of modeling protein structure has been discussed extensively in the literature, amino acid types are typically included in the input as a default operation for many inference tasks. This study demonstrates with structure alignment task that embedding amino acid types in some cases may not help a deep learning model learn better representation. To this end, we propose ProtLOCA, a local geometry alignment method based solely on amino acid structure representation. The effectiveness of ProtLOCA is examined by a global structure-matching task on protein pairs with an independent test dataset based on CATH labels. Our method outperforms existing sequence- and structure-based representation learning methods by more quickly and accurately matching structurally consistent protein domains. Furthermore, in local structure pairing tasks, ProtLOCA for the first time provides a valid solution to highlight common local structures among proteins with different overall structures but the same function. This suggests a new possibility for using deep learning methods to analyze protein structure to infer function.
翻訳日:2024-07-01 17:20:03 公開日:2024-06-28
# 大規模自己監督型プレトレインによるプローブ誘導のための構造認識世界モデル

Structure-aware World Model for Probe Guidance via Large-scale Self-supervised Pre-train ( http://arxiv.org/abs/2406.19756v1 )

ライセンス: Link先を確認
Haojun Jiang, Meng Li, Zhenguo Sun, Ning Jia, Yu Sun, Shaqi Luo, Shiji Song, Gao Huang, (参考訳) 心の複雑な構造は、心エコー法、特に心エコー画像の取得において大きな課題をもたらす。 心エコー法を成功させるには、二次元平面上の構造と三次元空間における平面間の空間的関係を徹底的に理解する必要がある。 本稿では,心構造を意識した世界モデルを取得するための大規模自己指導型事前学習手法を革新的に提案する。 中心となる革新は、2次元平面上のマスク構造を予測し、3次元空間におけるポーズ変換に基づく別の平面を想像することで構造推論を必要とする自己教師型タスクを構築することである。 大規模プレトレーニングを支援するため,10の標準視界から136万以上の心エコー図と3次元空間的ポーズを収集した。 下流調査指導課題では, 定型的臨床検査74件から0.29万検体を採取し, 定型的な基準視の10点に対して, 事前学習モデルが常に誘導誤差を低減し, 構造認識による事前学習がスキャンに有効であることを実証した。

The complex structure of the heart leads to significant challenges in echocardiography, especially in acquisition cardiac ultrasound images. Successful echocardiography requires a thorough understanding of the structures on the two-dimensional plane and the spatial relationships between planes in three-dimensional space. In this paper, we innovatively propose a large-scale self-supervised pre-training method to acquire a cardiac structure-aware world model. The core innovation lies in constructing a self-supervised task that requires structural inference by predicting masked structures on a 2D plane and imagining another plane based on pose transformation in 3D space. To support large-scale pre-training, we collected over 1.36 million echocardiograms from ten standard views, along with their 3D spatial poses. In the downstream probe guidance task, we demonstrate that our pre-trained model consistently reduces guidance errors across the ten most common standard views on the test set with 0.29 million samples from 74 routine clinical scans, indicating that structure-aware pre-training benefits the scanning.
翻訳日:2024-07-01 17:20:03 公開日:2024-06-28
# 多言語事前学習言語モデルにおけるスクリプトバリアの破断

Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment ( http://arxiv.org/abs/2406.19759v1 )

ライセンス: Link先を確認
Orgest Xhelili, Yihong Liu, Hinrich Schütze, (参考訳) マルチリンガル事前学習モデル (mPLM) は, 言語間移動タスクにおいて顕著な性能を示した。 しかし、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、2つの言語が関連するか、あるいは語彙の一部を共有している場合、転送性能は障害となることが多い。 本稿では,この問題を解決するために翻訳を用いた最近の研究に触発されて,多種多様なスクリプトを用いて言語間の言語間アライメントを改善することを目的とした,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。 私たちは2つのアラル言語グループ、$\textbf{Mediterranean-Amharic-Farsi}$と$\textbf{South+East Asian Languages}$を選択します。 この手法をこれらの言語群に適用し、下流タスクのスペクトルについて広範な実験を行う。 その結果、PPA後のモデルは、英語中心の転送において、元のモデル(あるタスクでは最大50%)より一貫して優れていた。 さらに、翻訳のソースとして英語以外の言語を使う場合、さらに大きな改善が得られます。 コードとモデルは、 \url{https://github.com/cisnlp/Transliteration-PPA}で公開します。

Multilingual pre-trained models (mPLMs) have shown impressive performance on cross-lingual transfer tasks. However, the transfer performance is often hindered when a low-resource target language is written in a different script than the high-resource source language, even though the two languages may be related or share parts of their vocabularies. Inspired by recent work that uses transliteration to address this problem, our paper proposes a transliteration-based post-pretraining alignment (PPA) method aiming to improve the cross-lingual alignment between languages using diverse scripts. We select two areal language groups, $\textbf{Mediterranean-Amharic-Farsi}$ and $\textbf{South+East Asian Languages}$, wherein the languages are mutually influenced but use different scripts. We apply our method to these language groups and conduct extensive experiments on a spectrum of downstream tasks. The results show that after PPA, models consistently outperform the original model (up to 50% for some tasks) in English-centric transfer. In addition, when we use languages other than English as sources in transfer, our method obtains even larger improvements. We will make our code and models publicly available at \url{https://github.com/cisnlp/Transliteration-PPA}.
翻訳日:2024-07-01 17:20:03 公開日:2024-06-28
# 知識誘導型事例再構成による解釈可能な判例検索

Learning Interpretable Legal Case Retrieval via Knowledge-Guided Case Reformulation ( http://arxiv.org/abs/2406.19760v1 )

ライセンス: Link先を確認
Chenlong Deng, Kelong Mao, Zhicheng Dou, (参考訳) 類似事例の開示のための訴訟検索は、司法公正性の維持に不可欠である。 一般的なウェブ検索とは違って、判例検索は、長く、複雑で、高度に専門化された法律文書を処理する。 この領域の既存の手法は、訴訟を正確に理解し、モデル化するために不可欠である法律専門家の知識が組み込まれているのを見落とし、不満足な検索性能をもたらすことが多い。 本稿では,大規模言語モデル(LLM)に基づく法的知識誘導型事例修正手法であるKELLERを紹介する。 犯罪や法律記事に関する専門的な法的知識を取り入れることで、大きな言語モデルにより、事件の本質的な情報を含む犯罪の簡潔なサブファクトに、原訴訟を正確に修正することができる。 2つの判例検索ベンチマークの広範囲な実験は、既存の方法よりもKELLERの複雑な判例クエリにおいて、より優れた検索性能と堅牢性を示す。

Legal case retrieval for sourcing similar cases is critical in upholding judicial fairness. Different from general web search, legal case retrieval involves processing lengthy, complex, and highly specialized legal documents. Existing methods in this domain often overlook the incorporation of legal expert knowledge, which is crucial for accurately understanding and modeling legal cases, leading to unsatisfactory retrieval performance. This paper introduces KELLER, a legal knowledge-guided case reformulation approach based on large language models (LLMs) for effective and interpretable legal case retrieval. By incorporating professional legal knowledge about crimes and law articles, we enable large language models to accurately reformulate the original legal case into concise sub-facts of crimes, which contain the essential information of the case. Extensive experiments on two legal case retrieval benchmarks demonstrate superior retrieval performance and robustness on complex legal case queries of KELLER over existing methods.
翻訳日:2024-07-01 17:20:03 公開日:2024-06-28
# xSemAD:Sequence-to-Sequenceモデルを用いたイベントログにおける説明可能な意味的異常検出

xSemAD: Explainable Semantic Anomaly Detection in Event Logs Using Sequence-to-Sequence Models ( http://arxiv.org/abs/2406.19763v1 )

ライセンス: Link先を確認
Kiran Busch, Timotheus Kampik, Henrik Leopold, (参考訳) イベントログにおける望ましくない振る舞いの識別はプロセスマイニングの重要な側面であり、しばしば異常検出法によって対処される。 従来の異常検出手法は統計的に稀な振る舞いに焦点を合わせ、希少性と望ましくないとの微妙な違いを無視する傾向がある。 意味的異常検出の導入は、意味的逸脱した振る舞いを特定することによって、有望な道を開いた。 この研究は意味的異常検出のギャップに対処し、通常、異常の性質を説明することなく、異常の発生を示す。 我々はxSemADを提案する。xSemADは、シーケンス・ツー・シーケンス・モデルを用いて、純粋な識別を超越し、拡張された説明を提供するアプローチである。 基本的に、我々のアプローチは与えられたプロセスモデルリポジトリから制約を学び、これらの制約が考慮されたイベントログに保持されているかどうかをチェックする。 このアプローチは、望ましくない振る舞いの具体性を理解するのに役立つだけでなく、標的となる修正行動を促進する。 実験により,本手法は既存の意味的異常検出手法よりも優れていることが示された。

The identification of undesirable behavior in event logs is an important aspect of process mining that is often addressed by anomaly detection methods. Traditional anomaly detection methods tend to focus on statistically rare behavior and neglect the subtle difference between rarity and undesirability. The introduction of semantic anomaly detection has opened a promising avenue by identifying semantically deviant behavior. This work addresses a gap in semantic anomaly detection, which typically indicates the occurrence of an anomaly without explaining the nature of the anomaly. We propose xSemAD, an approach that uses a sequence-to-sequence model to go beyond pure identification and provides extended explanations. In essence, our approach learns constraints from a given process model repository and then checks whether these constraints hold in the considered event log. This approach not only helps understand the specifics of the undesired behavior, but also facilitates targeted corrective actions. Our experiments demonstrate that our approach outperforms existing state-of-the-art semantic anomaly detection methods.
翻訳日:2024-07-01 17:20:03 公開日:2024-06-28
# Belief Revision: 大規模言語モデルの適合性

Belief Revision: The Adaptability of Large Language Models Reasoning ( http://arxiv.org/abs/2406.19764v1 )

ライセンス: Link先を確認
Bryan Wilie, Samuel Cahyawijaya, Etsuko Ishii, Junxian He, Pascale Fung, (参考訳) テキストから推論する能力は、現実世界のNLPアプリケーションには不可欠である。 現実のシナリオは、しばしば不完全または進化的なデータを含む。 それに応じて、個人は自分の信念と理解を更新する。 しかし、既存の評価の多くは、言語モデル(LM)が一貫した情報で機能していると仮定している。 本稿では,LMの信念修正能力をテストするための新しいデータセットであるBelief-Rを紹介する。 このタスクは、人間が事前の推論を抑える方法にインスパイアされ、新しく提案されたデルタ推論(\Delta R$)フレームワーク内のLMを評価する。 Belief-Rは、LMによる事前の結論を必要とするシナリオをシミュレートするために設計された前提のシーケンスを特徴としている。 我々は,様々な促進戦略における$\sim$30 LMを評価し,新たな情報に反応して信念を適切に修正するのに苦慮していることがわかった。 さらに、更新に適したモデルは、必要な更新なしにシナリオで過小評価されることが多く、重要なトレードオフが強調される。 これらの洞察は、より信頼性の高いAIシステムへのステップである情報の変更に対するLMの適応性を改善することの重要性を強調している。

The capability to reason from text is crucial for real-world NLP applications. Real-world scenarios often involve incomplete or evolving data. In response, individuals update their beliefs and understandings accordingly. However, most existing evaluations assume that language models (LMs) operate with consistent information. We introduce Belief-R, a new dataset designed to test LMs' belief revision ability when presented with new evidence. Inspired by how humans suppress prior inferences, this task assesses LMs within the newly proposed delta reasoning ($\Delta R$) framework. Belief-R features sequences of premises designed to simulate scenarios where additional information could necessitate prior conclusions drawn by LMs. We evaluate $\sim$30 LMs across diverse prompting strategies and found that LMs generally struggle to appropriately revise their beliefs in response to new information. Further, models adept at updating often underperformed in scenarios without necessary updates, highlighting a critical trade-off. These insights underscore the importance of improving LMs' adaptiveness to changing information, a step toward more reliable AI systems.
翻訳日:2024-07-01 17:20:03 公開日:2024-06-28
# 継続的統合における学習に基づくアプローチの適用に関する体系的文献レビュー

Systematic Literature Review on Application of Learning-based Approaches in Continuous Integration ( http://arxiv.org/abs/2406.19765v1 )

ライセンス: Link先を確認
Ali Kazemi Arani, Triet Huynh Minh Le, Mansooreh Zahedi, M. Ali Babar, (参考訳) コンテキスト: 機械学習(ML)とディープラーニング(DL)は生データを分析して、特定のフェーズにおける貴重な洞察を抽出する。 ソフトウェアプロジェクトにおける継続的プラクティスの台頭は、これらの学習ベースの手法による継続的インテグレーション(CI)の自動化を強調する一方で、そのようなアプローチの採用の増加は、知識の体系化の必要性を浮き彫りにしている。 目的:私たちの目標は、CIドメイン内の学習ベースの方法に関する既存の文献を総合的にレビューし、分析することにあります。 私たちは、CIの文脈において、学習ベースのソリューションにおけるトレーニングフェーズの基本的特性を強調し、文献に記録された様々なテクニックを特定し、分析することに努めます。 方法:52の初等研究を含む体系的文献レビュー(SLR)を行った。 統計的および数学的な分析を通じて,CIタスクと学習ベース方法論の学習フェーズの相関関係を,データ工学から評価指標までの範囲で検討した。 結果:本論文では,学習手法を用いたCIタスクの自動化について分析する。 我々は、9種類のデータソース、データ準備の4つのステップ、4つの特徴タイプ、9つのデータ特徴のサブセット、ハイパーパラメータ選択とチューニングのための5つのアプローチ、および15の評価指標を特定し、分析する。 さらに、採用されている最新の技術、CIタスク自動化における既存のギャップ、利用した学習技術の特徴についても論じる。 結論:本研究では、CIにおける学習ベースの手法に関する包括的な概要を提供し、CIタスク自動化を開発する研究者や実践者に貴重な洞察を提供する。 さらに、これらの手法をCIで前進させるためのさらなる研究の必要性も強調されている。

Context: Machine learning (ML) and deep learning (DL) analyze raw data to extract valuable insights in specific phases. The rise of continuous practices in software projects emphasizes automating Continuous Integration (CI) with these learning-based methods, while the growing adoption of such approaches underscores the need for systematizing knowledge. Objective: Our objective is to comprehensively review and analyze existing literature concerning learning-based methods within the CI domain. We endeavour to identify and analyse various techniques documented in the literature, emphasizing the fundamental attributes of training phases within learning-based solutions in the context of CI. Method: We conducted a Systematic Literature Review (SLR) involving 52 primary studies. Through statistical and thematic analyses, we explored the correlations between CI tasks and the training phases of learning-based methodologies across the selected studies, encompassing a spectrum from data engineering techniques to evaluation metrics. Results: This paper presents an analysis of the automation of CI tasks utilizing learning-based methods. We identify and analyze nine types of data sources, four steps in data preparation, four feature types, nine subsets of data features, five approaches for hyperparameter selection and tuning, and fifteen evaluation metrics. Furthermore, we discuss the latest techniques employed, existing gaps in CI task automation, and the characteristics of the utilized learning-based techniques. Conclusion: This study provides a comprehensive overview of learning-based methods in CI, offering valuable insights for researchers and practitioners developing CI task automation. It also highlights the need for further research to advance these methods in CI.
翻訳日:2024-07-01 17:20:03 公開日:2024-06-28
# 文脈型ハイブリッド・アンサンブルQ-ラーニング:制御優先で高速に学習する

Contextualized Hybrid Ensemble Q-learning: Learning Fast with Control Priors ( http://arxiv.org/abs/2406.19768v1 )

ライセンス: Link先を確認
Emma Cramer, Bernd Frauenknecht, Ramil Sabirov, Sebastian Trimpe, (参考訳) 強化学習(RL)と事前のコントローラを組み合わせることで、RLは複雑な非線形問題を解くことができ、事前制御はより安全な探索と訓練の高速化を保証します。 以前の作業は、RLエージェントのパフォーマンスがトレーニングの進捗と状態空間の領域によって異なることを無視して、両方のコンポーネントを固定重量でブレンドする。 そこで我々は,RLエージェントの現在の能力に基づいて動的に重み付けを調整する適応戦略を提案する。 本稿では,新しい適応型ハイブリッドRLアルゴリズムであるContextualized Hybrid Ensemble Q-learning (CHEQ)を提案する。 CHEQには3つの重要な要素が組み合わさっている。 i)適応重みを文脈変数として扱う適応ハイブリッドRL問題の時間不変な定式化。 二 批評家合奏のパラメトリック不確実性に基づく重み適応機構及び 3)データ効率向上のためのアンサンブルベースの加速度。 カーレースタスクにおけるCHEQの評価は、最先端の適応型ハイブリッドRL法よりもはるかに強力なデータ効率、探索安全性、未知のシナリオへの転送性を示す。

Combining Reinforcement Learning (RL) with a prior controller can yield the best out of two worlds: RL can solve complex nonlinear problems, while the control prior ensures safer exploration and speeds up training. Prior work largely blends both components with a fixed weight, neglecting that the RL agent's performance varies with the training progress and across regions in the state space. Therefore, we advocate for an adaptive strategy that dynamically adjusts the weighting based on the RL agent's current capabilities. We propose a new adaptive hybrid RL algorithm, Contextualized Hybrid Ensemble Q-learning (CHEQ). CHEQ combines three key ingredients: (i) a time-invariant formulation of the adaptive hybrid RL problem treating the adaptive weight as a context variable, (ii) a weight adaption mechanism based on the parametric uncertainty of a critic ensemble, and (iii) ensemble-based acceleration for data-efficient RL. Evaluating CHEQ on a car racing task reveals substantially stronger data efficiency, exploration safety, and transferability to unknown scenarios than state-of-the-art adaptive hybrid RL methods.
翻訳日:2024-07-01 17:20:03 公開日:2024-06-28
# 時系列異常検出のための自己教師付き時空間正規化学習

Self-Supervised Spatial-Temporal Normality Learning for Time Series Anomaly Detection ( http://arxiv.org/abs/2406.19770v1 )

ライセンス: Link先を確認
Yutong Chen, Hongzuo Xu, Guansong Pang, Hezhe Qiao, Yuan Zhou, Mingsheng Shang, (参考訳) Time Series Anomaly Detection (TSAD)は、金融市場、工業生産、医療など、さまざまな分野に広く応用されている。 その主な目的は、時系列データの通常のパターンを学習し、テストサンプルの偏差を特定することである。 既存のTSAD手法の多くは、空間次元における意味情報を無視しながら、時間次元からのデータモデリングに重点を置いている。 この問題に対処するために,時空間正規化学習(Spatial-Temporal Normality Learning, STEN)と呼ばれる新しい手法を導入する。 STENは、順序予測に基づく時間正規化学習(OTN)モジュールと、特徴空間内のシーケンス間の相対空間関係を学習する距離予測に基づく空間正規化学習(DSN)モジュールから構成される。 これら2つのモジュールを合成することにより、STENは時系列データに隠された正規パターンの表現的空間時間表現を学習する。 5つのTSADベンチマークの大規模な実験により、STENは最先端の競合手法よりもかなり優れていることが示された。 私たちのコードはhttps://github.com/mala-lab/STEN.comで公開されています。

Time Series Anomaly Detection (TSAD) finds widespread applications across various domains such as financial markets, industrial production, and healthcare. Its primary objective is to learn the normal patterns of time series data, thereby identifying deviations in test samples. Most existing TSAD methods focus on modeling data from the temporal dimension, while ignoring the semantic information in the spatial dimension. To address this issue, we introduce a novel approach, called Spatial-Temporal Normality learning (STEN). STEN is composed of a sequence Order prediction-based Temporal Normality learning (OTN) module that captures the temporal correlations within sequences, and a Distance prediction-based Spatial Normality learning (DSN) module that learns the relative spatial relations between sequences in a feature space. By synthesizing these two modules, STEN learns expressive spatial-temporal representations for the normal patterns hidden in the time series data. Extensive experiments on five popular TSAD benchmarks show that STEN substantially outperforms state-of-the-art competing methods. Our code is available at https://github.com/mala-lab/STEN.
翻訳日:2024-07-01 17:20:03 公開日:2024-06-28
# 光子-光子結合の解離による透明化と吸収

Unveiling photon-photon coupling induced transparency and absorption ( http://arxiv.org/abs/2406.19771v1 )

ライセンス: Link先を確認
Kuldeep Kumar Shrivastava, Ansuman Sahu, Biswanath Bhoi, Rajeev Singh, (参考訳) 本研究は,結合誘導透過(CIT)と吸収(CIA)をそれぞれ参照する類似電磁誘導透過(EIT)と吸収(EIA)の理論的基礎と,これらの現象の推移について考察する。 連系系におけるコヒーレント相互作用と散逸相互作用の相互作用が、それぞれCITおよびCIAに対応するレベル反発とアトラクションの出現をもたらすかを解明する、透過スペクトルと分散に関する分析式を用いた簡潔な表現学的記述を提供する。 スプリットリング共振器 (SRR) と電気インダクティブ容量共振器 (ELC) を組み合わせた平面形状のハイブリッドシステムを用いて, 数値シミュレーションにより検証を行った。 ELCパラメータを一定に保ちながら2症例を解析し,SRRサイズを一定間隔で動的に調整し,SRRサイズを一定に保ちながら異なる間隔を保った。 特に、第1のケースでは、送信信号の分散プロファイルがレベル反発を示し、第2のケースではレベルアトラクションが発生し、それぞれCITとCIAを効果的に表示する。 これらのシミュレートされた結果は,理論モデルと一致しただけでなく,我々のアプローチの汎用性も示している。 その後、我々のモデルをより一般的なケースに拡張し、CITからCIAへの制御された移行が、ハイブリッドシステム内の個々のモードの散逸率を操作することによって達成可能であることを実証し、モード間のコヒーレントまたは散逸的な相互作用をもたらす。 この結果は、光のグループ速度を制御し、光スイッチングおよび量子情報技術の分野における潜在的な応用を提供するハイブリッドシステムの設計経路を提供する。

This study presents the theoretical foundations of an analogous electromagnetically induced transparency (EIT) and absorption (EIA) which we are referring as coupling induced transparency (CIT) and absorption (CIA) respectively, along with an exploration of the transition between these phenomena. We provide a concise phenomenological description with analytical expressions for transmission spectra and dispersion elucidating how the interplay of coherent and dissipative interactions in a coupled system results in the emergence of level repulsion and attraction, corresponding to CIT and CIA, respectively. The model is validated through numerical simulations using a hybrid system comprising a split ring resonator (SRR) and electric inductive-capacitive (ELC) resonator in planar geometry. We analyse two cases while keeping ELC parameters constant; one involving a dynamic adjustment of the SRR size with a fixed split gap, and the other entailing a varying gap while maintaining a constant SRR size. Notably, in the first case, the dispersion profile of the transmission signal demonstrates level repulsion, while the second case results in level attraction, effectively showcasing CIT and CIA, respectively. These simulated findings not only align with the theoretical model but also underscore the versatility of our approach. Subsequently, we expand our model to a more general case, demonstrating that a controlled transition from CIT to CIA is achievable by manipulating the dissipation rate of individual modes within the hybrid system, leading to either coherent or dissipative interactions between the modes. The results provide a pathway for designing hybrid systems that can control the group velocity of light, offering potential applications in the fields of optical switching and quantum information technology.
翻訳日:2024-07-01 17:10:03 公開日:2024-06-28
# 大規模言語モデルに対する直接選好知識蒸留法

Direct Preference Knowledge Distillation for Large Language Models ( http://arxiv.org/abs/2406.19774v1 )

ライセンス: Link先を確認
Yixing Li, Yuxian Gu, Li Dong, Dequan Wang, Yu Cheng, Furu Wei, (参考訳) 大規模言語モデル(LLMs)の分野では、知識蒸留(KD)は教師モデルから生徒モデルへの変換能力において重要な技術である。 しかし,既存のKD法では,従来のKL分散の効率性や測定能力の不足など,LLMの蒸留の限界や課題に直面している。 その結果,LLMは暗黙の報酬関数として機能し,KL分散の補足として定義できることがわかった。 本研究では, LLMに対するDPKD(Direct Preference Knowledge Distillation)を提案する。 DPKDは分布のばらつきを利用して、優先損失と暗黙の報酬関数を表現する。 我々は,LLMのKDを,暗黙の報酬と逆のKL発散からなる目標の最適化と,学生出力よりも教師出力の選好確率の向上の2段階に再構成した。 120Mから13BまでのLLMパラメータを用いた各種データセットの実験と解析を行い,DPKD手法の適用性および有効性を示した。 一方、KDにおける暗黙の報酬と出力選好の価値と有効性は、実験と理論的分析によって証明される。 DPKD法は、出力応答精度と正確な一致率の両方でベースライン法より優れる。 コードとデータはhttps://aka.ms/dpkd.comで公開されている。

In the field of large language models (LLMs), Knowledge Distillation (KD) is a critical technique for transferring capabilities from teacher models to student models. However, existing KD methods face limitations and challenges in distillation of LLMs, including efficiency and insufficient measurement capabilities of traditional KL divergence. It is shown that LLMs can serve as an implicit reward function, which we define as a supplement to KL divergence. In this work, we propose Direct Preference Knowledge Distillation (DPKD) for LLMs. DPKD utilizes distribution divergence to represent the preference loss and implicit reward function. We re-formulate KD of LLMs into two stages: first optimizing and objective consisting of implicit reward and reverse KL divergence and then improving the preference probability of teacher outputs over student outputs. We conducted experiments and analysis on various datasets with LLM parameters ranging from 120M to 13B and demonstrate the broad applicability and effectiveness of our DPKD approach. Meanwhile, we prove the value and effectiveness of the introduced implicit reward and output preference in KD through experiments and theoretical analysis. The DPKD method outperforms the baseline method in both output response precision and exact match percentage. Code and data are available at https://aka.ms/dpkd.
翻訳日:2024-07-01 17:10:02 公開日:2024-06-28
# NLPerturbator:LLMの自然言語変化に対するロバスト性に関する研究

NLPerturbator: Studying the Robustness of Code LLMs to Natural Language Variations ( http://arxiv.org/abs/2406.19783v1 )

ライセンス: Link先を確認
Junkai Chen, Zhenhao Li, Xing Hu, Xin Xia, (参考訳) 大規模言語モデル(LLM)は、与えられた自然言語記述に基づいてコード生成において有望な結果を達成する。 それらは、日々のコーディング活動を促進するために、オープンソースプロジェクトや商用製品に統合されている。 このプロンプトにおける自然言語の記述は、LCMがユーザの要求を理解するのに不可欠である。 以前の研究では、LSMがプロンプトの変化に敏感であることが判明した。 しかし、自然言語の記述は現実世界のシナリオ(例えば、異なる形式、文法、単語など)によって異なることが多い。 LLMの堅牢性に関する以前の研究は、しばしばランダムな摂動に基づいており、そのような摂動は実際には起こらないかもしれない。 本稿では,実世界のシナリオにおける自然言語記述のバリエーションに対して,LLMが頑健であるかを総合的に検討する。 本稿では,自然言語の摂動18カテゴリーと,文献レビューと実践者によるオンライン調査に基づく共起カテゴリーの3つの組み合わせを要約する。 我々は,一組のプロンプトを与えられた各カテゴリの摂動を実行できる自動フレームワーク,NLPerturbatorを提案する。 6つのコードLLMを使ったコード生成に関する一連の実験により、乱れたプロンプトはコード生成の性能をかなりのマージン(例えば、21.2%まで、平均4.8%から6.1%まで)に低下させることができることがわかった。 本研究は,実世界のプロンプトの変動に対するLDMの堅牢性を高めることの重要性と,プロンプトを注意深く構築することの重要性を強調した。

Large language models (LLMs) achieve promising results in code generation based on a given natural language description. They have been integrated into open-source projects and commercial products to facilitate daily coding activities. The natural language description in the prompt is crucial for LLMs to comprehend users' requirements. Prior studies uncover that LLMs are sensitive to the changes in the prompts, including slight changes that look inconspicuous. However, the natural language descriptions often vary in real-world scenarios (e.g., different formats, grammar, and wording). Prior studies on the robustness of LLMs are often based on random perturbations and such perturbations may not actually happen. In this paper, we conduct a comprehensive study to investigate how are code LLMs robust to variations of natural language description in real-world scenarios. We summarize 18 categories of perturbations of natural language and 3 combinations of co-occurred categories based on our literature review and an online survey with practitioners. We propose an automated framework, NLPerturbator, which can perform perturbations of each category given a set of prompts. Through a series of experiments on code generation using six code LLMs, we find that the perturbed prompts can decrease the performance of code generation by a considerable margin (e.g., up to 21.2%, and 4.8% to 6.1% on average). Our study highlights the importance of enhancing the robustness of LLMs to real-world variations in the prompts, as well as the essentiality of attentively constructing the prompts.
翻訳日:2024-07-01 17:10:02 公開日:2024-06-28
# 変圧器を用いた分子表現モデルによる電解質製剤の性能予測

Improving Performance Prediction of Electrolyte Formulations with Transformer-based Molecular Representation Model ( http://arxiv.org/abs/2406.19792v1 )

ライセンス: Link先を確認
Indra Priyadarsini, Vidushi Sharma, Seiji Takeda, Akihiro Kishimoto, Lisa Hamada, Hajime Shinohara, (参考訳) 効率よく高性能な電解質の開発は、特に電池におけるエネルギー貯蔵技術の進歩に不可欠である。 電池電解質の性能予測は、個々の成分間の複雑な相互作用に依存する。 したがって、これらの関係を適切に捉え、定式化の堅牢な表現を形成する戦略は、機械学習モデルと統合して特性を正確に予測するために不可欠である。 本稿では, 変圧器を用いた分子表現モデルを用いて, 電解質の表現を効果的かつ効率的に取得する手法を提案する。 提案手法の性能を2つの電池特性予測タスクで評価し, 現状の手法と比較して優れた性能を示した。

Development of efficient and high-performing electrolytes is crucial for advancing energy storage technologies, particularly in batteries. Predicting the performance of battery electrolytes rely on complex interactions between the individual constituents. Consequently, a strategy that adeptly captures these relationships and forms a robust representation of the formulation is essential for integrating with machine learning models to predict properties accurately. In this paper, we introduce a novel approach leveraging a transformer-based molecular representation model to effectively and efficiently capture the representation of electrolyte formulations. The performance of the proposed approach is evaluated on two battery property prediction tasks and the results show superior performance compared to the state-of-the-art methods.
翻訳日:2024-07-01 17:10:02 公開日:2024-06-28
# 同時出現と意味形成を伴うタスクインクリメンタルセグメンテーションのための総合的生成リプレイ

Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting ( http://arxiv.org/abs/2406.19796v1 )

ライセンス: Link先を確認
Wei Li, Jingyang Zhang, Pheng-Ann Heng, Lixu Gu, (参考訳) 一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。 Task-Incremental Learning (TIL)は、厳格なデータ共有ポリシのためにタスクを収集するのではなく、シーケンシャルに到着するタスクを使用したプライバシ保護トレーニングパラダイムを提供する。 しかし、タスクの進化は、画像の外観とセグメンテーションのセグメンテーションのセグメンテーションを、複雑な相関でシフトさせ、同時に外観とセグメンテーションを忘れてしまう幅広い範囲にまたがる可能性がある。 この問題を解決するために,過去のタスクデータを模倣するためにイメージマスクペアを合成し,外観と意味の知識を復元する包括的生成再生(CGR)フレームワークを提案する。 具体的には,画像マスク対の高次合成のための新しいベイズ連成拡散(BJD)モデルを提案する。 さらに,データ合成を異なるタスクと互換性を持たせるために,拡散モデルを調整するために,プロンプト埋め込みを再検討するタスク指向適応器 (TOA) を開発した。 漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。 コードはhttps://github.com/jingyzhang/CGRで公開されている。

Generalist segmentation models are increasingly favored for diverse tasks involving various objects from different image sources. Task-Incremental Learning (TIL) offers a privacy-preserving training paradigm using tasks arriving sequentially, instead of gathering them due to strict data sharing policies. However, the task evolution can span a wide scope that involves shifts in both image appearance and segmentation semantics with intricate correlation, causing concurrent appearance and semantic forgetting. To solve this issue, we propose a Comprehensive Generative Replay (CGR) framework that restores appearance and semantic knowledge by synthesizing image-mask pairs to mimic past task data, which focuses on two aspects: modeling image-mask correspondence and promoting scalability for diverse tasks. Specifically, we introduce a novel Bayesian Joint Diffusion (BJD) model for high-quality synthesis of image-mask pairs with their correspondence explicitly preserved by conditional denoising. Furthermore, we develop a Task-Oriented Adapter (TOA) that recalibrates prompt embeddings to modulate the diffusion model, making the data synthesis compatible with different tasks. Experiments on incremental tasks (cardiac, fundus and prostate segmentation) show its clear advantage for alleviating concurrent appearance and semantic forgetting. Code is available at https://github.com/jingyzhang/CGR.
翻訳日:2024-07-01 17:10:02 公開日:2024-06-28
# 高密度視覚粒子ダイナミクスを用いた実世界モデリング

Modeling the Real World with High-Density Visual Particle Dynamics ( http://arxiv.org/abs/2406.19800v1 )

ライセンス: Link先を確認
William F. Whitney, Jacob Varley, Deepali Jain, Krzysztof Choromanski, Sumeet Singh, Vikas Sindhwani, (参考訳) 100K以上の粒子を含む巨大な潜点雲を処理し、実シーンの物理力学をエミュレートできる学習世界モデルである高密度視覚粒子ダイナミクス(HD-VPD)を提案する。 このスケールで効率を上げるために、我々はインターラッカーと呼ばれるポイントクラウドトランスフォーマー(PCT)の新たなファミリーを導入し、インターツツインされたリニアアテンションパーフォーマー層とグラフベースの隣接アテンション層を利用する。 RGB-Dカメラを2台搭載した高自由度バイマニュアルロボットの動特性をモデル化し,HD-VPDの能力を示す。 従来のグラフニューラルネットワークと比較して、Interlacerのダイナミクスは同じ予測精度で2倍の速さで、多くの粒子の4倍の精度を実現しています。 ロボットボックスを押下することで,HD-VPDが動作計画の質をどのように評価し,タスクを把握できるかを述べる。 HD-VPD が https://sites.google.com/view/hd-vpd でレンダリングしたビデオや粒子動力学を参照。

We present High-Density Visual Particle Dynamics (HD-VPD), a learned world model that can emulate the physical dynamics of real scenes by processing massive latent point clouds containing 100K+ particles. To enable efficiency at this scale, we introduce a novel family of Point Cloud Transformers (PCTs) called Interlacers leveraging intertwined linear-attention Performer layers and graph-based neighbour attention layers. We demonstrate the capabilities of HD-VPD by modeling the dynamics of high degree-of-freedom bi-manual robots with two RGB-D cameras. Compared to the previous graph neural network approach, our Interlacer dynamics is twice as fast with the same prediction quality, and can achieve higher quality using 4x as many particles. We illustrate how HD-VPD can evaluate motion plan quality with robotic box pushing and can grasping tasks. See videos and particle dynamics rendered by HD-VPD at https://sites.google.com/view/hd-vpd.
翻訳日:2024-07-01 17:10:02 公開日:2024-06-28
# MulTi-Wiseサンプリング:より小さなサンプルのための一様T-Wise特徴相互作用カバー

MulTi-Wise Sampling: Trading Uniform T-Wise Feature Interaction Coverage for Smaller Samples ( http://arxiv.org/abs/2406.19801v1 )

ライセンス: Link先を確認
Tobias Pett, Sebastian Krieter, Thomas Thüm, Ina Schaefer, (参考訳) 高度に構成可能なシステムの機能的安全性を確保するには、テストの労力を削減し、リソースを節約するために、可能なすべての構成の代表的なサブセットをテストする必要があることが多い。 T-Wise Feature Interaction Coverage (T-Wise Feature Interaction Coverage) は、構成のサブセットが代表的で欠陥を見つけることができるかどうかを決定する一般的な基準である。 既存のt-wiseサンプリングアルゴリズムは、全ての特徴に対するt-wiseフィーチャの相互作用を均一にカバーし、特に大きなt-wise特徴の相互作用(すなわちtの高値)を考慮した場合、長い実行時間と大きなサンプルサイズをもたらす。 本稿では,すべてのt-wise特徴相互作用に対して一様カバレッジの必要性を問う,t-wise特徴相互作用サンプリングに対する新しいアプローチを提案する。 本手法は, 臨界特徴と非臨界特徴のサブセットを優先し, t-wise特徴の相互作用サンプルを生成する際に, 臨界特徴のサブセットに対して高いt値を考える。 本稿では, 実世界のアプリケーションにおける対象システムを用いて, 提案手法の評価を行う。 以上の結果から,全特徴量間におけるT-wise特徴相互作用の均一化は,試料生成時間と試料サイズを減少させることがわかった。 したがって、 \mulTiWise{} Smplingは、機能臨界性に関する知識が利用可能であれば、既存のアプローチに代わるものを提供する。

Ensuring the functional safety of highly configurable systems often requires testing representative subsets of all possible configurations to reduce testing effort and save resources. The ratio of covered t-wise feature interactions (i.e., T-Wise Feature Interaction Coverage) is a common criterion for determining whether a subset of configurations is representative and capable of finding faults. Existing t-wise sampling algorithms uniformly cover t-wise feature interactions for all features, resulting in lengthy execution times and large sample sizes, particularly when large t-wise feature interactions are considered (i.e., high values of t). In this paper, we introduce a novel approach to t-wise feature interaction sampling, questioning the necessity of uniform coverage across all t-wise feature interactions, called \emph{\mulTiWise{}}. Our approach prioritizes between subsets of critical and non-critical features, considering higher t-values for subsets of critical features when generating a t-wise feature interaction sample. We evaluate our approach using subject systems from real-world applications, including \busybox{}, \soletta{}, \fiasco{}, and \uclibc{}. Our results show that sacrificing uniform t-wise feature interaction coverage between all features reduces the time needed to generate a sample and the resulting sample size. Hence, \mulTiWise{} Sampling offers an alternative to existing approaches if knowledge about feature criticality is available.
翻訳日:2024-07-01 17:10:02 公開日:2024-06-28
# 拡張性とドメイン・ジェネラルな抽象命題のセグメンテーション

Scalable and Domain-General Abstractive Proposition Segmentation ( http://arxiv.org/abs/2406.19803v1 )

ライセンス: Link先を確認
Mohammad Javad Hosseini, Yang Gao, Tim Baumgärtner, Alex Fabrikant, Reinald Kim Amplayo, (参考訳) テキストを粒度の細かい単位に分割することは、幅広いNLPアプリケーションにとって重要である。 テキストを文に分割するというデフォルトのアプローチは、特に、下流のタスクで個別に処理できる複数の意味単位を含むのに十分複雑であるため、しばしば不十分である。 我々は、抽象命題セグメンテーションの課題に焦点をあてる: テキストを単純で自己完結した、よく表現された文に変換する。 いくつかの最近の研究は、検索強化接地や事実検証などの下流タスクにおいて、数発のLDMによる命題セグメンテーション(命題セグメンテーション)の有用性を実証している。 しかし、このアプローチは大量のテキストにスケールしないため、入力テキストからすべての事実を常に抽出するわけではない。 本稿では,まず,タスクの評価基準を導入し,品質のいくつかの次元を計測する。 次に、スケーラブルで正確な命題セグメンテーションモデルを提案する。 我々は、既存の注釈付きデータセット上でLLMをトレーニングすることで、教師付きタスクとして命題セグメンテーションをモデル化し、トレーニング結果が大幅に改善されたことを示す。 さらに, 微調整 LLM を教師として多ドメイン合成蒸留データに注釈をつけることで, 教師の LLM に類似した結果で, より小型の学生モデルを訓練できることを示した。 次に、本手法が、元のトレーニングデータ以外の2つのドメインにアノテートしたデータをアノテートし、それらを評価することにより、効果的なドメインの一般化につながることを実証する。 最後に、論文の重要な貢献として、NLP実践者が利用できる使いやすいAPIを共有します。

Segmenting text into fine-grained units of meaning is important to a wide range of NLP applications. The default approach of segmenting text into sentences is often insufficient, especially since sentences are usually complex enough to include multiple units of meaning that merit separate treatment in the downstream task. We focus on the task of abstractive proposition segmentation: transforming text into simple, self-contained, well-formed sentences. Several recent works have demonstrated the utility of proposition segmentation with few-shot prompted LLMs for downstream tasks such as retrieval-augmented grounding and fact verification. However, this approach does not scale to large amounts of text and may not always extract all the facts from the input text. In this paper, we first introduce evaluation metrics for the task to measure several dimensions of quality. We then propose a scalable, yet accurate, proposition segmentation model. We model proposition segmentation as a supervised task by training LLMs on existing annotated datasets and show that training yields significantly improved results. We further show that by using the fine-tuned LLMs as teachers for annotating large amounts of multi-domain synthetic distillation data, we can train smaller student models with results similar to the teacher LLMs. We then demonstrate that our technique leads to effective domain generalization, by annotating data in two domains outside the original training data and evaluating on them. Finally, as a key contribution of the paper, we share an easy-to-use API for NLP practitioners to use.
翻訳日:2024-07-01 17:10:02 公開日:2024-06-28
# 知覚拡散: 合成逆数例の生成

Deceptive Diffusion: Generating Synthetic Adversarial Examples ( http://arxiv.org/abs/2406.19807v1 )

ライセンス: Link先を確認
Lucas Beerens, Catherine F. Higham, Desmond J. Higham, (参考訳) 本稿では, 擬似拡散の概念を導入し, 生成的AIモデルを訓練し, 敵対的画像を生成する。 従来の敵対的攻撃アルゴリズムは、既存の画像を摂動して誤分類を誘発することを目的としているが、偽拡散モデルは、トレーニングやテスト画像に直接関連しない、任意の数の新しい非分類画像を生成することができる。 知覚拡散は、他の方法では見つからない誤分類を含む、大規模に敵の訓練データを提供することで、防御アルゴリズムを強化する可能性を秘めている。 実験では,部分的に攻撃されたデータセットに対するトレーニングの効果についても検討した。 攻撃者がトレーニングデータの一部に密かに毒を盛ることができれば、結果の拡散モデルも同様に誤解を招くアウトプットを生成する。

We introduce the concept of deceptive diffusion -- training a generative AI model to produce adversarial images. Whereas a traditional adversarial attack algorithm aims to perturb an existing image to induce a misclassificaton, the deceptive diffusion model can create an arbitrary number of new, misclassified images that are not directly associated with training or test images. Deceptive diffusion offers the possibility of strengthening defence algorithms by providing adversarial training data at scale, including types of misclassification that are otherwise difficult to find. In our experiments, we also investigate the effect of training on a partially attacked data set. This highlights a new type of vulnerability for generative diffusion models: if an attacker is able to stealthily poison a portion of the training data, then the resulting diffusion model will generate a similar proportion of misleading outputs.
翻訳日:2024-07-01 17:10:02 公開日:2024-06-28
# EgoGaussian:3Dガウス撮影によるエゴセントリックビデオからのダイナミックシーン理解

EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting ( http://arxiv.org/abs/2406.19811v1 )

ライセンス: Link先を確認
Daiwei Zhang, Gengyan Li, Jiajie Li, Mickaël Bressieux, Otmar Hilliges, Marc Pollefeys, Luc Van Gool, Xi Wang, (参考訳) 人間の活動は本質的に複雑であり、単純な家庭作業でさえ多数のオブジェクトの相互作用を伴う。 これらの活動や行動をよりよく理解するためには、環境との動的な相互作用をモデル化することが不可欠である。 最近、手頃なヘッドマウントカメラとエゴセントリックなデータが利用可能になったことで、3D環境における動的な人間とオブジェクトの相互作用を理解するための、よりアクセスしやすく効率的な手段が提供される。 しかし、人間の活動モデリングの既存の手法は、手動物体の3Dモデルや人間のシーンの相互作用の再構築や、物体との動的相互作用を無視した3Dシーンのマッピングに重点を置いている。 既存のソリューションでは、マルチカメラのセットアップ、奥行き検知カメラ、審美センサーなど、複数のソースからの入力を必要とすることが多い。 そこで本研究では,RGBエゴセントリック入力だけで3Dシーンを同時に再構築し,動的に3Dオブジェクトの動きを追跡するEgoGaussianを提案する。 ガウススプラッティングの独特な離散的性質と背景からのセグメント動的相互作用を利用する。 提案手法では,人間の活動の動的な性質を活用するクリップレベルのオンライン学習パイプラインを用いて,時間順にシーンの時間的進化を再構築し,剛体物体の動きを追跡する。 さらに,オブジェクトと背景ガウスを自動的に分割し,静的なシーンと動的オブジェクトの両方に3D表現を提供する。 EgoGaussianは従来のNeRF法やDynamic Gaussian法よりも優れており、再構成されたモデルの品質を質的に実証している。

Human activities are inherently complex, and even simple household tasks involve numerous object interactions. To better understand these activities and behaviors, it is crucial to model their dynamic interactions with the environment. The recent availability of affordable head-mounted cameras and egocentric data offers a more accessible and efficient means to understand dynamic human-object interactions in 3D environments. However, most existing methods for human activity modeling either focus on reconstructing 3D models of hand-object or human-scene interactions or on mapping 3D scenes, neglecting dynamic interactions with objects. The few existing solutions often require inputs from multiple sources, including multi-camera setups, depth-sensing cameras, or kinesthetic sensors. To this end, we introduce EgoGaussian, the first method capable of simultaneously reconstructing 3D scenes and dynamically tracking 3D object motion from RGB egocentric input alone. We leverage the uniquely discrete nature of Gaussian Splatting and segment dynamic interactions from the background. Our approach employs a clip-level online learning pipeline that leverages the dynamic nature of human activities, allowing us to reconstruct the temporal evolution of the scene in chronological order and track rigid object motion. Additionally, our method automatically segments object and background Gaussians, providing 3D representations for both static scenes and dynamic objects. EgoGaussian outperforms previous NeRF and Dynamic Gaussian methods in challenging in-the-wild videos and we also qualitatively demonstrate the high quality of the reconstructed models.
翻訳日:2024-07-01 17:10:02 公開日:2024-06-28
# Fuzzy Logicd Guided Reward Function Variation: 強化学習プログラムをテストするOracle

Fuzzy Logic Guided Reward Function Variation: An Oracle for Testing Reinforcement Learning Programs ( http://arxiv.org/abs/2406.19812v1 )

ライセンス: Link先を確認
Shiyu Zhang, Haoyang Song, Qixin Wang, Yu Pei, (参考訳) 強化学習(RL)は様々な領域で注目されている。 しかし、RLプログラムの複雑さの増大は、特にオラクルの問題(RLプログラムの正確性の定義)に挑戦する。 従来の人間のオラクルは複雑さに対処するのに苦労し、RLテストにおける非効率性と潜在的な信頼性の欠如につながります。 この問題を軽減するために,ファジィ論理を用いたRL特性を利用した自動オラクル手法を提案する。 我々のオラクルは、エージェントの行動コンプライアンスと報酬ポリシーを定量化し、トレーニングエピソードの傾向を分析します。 コンプライアンス傾向がRL特性に由来する期待に反した場合、RLプログラムを"バギー"とラベル付けする。 複雑度の異なるRLプログラムのオラクルを評価し,それをヒトのオラクルと比較した。 その結果、人間のオラクルはより単純なテストシナリオでうまく機能する一方で、ファジィオラクルは複雑な環境で優れたパフォーマンスを示すことがわかった。 提案手法は、特に手動テストが不足する複雑なケースにおいて、RLテストのオラクル問題に対処する上で有望であることを示す。 RLプログラムテストの効率性、信頼性、スケーラビリティを改善するための潜在的なソリューションを提供する。 本研究は、RLプログラムの自動テストに向けて一歩踏み出し、オラクル問題に対処するファジィ論理に基づくオラクルの可能性を強調した。

Reinforcement Learning (RL) has gained significant attention across various domains. However, the increasing complexity of RL programs presents testing challenges, particularly the oracle problem: defining the correctness of the RL program. Conventional human oracles struggle to cope with the complexity, leading to inefficiencies and potential unreliability in RL testing. To alleviate this problem, we propose an automated oracle approach that leverages RL properties using fuzzy logic. Our oracle quantifies an agent's behavioral compliance with reward policies and analyzes its trend over training episodes. It labels an RL program as "Buggy" if the compliance trend violates expectations derived from RL characteristics. We evaluate our oracle on RL programs with varying complexities and compare it with human oracles. Results show that while human oracles perform well in simpler testing scenarios, our fuzzy oracle demonstrates superior performance in complex environments. The proposed approach shows promise in addressing the oracle problem for RL testing, particularly in complex cases where manual testing falls short. It offers a potential solution to improve the efficiency, reliability, and scalability of RL program testing. This research takes a step towards automated testing of RL programs and highlights the potential of fuzzy logic-based oracles in tackling the oracle problem.
翻訳日:2024-07-01 17:10:02 公開日:2024-06-28
# 非線形干渉法に基づく赤外波長における磁気光学特性のメロロジー

Nonlinear interferometry-based metrology of magneto-optical properties at infrared wavelengths ( http://arxiv.org/abs/2406.19813v1 )

ライセンス: Link先を確認
Tanmoy Chakraborty, Thomas Produit, Harish N S Krishnamoorthy, Cesare Soci, Anna V. Paterova, (参考訳) 材料の磁気光学特性は、科学研究と産業の両方で多くの応用に利用されている。 これらの材料の新規な性質は、赤外波長範囲でメロロジーを施すことによってさらに研究することができる。 しかし、現在の赤外線メトロジー技術は、適切なコンポーネントが利用できないため、困難で資源集約的である可能性がある。 これらの課題に対処するために、非線形干渉法に基づく一連の測定結果を提案し、可視域での光学的検出を行うことにより、赤外波長域における材料の磁気光学特性を調査できることを示した。 原理実証実験では、近赤外域の600nmのスペクトル帯域上でビスマス鉄ガーネットのバーデット定数を測定する。

Magneto-optical properties of materials are utilized in numerous applications both in scientific research and industries. The novel properties of these materials can be further investigated by performing metrology in the infrared wavelength range, thereby enriching their potential applications. However, current infrared metrology techniques can be challenging and resource-intensive due to the unavailability of suitable components. To address these challenges, we propose and demonstrate a set of measurements based on nonlinear interferometry, which allows us investigating magneto-optical properties of materials at infrared wavelength range by performing optical detection at the visible range. For a proof-of-principle study, we measure the Verdet constant of a bismuth-iron-garnet, over a spectral bandwidth of 600 nm in the near-IR range.
翻訳日:2024-07-01 17:10:02 公開日:2024-06-28
# 低データレジームにおける高精細画像認識の高速化

Extract More from Less: Efficient Fine-Grained Visual Recognition in Low-Data Regimes ( http://arxiv.org/abs/2406.19814v1 )

ライセンス: Link先を確認
Dmitry Demidov, Abduragim Shtanchaev, Mihail Mihaylov, Mohammad Almansoori, (参考訳) 低データ体制におけるきめ細かい画像分類の課題は、クラスごとのトレーニングサンプルの量に制限があるとともに、クラス間のばらつきが低く、クラス内の大きなばらつきが存在することを前提としている。 しかし、細粒度分類と極めて少ないデータを別々に扱う従来の方法は、これらの厳密な条件が共に提示される場合、非効率である可能性がある。 本稿では,Augmentation と Distillation の力を生かして,この課題に対する深層ニューラルネットワークの性能向上を目的とした,AD-Net と呼ばれる新しいフレームワークを提案する。 特に, 本手法は, 強化試料を自己蒸留し, 有害なオーバーフィッティングを緩和することにより, 学習機能を洗練することを目的としている。 我々は、AD-Netが従来の微調整技術や最先端の低データ技術よりも一貫した改善を示すような、一般的なきめ細かい画像分類ベンチマークの包括的な実験を行う。 注目すべきは、利用可能な最小データでは、我々のフレームワークは、標準のResNet-50と比較して最大45パーセント、最も近いSOTAランナーに比べて最大27パーセントの顕著な相対的精度向上を示していることである。 このアプローチは事実上アーキテクチャに依存しないものであり、推論時に余分なコストをゼロにすることを強調します。 さらに、各フレームワークのコンポーネントへの影響について広範な研究を行い、最適なパフォーマンスを達成する上で、各フレームワークの重要性を強調します。 ソースコードとトレーニングされたモデルはgithub.com/demidovd98/fgic_lowdで公開されている。

The emerging task of fine-grained image classification in low-data regimes assumes the presence of low inter-class variance and large intra-class variation along with a highly limited amount of training samples per class. However, traditional ways of separately dealing with fine-grained categorisation and extremely scarce data may be inefficient under both these harsh conditions presented together. In this paper, we present a novel framework, called AD-Net, aiming to enhance deep neural network performance on this challenge by leveraging the power of Augmentation and Distillation techniques. Specifically, our approach is designed to refine learned features through self-distillation on augmented samples, mitigating harmful overfitting. We conduct comprehensive experiments on popular fine-grained image classification benchmarks where our AD-Net demonstrates consistent improvement over traditional fine-tuning and state-of-the-art low-data techniques. Remarkably, with the smallest data available, our framework shows an outstanding relative accuracy increase of up to 45 % compared to standard ResNet-50 and up to 27 % compared to the closest SOTA runner-up. We emphasise that our approach is practically architecture-independent and adds zero extra cost at inference time. Additionally, we provide an extensive study on the impact of every framework's component, highlighting the importance of each in achieving optimal performance. Source code and trained models are publicly available at github.com/demidovd98/fgic_lowd.
翻訳日:2024-07-01 17:10:02 公開日:2024-06-28
# 感情喪失攻撃:多次元特徴に基づく骨格に対する敵対的攻撃知覚

Emotion Loss Attacking: Adversarial Attack Perception for Skeleton based on Multi-dimensional Features ( http://arxiv.org/abs/2406.19815v1 )

ライセンス: Link先を確認
Feng Liu, Qing Xu, Qijian Zheng, (参考訳) 骨格運動に対する敵対的攻撃はホットトピックである。 しかし、既存の研究では、骨格グラフの配列間距離を測定する際にのみ、ダイナミックな特徴が考慮されている。 そこで本研究では,骨格運動に対する行動認識器を攻撃するための新たな攻撃法を提案する。 まず, 骨格運動の違いを測定するために, 動的距離関数を体系的に提案する。 一方,相補的な情報に対する感情的特徴を革新的に導入する。 さらに,制約付き最適化問題の解法として Alternating Direction Method of Multipliers (ADMM) を用いる。 実験の結果,本手法は複数の行動分類器やデータセットに対して有効であることがわかった。 lノルムで測定された摂動の大きさが同じである場合、我々の方法で生成された動的摂動は、他の方法よりもはるかに低い。 さらに、私たちは感情的特徴の有効性を初めて証明し、骨格運動間の距離を測定するための新しいアイデアを提供しています。

Adversarial attack on skeletal motion is a hot topic. However, existing researches only consider part of dynamic features when measuring distance between skeleton graph sequences, which results in poor imperceptibility. To this end, we propose a novel adversarial attack method to attack action recognizers for skeletal motions. Firstly, our method systematically proposes a dynamic distance function to measure the difference between skeletal motions. Meanwhile, we innovatively introduce emotional features for complementary information. In addition, we use Alternating Direction Method of Multipliers(ADMM) to solve the constrained optimization problem, which generates adversarial samples with better imperceptibility to deceive the classifiers. Experiments show that our method is effective on multiple action classifiers and datasets. When the perturbation magnitude measured by l norms is the same, the dynamic perturbations generated by our method are much lower than that of other methods. What's more, we are the first to prove the effectiveness of emotional features, and provide a new idea for measuring the distance between skeletal motions.
翻訳日:2024-07-01 17:10:02 公開日:2024-06-28
# BeamAggR:Multi-hop Question Answeringのためのマルチソース知識に基づくビーム集約推論

BeamAggR: Beam Aggregation Reasoning over Multi-source Knowledge for Multi-hop Question Answering ( http://arxiv.org/abs/2406.19820v1 )

ライセンス: Link先を確認
Zheng Chu, Jingchang Chen, Qianglong Chen, Haotian Wang, Kun Zhu, Xiyuan Du, Weijiang Yu, Ming Liu, Bing Qin, (参考訳) 大規模言語モデル(LLM)は強力な推論能力を示している。 それでも、知識集約的なタスクに取り組む際には、事実的エラーに悩まされる。 Retrieval-augmented reasoningは有望なアプローチである。 しかし、複雑な問題に対する不正確かつ不十分な検索や、マルチソース知識の統合の難しさなど、重要な課題が今も続いている。 本研究では,知識集約型マルチホップQAの推論フレームワークであるビームアグリゲーション推論(ビームアグリゲーション推論)を提案する。 BeamAggRは、各ホップで有望な回答を探索し、優先順位付けする。 具体的には、複雑な質問を木に解析し、これには原子や複合的な質問が含まれる。 原子的問題に対して、LLMは答え候補を得るためにマルチソースの知識を推論する。 複合的な問題に対して、LLMはビーム候補を結合し、確率的集約を通じて複数の推論経路を探索し、最も有望な軌道を優先する。 4つのオープンドメインマルチホップ推論データセットの大規模な実験により、我々の手法はSOTA法を8.5%上回る結果となった。 さらに分析の結果,BeamAggRはより優れた知識コラボレーションと回答アグリゲーションを実現していることがわかった。

Large language models (LLMs) have demonstrated strong reasoning capabilities. Nevertheless, they still suffer from factual errors when tackling knowledge-intensive tasks. Retrieval-augmented reasoning represents a promising approach. However, significant challenges still persist, including inaccurate and insufficient retrieval for complex questions, as well as difficulty in integrating multi-source knowledge. To address this, we propose Beam Aggregation Reasoning, BeamAggR, a reasoning framework for knowledge-intensive multi-hop QA. BeamAggR explores and prioritizes promising answers at each hop of question. Concretely, we parse the complex questions into trees, which include atom and composite questions, followed by bottom-up reasoning. For atomic questions, the LLM conducts reasoning on multi-source knowledge to get answer candidates. For composite questions, the LLM combines beam candidates, explores multiple reasoning paths through probabilistic aggregation, and prioritizes the most promising trajectory. Extensive experiments on four open-domain multi-hop reasoning datasets show that our method significantly outperforms SOTA methods by 8.5%. Furthermore, our analysis reveals that BeamAggR elicits better knowledge collaboration and answer aggregation.
翻訳日:2024-07-01 17:10:02 公開日:2024-06-28
# 学習中の外部性を模倣する:Coase Theoremのオンライン版

Mitigating Externalities while Learning: an Online Version of the Coase Theorem ( http://arxiv.org/abs/2406.19824v1 )

ライセンス: Link先を確認
Scheid Antoine, Capitaine Aymeric, Boursier Etienne, Moulines Eric, Jordan Michael, Durmus Alain, (参考訳) 経済理論において、外部性の概念は、社会的福祉に影響を与えるプレイヤー間の相互作用から生じる間接的な効果を指す。 外部性を研究するモデルの多くは、エージェントが環境や嗜好について完全な知識を持っていると仮定している。 これは、多くの提案されたソリューションの実践的な実装に対する大きな障害である。 この問題に対処するため、一方のプレイヤーのアクションが他方のプレイヤーに影響を与えるような2人のプレイヤーのバンディット設定を検討し、コーズ定理を拡張した(Coase, 1960)。 この結果は、外部性の存在下での社会的福祉を最大化するための最適なアプローチは、財産権を確立すること、すなわちプレイヤー間の移動と交渉を可能にすることである。 我々の研究は、バーゲンが根底にあるゲームについて完全な知識を持っているという古典的な仮定を取り除いている。 まず、財産権がなければ社会福祉は崩壊するということを実証する。 次に、プレイヤーが全福祉を最大化する交渉戦略を学べるようにポリシーを設計し、不確実性の下でコーズ定理を回復する。

In economic theory, the concept of externality refers to any indirect effect resulting from an interaction between players that affects the social welfare. Most of the models within which externality has been studied assume that agents have perfect knowledge of their environment and preferences. This is a major hindrance to the practical implementation of many proposed solutions. To address this issue, we consider a two-player bandit setting where the actions of one of the players affect the other player and we extend the Coase theorem [Coase, 1960]. This result shows that the optimal approach for maximizing the social welfare in the presence of externality is to establish property rights, i.e., enable transfers and bargaining between the players. Our work removes the classical assumption that bargainers possess perfect knowledge of the underlying game. We first demonstrate that in the absence of property rights, the social welfare breaks down. We then design a policy for the players which allows them to learn a bargaining strategy which maximizes the total welfare, recovering the Coase theorem under uncertainty.
翻訳日:2024-07-01 17:00:05 公開日:2024-06-28
# エネルギーシステムの効率的な設計・制御協調最適化のための強化学習

Reinforcement Learning for Efficient Design and Control Co-optimisation of Energy Systems ( http://arxiv.org/abs/2406.19825v1 )

ライセンス: Link先を確認
Marine Cauz, Adrien Bolland, Nicolas Wyrsch, Christophe Ballif, (参考訳) 進行中のエネルギー遷移は、異質で気象に依存し、エネルギーシステムへの統合を複雑にする分散型再生可能エネルギー源の開発を促進する。 本研究では,エネルギーシステムの設計と制御の協調最適化に適した新しい強化学習(RL)フレームワークを導入することで,この問題に対処する。 伝統的に、エネルギーセクターにおける再生可能エネルギーの統合は、複雑な数学的モデリングとシーケンシャルなプロセスに依存してきた。 RLのモデルフリー機能を活用することで、このフレームワークは明示的なシステムモデリングの必要性を排除します。 制御ポリシと設計ポリシを共同で最適化することにより,再生可能エネルギーの統合が促進され,システム効率が向上する。 この貢献により、エネルギー管理における高度なRL応用の道が開かれ、再生可能エネルギー源をより効率的に効果的に利用できるようになった。

The ongoing energy transition drives the development of decentralised renewable energy sources, which are heterogeneous and weather-dependent, complicating their integration into energy systems. This study tackles this issue by introducing a novel reinforcement learning (RL) framework tailored for the co-optimisation of design and control in energy systems. Traditionally, the integration of renewable sources in the energy sector has relied on complex mathematical modelling and sequential processes. By leveraging RL's model-free capabilities, the framework eliminates the need for explicit system modelling. By optimising both control and design policies jointly, the framework enhances the integration of renewable sources and improves system efficiency. This contribution paves the way for advanced RL applications in energy management, leading to more efficient and effective use of renewable energy sources.
翻訳日:2024-07-01 17:00:05 公開日:2024-06-28
# 安定かつ貯蔵効率のよいデータセット蒸留を目指して:対流軌道の整合

Towards Stable and Storage-efficient Dataset Distillation: Matching Convexified Trajectory ( http://arxiv.org/abs/2406.19827v1 )

ライセンス: Link先を確認
Wenliang Zhong, Haoyu Tang, Qinghai Zheng, Mingzhu Xu, Yupeng Hu, Liqiang Nie, (参考訳) ディープラーニングと大規模言語モデルの急速な進化により、トレーニングデータの需要が指数関数的に増加し、大規模なデータセット管理の課題に対処するデータセット蒸留法の開発が進められている。 このうち、MTT(Matching Training Trajectories)は、専門家ネットワークのトレーニング軌跡を合成データセットで実データに再現する、顕著なアプローチである。 しかし,本手法の問題点は3つある。 1.SGD(Stochastic Gradient Descent)による専門家軌道の不安定性 2.蒸留工程の低収束速度 3.専門家軌道の高貯蔵量化 これらの課題に対処するために,目的関数の単純な変換を通じて,データセット蒸留とMTTの本質を理解するための新たな視点を提供し,学生軌道に対するより良いガイダンスを提供することを目的とした,MCT(Matching Convexified Trajectory)と呼ばれる新しい手法を導入する。 MCTはニューラル・タンジェント・カーネル法(Neural Tangent Kernel method)の線形化力学からの洞察を活用して、専門家の軌跡の凸結合を作成し、学生ネットワークを迅速かつ安定的に収束させる。 この軌道は保存が容易であるだけでなく、蒸留中の連続的なサンプリング戦略を可能にし、専門家の軌道全体の完全な学習と適合を確実にする。 3つの公開データセットにわたる総合的な実験は、従来の MTT 法よりも MCT の方が優れていることを検証している。

The rapid evolution of deep learning and large language models has led to an exponential growth in the demand for training data, prompting the development of Dataset Distillation methods to address the challenges of managing large datasets. Among these, Matching Training Trajectories (MTT) has been a prominent approach, which replicates the training trajectory of an expert network on real data with a synthetic dataset. However, our investigation found that this method suffers from three significant limitations: 1. Instability of expert trajectory generated by Stochastic Gradient Descent (SGD); 2. Low convergence speed of the distillation process; 3. High storage consumption of the expert trajectory. To address these issues, we offer a new perspective on understanding the essence of Dataset Distillation and MTT through a simple transformation of the objective function, and introduce a novel method called Matching Convexified Trajectory (MCT), which aims to provide better guidance for the student trajectory. MCT leverages insights from the linearized dynamics of Neural Tangent Kernel methods to create a convex combination of expert trajectories, guiding the student network to converge rapidly and stably. This trajectory is not only easier to store, but also enables a continuous sampling strategy during distillation, ensuring thorough learning and fitting of the entire expert trajectory. Comprehensive experiments across three public datasets validate the superiority of MCT over traditional MTT methods.
翻訳日:2024-07-01 17:00:05 公開日:2024-06-28
# 開量子系における熱過程の対称性

Asymmetries of thermal processes in open quantum systems ( http://arxiv.org/abs/2406.19829v1 )

ライセンス: Link先を確認
Álvaro Tejero, Rafael Sánchez, Laiachi El Kaoutit, Daniel Manzano, Antonio Lasanta, (参考訳) 非平衡量子熱力学における興味深い現象は、熱過程の非対称性である。 熱平衡の緩和は最も重要な散逸過程であり、熱エンジンや冷凍機の設計において重要な概念であり、熱力学の基礎的な問題の研究に寄与し、アルゴリズム冷却のプロセスを通じて量子コンピューティングに関係している。 この種のプロセスの重要性にもかかわらず、それらのダイナミクスは理解されていない。 熱平衡に対する自由緩和は, 系の温度が上昇(加熱)するか, あるいは低下(冷却)するかによって, 本質的に異なる経路を辿ることが示される。 我々の理論は、情報幾何学理論に基づく最近開発された熱キネマティクスを用いて、量子二レベル系、量子調和振動子、および、解析結果と数値シミュレーションの両方を含む捕捉された量子ブラウン粒子の3つの原型例を用いて実証されている。 このために、開量子系への熱キネマティックなアプローチを拡張した。 さらに、2レベル系の場合の単純な理論的説明と、他の2つの系のより一般的な図は、リウビリアンのスペクトル分解と相互過程のスペクトルギャップに基づくものである。

An intriguing phenomenon in non-equilibrium quantum thermodynamics is the asymmetry of thermal processes. Relaxation to thermal equilibrium is the most important dissipative process, being a key concept for the design of heat engines and refrigerators, contributing to the study of foundational questions of thermodynamics, and being relevant for quantum computing through the process of algorithmic cooling. Despite the importance of this kind of processes, their dynamics are far from being understood. We show that the free relaxation to thermal equilibrium follows intrinsically different paths depending on whether the temperature of the system increases (heating up) or decreases (cooling down), being faster in the first case. Our theory is exemplified using the recently developed thermal kinematics based on information geometry theory, utilizing three prototypical examples: a quantum two-level system, the quantum harmonic oscillator, and a trapped quantum Brownian particle, including both analytic results and numerical simulations. For this, we have extended the thermal kinematic approach to open quantum systems. Additionally, we offer a simple theoretical explanation in the case of a two level system and a more general picture for the other two systems based on the spectral decomposition of the Liouvillian and the spectral gap of reciprocal processes.
翻訳日:2024-07-01 17:00:05 公開日:2024-06-28
# MuGSI:グラフ分類のための多粒度構造情報付きGNNの蒸留

MuGSI: Distilling GNNs with Multi-Granularity Structural Information for Graph Classification ( http://arxiv.org/abs/2406.19832v1 )

ライセンス: Link先を確認
Tianjun Yao, Jiaqi Sun, Defu Cao, Kun Zhang, Guangyi Chen, (参考訳) 近年、GNN-to-MLPナレッジ蒸留(KD)フレームワークを導入し、GNNの優れた性能とMPPの高速推論速度を両立させている。 しかし、既存のKDフレームワークは主に単一グラフ内のノード分類用に設計されており、グラフ分類への適用性はほとんど探索されていない。 ノード分類からグラフ分類へのKDの拡張には,(1)ソフトラベルによる学習信号の空間性,(2)学生のMLPの限られた表現性,特に限られた入力特徴空間を持つデータセットにおいて,2つの課題が生じる。 これらの課題を克服するために,グラフ分類に多粒性構造情報を利用する新しいKDフレームワークであるMuGSIを紹介する。 具体的には,最初の課題に取り組むために,MuGSIにおける多粒度蒸留損失を提案する。 この損失関数は、グラフレベルの蒸留、サブグラフレベルの蒸留、ノードレベルの蒸留の3つの異なる構成要素で構成されている。 各コンポーネントはグラフ構造の特定の粒度を目標とし、教師モデルから生徒モデルへの構造的知識の包括的な移行を保証する。 2つ目の課題に対処するため、MuGSIはノード機能拡張コンポーネントを組み込むことを提案し、学生のMLPの表現性を向上し、より有能な学習者を増やす。 さまざまなデータセットと異なる教師/学生モデルアーキテクチャにまたがる広範な実験を行います。 実験結果は, MuGSIの有効性, 有効性, 堅牢性を示した。 コードは以下で公開されている。 \textbf{\url{https://github.com/tianyao-aka/MuGSI}。 ※

Recent works have introduced GNN-to-MLP knowledge distillation (KD) frameworks to combine both GNN's superior performance and MLP's fast inference speed. However, existing KD frameworks are primarily designed for node classification within single graphs, leaving their applicability to graph classification largely unexplored. Two main challenges arise when extending KD for node classification to graph classification: (1) The inherent sparsity of learning signals due to soft labels being generated at the graph level; (2) The limited expressiveness of student MLPs, especially in datasets with limited input feature spaces. To overcome these challenges, we introduce MuGSI, a novel KD framework that employs Multi-granularity Structural Information for graph classification. Specifically, we propose multi-granularity distillation loss in MuGSI to tackle the first challenge. This loss function is composed of three distinct components: graph-level distillation, subgraph-level distillation, and node-level distillation. Each component targets a specific granularity of the graph structure, ensuring a comprehensive transfer of structural knowledge from the teacher model to the student model. To tackle the second challenge, MuGSI proposes to incorporate a node feature augmentation component, thereby enhancing the expressiveness of the student MLPs and making them more capable learners. We perform extensive experiments across a variety of datasets and different teacher/student model architectures. The experiment results demonstrate the effectiveness, efficiency, and robustness of MuGSI. Codes are publicly available at: \textbf{\url{https://github.com/tianyao-aka/MuGSI}.}
翻訳日:2024-07-01 17:00:05 公開日:2024-06-28
# LightStereo:Channel Boostは効率的な2Dコストアグリゲーションに必要なもの

LightStereo: Channel Boost Is All Your Need for Efficient 2D Cost Aggregation ( http://arxiv.org/abs/2406.19833v1 )

ライセンス: Link先を確認
Xianda Guo, Chenming Zhang, Dujun Nie, Wenzhao Zheng, Youmin Zhang, Long Chen, (参考訳) 提案するLightStereoは,マッチングプロセスの高速化を目的とした,最先端のステレオマッチングネットワークである。 計算集約的な4Dコストの集約に依存する従来の手法とは別に、LightStereoは軽量な代替手段として3Dコストボリュームを採用する。 類似したアプローチがこれまで検討されてきたが、我々のブレークスルーは、マッチングコストの分布がカプセル化される3Dコストボリュームのチャネル次元に焦点をあてることで、パフォーマンスを向上させることである。 私たちの徹底的な探索は、重要な次元のキャパシティを増幅し、精度と効率の両方を確保するための多くの戦略を生み出しました。 提案したLightStereoと,その速度,精度,資源利用性において優れた性能を示す各種ベンチマークの最先端手法を比較した。 LightStereoは、SceneFlowデータセットにおいて、最低22GFLOPを最低17msで要求しながら、競争力のあるEPEの指標を達成している。我々は、ステレオマッチングのための2Dコスト集約の効果を総合分析し、効率的なステレオシステムの現実的な応用方法を明らかにする。 コードは \url{https://github.com/XiandaGuo/OpenStereo} で入手できる。

We present LightStereo, a cutting-edge stereo-matching network crafted to accelerate the matching process. Departing from conventional methodologies that rely on aggregating computationally intensive 4D costs, LightStereo adopts the 3D cost volume as a lightweight alternative. While similar approaches have been explored previously, our breakthrough lies in enhancing performance through a dedicated focus on the channel dimension of the 3D cost volume, where the distribution of matching costs is encapsulated. Our exhaustive exploration has yielded plenty of strategies to amplify the capacity of the pivotal dimension, ensuring both precision and efficiency. We compare the proposed LightStereo with existing state-of-the-art methods across various benchmarks, which demonstrate its superior performance in speed, accuracy, and resource utilization. LightStereo achieves a competitive EPE metric in the SceneFlow datasets while demanding a minimum of only 22 GFLOPs, with an inference time of just 17 ms. Our comprehensive analysis reveals the effect of 2D cost aggregation for stereo matching, paving the way for real-world applications of efficient stereo systems. Code will be available at \url{https://github.com/XiandaGuo/OpenStereo}.
翻訳日:2024-07-01 17:00:05 公開日:2024-06-28
# AnomaLLMy -- 低信頼単一トークン予測によるブラックボックスLDMの異常トークンの検出

AnomaLLMy -- Detecting anomalous tokens in black-box LLMs through low-confidence single-token predictions ( http://arxiv.org/abs/2406.19840v1 )

ライセンス: Link先を確認
Waligóra Witold, (参考訳) 本稿では,APIのみアクセス可能なブラックボックス大規模言語モデル(LLM)における異常トークンの自動検出手法であるAnomaLLMyを紹介する。 低信頼の単一トークン予測をコスト効果指標として、AnomaLLMyはモデル動作の不規則性を識別し、モデルの品質と信頼性を低下させる異常トークンの問題に対処する。 cl100k_baseデータセットで検証されたGPT-4のトークンセットであるAnomaLLMyは、413のメジャーと65のマイナーな異常を検出し、APIクレジットに24.39ドルをかけただけでメソッドの効率を実証した。 本研究から得られた知見は, LLMの堅牢性と精度の向上, 特にトークン化剤の開発・評価に有用であることが期待される。

This paper introduces AnomaLLMy, a novel technique for the automatic detection of anomalous tokens in black-box Large Language Models (LLMs) with API-only access. Utilizing low-confidence single-token predictions as a cost-effective indicator, AnomaLLMy identifies irregularities in model behavior, addressing the issue of anomalous tokens degrading the quality and reliability of models. Validated on the cl100k_base dataset, the token set of GPT-4, AnomaLLMy detected 413 major and 65 minor anomalies, demonstrating the method's efficiency with just \$24.39 spent in API credits. The insights from this research are expected to be beneficial for enhancing the robustness of and accuracy of LLMs, particularly in the development and assessment of tokenizers.
翻訳日:2024-07-01 17:00:05 公開日:2024-06-28
# StreamMOTP: 複合3次元多目的追跡と軌道予測のためのストリーミングと統一フレームワーク

StreamMOTP: Streaming and Unified Framework for Joint 3D Multi-Object Tracking and Trajectory Prediction ( http://arxiv.org/abs/2406.19844v1 )

ライセンス: Link先を確認
Jiaheng Zhuang, Guoan Wang, Siyu Zhang, Xiyang Wang, Hangning Zhou, Ziyao Xu, Chi Zhang, Zhiheng Li, (参考訳) 3D多目的追跡と軌道予測は、自律走行システムにおいて2つの重要なモジュールである。 一般に、2つのタスクは従来のパラダイムで別々に処理され、最近これらの2つのタスクを共同でモデリングする方法がいくつか検討され始めている。 しかし、これらのアプローチは、単一フレームトレーニングの限界と、追跡タスクと予測タスクの間の一貫性のない座標表現に悩まされている。 本稿では,これらの課題に対処する3次元多目的追跡・軌道予測(StreamMOTP)のためのストリーミング統合フレームワークを提案する。 まず、このモデルを構築し、メモリバンクを利用して、追跡対象の長期潜伏機能をより効果的に保存し、活用する。 次に、2つのタスク間の座標表現のギャップを埋め、軌道予測のためのポーズ不変性を維持するために、相対時空間位置符号化戦略を導入する。 第3に,予測軌道の品質と整合性をさらに向上させる。 本稿では,一般的な nuSences データセットに関する広範な実験を行い,StreamMOTP の有効性と優位性を実証した。 さらに,提案手法が自律運転の実適用において大きな可能性と優位性を持っていることも証明した。

3D multi-object tracking and trajectory prediction are two crucial modules in autonomous driving systems. Generally, the two tasks are handled separately in traditional paradigms and a few methods have started to explore modeling these two tasks in a joint manner recently. However, these approaches suffer from the limitations of single-frame training and inconsistent coordinate representations between tracking and prediction tasks. In this paper, we propose a streaming and unified framework for joint 3D Multi-Object Tracking and trajectory Prediction (StreamMOTP) to address the above challenges. Firstly, we construct the model in a streaming manner and exploit a memory bank to preserve and leverage the long-term latent features for tracked objects more effectively. Secondly, a relative spatio-temporal positional encoding strategy is introduced to bridge the gap of coordinate representations between the two tasks and maintain the pose-invariance for trajectory prediction. Thirdly, we further improve the quality and consistency of predicted trajectories with a dual-stream predictor. We conduct extensive experiments on popular nuSences dataset and the experimental results demonstrate the effectiveness and superiority of StreamMOTP, which outperforms previous methods significantly on both tasks. Furthermore, we also prove that the proposed framework has great potential and advantages in actual applications of autonomous driving.
翻訳日:2024-07-01 17:00:05 公開日:2024-06-28
# 仮想コンテキスト:特殊トークン注入による脱獄攻撃の強化

Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection ( http://arxiv.org/abs/2406.19845v1 )

ライセンス: Link先を確認
Yuqi Zhou, Lin Lu, Hanchi Sun, Pan Zhou, Lichao Sun, (参考訳) 大規模言語モデル(LLM)に対するジェイルブレイク攻撃は、倫理や法律に違反した有害なコンテンツを生成するためにこれらのモデルを誘導し、LLMのセキュリティに重大な脅威をもたらす。 現在のジェイルブレイク攻撃は、防御策による成功率の低下と、特定のプロンプトを作るための高いリソース要求の2つの主な課題に直面している。 本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。 Virtual Contextは、既存のjailbreakメソッドの成功率を大幅に増加させ、ターゲットモデルに関するバックグラウンド知識を最小限にすることでこれらの課題に対処する。 総合的な評価では、仮想コンテキスト支援のジェイルブレイク攻撃は、様々なLLMで広く使われている4つのジェイルブレイク手法の成功率を約40%向上させることができる。 さらに、オリジナルの悪意のある振る舞いにVirtual Contextを適用することで、目立ったジェイルブレイク効果がもたらされる。 まとめると、我々の研究はジェイルブレイク攻撃における特別なトークンの可能性を強調し、LLMのセキュリティを包括的に強化するリピートテストにおけるこの脅威を含むことを推奨している。

Jailbreak attacks on large language models (LLMs) involve inducing these models to generate harmful content that violates ethics or laws, posing a significant threat to LLM security. Current jailbreak attacks face two main challenges: low success rates due to defensive measures and high resource requirements for crafting specific prompts. This paper introduces Virtual Context, which leverages special tokens, previously overlooked in LLM security, to improve jailbreak attacks. Virtual Context addresses these challenges by significantly increasing the success rates of existing jailbreak methods and requiring minimal background knowledge about the target model, thus enhancing effectiveness in black-box settings without additional overhead. Comprehensive evaluations show that Virtual Context-assisted jailbreak attacks can improve the success rates of four widely used jailbreak methods by approximately 40% across various LLMs. Additionally, applying Virtual Context to original malicious behaviors still achieves a notable jailbreak effect. In summary, our research highlights the potential of special tokens in jailbreak attacks and recommends including this threat in red-teaming testing to comprehensively enhance LLM security.
翻訳日:2024-07-01 17:00:05 公開日:2024-06-28
# MLOpsアーキテクチャの分析:システムマッピング研究

An Analysis of MLOps Architectures: A Systematic Mapping Study ( http://arxiv.org/abs/2406.19847v1 )

ライセンス: Link先を確認
Faezeh Amou Najafabadi, Justus Bogner, Ilias Gerostathopoulos, Patricia Lago, (参考訳) コンテキスト。 マシンラーニングオペレーション(MLOps)の採用が増加しているにも関わらず、チームは、このパラダイムを特定のプロジェクトに効果的に適用する上で、依然として課題に直面している。 MLOpsにはさまざまな利用可能なツールがありますが、同時にアーキテクチャ設計に影響を及ぼすような統合されたアーキテクチャ知識が欠如しています。 目的。 私たちの主な目的は、包括的な概要を提供することです。 (i)MLOpsアーキテクチャが文献にまたがってどのように定義されるか、そして (ii) どのツールがそれぞれのアーキテクチャコンポーネントの実装をサポートするか。 方法。 本手法を応用し,自動,手動,スノーボールによる探索と選択による43の初等研究を選定する。 その後、カードソートを用いて結果を合成する。 結果。 コントリビューション i)35のMLOpsアーキテクチャコンポーネントの分類。 (二)いくつかのMLOpsアーキテクチャの変種、及び (iii) 特定されたコンポーネントと既存のMLOpsツールのシステマティックマップ。 結論。 本研究はアーキテクチャの観点から,MLOpsの最先端技術の概要を提供する。 研究者や実践者は、私たちの発見を利用して、MLOpsシステムのアーキテクチャ設計を知らせることができます。

Context. Despite the increasing adoption of Machine Learning Operations (MLOps), teams still encounter challenges in effectively applying this paradigm to their specific projects. While there is a large variety of available tools usable for MLOps, there is simultaneously a lack of consolidated architecture knowledge that can inform the architecture design. Objective. Our primary objective is to provide a comprehensive overview of (i) how MLOps architectures are defined across the literature and (ii) which tools are mentioned to support the implementation of each architecture component. Method. We apply the Systematic Mapping Study method and select 43 primary studies via automatic, manual, and snowballing-based search and selection procedures. Subsequently, we use card sorting to synthesize the results. Results. We contribute (i) a categorization of 35 MLOps architecture components, (ii) a description of several MLOps architecture variants, and (iii) a systematic map between the identified components and the existing MLOps tools. Conclusion. This study provides an overview of the state of the art in MLOps from an architectural perspective. Researchers and practitioners can use our findings to inform the architecture design of their MLOps systems.
翻訳日:2024-07-01 17:00:05 公開日:2024-06-28
# 位相的に保護された原子間距離の量子化変化

Topologically protected quantized changes of the distance between atoms ( http://arxiv.org/abs/2406.19850v1 )

ライセンス: Link先を確認
Ali Emami Kopaei, Krzysztof Giergiel, Krzysztof Sacha, (参考訳) チューレスポンピングは、電位がゆっくりと周期的に時間的に変調されている場合、一次元周期ポテンシャルにおける粒子の輸送を可能にする。 各変調周期後の粒子の位置の変化は量子化され、ポンプサイクルのトポロジーにのみ依存し、摂動に対して堅牢である。 ここでは、Thouless pumpingにより、原子s波散乱長が時間的に適切に変調された場合、原子間距離の位相的に保護された量子化変化を実現することができることを示す。

Thouless pumping enables the transport of particles in a one-dimensional periodic potential if the potential is slowly and periodically modulated in time. The change in the position of particles after each modulation period is quantized and depends solely on the topology of the pump cycle, making it robust against perturbations. Here, we demonstrate that Thouless pumping also allows for the realization of topologically protected quantized changes of the distance between atoms if the atomic s-wave scattering length is properly modulated in time.
翻訳日:2024-07-01 17:00:05 公開日:2024-06-28
# FootBots: サッカーにおける動き予測のためのトランスフォーマーベースのアーキテクチャ

FootBots: A Transformer-based Architecture for Motion Prediction in Soccer ( http://arxiv.org/abs/2406.19852v1 )

ライセンス: Link先を確認
Guillem Capellera, Luis Ferraz, Antonio Rubio, Antonio Agudo, Francesc Moreno-Noguer, (参考訳) サッカーにおけるモーション予測は、プレーヤーとボールの相互作用から複雑なダイナミクスを捉えることを伴う。 そこで我々は, エンコーダ・デコーダ・トランスフォーメータをベースとしたフットボットを, 等価特性による動作予測と条件付き動作予測に対応させるアーキテクチャとして提案する。 FootBotsは、設定されたアテンションブロックとマルチアテンションブロックデコーダを使用して、時間的および社会的ダイナミクスをキャプチャする。 本評価では,サッカーデータセットと合成データセットの2つのデータセットを利用する。 合成データセットからの洞察は、フットボットの社会的注意機構の有効性と条件付き動作予測の重要性を強調している。 実際のサッカーデータに対する実証的な結果から、フットボットは、ボールの位置に基づいて選手を予測したり、ボールと防御(防御)チームに基づいて攻撃(防御)チームを予測したり、すべての選手に基づいてボールの位置を予測したりといった条件付きタスクにおいて、ベースラインを上回り、卓越していることが示された。 我々の評価は量的および質的な結果と結びついている。 https://youtu.be/9kaEkfzG3L8

Motion prediction in soccer involves capturing complex dynamics from player and ball interactions. We present FootBots, an encoder-decoder transformer-based architecture addressing motion prediction and conditioned motion prediction through equivariance properties. FootBots captures temporal and social dynamics using set attention blocks and multi-attention block decoder. Our evaluation utilizes two datasets: a real soccer dataset and a tailored synthetic one. Insights from the synthetic dataset highlight the effectiveness of FootBots' social attention mechanism and the significance of conditioned motion prediction. Empirical results on real soccer data demonstrate that FootBots outperforms baselines in motion prediction and excels in conditioned tasks, such as predicting the players based on the ball position, predicting the offensive (defensive) team based on the ball and the defensive (offensive) team, and predicting the ball position based on all players. Our evaluation connects quantitative and qualitative findings. https://youtu.be/9kaEkfzG3L8
翻訳日:2024-07-01 17:00:05 公開日:2024-06-28
# YuLan: オープンソースの大規模言語モデル

YuLan: An Open-source Large Language Model ( http://arxiv.org/abs/2406.19853v1 )

ライセンス: Link先を確認
Yutao Zhu, Kun Zhou, Kelong Mao, Wentong Chen, Yiding Sun, Zhipeng Chen, Qian Cao, Yihan Wu, Yushuo Chen, Feng Wang, Lei Zhang, Junyi Li, Xiaolei Wang, Lei Wang, Beichen Zhang, Zican Dong, Xiaoxue Cheng, Yuhan Chen, Xinyu Tang, Yupeng Hou, Qiangqiang Ren, Xincheng Pang, Shufang Xie, Wayne Xin Zhao, Zhicheng Dou, Jiaxin Mao, Yankai Lin, Ruihua Song, Jun Xu, Xu Chen, Rui Yan, Zhewei Wei, Di Hu, Wenbing Huang, Ze-Feng Gao, Yueguo Chen, Weizheng Lu, Ji-Rong Wen, (参考訳) 大規模言語モデル(LLM)は多くのアプリケーションの基盤となり、自然言語の処理と理解の幅広い能力を活用している。 多くのオープンソース LLM が技術報告とともにリリースされているが、トレーニングの詳細の欠如はさらなる研究と開発を妨げる。 本稿では,12 億ドルのパラメータを持つオープンソース LLM シリーズである YuLan の開発について述べる。 YuLanのベースモデルは、英語、中国語、多言語テキストを含む多種多様なコーパスから派生した約1.7ドルのトークンで事前訓練されている。 我々は,YuLanの全体的な能力を高めるために,3段階の事前学習手法を設計する。 その後の訓練のフェーズでは、命令チューニングと人間のアライメントが組み込まれ、かなりの量の高品質な合成データが使用されている。 複雑で長い知識の学習を容易にするため、我々はこれらの段階にわたってカリキュラム・ラーニング・フレームワークを考案し、LLMが難易度の高い方法で知識を学ぶのに役立つようにした。 ユランのトレーニングは2024年1月に終了し、様々な英語と中国語のベンチマークで最先端のLLMと同等のパフォーマンスを達成した。 本稿では,LLMをゼロから開発するための総合的な技術ロードマップを概説する。 私たちのモデルとコードはhttps://github.com/RUC-GSAI/YuLan-Chat.comで公開されています。

Large language models (LLMs) have become the foundation of many applications, leveraging their extensive capabilities in processing and understanding natural language. While many open-source LLMs have been released with technical reports, the lack of training details hinders further research and development. This paper presents the development of YuLan, a series of open-source LLMs with $12$ billion parameters. The base model of YuLan is pre-trained on approximately $1.7$T tokens derived from a diverse corpus, including massive English, Chinese, and multilingual texts. We design a three-stage pre-training method to enhance YuLan's overall capabilities. Subsequent phases of training incorporate instruction-tuning and human alignment, employing a substantial volume of high-quality synthesized data. To facilitate the learning of complex and long-tail knowledge, we devise a curriculum-learning framework throughout across these stages, which helps LLMs learn knowledge in an easy-to-hard manner. YuLan's training is finished on Jan, 2024 and has achieved performance on par with state-of-the-art LLMs across various English and Chinese benchmarks. This paper outlines a comprehensive technical roadmap for developing LLMs from scratch. Our model and codes are available at https://github.com/RUC-GSAI/YuLan-Chat.
翻訳日:2024-07-01 17:00:05 公開日:2024-06-28
# MetaDesigner: AI駆動、ユーザ中心、多言語WordArt合成によるアーティスティックタイポグラフィの向上

MetaDesigner: Advancing Artistic Typography through AI-Driven, User-Centric, and Multilingual WordArt Synthesis ( http://arxiv.org/abs/2406.19859v1 )

ライセンス: Link先を確認
Jun-Yan He, Zhi-Qi Cheng, Chenyang Li, Jingdong Sun, Qi He, Wangmeng Xiang, Hanyuan Chen, Jin-Peng Lan, Xianhui Lin, Kang Zhu, Bin Luo, Yifeng Geng, Xuansong Xie, Alexander G. Hauptmann, (参考訳) MetaDesignerは、Large Language Models(LLM)の強みを活用して、ユーザエンゲージメントを中心としたデザインパラダイムを駆動することによって、芸術的なタイポグラフィ合成に革命をもたらす。 このフレームワークのコアにはPipeline、Glyph、Textureエージェントで構成されるマルチエージェントシステムがあり、セマンティックな拡張から複雑なテクスチャの付与に至るまで、カスタマイズされたWordArtの作成を可能にする。 MetaDesignerには、マルチモーダルモデルからの洞察とユーザ評価を活用して、設計プロセスを反復的に洗練・拡張する、包括的なフィードバックメカニズムが組み込まれている。 このフィードバックループを通じて、システムはハイパーパラメータを順応的に調整し、ユーザ定義のスタイルとテーマの好みに合わせる。 実証的な検証は、MetaDesignerが様々なWordArtアプリケーションに効果的に機能し、審美的に魅力的でコンテキストに敏感な結果を生み出す能力を強調している。

MetaDesigner revolutionizes artistic typography synthesis by leveraging the strengths of Large Language Models (LLMs) to drive a design paradigm centered around user engagement. At the core of this framework lies a multi-agent system comprising the Pipeline, Glyph, and Texture agents, which collectively enable the creation of customized WordArt, ranging from semantic enhancements to the imposition of complex textures. MetaDesigner incorporates a comprehensive feedback mechanism that harnesses insights from multimodal models and user evaluations to refine and enhance the design process iteratively. Through this feedback loop, the system adeptly tunes hyperparameters to align with user-defined stylistic and thematic preferences, generating WordArt that not only meets but exceeds user expectations of visual appeal and contextual relevance. Empirical validations highlight MetaDesigner's capability to effectively serve diverse WordArt applications, consistently producing aesthetically appealing and context-sensitive results.
翻訳日:2024-07-01 17:00:05 公開日:2024-06-28
# 強化学習のためのオペレーター世界モデル

Operator World Models for Reinforcement Learning ( http://arxiv.org/abs/2406.19861v1 )

ライセンス: Link先を確認
Pietro Novelli, Marco Pratticò, Massimiliano Pontil, Carlo Ciliberto, (参考訳) Policy Mirror Descent (PMD) は、シーケンシャルな意思決定のための強力で理論的に健全な方法論である。 しかし、明示的なアクション値関数が利用できないため、強化学習(Reinforcement Learning, RL)には直接適用できない。 本研究では,条件付き平均埋め込みを用いた環境のワールドモデル学習に基づく新しいアプローチを導入することで,この問題に対処する。 次に、RLの演算的定式化を利用して、行列演算による閉形式でこの量で作用値関数を表現する。 これらの推定器とPMDを組み合わせることで、大域的最適度への収束率を証明する新しいRLアルゴリズムであるPOWRが導かれる。 有限状態および無限状態設定における予備実験は,本手法の有効性を支持する。

Policy Mirror Descent (PMD) is a powerful and theoretically sound methodology for sequential decision-making. However, it is not directly applicable to Reinforcement Learning (RL) due to the inaccessibility of explicit action-value functions. We address this challenge by introducing a novel approach based on learning a world model of the environment using conditional mean embeddings. We then leverage the operatorial formulation of RL to express the action-value function in terms of this quantity in closed form via matrix operations. Combining these estimators with PMD leads to POWR, a new RL algorithm for which we prove convergence rates to the global optimum. Preliminary experiments in finite and infinite state settings support the effectiveness of our method.
翻訳日:2024-07-01 17:00:05 公開日:2024-06-28
# ソーシャルメディア上での政治分極の同定におけるサンプルデータセットのリスク状態バイアス

Sampled Datasets Risk Substantial Bias in the Identification of Political Polarization on Social Media ( http://arxiv.org/abs/2406.19867v1 )

ライセンス: Link先を確認
Gabriele Di Bona, Emma Fraxanet, Björn Komander, Andrea Lo Sasso, Virginia Morini, Antoine Vendeville, Max Falkenberg, Alessandro Galeazzi, (参考訳) X(Twitter)や他のソーシャルメディアプラットフォームによる最近のポリシー変更に続いて、ユーザインタラクションデータへのアクセスがますます困難になっている。 これらの制限は、社会や政治現象に関する堅牢な研究を妨げるものであり、これはソーシャルメディアプラットフォームが社会に深く影響しているためである。 そこで本稿では,24時間にわたるポーランド政治討論会において,ソーシャルメディアデータの異なるサンプルから得られる偏極対策の信頼性について検討する。 まず、Twitter上の政治的議論は、Twitterのより広い議論のごく一部にすぎないことを示す。 第二に、大規模なサンプルはプラットフォーム上での政治的議論全体を表すことができるが、小さなサンプルはオンラインでの偏光の真の構造を正確に反映することができない。 最後に,キーワードを多用して選択した場合,キーワードベースのサンプルが代表的であることを示すが,未選択のキーワードはサンプルデータに政治的偏見を生じさせる可能性がある。 我々の研究結果は、小さなサンプルデータセットで信頼できる方法で偏光を測定することは不可能であることを示すとともに、現在の研究データ不足がなぜ問題なのかを強調し、研究者のソーシャルメディアデータへのアクセスを改善することを目的とした欧州連合のデジタルサービス法(Digital Service Act)の実践的実装に関する洞察を提供する。

Following recent policy changes by X (Twitter) and other social media platforms, user interaction data has become increasingly difficult to access. These restrictions are impeding robust research pertaining to social and political phenomena online, which is critical due to the profound impact social media platforms may have on our societies. Here, we investigate the reliability of polarization measures obtained from different samples of social media data by studying the structural polarization of the Polish political debate on Twitter over a 24-hour period. First, we show that the political discussion on Twitter is only a small subset of the wider Twitter discussion. Second, we find that large samples can be representative of the whole political discussion on a platform, but small samples consistently fail to accurately reflect the true structure of polarization online. Finally, we demonstrate that keyword-based samples can be representative if keywords are selected with great care, but that poorly selected keywords can result in substantial political bias in the sampled data. Our findings demonstrate that it is not possible to measure polarization in a reliable way with small, sampled datasets, highlighting why the current lack of research data is so problematic, and providing insight into the practical implementation of the European Union's Digital Service Act which aims to improve researchers' access to social media data.
翻訳日:2024-07-01 16:50:10 公開日:2024-06-28
# ISAC対応IoTシステムにおける高モビリティパラダイムのためのクープマンベース軌道モデルと計算オフロード

Koopman based trajectory model and computation offloading for high mobility paradigm in ISAC enabled IoT system ( http://arxiv.org/abs/2406.19871v1 )

ライセンス: Link先を確認
Minh-Tuan Tran, (参考訳) モバイルデバイスのユーザエクスペリエンスは、バッテリ容量と処理能力の制限によって制限されている。 モバイルエッジコンピューティング(MEC)は、計算集約的なタスクをエッジクラウドサーバにオフロードするソリューションを提供する。 モバイル通信における統合されたセンシングと通信は、軌道予測と処理遅延を改善する可能性がある。 本研究では,多ユーザネットワークにおける資源配分最適化手法を提案する。 数値的な結果は、1000回毎に33\%の潜在的な改善を示す。 より良い結果を得るためには,予測モデルの分割と速度精度の問題に対処することが重要である。 今後の作業フェーズについて、さらなる改善と目標達成の計画を概説する。

User experience on mobile devices is constrained by limited battery capacity and processing power, but 6G technology advancements are diving rapidly into mobile technical evolution. Mobile edge computing (MEC) offers a solution, offloading computationally intensive tasks to edge cloud servers, reducing battery drain compared to local processing. The upcoming integrated sensing and communication in mobile communication may improve the trajectory prediction and processing delays. This study proposes a greedy resource allocation optimization strategy for multi-user networks to minimize aggregate energy usage. Numerical results show potential improvement at 33\% for every 1000 iteration. Addressing prediction model division and velocity accuracy issues is crucial for better results. A plan for further improvement and achieving objectives is outlined for the upcoming work phase.
翻訳日:2024-07-01 16:50:10 公開日:2024-06-28
# Rydbergアナログシミュレータにおける位相エンタングルメントエントロピーの予測

Predicting Topological Entanglement Entropy in a Rydberg analog simulator ( http://arxiv.org/abs/2406.19872v1 )

ライセンス: Link先を確認
Linda Mauron, Zakari Denis, Jannes Nys, Giuseppe Carleo, (参考訳) トポロジカルな物質の力学特性を予測することは、理論的および実験的な設定だけでなく、数値的にも難しい課題である。 本研究では, 時間依存型アンザッツに基づく変分法を提案し, ライドバーグ原子シミュレータ上での量子スピン-液体状態の動的調製に着目する。 このフレームワーク内では、動的準備プロトコル全体を通して、システムの状態を忠実に表現することができます。 このアプローチの柔軟性は、Rydberg-atom Hamiltonian の物理的に正しい形式に一致するだけでなく、関連する格子トポロジーにも一致する。 これは、ハミルトニアンと格子の両方の修正によって、問題の単純化バージョンに制約された以前の数値研究とは違っている。 我々のアプローチはさらに、トポロジ的絡み合いエントロピー(\gamma$)のような大域的な量へのアクセスを提供し、システムのトポロジ的性質に関する洞察を与える。 これは、位相的に順序付けられた位相の力学に時間依存の変分モンテカルロ法(t-VMC)を導入することで達成される。 スケーラブルなパラメータを持つジャストロー変分アンザッツを用いる場合、我々はシミュレーションを最先端の実験に適合するシステムサイズまで効率的に拡張することができる。 実験結果から, 動的状態準備プロトコルにおけるトポロジカル秩序の存在を確認するとともに, トポロジカルエンタングルメントダイナミクスの理解を深めた。 模擬状態は、共振価結合状態(RVB)に類似した(グローバル)位相秩序と局所的性質を示すが、プロトコルの断熱度に関係なく、後者の特徴的トポロジ的絡み合いエントロピー符号 $\gamma = \ln(2)$ を欠いていることを示す。

Predicting the dynamical properties of topological matter is a challenging task, not only in theoretical and experimental settings, but also numerically. This work proposes a variational approach based on a time-dependent correlated Ansatz, focusing on the dynamical preparation of a quantum-spin-liquid state on a Rydberg-atom simulator. Within this framework, we are able to faithfully represent the state of the system throughout the entire dynamical preparation protocol. The flexibility of our approach does not only allow one to match the physically correct form of the Rydberg-atom Hamiltonian but also the relevant lattice topology. This is unlike previous numerical studies which were constrained to simplified versions of the problem through the modification of both the Hamiltonian and the lattice. Our approach further gives access to global quantities such as the topological entanglement entropy ($\gamma$), providing insight into the topological properties of the system. This is achieved by the introduction of the time-dependent variational Monte Carlo (t-VMC) technique to the dynamics of topologically ordered phases. Upon employing a Jastrow variational Ansatz with a scalable number of parameters, we are able to efficiently extend our simulations to system sizes matching state-of-the-art experiments and beyond. Our results corroborate experimental observations, confirming the presence of topological order during the dynamical state-preparation protocol, and additionally deepen our understanding of topological entanglement dynamics. We show that, while the simulated state exhibits (global) topological order and local properties resembling those of a resonating-valence-bond (RVB) state, it lacks the latter's characteristic topological entanglement entropy signature $\gamma = \ln(2)$, irrespective of the degree of adiabaticity of the protocol.
翻訳日:2024-07-01 16:50:10 公開日:2024-06-28
# 相対的類似度スペクトルを用いた人間とモデル言語間の部分差の検出

Detecting Subtle Differences between Human and Model Languages Using Spectrum of Relative Likelihood ( http://arxiv.org/abs/2406.19874v1 )

ライセンス: Link先を確認
Yang Xu, Yu Wang, Hao An, Zhichen Liu, Yongyuan Li, (参考訳) 人間とモデル生成されたテキストは、言語における可能性の大きさを調べることで区別することができる。 しかし、言語モデルが人間のようなテキストを生成する能力が進化し続けるにつれて、ますます困難になりつつある。 本研究は, 絶対値ではなく相対的確率値を用いて新たな視点を提供し, 人間のモデルテキスト検出タスクのスペクトル的可能性から有用な特徴を抽出する。 教師付きとヒューリスティックに基づく2つの分類手法による検出手法を提案する。これにより,従来のゼロショット検出法と,ショートテキスト検出における新たな最先端技術との競合性能が得られる。 また,人間の言語とモデル言語との微妙な差異を明らかにし,心理言語学研究の理論的ルーツを見出すことができる。 私たちのコードはhttps://github.com/CLCS-SUSTech/FourierGPTで利用可能です。

Human and model-generated texts can be distinguished by examining the magnitude of likelihood in language. However, it is becoming increasingly difficult as language model's capabilities of generating human-like texts keep evolving. This study provides a new perspective by using the relative likelihood values instead of absolute ones, and extracting useful features from the spectrum-view of likelihood for the human-model text detection task. We propose a detection procedure with two classification methods, supervised and heuristic-based, respectively, which results in competitive performances with previous zero-shot detection methods and a new state-of-the-art on short-text detection. Our method can also reveal subtle differences between human and model languages, which find theoretical roots in psycholinguistics studies. Our code is available at https://github.com/CLCS-SUSTech/FourierGPT
翻訳日:2024-07-01 16:50:10 公開日:2024-06-28
# InfiniBench: ビデオ理解における大規模マルチモーダルモデルの総合ベンチマーク

InfiniBench: A Comprehensive Benchmark for Large Multimodal Models in Very Long Video Understanding ( http://arxiv.org/abs/2406.19875v1 )

ライセンス: Link先を確認
Kirolos Ataallah, Chenhui Gou, Eslam Abdelrahman, Khushbu Pahwa, Jian Ding, Mohamed Elhoseiny, (参考訳) 長いビデオを理解するには、数分間から数時間かかるが、ビデオの理解にはユニークな課題がある。 長大なビデオコンテンツの重要性は高まっているが、既存のベンチマークは主に短いクリップに焦点を当てている。 このギャップに対処するために、非常に長いビデオ理解のための包括的なベンチマークであるInfiniBenchを紹介します。 2)質問応答対が最も多いのは108.2Kである。 3)9つの異なるスキルを検証し、複数の選択の質問とオープンエンドの質問の両方を含む質問の多様性。 4)映像ソースは映画や毎日のテレビ番組から生まれており、批判的思考と包括的理解を必要とする映画スポイラー質問のような人間レベルの質問デザインがある。 InfiniBenchを用いて、商用モデルのGemini 1.5 Flashやオープンソースモデルなど、既存のLMM(Large MultiModality Model)を各スキルで包括的に評価する。 我々の結果は、Geminiのような最高のAIモデルは、平均精度42.72%、平均スコア5点中2.71パーセントで、パフォーマンスに苦戦していることを示している。 このベンチマークがLMMコミュニティを、長いビデオと人間レベルの理解に刺激することを期待している。 私たちのベンチマークはhttps://vision-cair.github.io/InfiniBench/でアクセスできます。

Understanding long videos, ranging from tens of minutes to several hours, presents unique challenges in video comprehension. Despite the increasing importance of long-form video content, existing benchmarks primarily focus on shorter clips. To address this gap, we introduce InfiniBench a comprehensive benchmark for very long video understanding which presents 1)The longest video duration, averaging 76.34 minutes; 2) The largest number of question-answer pairs, 108.2K; 3) Diversity in questions that examine nine different skills and include both multiple-choice questions and open-ended questions; 4) Humancentric, as the video sources come from movies and daily TV shows, with specific human-level question designs such as Movie Spoiler Questions that require critical thinking and comprehensive understanding. Using InfiniBench, we comprehensively evaluate existing Large MultiModality Models (LMMs) on each skill, including the commercial model Gemini 1.5 Flash and the open-source models. The evaluation shows significant challenges in our benchmark.Our results show that the best AI models such Gemini struggles to perform well with 42.72% average accuracy and 2.71 out of 5 average score. We hope this benchmark will stimulate the LMMs community towards long video and human-level understanding. Our benchmark can be accessed at https://vision-cair.github.io/InfiniBench/
翻訳日:2024-07-01 16:50:10 公開日:2024-06-28
# 問題から解決へ:量子ハードウェアの最適化問題を解決するための一般的なパイプライン

From Problem to Solution: A general Pipeline to Solve Optimisation Problems on Quantum Hardware ( http://arxiv.org/abs/2406.19876v1 )

ライセンス: Link先を確認
Tobias Rohe, Simon Grätz, Michael Kölle, Sebastian Zielinski, Jonas Stein, Claudia Linnhoff-Popien, (参考訳) 量子ハードウェアと量子アルゴリズムの継続的な改良により、量子優位性は到達範囲内にある。 20世紀末のコンピュータの開発と並行して、量子ソフトウェアの開発も急速に重要度と規模を増していくだろう。 量子コンピューティング(QC)の本質的な複雑さと新規性に加えて、開発に関わる多くの利害関係者の専門知識の欠如も考慮すれば、QCソフトウェア開発プロジェクトは、密集した非構造的な方法で実施されるリスクに晒され、明確なガイダンスや理解が欠如している。 本稿では,複数のステージにまたがる22のアクティビティを包括的に展開する量子最適化開発パイプラインと,遅延雑音型中間規模量子(NISQ)[1]と初期のNISQ時代を対象にしたプロジェクト管理の知見を組み合わせた。 私たちは、文献やユースケースを幅広くスクリーニングし、専門家にインタビューし、この一般的な量子パイプラインを開発するための専門知識を持ってきました。 提案するソリューションパイプラインは,ユースケース識別,ソリューションドラフト,前処理,実行,後処理の5段階に分けられる。 さらに、パイプラインには、プロジェクト管理の観点、プロジェクトの固有のリスク、そして現在のQC技術の技術的な成熟度に対処する2つのレビューポイントが含まれている。 この研究は、QCアプリケーションの開発に関わるすべての利害関係者のためのオリエンテーション支援として意図されており、量子ソフトウェアプロジェクトの成功率を高めることを目的としている。 技術開発も継続するので、研究者は適切な方法でモデルを適応し、拡張することを奨励します。

With constant improvements of quantum hardware and quantum algorithms, quantum advantage comes within reach. Parallel to the development of the computer at the end of the twentieth century, quantum software development will now also rapidly gain in importance and scale. On account of the inherent complexity and novelty of quantum computing (QC), as well as the expected lack of expertise of many of the stakeholders involved in its development, QC software development projects are exposed to the risk of being conducted in a crowded and unstructured way, lacking clear guidance and understanding. This paper presents a comprehensive quantum optimisation development pipeline, novel in its depth of 22 activities across multiple stages, coupled with project management insights, uniquely targeted to the late noisy intermediate-scale quantum (NISQ) [1] and early post-NISQ eras. We have extensively screened literature and use-cases, interviewed experts, and brought in our own expertise to develop this general quantum pipeline. The proposed solution pipeline is divided into five stages: Use-case Identification, Solution Draft, Pre-Processing, Execution and Post-Processing. Additionally, the pipeline contains two review points to address the project management view, the inherent risk of the project and the current technical maturity of QC technology. This work is intended as an orientation aid for all stakeholders involved in the development of QC applications and should therefore increase the chances of success of quantum software projects. We encourage researchers to adapt and extend the model where appropriate, as technological development also continues.
翻訳日:2024-07-01 16:50:10 公開日:2024-06-28
# Atention Meets UAVs: 低コストUAVにおけるDDoS検出の総合評価

Attention Meets UAVs: A Comprehensive Evaluation of DDoS Detection in Low-Cost UAVs ( http://arxiv.org/abs/2406.19881v1 )

ライセンス: Link先を確認
Ashish Sharma, SVSLN Surya Suhas Vaddhiparthy, Sai Usha Goparaju, Deepak Gangadharan, Harikumar Kandath, (参考訳) 本稿では、低コストでWi-Fiベースの無人航空機(UAV)によるDDoS攻撃に対するサイバーセキュリティ対策の強化に関する重要な課題について考察する。 本研究では,TCP(Transmission Control Protocol),ICMP(Internet Control Message Protocol),TCP+ICMPフラッディングアタックの3種類のDDoS攻撃を調査し,UAVシステムのコンパニオンコンピュータ上で動作する検出機構を開発した。 検出機構の一部として,XGBoost,分離フォレスト,Long Short-Term Memory (LSTM), Bidirectional-LSTM (Bi-LSTM), LSTM with attention, Bi-LSTM with attention, Time Series Transformer (TST) などのディープラーニングアルゴリズムの評価を行った。 評価の結果,注意機構を持つアルゴリズムは一般のアルゴリズムよりも優れており,TSTは実行時間0.1秒の最も効率的なモデルであることがわかった。 TSTは、それぞれTCP、ICMP、およびTCP + ICMPフラッシング攻撃に対して、0.999、0.997、0.943のF1スコアを示した。 そこで本研究では,車載DDoS検出機構を構築するために必要なステップについて述べる。 さらに, DDoS検出に最適なTSTハイパーパラメータを同定するためのアブレーション研究も行った。また, F1スコアが0.94から0.99に向上したことにより, TSTに学習可能な位置埋め込みを適応させることの利点も強調した。

This paper explores the critical issue of enhancing cybersecurity measures for low-cost, Wi-Fi-based Unmanned Aerial Vehicles (UAVs) against Distributed Denial of Service (DDoS) attacks. In the current work, we have explored three variants of DDoS attacks, namely Transmission Control Protocol (TCP), Internet Control Message Protocol (ICMP), and TCP + ICMP flooding attacks, and developed a detection mechanism that runs on the companion computer of the UAV system. As a part of the detection mechanism, we have evaluated various machine learning, and deep learning algorithms, such as XGBoost, Isolation Forest, Long Short-Term Memory (LSTM), Bidirectional-LSTM (Bi-LSTM), LSTM with attention, Bi-LSTM with attention, and Time Series Transformer (TST) in terms of various classification metrics. Our evaluation reveals that algorithms with attention mechanisms outperform their counterparts in general, and TST stands out as the most efficient model with a run time of 0.1 seconds. TST has demonstrated an F1 score of 0.999, 0.997, and 0.943 for TCP, ICMP, and TCP + ICMP flooding attacks respectively. In this work, we present the necessary steps required to build an on-board DDoS detection mechanism. Further, we also present the ablation study to identify the best TST hyperparameters for DDoS detection, and we have also underscored the advantage of adapting learnable positional embeddings in TST for DDoS detection with an improvement in F1 score from 0.94 to 0.99.
翻訳日:2024-07-01 16:50:10 公開日:2024-06-28
# 脳波と言語モデルを用いた言語処理の時間スケールの検討

Investigating the Timescales of Language Processing with EEG and Language Models ( http://arxiv.org/abs/2406.19884v1 )

ライセンス: Link先を確認
Davide Turco, Conor Houghton, (参考訳) 本研究では,事前学習したトランスフォーマーベース言語モデルと脳波データからの単語表現のアライメントを検討することで,言語処理の時間的ダイナミクスについて検討する。 テンポラルレスポンス関数(TRF)モデルを用いて,言語理解における人工言語モデルと脳反応の相互作用に関する知見を明らかにする。 分析の結果,異なる層からのTRFのパターンが明らかとなり,語彙的および構成的処理への様々な貢献が明らかになった。 さらに,線形判別分析(LDA)を用いて音声部分表現(POS)を分離し,それらが神経応答や構文処理の基盤となるメカニズムに与える影響について考察した。 これらの知見は,高時間分解能の言語処理ダイナミクスを探索するための脳波の有用性を裏付けるものである。 人工言語モデルとニューラルアクティビティをブリッジすることで、微細な時間スケールでの相互作用の理解を深める。

This study explores the temporal dynamics of language processing by examining the alignment between word representations from a pre-trained transformer-based language model, and EEG data. Using a Temporal Response Function (TRF) model, we investigate how neural activity corresponds to model representations across different layers, revealing insights into the interaction between artificial language models and brain responses during language comprehension. Our analysis reveals patterns in TRFs from distinct layers, highlighting varying contributions to lexical and compositional processing. Additionally, we used linear discriminant analysis (LDA) to isolate part-of-speech (POS) representations, offering insights into their influence on neural responses and the underlying mechanisms of syntactic processing. These findings underscore EEG's utility for probing language processing dynamics with high temporal resolution. By bridging artificial language models and neural activity, this study advances our understanding of their interaction at fine timescales.
翻訳日:2024-07-01 16:50:10 公開日:2024-06-28
# 地下バイオマス推定のための地球空間基盤モデルの微調整

Fine-tuning of Geospatial Foundation Models for Aboveground Biomass Estimation ( http://arxiv.org/abs/2406.19888v1 )

ライセンス: Link先を確認
Michal Muszynski, Levente Klein, Ademir Ferreira da Silva, Anjani Prasad Atluri, Carlos Gomes, Daniela Szwarcman, Gurkanwar Singh, Kewen Gu, Maciel Zortea, Naomi Simumba, Paolo Fraccaro, Shraddha Singh, Steve Meliksetian, Campbell Watson, Daiki Kimura, Harini Srinivasan, (参考訳) 地球規模の植生構造マッピングは、地球規模の炭素循環を理解し、自然に基づく炭素隔離イニシアチブの有効性を最大化するために重要である。 さらに、植生構造図は、例えば、水の安全を改善し、生物多様性を高め、洪水のリスクを減らすためのガイダンス行動によって、気候変動の影響を低減するのに役立つ。 地球規模の衛星観測は、森林破壊の監視と管理、森林再生、森林再生、生物多様性の回復、持続可能な農業慣行の実施に重要な観測セットを提供する。 本稿では,ブラジルの様々なエコリージョンで収集された空間的データを用いて,地上バイオマス(AGB)を推定するための地理空間基盤モデルの微調整の有効性について検討する。 微調整されたモデルアーキテクチャは、エンコーダ(バックボーン)としてのSwin-Bトランスフォーマーと、デコーダヘッドのための単一の畳み込み層で構成されていた。 全ての結果はベースラインモデルとして訓練されたU-Netと比較され、このスパースラベル予測タスクの実験結果により、凍結エンコーダを用いた微調整された地理空間基盤モデルは、スクラッチから訓練されたU-Netに匹敵する性能を示した。 これは、最適化を必要とするパラメータが13倍少ない微調整モデルにもかかわらず、時間と計算リソースの両方を節約する。 さらに,ブラジルの異なるエコリージョンの粗いラベルで衛星画像の微調整を行うことにより,地理空間基盤モデルの伝達学習能力について検討した。

Global vegetation structure mapping is critical for understanding the global carbon cycle and maximizing the efficacy of nature-based carbon sequestration initiatives. Moreover, vegetation structure mapping can help reduce the impacts of climate change by, for example, guiding actions to improve water security, increase biodiversity and reduce flood risk. Global satellite measurements provide an important set of observations for monitoring and managing deforestation and degradation of existing forests, natural forest regeneration, reforestation, biodiversity restoration, and the implementation of sustainable agricultural practices. In this paper, we explore the effectiveness of fine-tuning of a geospatial foundation model to estimate above-ground biomass (AGB) using space-borne data collected across different eco-regions in Brazil. The fine-tuned model architecture consisted of a Swin-B transformer as the encoder (i.e., backbone) and a single convolutional layer for the decoder head. All results were compared to a U-Net which was trained as the baseline model Experimental results of this sparse-label prediction task demonstrate that the fine-tuned geospatial foundation model with a frozen encoder has comparable performance to a U-Net trained from scratch. This is despite the fine-tuned model having 13 times less parameters requiring optimization, which saves both time and compute resources. Further, we explore the transfer-learning capabilities of the geospatial foundation models by fine-tuning on satellite imagery with sparse labels from different eco-regions in Brazil.
翻訳日:2024-07-01 16:50:10 公開日:2024-06-28
# 制限のないWebをアンタングする:多言語登録の自動識別

Untangling the Unrestricted Web: Automatic Identification of Multilingual Registers ( http://arxiv.org/abs/2406.19892v1 )

ライセンス: Link先を確認
Erik Henriksson, Amanda Myntti, Anni Eskelinen, Selcen Erten-Johansson, Saara Hellström, Veronika Laippala, (参考訳) 本稿では16言語にわたるWebベースデータセットにおけるレジスタの自動識別のためのディープラーニングモデルについて検討する。 Webレジスタ(またはジャンル)の識別は、計算言語学において重要になったWebスケールデータセットの内容を理解するための堅牢なソリューションを提供する。 近年の進歩にもかかわらず、ノイズの多いWeb上のレジスタ分類器の可能性は、特に多言語設定や、制限のないWeb全体を対象としている場合、ほとんど探索されていないままである。 我々は、新しい多言語COREコーパスを用いて、さまざまなディープラーニングモデルを実験した。これは、制限のないWeb全体をカバーするように設計された25のレジスタの詳細な階層的な分類法を用いて、注釈付き16の言語を含む。 本モデルでは,階層的マルチラベル設定における詳細な分類が,競争力のある分類性能をもたらすことを示す。 しかし、全てのモデルが約80%のF1スコアでガラス天井に衝突し、これはウェブレジスタの非離散性と、いくつかの文書をラベル付けする際固有の不確実性に起因する。 あいまいな例を抽出することにより、モデル性能を90%以上改善する。 最後に、多言語モデルは単言語モデルよりも優れており、特に少ないトレーニング例と少ないレジスタを持つ言語の恩恵を受けている。 ゼロショット設定はパフォーマンスを平均7%低下させるが、これらのドロップは特定のレジスタや言語に関連付けられていない。 その代わり、レジスタは言語間で驚くほどの類似性を示している。

This article explores deep learning models for the automatic identification of registers - text varieties such as news reports and discussion forums - in web-based datasets across 16 languages. Web register (or genre) identification would provide a robust solution for understanding the content of web-scale datasets, which have become crucial in computational linguistics. Despite recent advances, the potential of register classifiers on the noisy web remains largely unexplored, particularly in multilingual settings and when targeting the entire unrestricted web. We experiment with a range of deep learning models using the new Multilingual CORE corpora, which includes 16 languages annotated using a detailed, hierarchical taxonomy of 25 registers designed to cover the entire unrestricted web. Our models achieve state-of-the-art results, showing that a detailed taxonomy in a hierarchical multi-label setting can yield competitive classification performance. However, all models hit a glass ceiling at approximately 80% F1 score, which we attribute to the non-discrete nature of web registers and the inherent uncertainty in labeling some documents. By pruning ambiguous examples, we improve model performance to over 90%. Finally, multilingual models outperform monolingual ones, particularly benefiting languages with fewer training examples and smaller registers. Although a zero-shot setting decreases performance by an average of 7%, these drops are not linked to specific registers or languages. Instead, registers show surprising similarity across languages.
翻訳日:2024-07-01 16:50:10 公開日:2024-06-28
# AuthAttLyzer-V2: 強化されたアンサンブル学習モデルによるコードオーサリング属性の公開とベンチマークデータセットの生成

AuthAttLyzer-V2: Unveiling Code Authorship Attribution using Enhanced Ensemble Learning Models & Generating Benchmark Dataset ( http://arxiv.org/abs/2406.19896v1 )

ライセンス: Link先を確認
Bhaskar Joshi, Sepideh HajiHossein Khani, Arash HabibiLashkari, (参考訳) Source Code Authorship Attribution (SCAA)は、ソフトウェアの起源と振舞いに関する洞察を提供するため、ソフトウェア分類に不可欠である。 コードの背後にある著者やグループを正確に特定することで、専門家は開発者のモチベーションやテクニックをよりよく理解することができます。 サイバーセキュリティの時代において、この属性は悪意のあるソフトウェア源の追跡に役立ち、特定の脅威のアクターやグループを示すコード内のパターンを特定し、最終的に脅威の知性と緩和戦略を強化する。 本稿では,SCAAのための新しいソースコード特徴抽出器であるAuthAttLyzer-V2について述べる。 そこで本研究では,3,000名の著者から24,000名のソースコードサンプルを検索し,C++の作者識別について検討した。 本手法は,SHAPで拡張したランダムフォレスト,グラディエントブースティング,XGBoostモデルを統合する。 この研究は、アンサンブルモデルが個々のコーディングスタイルを効果的に識別し、コードオーサシップのユニークな属性に関する洞察を提供する方法を示している。 このアプローチは、特にマルウェア分類において、著者帰属における複雑なパターンの理解と解釈において重要である。

Source Code Authorship Attribution (SCAA) is crucial for software classification because it provides insights into the origin and behavior of software. By accurately identifying the author or group behind a piece of code, experts can better understand the motivations and techniques of developers. In the cybersecurity era, this attribution helps trace the source of malicious software, identify patterns in the code that may indicate specific threat actors or groups, and ultimately enhance threat intelligence and mitigation strategies. This paper presents AuthAttLyzer-V2, a new source code feature extractor for SCAA, focusing on lexical, semantic, syntactic, and N-gram features. Our research explores author identification in C++ by examining 24,000 source code samples from 3,000 authors. Our methodology integrates Random Forest, Gradient Boosting, and XGBoost models, enhanced with SHAP for interpretability. The study demonstrates how ensemble models can effectively discern individual coding styles, offering insights into the unique attributes of code authorship. This approach is pivotal in understanding and interpreting complex patterns in authorship attribution, especially for malware classification.
翻訳日:2024-07-01 16:50:10 公開日:2024-06-28
# FI-CBL:エキスパートルールを用いた概念ベース学習の確率論的手法

FI-CBL: A Probabilistic Method for Concept-Based Learning with Expert Rules ( http://arxiv.org/abs/2406.19897v1 )

ライセンス: Link先を確認
Lev V. Utkin, Andrei V. Konstantinov, Stanislav R. Kirpichenko, (参考訳) 概念ベース学習(CBL)問題の解法を提案する。 この方法の背景にある主な考え方は、各概念に注釈を付けたイメージをパッチに分割し、オートエンコーダを使ってパッチを埋め込みに変換し、各クラスタが主に特定の概念でパッチの埋め込みを含むと仮定して、埋め込みをクラスタ化することである。 新しいイメージの概念を見つけるために、概念の特定の値を持つ画像からのパッチのレートに基づいて、概念の事前確率と後続確率を計算することによって、頻繁な推論を実装した。 そのため、提案手法はFrequentist Inference CBL(FI-CBL)と呼ばれる。 FI-CBLにより、専門家のルールを論理関数の形で推論手順に組み込むことができる。 法人化の背景にある考え方は、ルールを満たすために概念の事前および条件付き確率を更新することである。 この方法は、確率的計算の明確なシーケンスと明確な周波数解釈を持つため透明である。 数値実験により、FI-CBLは、トレーニングデータの数が小さい場合において、概念ボトルネックモデルより優れていることが示された。 提案されたアルゴリズムのコードは公開されている。

A method for solving concept-based learning (CBL) problem is proposed. The main idea behind the method is to divide each concept-annotated image into patches, to transform the patches into embeddings by using an autoencoder, and to cluster the embeddings assuming that each cluster will mainly contain embeddings of patches with certain concepts. To find concepts of a new image, the method implements the frequentist inference by computing prior and posterior probabilities of concepts based on rates of patches from images with certain values of the concepts. Therefore, the proposed method is called the Frequentist Inference CBL (FI-CBL). FI-CBL allows us to incorporate the expert rules in the form of logic functions into the inference procedure. An idea behind the incorporation is to update prior and conditional probabilities of concepts to satisfy the rules. The method is transparent because it has an explicit sequence of probabilistic calculations and a clear frequency interpretation. Numerical experiments show that FI-CBL outperforms the concept bottleneck model in cases when the number of training data is small. The code of proposed algorithms is publicly available.
翻訳日:2024-07-01 16:50:10 公開日:2024-06-28
# パラフレーズタイプのプロンプト工学能力

Paraphrase Types Elicit Prompt Engineering Capabilities ( http://arxiv.org/abs/2406.19898v1 )

ライセンス: Link先を確認
Jan Philip Wahle, Terry Ruas, Yang Xu, Bela Gipp, (参考訳) 現代の言語モデルの成功の多くは、モデルを指示する適切なプロンプトを見つけることに依存している。 これまで、プロンプトの言語表現の変化がこれらのモデルにどのように影響するかはほとんど分かっていなかった。 本研究は,言語的特徴がパラフレーズ型,すなわち特定の位置における異なる言語的変化を通してモデルにどのような影響を及ぼすかを系統的および実証的に評価する。 120のタスクにまたがる5つのモデルと6つのパラフレーズ(形態学、構文、語彙、語彙、構文、談話など)に対する行動変化を測定する。 また、他のプロンプトエンジニアリング要因(例えば、プロンプトの長さ、語彙の多様性、トレーニングデータに近い)も制御します。 その結果,特定のパラフレーズ型(Mixtral 8x7Bでは6.7%,LLaMA 3 8Bでは5.5%)にプロンプトを適用した場合,言語モデルがタスクを改善する可能性が示唆された。 特に、形態学と語彙の変化、すなわち語彙はプロンプトの改善に有望であった。 これらの知見は、言語表現の多様性を扱うことのできる、より堅牢な言語モデルの開発に寄与する。

Much of the success of modern language models depends on finding a suitable prompt to instruct the model. Until now, it has been largely unknown how variations in the linguistic expression of prompts affect these models. This study systematically and empirically evaluates which linguistic features influence models through paraphrase types, i.e., different linguistic changes at particular positions. We measure behavioral changes for five models across 120 tasks and six families of paraphrases (i.e., morphology, syntax, lexicon, lexico-syntax, discourse, and others). We also control for other prompt engineering factors (e.g., prompt length, lexical diversity, and proximity to training data). Our results show a potential for language models to improve tasks when their prompts are adapted in specific paraphrase types (e.g., 6.7% median gain in Mixtral 8x7B; 5.5% in LLaMA 3 8B). In particular, changes in morphology and lexicon, i.e., the vocabulary used, showed promise in improving prompts. These findings contribute to developing more robust language models capable of handling variability in linguistic expression.
翻訳日:2024-07-01 16:50:10 公開日:2024-06-28
# H&E画像における相似図形検出のためのPHH3の値について

On the Value of PHH3 for Mitotic Figure Detection on H&E-stained Images ( http://arxiv.org/abs/2406.19899v1 )

ライセンス: Link先を確認
Jonathan Ganz, Christian Marzahl, Jonas Ammeling, Barbara Richter, Chloé Puget, Daniela Denk, Elena A. Demeter, Flaviu A. Tabaran, Gabriel Wasinger, Karoline Lipnik, Marco Tecilla, Matthew J. Valentine, Michael J. Dark, Niklas Abele, Pompei Bolfa, Ramona Erber, Robert Klopfleisch, Sophie Merz, Taryn A. Donovan, Samir Jabari, Christof A. Bertram, Katharina Breininger, Marc Aubreville, (参考訳) ヘマトキシリンおよびエオシン(H&E)染色スライスで観察されるミトティックフィギュア(MFs)の数は、腫瘍細胞増殖の指標として重要な予後マーカーである。 しかし、MFの識別は、低レーダ間合意が知られている。 ディープラーニングアルゴリズムはこのタスクを標準化できますが、トレーニングと検証には大量の注釈付きデータが必要です。 さらに、アノテーションプロセス中に導入されたラベルノイズは、アルゴリズムの性能を阻害する可能性がある。 H&Eとは異なり、ミトーシス特異的抗体ホスホヒストンH3(PHH3)はMFを特異的に強調する。 PHH3に対して染色されたスライド上のMFをカウントすると、ラッカー間の合意が高くなるため、最近ではH&EにおけるMFのアノテーションの基礎的真実として使われている。 しかし、PHH3はH&E染色と区別できない細胞の認識を促進するため、この基底的真実の使用はH&E関連データセットにノイズをもたらす可能性があり、モデルの性能に影響を及ぼす。 本研究では, PHH3を用いたMFアノテーションが, 広範囲なマルチレータ実験を通じて, レータ間信頼性およびオブジェクトレベルの一致に与える影響を解析した。 PHH3ラベリングでは,アノテータのオブジェクトレベルの一致が増加した。 その結果, PHH3によるラベル付けがモデルの性能に与える影響を調べるため, MF検出器の評価を行った。 さらに、H&Eで用いられるPHH3補助ラベルの解釈シフトを調べるために、新しいデュアルステインMF検出器が開発された。 しかし、PHH3を補助するラベルは、H&Eモデルのみに肯定的な影響を与えなかった。 両入力検出器の高性能化により,H&E画像とPHH3画像との情報ミスマッチが原因であることが判明した。

The count of mitotic figures (MFs) observed in hematoxylin and eosin (H&E)-stained slides is an important prognostic marker as it is a measure for tumor cell proliferation. However, the identification of MFs has a known low inter-rater agreement. Deep learning algorithms can standardize this task, but they require large amounts of annotated data for training and validation. Furthermore, label noise introduced during the annotation process may impede the algorithm's performance. Unlike H&E, the mitosis-specific antibody phospho-histone H3 (PHH3) specifically highlights MFs. Counting MFs on slides stained against PHH3 leads to higher agreement among raters and has therefore recently been used as a ground truth for the annotation of MFs in H&E. However, as PHH3 facilitates the recognition of cells indistinguishable from H&E stain alone, the use of this ground truth could potentially introduce noise into the H&E-related dataset, impacting model performance. This study analyzes the impact of PHH3-assisted MF annotation on inter-rater reliability and object level agreement through an extensive multi-rater experiment. We found that the annotators' object-level agreement increased when using PHH3-assisted labeling. Subsequently, MF detectors were evaluated on the resulting datasets to investigate the influence of PHH3-assisted labeling on the models' performance. Additionally, a novel dual-stain MF detector was developed to investigate the interpretation-shift of PHH3-assisted labels used in H&E, which clearly outperformed single-stain detectors. However, the PHH3-assisted labels did not have a positive effect on solely H&E-based models. The high performance of our dual-input detector reveals an information mismatch between the H&E and PHH3-stained images as the cause of this effect.
翻訳日:2024-07-01 16:50:10 公開日:2024-06-28
# ‘Just One More Sensor is Enough’ -- 物理シミュレーションによる反復水漏れ局在と少数の圧力センサ

`Just One More Sensor is Enough' -- Iterative Water Leak Localization with Physical Simulation and a Small Number of Pressure Sensors ( http://arxiv.org/abs/2406.19900v1 )

ライセンス: Link先を確認
Michał Cholewa, Michał Romaszewski, Przemysław Głomb, Katarzyna Kołodziej, Michał Gorawski, Jakub Koral, Wojciech Koral, Andrzej Madej, Kryspin Musioł, (参考訳) 本稿では,物理シミュレーション(EPANETソフトウェアなど)のデータを用いて,複雑な配水網内のローカライズをリークする手法を提案する。 この課題は通常、複数の水圧センサーのネットワークによって達成され、ネットワークのシミュレーションデータとネットワークの実際のデータとの間の圧力差のいわゆる感度行列の解析によって達成される。 しかし、このアプローチを使用するほとんどのアルゴリズムは、かなりの数の圧力センサーを必要とします。 そこで本研究では,ごく少数のセンサを有効利用しながら,その1つを移動させることで,漏れの局所化が可能かという疑問に答える。 本アルゴリズムは,物理シミュレーション(EPANETソフトウェア)と移動体センサの移動移動移動方式に基づく。 実験により,BattLeDIMコンペティションL-Townデータから得られたシミュレーションケースと実生活事例の両方において,リーク位置の高精度な近似が得られた。

In this article, we propose an approach to leak localisation in a complex water delivery grid with the use of data from physical simulation (e.g. EPANET software). This task is usually achieved by a network of multiple water pressure sensors and analysis of the so-called sensitivity matrix of pressure differences between the network's simulated data and actual data of the network affected by the leak. However, most algorithms using this approach require a significant number of pressure sensors -- a condition that is not easy to fulfil in the case of many less equipped networks. Therefore, we answer the question of whether leak localisation is possible by utilising very few sensors but having the ability to relocate one of them. Our algorithm is based on physical simulations (EPANET software) and an iterative scheme for mobile sensor relocation. The experiments show that the proposed system can equalise the low number of sensors with adjustments made for their positioning, giving a very good approximation of leak's position both in simulated cases and real-life example taken from BattLeDIM competition L-Town data.
翻訳日:2024-07-01 16:50:10 公開日:2024-06-28
# リアクティブコンポーネントのための実行時インスツルメンテーション(拡張バージョン)

Runtime Instrumentation for Reactive Components (Extended Version) ( http://arxiv.org/abs/2406.19904v1 )

ライセンス: Link先を確認
Luca Aceto, Duncan Paul Attard, Adrian Francalanza, Anna Ingólfsdóttir, (参考訳) リアクティブソフトウェアは、システムのリアクティブ属性を裏付けるインスツルメンテーションメソッドを要求する。 実行時検証は、監視対象に報告されるトレースイベントシーケンスが健全である、すなわち、監視対象のシステムの実際の実行を反映している、という、インスツルメンテーションに対する別の要求を課します。 本稿では,この2つの要求を満たすアウトラインモニタのための分散インスツルメンテーションアルゴリズムであるRIARCを提案する。 リアクティブソフトウェアの非同期設定は、潜在的なトレースイベント損失やリオーダによるインスツルメンテーションを複雑にする。 RIARCは次のホップIPルーティングアプローチを使ってこれらの課題を克服し、イベントを再配置し、モニタに適切に報告する。 RIARCは2つの方法で検証される。 我々は,その正しさを確認するために,厳密な系統検査を行う。 さらに、この実装を広範な実証実験を通じて評価し、その反応性を確認するために、大規模な現実的なワークロードに適応する。 この結果から,RIARCはそのメモリとスケジューラの利用を最適化し,ソフトなリアルタイムアプリケーションでレイテンシを維持できることが示唆された。 また、RIARCをインライン監視と集中監視と比較した結果、ソフトウェアがビッグデータストリーム処理など、長時間実行された計算集約的なタスクを実行する中等度な並行性設定において、インライン監視に匹敵するレイテンシが生じることが明らかになった。

Reactive software calls for instrumentation methods that uphold the reactive attributes of systems. Runtime verification imposes another demand on the instrumentation, namely that the trace event sequences it reports to monitors are sound -- that is, they reflect actual executions of the system under scrutiny. This paper presents RIARC, a novel decentralised instrumentation algorithm for outline monitors meeting these two demands. The asynchronous setting of reactive software complicates the instrumentation due to potential trace event loss or reordering. RIARC overcomes these challenges using a next-hop IP routing approach to rearrange and report events soundly to monitors. RIARC is validated in two ways. We subject its corresponding implementation to rigorous systematic testing to confirm its correctness. In addition, we assess this implementation via extensive empirical experiments, subjecting it to large realistic workloads to ascertain its reactiveness. Our results show that RIARC optimises its memory and scheduler usage to maintain latency feasible for soft real-time applications. We also compare RIARC to inline and centralised monitoring, revealing that it induces comparable latency to inline monitoring in moderate concurrency settings, where software performs long-running, computationally-intensive tasks, such as in Big Data stream processing.
翻訳日:2024-07-01 16:40:26 公開日:2024-06-28
# 大規模ビジョンランゲージモデルのための混合実験におけるToken Gradient Conflictの解法

Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model ( http://arxiv.org/abs/2406.19905v1 )

ライセンス: Link先を確認
Longrong Yang, Dong Sheng, Chaoxiang Cai, Fan Yang, Size Li, Di Zhang, Xi Li, (参考訳) The Mixture-of-Experts (MoE)はLVLM(Large Vision-Language Models)の研究で注目を集めている。 厳密なモデルを置き換えるためにスパースモデルを使用し、推論中に少ないパラメータをアクティベートしながら同等のパフォーマンスを実現し、推論コストを大幅に削減する。 LVLMの既存のMoEメソッドは、異なる専門家に異なるトークンを扱うよう促すため、ルータを使用して各トークンのルーティングを予測する。 しかし、予測はサンプル機能のみに基づいており、トークンの最適化方向を真に明らかにしていない。 これはエキスパート内の異なるトークン間の深刻な最適化の衝突を引き起こす可能性がある。 そこで本研究ではトークンレベルの勾配解析に基づく新しい手法を提案する。 具体的には、まずトークンレベルの勾配を使用して、専門家の矛盾するトークンを特定します。 そして、各専門家内のトークン間の衝突を排除するように調整された、特別な損失を追加します。 本手法は多種多様な視覚・言語モデルのためのプラグインとして機能し,本手法の有効性を実験的に検証した。 コードはhttps://github.com/longrongyang/STGCで公開されている。

The Mixture-of-Experts (MoE) has gained increasing attention in the study of Large Vision-Language Models (LVLMs). It uses a sparse model to replace the dense model, achieving comparable performance while activating fewer parameters during inference, thus significantly reducing the inference cost. Existing MoE methods in LVLMs encourage different experts to handle different tokens, and thus they employ a router to predict the routing for each token. However, the predictions are based solely on sample features and do not truly reveal the optimization direction of tokens. This can lead to severe optimization conflicts between different tokens within an expert. To address this problem, this paper proposes a novel method based on token-level gradient analysis. Specifically, we first use token-level gradients to identify conflicting tokens in experts. Then, we add a specialized loss tailored to eliminate conflicts among tokens within each expert. Our method can serve as a plug-in for diverse Large Vision-Language Models, and extensive experimental results demonstrate the effectiveness of our method. The code will be publicly available at https://github.com/longrongyang/STGC.
翻訳日:2024-07-01 16:40:26 公開日:2024-06-28
# Thirring量子セルオートマトン解に対する摂動的アプローチ

A perturbative approach to the solution of the Thirring quantum cellular automaton ( http://arxiv.org/abs/2406.19917v1 )

ライセンス: Link先を確認
Alessandro Bisio, Paolo Perinotti, Andrea Pizzamiglio, Saverio Rota, (参考訳) Thirring Quantum Cellular Automaton (QCA) は、ディラックセルオートマトンの一段階に従って進化する局所フェルミオンモードの離散時間ダイナミクスと、最も一般的なオンサイト数保存相互作用を記述し、量子場理論におけるTirrringモデルのQCAとして機能する。 本研究では,QCAパスサムアプローチの摂動的手法を開発し,相互作用頂点の数とTirrring QCAの質量パラメータを拡大する。 非常に軽い粒子と非常に重い粒子の経路を分類することにより、二粒子と三粒子の遷移行列を最初の数桁まで計算した。 本研究では,Tirring QCAの特性を考察し,問題の組合せ的複雑さに対処し,一次元のオンサイト数保存相互作用の多粒子セクターに適用可能ないくつかの有用な結果を得た。

The Thirring Quantum Cellular Automaton (QCA) describes the discrete time dynamics of local fermionic modes that evolve according to one step of the Dirac cellular automaton followed by the most general on-site number-preserving interaction, and serves as the QCA counterpart of the Thirring model in quantum field theory. In this work, we develop perturbative techniques for the QCA path-sum approach, expanding both the number of interaction vertices and the mass parameter of the Thirring QCA. By classifying paths within the regimes of very light and very heavy particles, we computed the transition matrices in the two- and three-particle sectors to the first few orders. Our investigation into the properties of the Thirring QCA, addressing the combinatorial complexity of the problem, yielded some useful results applicable to the many-particle sector of any on-site number-preserving interactions in one spatial dimension.
翻訳日:2024-07-01 16:40:26 公開日:2024-06-28
# セグメンテーション誘導型マルチホモグラフィーワープによるパララックス耐性画像ストッチング

Parallax-tolerant Image Stitching via Segmentation-guided Multi-homography Warping ( http://arxiv.org/abs/2406.19922v1 )

ライセンス: Link先を確認
Tianli Liao, Ce Wang, Lei Li, Guangen Liu, Nan Li, (参考訳) 画像間の大きな視差は、画像縫合において難解な問題である。 様々なワーピングに基づく手法が提案されているが、結果は不十分である。 本稿では,画像セグメンテーションによって導かれるマルチホモグラフィー・ワープを用いた新しい画像縫合法を提案する。 具体的には、Segment Anything Modelを利用して、ターゲット画像を多数のコンテンツに分割し、エネルギーベースのマルチホモグラフィーフィッティングアルゴリズムにより特徴点を複数のサブセットに分割する。 特徴点の多重部分集合は、対応する複数のホモグラフを計算するために使用される。 重なり合う領域の各セグメンテッドコンテンツに対して、最も低い光度誤差で最適なホモグラフィを選択する。 非重複領域における各セグメント化内容について、線形化ホモグラフの重み付け結合を計算する。 最後に、目標画像をベストフィットのホモグラフを介してワープして基準画像と整合させ、最終パノラマを線形ブレンディングにより生成する。 公開データセットの総合的な実験結果から,本手法は最先端の手法と比較して,大きなマージンで最適なアライメント精度を提供することが示された。 ソースコードはhttps://github.com/tlliao/multi-homo-warp.comで公開されている。

Large parallax between images is an intractable issue in image stitching. Various warping-based methods are proposed to address it, yet the results are unsatisfactory. In this paper, we propose a novel image stitching method using multi-homography warping guided by image segmentation. Specifically, we leverage the Segment Anything Model to segment the target image into numerous contents and partition the feature points into multiple subsets via the energy-based multi-homography fitting algorithm. The multiple subsets of feature points are used to calculate the corresponding multiple homographies. For each segmented content in the overlapping region, we select its best-fitting homography with the lowest photometric error. For each segmented content in the non-overlapping region, we calculate a weighted combination of the linearized homographies. Finally, the target image is warped via the best-fitting homographies to align with the reference image, and the final panorama is generated via linear blending. Comprehensive experimental results on the public datasets demonstrate that our method provides the best alignment accuracy by a large margin, compared with the state-of-the-art methods. The source code is available at https://github.com/tlliao/multi-homo-warp.
翻訳日:2024-07-01 16:40:26 公開日:2024-06-28
# 最適輸送を用いた対話型トピックモデル

Interactive Topic Models with Optimal Transport ( http://arxiv.org/abs/2406.19928v1 )

ライセンス: Link先を確認
Garima Dhanania, Sheshera Mysore, Chau Minh Pham, Mohit Iyyer, Hamed Zamani, Andrew McCallum, (参考訳) トピックモデルは文書コレクションの分析に広く利用されている。 アナリストがコーパスに精通していない場合、コーパス内の潜在トピックを発見するのに価値があるが、アナリストはコーパスに存在するコンテンツを理解することから始めるのが一般的である。 これは、コーパス上の初期パスから得られたカテゴリや、高レベルの理論的枠組み(例えば政治イデオロギー)から派生したカテゴリの事前定義されたセットを通じてコーパスを分析することによる。 これらのシナリオでは、モデルとのさまざまな相互作用をサポートしながら、コーパスの理解を取り入れたトピックモデリングアプローチが望まれます。 本研究では,ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。 EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、課題問題としてのトピックモデリングをモデル化し、グローバルコヒーレントなトピックアサインを作成するために最適なトランスポートを使用する。 実験では,LLM分類器とクラスタリングとLDAに基づくトピックモデルと比較して,フレームワークの有効性を示す。 さらに,各種のアナリストフィードバックを取り入れながら,ノイズの多いアナリストインプットに頑健なEdTMの能力を示す。

Topic models are widely used to analyze document collections. While they are valuable for discovering latent topics in a corpus when analysts are unfamiliar with the corpus, analysts also commonly start with an understanding of the content present in a corpus. This may be through categories obtained from an initial pass over the corpus or a desire to analyze the corpus through a predefined set of categories derived from a high level theoretical framework (e.g. political ideology). In these scenarios analysts desire a topic modeling approach which incorporates their understanding of the corpus while supporting various forms of interaction with the model. In this work, we present EdTM, as an approach for label name supervised topic modeling. EdTM models topic modeling as an assignment problem while leveraging LM/LLM based document-topic affinities and using optimal transport for making globally coherent topic-assignments. In experiments, we show the efficacy of our framework compared to few-shot LLM classifiers, and topic models based on clustering and LDA. Further, we show EdTM's ability to incorporate various forms of analyst feedback and while remaining robust to noisy analyst inputs.
翻訳日:2024-07-01 16:40:26 公開日:2024-06-28
# 付加的・低ランク分解によるフェデレーション学習における一般知識とパーソナライズド知識の分離

Decoupling General and Personalized Knowledge in Federated Learning via Additive and Low-Rank Decomposition ( http://arxiv.org/abs/2406.19931v1 )

ライセンス: Link先を確認
Xinghao Wu, Xuefeng Liu, Jianwei Niu, Haolin Wang, Shaojie Tang, Guogang Zhu, Hao Su, (参考訳) データの不均一性に対処するため、パーソナライズド・フェデレート・ラーニング(PFL)の重要な戦略は、一般的な知識(クライアント間で共有される)とクライアント固有の知識を分離することである。 既存のPFL手法は主にパラメータ分割手法を採用しており、モデルのパラメータは2つのタイプのうちの1つに指定されている:パラメータは他のクライアントと共有され、クライアント固有の知識を学ぶためにローカルに保存される一般的な知識とパラメータを抽出する。 しかしながら、これらの2種類のパラメータは、トレーニングプロセス中にジグソーパズルのように単一のモデルにまとめられるため、各パラメータは一般的な知識とクライアント固有の知識の両方を同時に吸収し、二つのタイプの知識を効果的に分離するのに苦労する。 本稿では,この問題に対処するためにパラメータ加法分解を利用する,単純だが効果的なPFLパラダイムであるFedDecompを紹介する。 モデルの各パラメータを共有あるいはパーソナライズされたパラメータとして割り当てる代わりに、FedDecompは、各パラメータを2つのパラメータの合計に分解する。 さらに、特定のクライアントの局所的な知識を保持するためには、すべてのクライアントの一般的な知識に比べてモデル能力がはるかに低いことが判明したので、トレーニングプロセス中にパーソナライズされたパラメータを含む行列を低いランクにする。 さらに,パフォーマンスの向上を図るため,新たな交互学習戦略が提案されている。 複数のデータセットにまたがる実験結果は、FedDecompが4.9\%までの最先端のメソッドより優れていることを示している。

To address data heterogeneity, the key strategy of Personalized Federated Learning (PFL) is to decouple general knowledge (shared among clients) and client-specific knowledge, as the latter can have a negative impact on collaboration if not removed. Existing PFL methods primarily adopt a parameter partitioning approach, where the parameters of a model are designated as one of two types: parameters shared with other clients to extract general knowledge and parameters retained locally to learn client-specific knowledge. However, as these two types of parameters are put together like a jigsaw puzzle into a single model during the training process, each parameter may simultaneously absorb both general and client-specific knowledge, thus struggling to separate the two types of knowledge effectively. In this paper, we introduce FedDecomp, a simple but effective PFL paradigm that employs parameter additive decomposition to address this issue. Instead of assigning each parameter of a model as either a shared or personalized one, FedDecomp decomposes each parameter into the sum of two parameters: a shared one and a personalized one, thus achieving a more thorough decoupling of shared and personalized knowledge compared to the parameter partitioning method. In addition, as we find that retaining local knowledge of specific clients requires much lower model capacity compared with general knowledge across all clients, we let the matrix containing personalized parameters be low rank during the training process. Moreover, a new alternating training strategy is proposed to further improve the performance. Experimental results across multiple datasets and varying degrees of data heterogeneity demonstrate that FedDecomp outperforms state-of-the-art methods up to 4.9\%.
翻訳日:2024-07-01 16:40:26 公開日:2024-06-28
# デコヒーレンス下における浮遊ナノ粒子の大規模非局在化と非ガウス量子ダイナミクスのための静的ポテンシャルの最適化

Optimization of Static Potentials for Large Delocalization and Non-Gaussian Quantum Dynamics of Levitated Nanoparticles Under Decoherence ( http://arxiv.org/abs/2406.19932v1 )

ライセンス: Link先を確認
Silvia Casulleras, Piotr T. Grochowski, Oriol Romero-Isart, (参考訳) レバタイトされたナノ粒子は、マクロスケールで基本的な量子現象を探索するための制御可能で孤立したプラットフォームを提供する。 本研究では,レビテーションナノ粒子の大部分が非局在化および非ガウス量子状態の生成のための最適静的ポテンシャルを決定する最適化手法を提案する。 我々の最適化戦略は、ポテンシャルのゆらぎから生じる位置依存ノイズ源を考慮に入れている。 本稿では,このシステムのマルチスケールシミュレーションに伴う計算要求を緩和し,高速な計算と動的特徴の捉え方を提案する。 具体的には、大規模な非局在化と量子非ガウス状態の符号として、コヒーレンス長とコヒーレント立方性を導入する。 準ポテンシャルの族に最適化手法を適用し、最適構成がシステム内の雑音の強度と性質に依存することを示す。 さらに、最適ポテンシャルに対するシステムの完全な量子力学シミュレーションを用いて、その結果をベンチマークする。

Levitated nanoparticles provide a controllable and isolated platform for probing fundamental quantum phenomena at the macroscopic scale. In this work, we introduce an optimization method to determine optimal static potentials for the generation of largely delocalized and non-Gaussian quantum states of levitated nanoparticles. Our optimization strategy accounts for position-dependent noise sources originating from the fluctuations of the potential. We provide key figures of merit that allow for fast computation and capture relevant features of the dynamics, mitigating the computational demands associated with the multiscale simulation of this system. Specifically, we introduce coherence length and coherent cubicity as signatures of large delocalization and quantum non-Gaussian states, respectively. We apply the optimization approach to a family of quartic potentials and show that the optimal configuration depends on the strength and nature of the noise in the system. Additionally, we benchmark our results with the full quantum dynamics simulations of the system for the optimal potentials.
翻訳日:2024-07-01 16:40:26 公開日:2024-06-28
# 最盛期から最盛期:データ合成によるプラグイン・アンド・プレイ型ビジュアル・リゾネータの構築

From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis ( http://arxiv.org/abs/2406.19934v1 )

ライセンス: Link先を確認
Chuanqi Cheng, Jian Guan, Wei Wu, Rui Yan, (参考訳) 視覚言語モデル(VLM)における多段階推論について検討する。 視覚処理と言語処理の複数のステップからなる推論データがほとんど利用できないため、問題は難しい。 この課題を克服するために、我々はまず、質問をサブクエストに分解し、サブクエストを解決するための外部ツールを呼び出す、最小限の視覚的推論パラダイムを導入する。 このパラダイムに基づいて,ボトムアップ方式で質問や多段階推論経路を自動生成する新しいデータ合成手法を提案する。 このアプローチでは、複雑な合成タスクをいくつかの単純なサブタスクに分割し、(ほぼ完全に)サブタスクを達成するためにオープンソースモデルに依存します。 したがって、全合成プロセスは再現可能でコスト効率が良く、合成データの品質が保証される。 このアプローチでは、50ドルの視覚的推論の例を構築します。 そこで我々は,プラグイン・アンド・プレイ方式で既存の広範囲のVLMの推論能力を高めることができる教師付き微調整による視覚的推論器を開発した。 広汎な実験により、視覚的推論器は4つのVQAベンチマークで4つのVLMを一貫して、かつ著しく改善できることが示された。 私たちのコードとデータセットはhttps://github.com/steven-ccq/VisualReasoner.comで公開されています。

We explore multi-step reasoning in vision-language models (VLMs). The problem is challenging, as reasoning data consisting of multiple steps of visual and language processing are barely available. To overcome the challenge, we first introduce a least-to-most visual reasoning paradigm, which interleaves steps of decomposing a question into sub-questions and invoking external tools for resolving sub-questions. Based on the paradigm, we further propose a novel data synthesis approach that can automatically create questions and multi-step reasoning paths for an image in a bottom-up manner. Our approach divides the complex synthesis task into a few simple sub-tasks, and (almost entirely) relies on open-sourced models to accomplish the sub-tasks. Therefore, the entire synthesis process is reproducible and cost-efficient, and the synthesized data is quality guaranteed. With the approach, we construct $50$k visual reasoning examples. Then, we develop a visual reasoner through supervised fine-tuning, which is capable of generally enhancing the reasoning abilities of a wide range of existing VLMs in a plug-and-play fashion. Extensive experiments indicate that the visual reasoner can consistently and significantly improve four VLMs on four VQA benchmarks. Our code and dataset are available at https://github.com/steven-ccq/VisualReasoner.
翻訳日:2024-07-01 16:40:26 公開日:2024-06-28
# 幾何学的表現による多変量エクストリームの深層学習

Deep Learning of Multivariate Extremes via a Geometric Representation ( http://arxiv.org/abs/2406.19936v1 )

ライセンス: Link先を確認
Callum J. R. Murphy-Barltrop, Reetam Majumder, Jordan Richards, (参考訳) スケールされたサンプル雲の決定論的制限形から極端依存特性を推定する幾何学的極端の研究は、多変量データの極端をモデル化するためのエキサイティングなアプローチを提供する。 これらの形状は極限集合と呼ばれ、いくつかの人気のある極端依存モデリングフレームワークをリンクする。 幾何的手法はますます人気のあるモデリングツールになりつつあるが、現在の推論手法は低次元の設定(d < 4)に限定され、一般的には厳密なモデリングの仮定を必要とする。 本研究では、幾何学的極端フレームワークの実装を支援するための新しい理論的な結果の範囲を提案し、深層学習を用いた極限集合をモデル化するための最初のアプローチを提案する。 ニューラルネットワークを利用することで、高次元データの極端依存に対する漸近的に修正されるがフレキシブルな半パラメトリックモデルを構築する。 英国沖合の北海における気象変数と海洋変数の複雑な極端依存関係をモデル化することで,我々の深部アプローチの有効性を実証する。

The study of geometric extremes, where extremal dependence properties are inferred from the deterministic limiting shapes of scaled sample clouds, provides an exciting approach to modelling the extremes of multivariate data. These shapes, termed limit sets, link together several popular extremal dependence modelling frameworks. Although the geometric approach is becoming an increasingly popular modelling tool, current inference techniques are limited to a low dimensional setting (d < 4), and generally require rigid modelling assumptions. In this work, we propose a range of novel theoretical results to aid with the implementation of the geometric extremes framework and introduce the first approach to modelling limit sets using deep learning. By leveraging neural networks, we construct asymptotically-justified yet flexible semi-parametric models for extremal dependence of high-dimensional data. We showcase the efficacy of our deep approach by modelling the complex extremal dependencies between meteorological and oceanographic variables in the North Sea off the coast of the UK.
翻訳日:2024-07-01 16:40:26 公開日:2024-06-28
# GRACE:ロバストディープフェイクビデオ検出のためのラプラシアンスムースティングによるグラフ規則化された注意的畳み込み

GRACE: Graph-Regularized Attentive Convolutional Entanglement with Laplacian Smoothing for Robust DeepFake Video Detection ( http://arxiv.org/abs/2406.19941v1 )

ライセンス: Link先を確認
Chih-Chung Hsu, Shao-Ning Chen, Mei-Hsuan Wu, Yi-Fang Wang, Chia-Ming Lee, Yi-Shiuan Chou, (参考訳) DeepFakeのビデオ操作技術がエスカレートし、深刻な脅威を生じさせるにつれ、効率的な検出戦略を開発する緊急の必要性が強調されている。 しかし、特定の問題は、顔画像が誤検出されていることであり、しばしば劣化したビデオや敵の攻撃が原因であり、予期せぬ時間的成果物がDeepFakeのビデオ検出技術の有効性を損なう可能性がある。 本稿では,グラフ畳み込みネットワークをベースとしたGRACE(Graph-Regularized Attentive Convolutional Entanglement)のパワーを生かしたDeepFakeビデオ検出手法を提案する。 まず、従来の畳み込みニューラルネットワークを使用して、ビデオ全体の時空間的機能を実行する。 そして、その空間的特徴と時間的特徴は、スパース制約のあるグラフを構築し、残されるノイズの多い顔列における有効な顔画像の本質的特徴を強制することにより相互に絡み合わされ、DeepFakeビデオ検出の安定性と性能が向上する。 さらに,グラフ畳み込みネットワークでは,特徴空間のノイズパターンを除去し,さらなる性能向上を図るため,グラフラプラシアン先行法が提案されている。 提案手法は, ノイズのある顔系列下でのDeepFakeビデオ検出において, 最先端の性能を実現することを実証するために, 総合実験を行った。 ソースコードはhttps://github.com/ming053l/GRACEで入手できる。

As DeepFake video manipulation techniques escalate, posing profound threats, the urgent need to develop efficient detection strategies is underscored. However, one particular issue lies with facial images being mis-detected, often originating from degraded videos or adversarial attacks, leading to unexpected temporal artifacts that can undermine the efficacy of DeepFake video detection techniques. This paper introduces a novel method for robust DeepFake video detection, harnessing the power of the proposed Graph-Regularized Attentive Convolutional Entanglement (GRACE) based on the graph convolutional network with graph Laplacian to address the aforementioned challenges. First, conventional Convolution Neural Networks are deployed to perform spatiotemporal features for the entire video. Then, the spatial and temporal features are mutually entangled by constructing a graph with sparse constraint, enforcing essential features of valid face images in the noisy face sequences remaining, thus augmenting stability and performance for DeepFake video detection. Furthermore, the Graph Laplacian prior is proposed in the graph convolutional network to remove the noise pattern in the feature space to further improve the performance. Comprehensive experiments are conducted to illustrate that our proposed method delivers state-of-the-art performance in DeepFake video detection under noisy face sequences. The source code is available at https://github.com/ming053l/GRACE.
翻訳日:2024-07-01 16:40:26 公開日:2024-06-28
# 初期化が小児頭蓋内MRI画像登録に及ぼす影響:SyN ANTとディープラーニングによるアプローチの比較検討

Impact of Initialization on Intra-subject Pediatric Brain MR Image Registration: A Comparative Analysis between SyN ANTs and Deep Learning-Based Approaches ( http://arxiv.org/abs/2406.19943v1 )

ライセンス: Link先を確認
Andjela Dimitrijevic, Vincent Noblet, Benjamin De Leener, (参考訳) 本研究では,従来型のSyN ANTと学習ベース登録法の性能を小児神経画像の文脈で評価し,特に物体内変形性登録に着目した。 比較には3つのアプローチがある: without (NR), with rigid (RR), with rigid and affine (RAR) initializations。 初期化に加えて、パフォーマンスは精度、速度、年齢間隔とペアごとのセックスの影響で評価される。 データは、カルガリー・プレスクールのデータセットから入手可能なMRIスキャンから成り、2-7歳の63人の子供を含む431人の登録ペアから成っている。 我々は、DeepRegを使ってU-Netアーキテクチャで教師なしDLフレームワークを実装し、5倍のクロスバリデーションを実現した。 評価には、SynthSegが取得した18の小さな領域からの組織セグメンテーションのDiceスコア、ログヤコビ行列式の分析、登録前評価トレーニングと推測時間が含まれる。 線形初期化の有無にかかわらず、学習に基づくアプローチは、Diceスコアの点でSyN ANTよりもわずかに優れている。 実際、RRとRARの初期化によるDLベースの実装はSyN ANTよりも大幅に優れている。 SyN ANTとDLベースの登録の両方にはパラメータ最適化が含まれているが、これらの方法の選択は登録の規模によって異なる。 どちらの手法も、成長の変化により、より大きな年齢差で課題に直面している。 主な特徴は、DLベースの手法はより高速で正確な登録を約束するが、SyN ANTは広範囲のトレーニングを必要とせずに堅牢で一般化可能であり、小児科領域における特定の登録ニーズに基づいたメソッド選択の重要性を強調している。 私たちのコードはhttps://github.com/neuropoly/pediatric-DL-registrationで利用可能です。

This study evaluates the performance of conventional SyN ANTs and learning-based registration methods in the context of pediatric neuroimaging, specifically focusing on intrasubject deformable registration. The comparison involves three approaches: without (NR), with rigid (RR), and with rigid and affine (RAR) initializations. In addition to initialization, performances are evaluated in terms of accuracy, speed, and the impact of age intervals and sex per pair. Data consists of the publicly available MRI scans from the Calgary Preschool dataset, which includes 63 children aged 2-7 years, allowing for 431 registration pairs. We implemented the unsupervised DL framework with a U-Net architecture using DeepReg and it was 5-fold cross-validated. Evaluation includes Dice scores for tissue segmentation from 18 smaller regions obtained by SynthSeg, analysis of log Jacobian determinants, and registration pro-rated training and inference times. Learning-based approaches, with or without linear initializations, exhibit slight superiority over SyN ANTs in terms of Dice scores. Indeed, DL-based implementations with RR and RAR initializations significantly outperform SyN ANTs. Both SyN ANTs and DL-based registration involve parameter optimization, but the choice between these methods depends on the scale of registration: network-based for broader coverage or SyN ANTs for specific structures. Both methods face challenges with larger age intervals due to greater growth changes. The main takeaway is that while DL-based methods show promise with faster and more accurate registrations, SyN ANTs remains robust and generalizable without the need for extensive training, highlighting the importance of method selection based on specific registration needs in the pediatric context. Our code is available at https://github.com/neuropoly/pediatric-DL-registration
翻訳日:2024-07-01 16:40:26 公開日:2024-06-28
# Kolmogorov-Smirnov GAN

Kolmogorov-Smirnov GAN ( http://arxiv.org/abs/2406.19948v1 )

ライセンス: Link先を確認
Maciej Falkiewicz, Naoya Takeishi, Alexandros Kalousis, (参考訳) そこで我々は,KSGAN (Kolmogorov-Smirnov Generative Adversarial Network) という新しい生成モデルを提案する。 既存のアプローチとは異なり、KSGANは、多変量分布を扱うために一般化されたコルモゴロフ-スミルノフ距離の最小化として学習過程を定式化している。 この距離は、敵の訓練過程における批判として機能する量子関数を用いて計算される。 我々はKS距離の最小化が目標分布と一致したトレーニングされた近似分布につながることを正式に証明した。 本稿では,効率的な実装を提案し,その有効性を実験により評価する。 その結果,KSGANは既存手法と同等に動作し,トレーニング中の安定性,モード低下と崩壊に対する耐性,ハイパーパラメータ設定の変動に対する耐性を示すことがわかった。 さらに、一般化KS試験に関する文献をレビューし、KSGANと既存の逆生成モデルとの関係について論じる。

We propose a novel deep generative model, the Kolmogorov-Smirnov Generative Adversarial Network (KSGAN). Unlike existing approaches, KSGAN formulates the learning process as a minimization of the Kolmogorov-Smirnov (KS) distance, generalized to handle multivariate distributions. This distance is calculated using the quantile function, which acts as the critic in the adversarial training process. We formally demonstrate that minimizing the KS distance leads to the trained approximate distribution aligning with the target distribution. We propose an efficient implementation and evaluate its effectiveness through experiments. The results show that KSGAN performs on par with existing adversarial methods, exhibiting stability during training, resistance to mode dropping and collapse, and tolerance to variations in hyperparameter settings. Additionally, we review the literature on the Generalized KS test and discuss the connections between KSGAN and existing adversarial generative models.
翻訳日:2024-07-01 16:40:26 公開日:2024-06-28
# 理科問合せにおけるリズム生成のためのソートツリーの選好最適化によるLLMの校正

Calibrating LLMs with Preference Optimization on Thought Trees for Generating Rationale in Science Question Scoring ( http://arxiv.org/abs/2406.19949v1 )

ライセンス: Link先を確認
Jiazheng Li, Hainiu Xu, Zhaoyue Sun, Yuxiang Zhou, David West, Cesare Aloisi, Yulan He, (参考訳) スコアリング決定を正当化する合理性を生成することは、自動スコアリングシステムにおける説明可能性を促進するための有望な方法である。 しかし,既存の手法は分類器に基づく手法の精度に合わない。 さらに、生成された理性は、しばしば幻覚的な情報を含む。 これらの問題に対処するために、より忠実な論理を生成できる新しいフレームワークを提案し、さらに重要なことに、分類器ベースのブラックボックススコアリングシステムと性能をマッチングする。 まず,Large Language Models (LLM) をクエリして思考木を生成することで,人間の評価プロセスを模倣する。 次に、各思考木経路から中間的評価決定を要約し、合成的合理化データと合理化選好データを作成する。 最後に、生成した合成データを利用して2段階のトレーニングプロセス、すなわち教師付き微調整と選好最適化を行ない、LCMを校正する。 以上の結果から,本フレームワークは従来よりもQWKスコアが38%向上し,高い品質の有理性が得られることが示された。 本研究は,思考木経路から得られた選好データを用いた選好最適化の有効性に光を当てる。

Generating rationales that justify scoring decisions has been a promising way to facilitate explainability in automated scoring systems. However, existing methods do not match the accuracy of classifier-based methods. Plus, the generated rationales often contain hallucinated information. To address these issues, we propose a novel framework capable of generating more faithful rationales and, more importantly, matching performance with classifier-based black-box scoring systems. We first mimic the human assessment process by querying Large Language Models (LLMs) to generate a thought tree. We then summarise intermediate assessment decisions from each thought tree path for creating synthetic rationale data and rationale preference data. Finally, we utilise the generated synthetic data to calibrate LLMs through a two-step training process: supervised fine-tuning and preference optimization. Extensive experimental results demonstrate that our framework achieves a 38% assessment performance improvement in the QWK score compared to prior work while producing higher-quality rationales, as recognised by human evaluators and LLMs. Our work sheds light on the effectiveness of performing preference optimization using synthetic preference data obtained from thought tree paths.
翻訳日:2024-07-01 16:40:26 公開日:2024-06-28
# NichesourcingとAIデータ拡張を用いた非構造化データからのワクチンのマイニング

Mining Reasons For And Against Vaccination From Unstructured Data Using Nichesourcing and AI Data Augmentation ( http://arxiv.org/abs/2406.19951v1 )

ライセンス: Link先を確認
Damián Ariel Furman, Juan Junqueras, Z. Burçe Gümüslü, Edgar Altszyler, Joaquin Navajas, Ophelia Deroy, Justin Sulik, (参考訳) 本稿では,予防接種理由と予防接種対策のためのデータセットであるReasons For and Against Vaccination(RFAV)について紹介する。 GPT4 と GPT3.5-Turbo を用いたテキスト内学習を用いて、高レベルの主観性が関与するにもかかわらず、これらの理由を異なるタスク定義の下で、非構造化テキストでどのように掘り下げることができるかを示す。 データセットとトレーニングされたモデルとアノテーションマニュアルを公開し、アノテーションをトレーニングしてタスクを定義します。

We present Reasons For and Against Vaccination (RFAV), a dataset for predicting reasons for and against vaccination, and scientific authorities used to justify them, annotated through nichesourcing and augmented using GPT4 and GPT3.5-Turbo. We show how it is possible to mine these reasons in non-structured text, under different task definitions, despite the high level of subjectivity involved and explore the impact of artificially augmented data using in-context learning with GPT4 and GPT3.5-Turbo. We publish the dataset and the trained models along with the annotation manual used to train annotators and define the task.
翻訳日:2024-07-01 16:40:26 公開日:2024-06-28
# 双曲型ネットワークにおける隠れたコア周辺構造を明らかにする

Uncovering the hidden core-periphery structure in hyperbolic networks ( http://arxiv.org/abs/2406.19953v1 )

ライセンス: Link先を確認
Imran Ansari, Pawanesh Yadav, Niteesh Sahni, (参考訳) 双曲型ネットワークモデルは、小さな世界性、スケール自由性、高いクラスタリング係数、コミュニティ構造など、非常に基本的な特徴を示す。 本稿では,実世界のネットワークでよく見られるハイパーボリックネットワークモデルにおいて,重要な特徴であるコア周辺構造の存在を包括的に検討する。 我々は、人気相似最適化モデル(PSO)やS1/H2モデルなどのよく知られた双曲モデルに注目し、標準的なランダムウォークマルコフ連鎖モデルに基づく確立された手法を用いて、コア周辺構造を研究した。 観測されたコア-周辺集中化値は、コア-周辺構造が特定の条件下で非常に顕著であることを示す。 また,ネットワーク幾何学における観測コア周辺構造の重要性を統計的に検証し,その妥当性を検証した。 本研究は、ネットワーク科学を拡張し、様々な分野に適用可能な中核的周辺的洞察を明らかにし、交通・情報システムにおけるネットワーク性能とレジリエンスを高める。

The hyperbolic network models exhibit very fundamental and essential features, like small-worldness, scale-freeness, high-clustering coefficient, and community structure. In this paper, we comprehensively explore the presence of an important feature, the core-periphery structure, in the hyperbolic network models, which is often exhibited by real-world networks. We focused on well-known hyperbolic models such as popularity-similarity optimization model (PSO) and S1/H2 models and studied core-periphery structures using a well-established method that is based on standard random walk Markov chain model. The observed core-periphery centralization values indicate that the core-periphery structure can be very pronounced under certain conditions. We also validate our findings by statistically testing for the significance of the observed core-periphery structure in the network geometry. This study extends network science and reveals core-periphery insights applicable to various domains, enhancing network performance and resiliency in transportation and information systems.
翻訳日:2024-07-01 16:40:26 公開日:2024-06-28
# BESTOW: GPTとT5で最高の2つの世界を持つ効率的でスケーラブルな言語モデル

BESTOW: Efficient and Streamable Speech Language Model with the Best of Two Worlds in GPT and T5 ( http://arxiv.org/abs/2406.19954v1 )

ライセンス: Link先を確認
Zhehuai Chen, He Huang, Oleksii Hrinchuk, Krishna C. Puvvada, Nithin Rao Koluguri, Piotr Żelasko, Jagadeesh Balam, Boris Ginsburg, (参考訳) 事前学習された大言語モデルに音声理解機能を組み込むことは、重要な研究方向(SpeechLLM)となっている。 以前のアーキテクチャは次のように分類できる。 一 復号器のみのモデルのように、LCM入力のシーケンスとしてテキストプロンプトにプリペイドされたGPTスタイルの音声プロンプト ii) T5-style, introduce speech cross-attention to each layer of the pretrained LLMs。 我々は,TwO Worlds の BESt 機能を高効率でマルチタスク能力の強い単一モデルに組み込むための BESTOW アーキテクチャを提案する。 さらに、どちらのスタイルにも明確なストリーミングソリューションは存在しないが、特にこのソリューションはマルチタスクに一般化されるべきである。 我々は,ストリーム可能なSpeechLLMを読み書きポリシ問題として再構成し,BESTOWアーキテクチャを用いてオフラインおよびストリーミング研究を統合する。 そこで我々は,ストリーミングとマルチタスクを大規模(ASR以外の)で同時に実現可能な,最初のオープンソースのSpeechLLMソリューションを実演する。 このストリーミングソリューションは、幅広い音声タスク(ASR, AST, SQA, unseen DynamicSuperb)で非常に強力なパフォーマンスを実現する。 エンドツーエンドの最適化が可能で、トレーニング/推論コストが低く、LLMによる音声への知識伝達性を示す。

Incorporating speech understanding capabilities into pretrained large-language models has become a vital research direction (SpeechLLM). The previous architectures can be categorized as: i) GPT-style, prepend speech prompts to the text prompts as a sequence of LLM inputs like a decoder-only model; ii) T5-style, introduce speech cross-attention to each layer of the pretrained LLMs. We propose BESTOW architecture to bring the BESt features from TwO Worlds into a single model that is highly efficient and has strong multitask capabilities. Moreover, there is no clear streaming solution for either style, especially considering the solution should generalize to speech multitask. We reformulate streamable SpeechLLM as a read-write policy problem and unifies the offline and streaming research with BESTOW architecture. Hence we demonstrate the first open-source SpeechLLM solution that enables Streaming and Multitask at scale (beyond ASR) at the same time. This streamable solution achieves very strong performance on a wide range of speech tasks (ASR, AST, SQA, unseen DynamicSuperb). It is end-to-end optimizable, with lower training/inference cost, and demonstrates LLM knowledge transferability to speech.
翻訳日:2024-07-01 16:30:41 公開日:2024-06-28
# ベイジアン付加回帰木に対するビッグデータの計算曲線:隠れ時間解析

The Computational Curse of Big Data for Bayesian Additive Regression Trees: A Hitting Time Analysis ( http://arxiv.org/abs/2406.19958v1 )

ライセンス: Link先を確認
Yan Shuo Tan, Omer Ronen, Theo Saarinen, Bin Yu, (参考訳) Bayesian Additive Regression Trees (BART) は、因果推論などに使われる一般的なベイズ的非パラメトリック回帰モデルである。 その強い予測性能は、その後続分布が、様々なデータ生成条件の下で最適な速度で真の回帰関数に集中し、適切な事前選択を行うという理論的な保証によって支えられている。 本稿では,他の研究者による経験的観察を裏付けるとともに,BARTサンプリング装置の収束が遅いことを示す。 離散共変数を仮定すると、BARTはすべての最適な木構造(最も小さなバイアスと複雑さ)からなる集合に集中するが、マルコフ連鎖のヒット時間は、いくつかの共通データ生成設定の下で、$n$(トレーニングサンプルサイズ)に増加する。 したがって、n$が増加するにつれて、近似的なBART後部は正確な後部(MCMCサンプルの数と同じ)と次第に異なるようになり、正確な後部における以前の濃度結果と対比される。 このコントラストは,複数のサンプルチェーンを平均化することにより収束性を向上させることで,近似後続区間の頻繁な潜伏と,近似後続区間のMSEとの比の増大を示すシミュレーションによって強調された。 最後に、我々の理論的知見に基づいて、BARTサンプリング器収束性能を改善する可能性について論じる。

Bayesian Additive Regression Trees (BART) is a popular Bayesian non-parametric regression model that is commonly used in causal inference and beyond. Its strong predictive performance is supported by theoretical guarantees that its posterior distribution concentrates around the true regression function at optimal rates under various data generative settings and for appropriate prior choices. In this paper, we show that the BART sampler often converges slowly, confirming empirical observations by other researchers. Assuming discrete covariates, we show that, while the BART posterior concentrates on a set comprising all optimal tree structures (smallest bias and complexity), the Markov chain's hitting time for this set increases with $n$ (training sample size), under several common data generative settings. As $n$ increases, the approximate BART posterior thus becomes increasingly different from the exact posterior (for the same number of MCMC samples), contrasting with earlier concentration results on the exact posterior. This contrast is highlighted by our simulations showing worsening frequentist undercoverage for approximate posterior intervals and a growing ratio between the MSE of the approximate posterior and that obtainable by artificially improving convergence via averaging multiple sampler chains. Finally, based on our theoretical insights, possibilities are discussed to improve the BART sampler convergence performance.
翻訳日:2024-07-01 16:30:41 公開日:2024-06-28
# 任意の結果を持つサイクルシナリオ上の極端単純分布

Extremal simplicial distributions on cycle scenarios with arbitrary outcomes ( http://arxiv.org/abs/2406.19961v1 )

ライセンス: Link先を確認
Aziz Kharoof, Cihan Okay, Selman Ipek, (参考訳) サイクルシナリオは、Crauser-Horne-Shimony-Holt(CHSH)シナリオが顕著な例である。 これらのシナリオにおけるバイナリ結果の測定はよく理解されているが、任意の結果への一般化は、特定の場合を除いて、まだ検討されていない。 本研究では,任意の結果のサイクルシナリオに対応する非シグナリングポリトープの文脈的頂点を特徴付けるために,単純な分布の枠組みにおけるホモトピー的手法を用いる。 さらに,実測空間の文脈性や分解性に対するバンドル・パースペクティブを利用した手法を提案する。 これにより、サイクルシナリオをグルリングすることによって形成されたシナリオを超えて拡張し、これらの一般化されたコンテキストにおける文脈的極小分布を記述することができる。

Cycle scenarios are a significant class of contextuality scenarios, with the Clauser-Horne-Shimony-Holt (CHSH) scenario being a notable example. While binary outcome measurements in these scenarios are well understood, the generalization to arbitrary outcomes remains less explored, except in specific cases. In this work, we employ homotopical methods in the framework of simplicial distributions to characterize all contextual vertices of the non-signaling polytope corresponding to cycle scenarios with arbitrary outcomes. Additionally, our techniques utilize the bundle perspective on contextuality and the decomposition of measurement spaces. This enables us to extend beyond scenarios formed by gluing cycle scenarios and describe contextual extremal simplicial distributions in these generalized contexts.
翻訳日:2024-07-01 16:30:41 公開日:2024-06-28
# Text2Robot: テキスト記述による進化型ロボット設計

Text2Robot: Evolutionary Robot Design from Text Descriptions ( http://arxiv.org/abs/2406.19963v1 )

ライセンス: Link先を確認
Ryan P. Ringel, Zachary S. Charlick, Jiaxun Liu, Boxi Xia, Boyuan Chen, (参考訳) ロボットのデザインは伝統的にコストが高く、労働集約的だった。 自動化プロセスの進歩にもかかわらず、物理的に製造可能なロボットを生産しながら、広大なデザイン空間をナビゲートすることは依然として困難である。 ユーザテキスト仕様とパフォーマンス選好を物理的四足歩行ロボットに変換するフレームワークであるText2Robotを紹介した。 数分でText2Robotはテキストから3Dモデルを使って、多様な形態の強力な初期化を提供する。 1日以内に、我々の幾何学的処理アルゴリズムと身体制御の共最適化は、現実のエレクトロニクスと製造性を明確に考慮して歩行ロボットを生成する。 Text2Robotは、高速なプロトタイピングを可能にし、生成モデルによるロボットデザインの新しい機会を開く。

Robot design has traditionally been costly and labor-intensive. Despite advancements in automated processes, it remains challenging to navigate a vast design space while producing physically manufacturable robots. We introduce Text2Robot, a framework that converts user text specifications and performance preferences into physical quadrupedal robots. Within minutes, Text2Robot can use text-to-3D models to provide strong initializations of diverse morphologies. Within a day, our geometric processing algorithms and body-control co-optimization produce a walking robot by explicitly considering real-world electronics and manufacturability. Text2Robot enables rapid prototyping and opens new opportunities for robot design with generative models.
翻訳日:2024-07-01 16:30:41 公開日:2024-06-28
# HEベースのプライバシ保護型クラウドコンピューティングシステムのためのセキュアなアウトソース復号化

Secure Outsourced Decryption for HE-based Privacy-preserving Cloud Computing System ( http://arxiv.org/abs/2406.19964v1 )

ライセンス: Link先を確認
Xirong Ma, Chuan Li, Yuchang Hu, Yunting Tao, Yali Jiang, Yanbin Li, Fanyu Kong, Chunpeng Ge, (参考訳) 大量のデータ処理の需要は、機械学習技術の進歩により劇的に急増している。 大規模データ処理は、かなりの計算資源を必要とするため、個人や企業がクラウドサービスに目を向けるよう促す。 この傾向に対応することは、データ漏洩と誤用に関する懸念が高まっている。 ホモモルフィック暗号化(HE)は、データのプライバシを保護するためのソリューションのひとつであり、暗号化されたデータをクラウドでセキュアに処理できるようにする。 しかし、いくつかのHEスキームの暗号化と復号化ルーチンには相当な計算資源が必要であり、クライアントには非自明な作業が要求される。 本稿では、RLWEベースのHEスキームのアウトソース復号プロトコルを提案し、元の復号を2つのルーチンに分割し、計算集約部分をクラウドでリモートで実行した。 そのセキュリティは、NTRU-search問題に新しく設計された秘密分布の不変性に依存している。 暗号化分析を行い、プロトコルパラメータを様々なセキュリティレベルにわたって設定する。 実験により,提案プロトコルはクライアントのローカル復号化において最大6,7 %の高速化を実現し,空間使用量の50 %の削減を図った。

The demand for processing vast volumes of data has surged dramatically due to the advancement of machine learning technology. Large-scale data processing necessitates substantial computational resources, prompting individuals and enterprises to turn to cloud services. Accompanying this trend is a growing concern regarding data leakage and misuse. Homomorphic encryption (HE) is one solution for safeguarding data privacy, enabling encrypted data to be processed securely in the cloud. However, we observe that encryption and decryption routines of some HE schemes require considerable computational resources, presenting non-trivial work for clients. In this paper, we propose an outsourced decryption protocol for RLWE-based HE schemes, which splits the original decryption into two routines, with the computationally intensive part executed remotely by the cloud. Its security relies on an invariant of the NTRU-search problem with a newly designed secret distribution. Cryptographic analyses are conducted to configure protocol parameters across varying security levels. Our experiments demonstrate that the proposed protocol achieves up to a $67\%$ acceleration in the client's local decryption, accompanied by a $50\%$ reduction in space usage.
翻訳日:2024-07-01 16:30:41 公開日:2024-06-28
# 大規模言語モデルに基づくエージェントによる金融市場シミュレーション

Simulating Financial Market via Large Language Model based Agents ( http://arxiv.org/abs/2406.19966v1 )

ライセンス: Link先を確認
Shen Gao, Yuntao Wen, Minghang Zhu, Jianing Wei, Yuhan Cheng, Qunzi Zhang, Shuo Shang, (参考訳) ほとんどの経済学理論は、金融市場の参加者が完全に合理的な個人であり、金融市場の人間の振る舞いをシミュレートするために数学的モデルを使用していると仮定している。 しかし、人間の行動は必ずしも合理的ではなく、数学的モデルで正確に予測することは困難である。 本稿では、まず、実数整合システムで模擬株式市場を構築するための、textbf{A}gent-based \textbf{S}imulated \textbf{F}inancial \textbf{M}arket (ASFM)を提案する。 そこで我々は,そのプロファイル,観察,ツール学習に基づくアクションモジュールを含む,大規模言語モデルに基づくエージェントをストックトレーダとして提案する。 トレーディングエージェントは、現在の市場のダイナミクスや金融政策情報を包括的に理解し、トレーディング戦略に沿った決定を行うことができる。 実験では,ASFMの反応が2つの制御可能なシナリオにおいて,実際の株式市場と一致していることを確認する。 また,2つのポピュラーな経済学研究の方向性についても実験を行い,その結論が経済研究の予備的な発見と一致していることが判明した。 これらの観測に基づいて,提案したASFMが経済研究の新しいパラダイムを提供すると考えている。

Most economic theories typically assume that financial market participants are fully rational individuals and use mathematical models to simulate human behavior in financial markets. However, human behavior is often not entirely rational and is challenging to predict accurately with mathematical models. In this paper, we propose \textbf{A}gent-based \textbf{S}imulated \textbf{F}inancial \textbf{M}arket (ASFM), which first constructs a simulated stock market with a real order matching system. Then, we propose a large language model based agent as the stock trader, which contains the profile, observation, and tool-learning based action module. The trading agent can comprehensively understand current market dynamics and financial policy information, and make decisions that align with their trading strategy. In the experiments, we first verify that the reactions of our ASFM are consistent with the real stock market in two controllable scenarios. In addition, we also conduct experiments in two popular economics research directions, and we find that conclusions drawn in our \model align with the preliminary findings in economics research. Based on these observations, we believe our proposed ASFM provides a new paradigm for economic research.
翻訳日:2024-07-01 16:30:41 公開日:2024-06-28
# 未知の世界へ:新しい環境のための地理空間記述の生成

Into the Unknown: Generating Geospatial Descriptions for New Environments ( http://arxiv.org/abs/2406.19967v1 )

ライセンス: Link先を確認
Tzuf Paz-Argaman, John Palowitch, Sayali Kulkarni, Reut Tsarfaty, Jason Baldridge, (参考訳) 視覚・言語ナビゲーション(VLN)タスクと同様に、視覚と言語の間のギャップを埋めることに集中するタスクと同様に、新しいRendezvous(RVS)タスクは、非順序的なナビゲーション命令とマップを使用して、全中心的な空間的関係(オブザーバの視点に依存しない)を推論する必要がある。 しかし、トレーニングデータなしではパフォーマンスが大幅に低下する。 座標と組み合わせたオープンソース記述(例えばウィキペディア)を使用することで、トレーニングデータを提供するが、空間指向の限られたテキストに悩まされ、位置情報の解像度が低くなる。 地理空間データを用いて,新しい環境のための高品質な合成データを生成するための大規模拡張手法を提案する。 本手法は,エンティティ関係を抽出し,基礎となる知識グラフを構築する。 サンプリングされたエンティティとリレーションシップ(‘学校の北のショップ’)は、ナビゲーション命令を生成する。 一 文脈自由文法(CFG)を用いて多数のテンプレートを生成して、特定の実体及び関係を埋め込むこと。 (2)命令生成のためにエンティティと関係を大言語モデル(LLM)に入力する。 RVSを総合評価した結果, 未確認環境における100m精度を45.83%向上させることができた。 さらに, CFGをベースとした拡張学習モデルでは, LLMをベースとした拡張学習モデルと比較して, 目立たない環境と見える環境の両方において, 優れた性能が得られることを示した。 これらの結果は,テキストに基づく地理空間的推論において空間情報を明示的に構造化することの潜在的な利点が,データ共有のシナリオをアンロックできることを示唆している。

Similar to vision-and-language navigation (VLN) tasks that focus on bridging the gap between vision and language for embodied navigation, the new Rendezvous (RVS) task requires reasoning over allocentric spatial relationships (independent of the observer's viewpoint) using non-sequential navigation instructions and maps. However, performance substantially drops in new environments with no training data. Using opensource descriptions paired with coordinates (e.g., Wikipedia) provides training data but suffers from limited spatially-oriented text resulting in low geolocation resolution. We propose a large-scale augmentation method for generating high-quality synthetic data for new environments using readily available geospatial data. Our method constructs a grounded knowledge-graph, capturing entity relationships. Sampled entities and relations (`shop north of school') generate navigation instructions via (i) generating numerous templates using context-free grammar (CFG) to embed specific entities and relations; (ii) feeding the entities and relation into a large language model (LLM) for instruction generation. A comprehensive evaluation on RVS, showed that our approach improves the 100-meter accuracy by 45.83% on unseen environments. Furthermore, we demonstrate that models trained with CFG-based augmentation achieve superior performance compared with those trained with LLM-based augmentation, both in unseen and seen environments. These findings suggest that the potential advantages of explicitly structuring spatial information for text-based geospatial reasoning in previously unknown, can unlock data-scarce scenarios.
翻訳日:2024-07-01 16:30:41 公開日:2024-06-28
# STLLaVA-Med: 自己学習型大規模言語と医用ビジョンアシスタント

STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical ( http://arxiv.org/abs/2406.19973v1 )

ライセンス: Link先を確認
Guohao Sun, Can Qin, Huazhu Fu, Linwei Wang, Zhiqiang Tao, (参考訳) LVLM(Large Vision-Language Models)は、幅広いバイオメディカルデータセットを活用することで、医学的診断を支援する大きな可能性を示している。 しかし、医用画像理解・推論の進歩は、医用領域、特に医療領域において、高コストで労働集約的な高品質な視覚指導データの構築に大きく依存する。 このデータ探索問題を緩和するために,医療用自己学習大言語とビジョンアシスタント(STLLaVA-Med)を紹介する。 提案手法は,医用ビジュアルインストラクションデータを自動生成してデータ効率を向上させる政策モデル(LVLM)を訓練するために設計され,DPO(Direct Preference Optimization)によって導かれる。 具体的には、より強力でより大きなLVLM(例えば、GPT-4o)が生物医学の専門家として関与し、自動生成データ上でDPOの微調整プロセスを監督し、政策モデルが人間の嗜好と効率的に整合することを奨励する。 STLLaVA-Medの3つの主要な医用ビジュアル質問応答 (VQA) ベンチマークの有効性とデータ効率を検証し, 医用データのわずか9%を有効利用して, 競争力のあるゼロショット性能を実証した。

Large Vision-Language Models (LVLMs) have shown significant potential in assisting medical diagnosis by leveraging extensive biomedical datasets. However, the advancement of medical image understanding and reasoning critically depends on building high-quality visual instruction data, which is costly and labor-intensive to obtain, particularly in the medical domain. To mitigate this data-starving issue, we introduce Self-Training Large Language and Vision Assistant for Medical (STLLaVA-Med). The proposed method is designed to train a policy model (an LVLM) capable of auto-generating medical visual instruction data to improve data efficiency, guided through Direct Preference Optimization (DPO). Specifically, a more powerful and larger LVLM (e.g., GPT-4o) is involved as a biomedical expert to oversee the DPO fine-tuning process on the auto-generated data, encouraging the policy model to align efficiently with human preferences. We validate the efficacy and data efficiency of STLLaVA-Med across three major medical Visual Question Answering (VQA) benchmarks, demonstrating competitive zero-shot performance with the utilization of only 9% of the medical data.
翻訳日:2024-07-01 16:30:41 公開日:2024-06-28
# APUFの応答エントロピーについて

On the Response Entropy of APUFs ( http://arxiv.org/abs/2406.19975v1 )

ライセンス: Link先を確認
Vincent Dumoulin, Wenjing Rao, Natasha Devroye, (参考訳) Physically Unclonable Function (PUF) は、認証と鍵生成に使用されるハードウェアセキュリティプリミティブである。 入力ビットベクトルチャレンジを受け、単一ビット応答を生成し、結果としてチャレンジ-レスポンスペア(CRP)が生成される。 製造されたPUFの全てのチャレンジ応答対の真理表は、固有の製造ランダム性のため、デジタル指紋を形成する必要がある。 PUFのエントロピー(全ての応答のエントロピー、製造ランダム性と一様に選択された課題)は以前にも研究されており、難しい問題である。 反応エントロピー(英: response entropy、英: response entropy)とは、1つの(および2つの)他の反応の知識が与えられた任意の反応のエントロピーである。 これにより、いくつかのCRP(s)の知識が、別のレスポンスを推測する能力にどのように影響するかを調査できます。 Arbiter PUF (APUF) は、2つの経路間の遅延差の蓄積に基づくよく知られたPUFアーキテクチャである。 本稿では、APUFアーキテクチャの1つまたは2つの任意のCRPの知識が与えられた任意の応答の確率質量関数の閉形式を得る。 これにより、条件応答エントロピーを得ることができ、1つまたは2つのCRPの知識を与えられたエントロピービン(同じ条件応答エントロピーを持つ集合)のサイズを定義して得られる。 これらの結果はすべて、2つの異なるチャレンジベクトルが同じ反応をもたらす確率に依存し、これらの課題の応答類似性と呼ばれる。 これに対する明示的な閉形式式を得る。 この確率は、PUFアーキテクチャによって引き起こされる統計的相関と、特定の既知の課題と解答された課題に依存する。 副産物として、1つの(または2つの)課題と関連する予測可能性へのアクセスを与えられた未知の課題の最適(最小限のエラー確率)予測値を得る。

A Physically Unclonable Function (PUF) is a hardware security primitive used for authentication and key generation. It takes an input bit-vector challenge and produces a single-bit response, resulting in a challenge-response pair (CRP). The truth table of all challenge-response pairs of each manufactured PUF should look different due to inherent manufacturing randomness, forming a digital fingerprint. A PUF's entropy (the entropy of all the responses, taken over the manufacturing randomness and uniformly selected challenges) has been studied before and is a challenging problem. Here we explore a related notion -- the response entropy, which is the entropy of an arbitrary response given knowledge of one (and two) other responses. This allows us to explore how knowledge of some CRP(s) impacts the ability to guess another response. The Arbiter PUF (APUF) is a well-known PUF architecture based on accumulated delay differences between two paths. In this paper, we obtain in closed form the probability mass function of any arbitrary response given knowledge of one or two other arbitrary CRPs for the APUF architecture. This allows us to obtain the conditional response entropy and then to define and obtain the size of the entropy bins (challenge sets with the same conditional response entropy) given knowledge of one or two CRPs. All of these results depend on the probability that two different challenge vectors yield the same response, termed the response similarity of those challenges. We obtain an explicit closed form expression for this. This probability depends on the statistical correlations induced by the PUF architecture together with the specific known and to-be-guessed challenges. As a by-product, we also obtain the optimal (minimizing probability of error) predictor of an unknown challenge given access to one (or two) challenges and the associated predictability.
翻訳日:2024-07-01 16:30:41 公開日:2024-06-28
# ScaleBiO: LLMデータ再重み付けのためのスケーラブルなバイレベル最適化

ScaleBiO: Scalable Bilevel Optimization for LLM Data Reweighting ( http://arxiv.org/abs/2406.19976v1 )

ライセンス: Link先を確認
Rui Pan, Jipeng Zhang, Xingyuan Pan, Renjie Pi, Xiaoyu Wang, Tong Zhang, (参考訳) バイレベル最適化はさまざまな機械学習設定で有効性を示しているが、実際にはほとんどのアルゴリズムは2次情報を必要とするため、スケールアップは困難である。 つい最近になって、二段階最適化問題に効果的に対処できる一階アルゴリズムのパラダイムが出現した。 しかしながら、このパラダイムの実用的効率性は、特に大規模言語モデル(LLM)の文脈において検証されていない。 本稿では,大規模LLMデータ再重み付けのための2レベル最適化に着目した,このパラダイムのスケーラブルなインスタンス化について紹介する。 LISAと呼ばれる最近提案されたメモリ効率のトレーニング技術と組み合わせることで、我々の新しいアルゴリズムは8つのA40 GPU上で34ビリオンパラメトリックのLLMにスケールできる。 GPT-2, LLaMA-3-8B, GPT-NeoX-20B, Yi-34Bなど, 異なるスケールのモデルに対して, データ再重み付けに関する広範な実験によりScaleBiOの有効性が検証された。 理論的には、ScaleBiOは学習したデータ重みの最適性を保証するとともに、スムーズで強凸な目的に対して従来の一階二階最適化パラダイムと一致する収束を保証する。

Bilevel optimization has shown its utility across various machine learning settings, yet most algorithms in practice require second-order information, making it challenging to scale them up. Only recently, a paradigm of first-order algorithms emerged, capable of effectively addressing bilevel optimization problems. Nevertheless, the practical efficiency of this paradigm remains unverified, particularly in the context of large language models (LLMs). This paper introduces the first scalable instantiation of this paradigm called ScaleBiO, focusing on bilevel optimization for large-scale LLM data reweighting. By combining with a recently proposed memory-efficient training technique called LISA, our novel algorithm allows the paradigm to scale to 34-billion-parameter LLMs on eight A40 GPUs, marking the first successful application of bilevel optimization under practical scenarios for large-sized LLMs. Empirically, extensive experiments on data reweighting verify the effectiveness of ScaleBiO for different-scaled models, including GPT-2, LLaMA-3-8B, GPT-NeoX-20B, and Yi-34B, where bilevel optimization succeeds in filtering irrelevant data samples and selecting informative samples. Theoretically, ScaleBiO ensures the optimality of the learned data weights, along with a convergence guarantee matching the conventional first-order bilevel optimization paradigm on smooth and strongly convex objectives.
翻訳日:2024-07-01 16:30:41 公開日:2024-06-28
# 一般化量子支援デジタルシグナチャ

Generalized Quantum-assisted Digital Signature ( http://arxiv.org/abs/2406.19978v1 )

ライセンス: Link先を確認
Alberto Tarable, Rudi Paolo Paganelli, Elisabetta Storelli, Alberto Gatto, Marco Ferrari, (参考訳) 本稿では,デジタル署名のためにQKDキーを採用することで,情報理論のセキュリティを継承する手法の改良版である一般化量子支援デジタル署名(GQaDS)を紹介する。 偽造に対するセキュリティは、悪意のある偽造者によって取られた試行錯誤アプローチを考慮して計算され、GQaDSパラメータは偽造と鑑定確率のバランスをとる分析的アプローチによって最適化される。 以前の実装のハッシュ関数は Carter-Wegman Message Authentication Codes (MAC) に置き換えられ、スキーマのセキュリティを強化し、署名長を短縮した。 第2の検証者が安全な評判を持つシナリオでは、GQaDSの簡易版、すなわち決定論的GQaDSは、必要な署名長をさらに減らし、所望のセキュリティ強度を維持する。

This paper introduces Generalized Quantum-assisted Digital Signature (GQaDS), an improved version of a recently proposed scheme whose information theoretic security is inherited by adopting QKD keys for digital signature purposes. Its security against forging is computed considering a trial-and-error approach taken by the malicious forger and GQaDS parameters are optimized via an analytical approach balancing between forgery and repudiation probabilities. The hash functions of the previous implementation are replaced with Carter-Wegman Message Authentication Codes (MACs), strengthening the scheme security and reducing the signature length. For particular scenarios where the second verifier has a safe reputation, a simplified version of GQaDS, namely deterministic GQaDS, can further reduce the required signature length, keeping the desired security strength.
翻訳日:2024-07-01 16:30:41 公開日:2024-06-28
# 糖尿病患者の寛解予測のためのLSTMニューラルネットワークと従来の機械学習モデルの比較分析

Comparative Analysis of LSTM Neural Networks and Traditional Machine Learning Models for Predicting Diabetes Patient Readmission ( http://arxiv.org/abs/2406.19980v1 )

ライセンス: Link先を確認
Abolfazl Zarghani, (参考訳) 糖尿病は慢性のメタボリック障害であり、高い頻度と重篤な合併症のために世界中で大きな問題の1つとして現れており、治療に高価である。 効果的な管理には血糖コントロールと定期的なフォローアップが必要であるが、スケジュールされたフォローアップへの非順守は非常に一般的である。 本研究は、XGBoost、LightGBM、CatBoost、Decision Tree、Random Forestなど、さまざまな機械学習モデルによる寛解患者の分析と予測にDiabetes 130-US Hospitalsデータセットを使用し、また、社内のLSTMニューラルネットワークを用いて比較を行った。 データの品質は前処理によって保証され、これらのモデルのパフォーマンス評価は精度、精度、リコール、F1スコアに基づいていた。 LightGBMは、XGBoostが首位だったのに対して、従来のモデルとしてはベストだった。 LSTMモデルは高い訓練精度にもかかわらず過度に適合した。 LSTMの大きな強みは、患者のデータ間の時間的依存を捉えることである。 さらに, SHAP値を用い, モデル解釈性の向上を図った。 本研究は,予測医療モデリングにおいて,モデル選択,検証,解釈可能性が重要なステップであることを示す。 これにより、医療提供者は、フォローアップの順守を改善し、糖尿病の管理を改善するための介入を設計できる。

Diabetes mellitus is a chronic metabolic disorder that has emerged as one of the major health problems worldwide due to its high prevalence and serious complications, which are pricey to manage. Effective management requires good glycemic control and regular follow-up in the clinic; however, non-adherence to scheduled follow-ups is very common. This study uses the Diabetes 130-US Hospitals dataset for analysis and prediction of readmission patients by various traditional machine learning models, such as XGBoost, LightGBM, CatBoost, Decision Tree, and Random Forest, and also uses an in-house LSTM neural network for comparison. The quality of the data was assured by preprocessing it, and the performance evaluation for all these models was based on accuracy, precision, recall, and F1-score. LightGBM turned out to be the best traditional model, while XGBoost was the runner-up. The LSTM model suffered from overfitting despite high training accuracy. A major strength of LSTM is capturing temporal dependencies among the patient data. Further, SHAP values were used, which improved model interpretability, whereby key factors among them number of lab procedures and discharge disposition were identified as critical in the prediction of readmissions. This study demonstrates that model selection, validation, and interpretability are key steps in predictive healthcare modeling. This will help health providers design interventions for improved follow-up adherence and better management of diabetes.
翻訳日:2024-07-01 16:30:41 公開日:2024-06-28
# 最小エントロピー推定のための機械学習予測器

Machine Learning Predictors for Min-Entropy Estimation ( http://arxiv.org/abs/2406.19983v1 )

ライセンス: Link先を確認
Javier Blanco-Romero, Vicente Lorenzo, Florina Almenares Mendoza, Daniel Díaz-Sánchez, (参考訳) 本研究では、サイバーセキュリティにおいて正確なエントロピー評価が不可欠である暗号アプリケーションにおいて重要な要素であるランダム数生成器(RNG)における、最小エントロピー推定のための機械学習予測器の適用について検討する。 我々の研究は、これらの予測器と、実際にシーケンス相関を利用する予測器は、主にこの文脈で広く研究されていない平均ミンエントロピーを推定していることを示している。 平均ミンエントロピーと従来のミンエントロピーの関係について検討し,予測対象ビット数への依存性に着目した。 マルコフプロセスのサブセットである汎用バイナリ自動回帰モデルからのデータを利用して、機械学習モデル(畳み込みと繰り返しの長短期記憶層と変換器ベースのGPT-2モデルを含む)が、特定のシナリオにおいて従来のNIST SP 800-90B予測モデルより優れていることを示す。 本研究は,RNGの最小エントロピー評価におけるターゲットビット数を検討することの重要性を強調し,暗号化セキュリティ向上のためのエントロピー推定手法の強化における機械学習アプローチの可能性を強調した。

This study investigates the application of machine learning predictors for min-entropy estimation in Random Number Generators (RNGs), a key component in cryptographic applications where accurate entropy assessment is essential for cybersecurity. Our research indicates that these predictors, and indeed any predictor that leverages sequence correlations, primarily estimate average min-entropy, a metric not extensively studied in this context. We explore the relationship between average min-entropy and the traditional min-entropy, focusing on their dependence on the number of target bits being predicted. Utilizing data from Generalized Binary Autoregressive Models, a subset of Markov processes, we demonstrate that machine learning models (including a hybrid of convolutional and recurrent Long Short-Term Memory layers and the transformer-based GPT-2 model) outperform traditional NIST SP 800-90B predictors in certain scenarios. Our findings underscore the importance of considering the number of target bits in min-entropy assessment for RNGs and highlight the potential of machine learning approaches in enhancing entropy estimation techniques for improved cryptographic security.
翻訳日:2024-07-01 16:30:41 公開日:2024-06-28
# NetNN:プログラマブルネットワークにおけるニューラル侵入検知システム

NetNN: Neural Intrusion Detection System in Programmable Networks ( http://arxiv.org/abs/2406.19990v1 )

ライセンス: Link先を確認
Kamran Razavi, Shayan Davari Fard, George Karlos, Vinod Nigade, Max Mühlhäuser, Lin Wang, (参考訳) ディープラーニングの台頭により、侵入検出などの重要なネットワークタスクにディープニューラルネットワーク(DNN)を適用する試みが成功している。 しかし、ネットワーク制御プレーンでのDNNの実行は、既存の提案で通常行われているように、そのようなアプローチの実践性を阻害する高いレイテンシに悩まされている。 本稿では、ネットワークデータプレーン内で完全に動作し、低レイテンシを実現する新しいDNNベースの侵入検知システムであるNetNNを紹介する。 NetNNは生のパケット情報を入力として採用し、複雑な機能エンジニアリングを避ける。 NetNNは、DNN部分をプログラマブルスイッチのネットワークにマッピングし、個々のスイッチで部分的なDNN計算を実行し、これらのスイッチ間で中間的な実行結果を持つパケットを生成することで、DNNデータフローの実行を模倣する。 我々はP4でNetNNを実装し、そのようなアプローチの実現可能性を示す。 実験の結果,NetNNは実時間要求を満たす間,侵入検出精度を99\%に向上できることがわかった。

The rise of deep learning has led to various successful attempts to apply deep neural networks (DNNs) for important networking tasks such as intrusion detection. Yet, running DNNs in the network control plane, as typically done in existing proposals, suffers from high latency that impedes the practicality of such approaches. This paper introduces NetNN, a novel DNN-based intrusion detection system that runs completely in the network data plane to achieve low latency. NetNN adopts raw packet information as input, avoiding complicated feature engineering. NetNN mimics the DNN dataflow execution by mapping DNN parts to a network of programmable switches, executing partial DNN computations on individual switches, and generating packets carrying intermediate execution results between these switches. We implement NetNN in P4 and demonstrate the feasibility of such an approach. Experimental results show that NetNN can improve the intrusion detection accuracy to 99\% while meeting the real-time requirement.
翻訳日:2024-07-01 16:30:41 公開日:2024-06-28
# 全ファイバーフォームファクタにおける光の絡み合い支援状態

Entanglement Assisted Squeezed States of Light in All Fiber Form-Factor ( http://arxiv.org/abs/2406.19991v1 )

ライセンス: Link先を確認
Han Liu, Meng Lon Iu, Noor Hamdash, Amr S. Helmy, (参考訳) スクイーズ光源は、スクイーズ、フレキシブルな時間周波数特性、コンパクトな保存可能なフォームファクタを特徴とし、量子コンピューティングから量子センシング、通信まで幅広いアプリケーションにおいて重要なビルディングブロックとして機能する。 そこで本研究では,標準電気通信光ファイバー部品を専ら使用した励起光発生手法について紹介し,その実例を示す。 この技術は、自発4波混合(SFWM)の絡み合い特性を利用して、フレキシブルな時間周波数特性を持つ高いスクイーズを生成する。 特に、全ファイバ全誘導波プラットフォーム内で7.5 \(\pm\)0.1 dBの記録スクイーズを計測する。 絡み合い支援のスクイージング手法は、SFWM位相整合帯域内での任意の時間周波数モードのスクイージングの達成を、コヒーレントレーザーモードを超えて初めて促進する。 特に、ランダムに変調されたレーザー源と増幅された自然発光光で定義される部分コヒーレントモードとカオスモードで5.1dBと1.1dBのスクイージングを測定した。

Squeezed light sources, featuring significant degrees of squeezing, flexible time-frequency attributes, and a compact salable form factor, serve as crucial building blocks in an expanding range of applications, spanning from quantum computing to quantum sensing and communications. In this study, we introduce and demonstrate a novel approach to generating squeezed light that exclusively employs standard telecommunication fiber-optic components. The technique leverages the entanglement properties of spontaneous four-wave mixing (SFWM) to generate high squeezing with flexible time-frequency properties. Notably, a record squeezing of 7.5 \(\pm\)0.1 dB is measured within an all-fiber, all-guided-wave platform. The entanglement-assisted squeezing methodology empowers the attainment of squeezing for arbitrary time-frequency modes within the SFWM phase-matching bandwidth, extending beyond coherent laser modes, for the first time. In particular, we measured 5.1 dB and 1.1 dB squeezing on partially coherent and chaotic time-frequency modes that are defined by randomly modulated laser sources and filtered amplified spontaneous emission light, respectively.
翻訳日:2024-07-01 16:30:41 公開日:2024-06-28
# シングル・ペアレント・ファウンデーション・モデルによる家族のスペクトル

Single Parent Family: A Spectrum of Family Members from a Single Pre-Trained Foundation Model ( http://arxiv.org/abs/2406.19995v1 )

ライセンス: Link先を確認
Habib Hajimolahoseini, Mohammad Hassanpour, Foozhan Ataiefard, Boxing Chen, Yang Liu, (参考訳) 本稿では,大規模言語モデルの圧縮に適したプログレッシブ・ローランク分解法(PLRD)を提案する。 提案手法では, 事前学習モデルを用いて, 段階的に低いランクを用いて, より小さなサイズに漸進的に圧縮する。 この方法では、スクラッチから再トレーニングすることなく、後のモデルが元のモデルから導出されるため、計算オーバーヘッドとエネルギー消費の大幅な削減が可能となる。 本稿では,PLRDの実装について詳述する。この実装はテンソルランクを戦略的に低減し,モデル性能と資源使用量のトレードオフを最適化する。 PLRDの有効性は、PLRD法で訓練された1Bトークンで訓練されたモデルが、従来の訓練されたモデルと同等の性能を維持しつつ、0.1%のトークンを使用していることを示す広範な実験によって実証されている。 PLRDの汎用性は、単一の基礎モデルから複数のモデルサイズを生成する能力によって強調され、様々な計算およびメモリ予算に流動的に適応する。 我々の研究はPLRDがLLMの効率的なスケーリングのための新しい標準を策定し、高度なAIを多様なプラットフォームでより実現可能であることを示唆している。

This paper introduces a novel method of Progressive Low Rank Decomposition (PLRD) tailored for the compression of large language models. Our approach leverages a pre-trained model, which is then incrementally decompressed to smaller sizes using progressively lower ranks. This method allows for significant reductions in computational overhead and energy consumption, as subsequent models are derived from the original without the need for retraining from scratch. We detail the implementation of PLRD, which strategically decreases the tensor ranks, thus optimizing the trade-off between model performance and resource usage. The efficacy of PLRD is demonstrated through extensive experiments showing that models trained with PLRD method on only 1B tokens maintain comparable performance with traditionally trained models while using 0.1% of the tokens. The versatility of PLRD is highlighted by its ability to generate multiple model sizes from a single foundational model, adapting fluidly to varying computational and memory budgets. Our findings suggest that PLRD could set a new standard for the efficient scaling of LLMs, making advanced AI more feasible on diverse platforms.
翻訳日:2024-07-01 16:20:56 公開日:2024-06-28
# 量子アルゴリズムを古典的フレームワークに統合する:HHLを用いた予測・補正手法

Integrating Quantum Algorithms Into Classical Frameworks: A Predictor-corrector Approach Using HHL ( http://arxiv.org/abs/2406.19996v1 )

ライセンス: Link先を確認
Omer Rathore, Alastair Basden, Nicholas Chancellor, Halim Kusumaatmaja, (参考訳) 古典的問題への量子アルゴリズムの適用は一般に、量子状態と古典的状態の間でデータを転送する際の重大なボトルネックを伴う。 ここでは、Harrow, Hassidim and Lloyd (HHL) によって提案された方程式の線形系に対するよく知られたアルゴリズムについて、直接解法ではなく予測子-相関子に適応させることにより、この問題に対処する。 次のステップでソリューションを探すのではなく、目標が時間ステップ間の変化を決定するようになったのです。 この戦略は、多くの古典的アルゴリズムでよく見られる計算コストのかかるステップのインテリジェントな省略を可能にすると同時に、量子状態から解を抽出することに関連する悪名高い読み出し問題を緩和する。 ランダムまたは定期的に実行されたスキップは、代わりにシミュレーションの失敗につながる。 提案手法は,従来のHHLアルゴリズムよりも有用な多項式の優位性を確保できることを示す。 このアプローチの実用性と汎用性は、滑らかな粒子流体力学、プラズマシミュレーション、反応性流れ構成などの様々な分野の応用を通して説明される。 さらに、提案アルゴリズムは、将来の異種ハードウェアインフラストラクチャ上で非同期に動作するのに適しており、古典的および量子計算資源の相乗的強みを効果的に活用することができる。

The application of quantum algorithms to classical problems is generally accompanied by significant bottlenecks when transferring data between quantum and classical states, often negating any intrinsic quantum advantage. Here we address this challenge for a well-known algorithm for linear systems of equations, originally proposed by Harrow, Hassidim and Lloyd (HHL), by adapting it into a predictor-corrector instead of a direct solver. Rather than seeking the solution at the next time step, the goal now becomes determining the change between time steps. This strategy enables the intelligent omission of computationally costly steps commonly found in many classical algorithms, while simultaneously mitigating the notorious readout problems associated with extracting solutions from a quantum state. Random or regularly performed skips instead lead to simulation failure. We demonstrate that our methodology secures a useful polynomial advantage over a conventional application of the HHL algorithm. The practicality and versatility of the approach are illustrated through applications in various fields such as smoothed particle hydrodynamics, plasma simulations, and reactive flow configurations. Moreover, the proposed algorithm is well suited to run asynchronously on future heterogeneous hardware infrastructures and can effectively leverage the synergistic strengths of classical as well as quantum compute resources.
翻訳日:2024-07-01 16:20:56 公開日:2024-06-28
# 自動回帰画像生成に必要なウェーブレット

Wavelets Are All You Need for Autoregressive Image Generation ( http://arxiv.org/abs/2406.19997v1 )

ライセンス: Link先を確認
Wael Mattar, Idan Levy, Nir Sharon, Shai Dekel, (参考訳) 本稿では,2つの主成分をベースとした自己回帰画像生成手法を提案する。 1つ目はウェーブレット画像符号化であり、最も重要なウェーブレット係数の最も重要なビットから始まる情報を順序付けすることで、粗い画像から細部まで画像の視覚的詳細をトークン化することができる。 2つ目は、アーキテクチャが再設計され、この'ウェーブレット言語'のトークンシーケンスに最適化された言語トランスフォーマーの変種である。 変換器はトークン列内の有意な統計的相関を学習し、これは様々な解像度でウェーブレットサブバンド間のよく知られた相関の現れである。 生成過程の条件付けによる実験結果を示す。

In this paper, we take a new approach to autoregressive image generation that is based on two main ingredients. The first is wavelet image coding, which allows to tokenize the visual details of an image from coarse to fine details by ordering the information starting with the most significant bits of the most significant wavelet coefficients. The second is a variant of a language transformer whose architecture is re-designed and optimized for token sequences in this 'wavelet language'. The transformer learns the significant statistical correlations within a token sequence, which are the manifestations of well-known correlations between the wavelet subbands at various resolutions. We show experimental results with conditioning on the generation process.
翻訳日:2024-07-01 16:20:56 公開日:2024-06-28
# SIFoベンチマーク:大規模言語モデルの能力を考慮したシーケンスインストラクションの検討

The SIFo Benchmark: Investigating the Sequential Instruction Following Ability of Large Language Models ( http://arxiv.org/abs/2406.19999v1 )

ライセンス: Link先を確認
Xinyi Chen, Baohao Liao, Jirui Qi, Panagiotis Eustratiadis, Christof Monz, Arianna Bisazza, Maarten de Rijke, (参考訳) 複数の命令に従うことは、大きな言語モデル(LLM)にとって重要な機能である。 この能力を評価するには、大きな課題があります。 (i)複数命令間のコヒーレンスに制限。 二 指示の順序が模型の性能に影響を及ぼす位置バイアス (三)客観的に検証可能な課題の欠如 これらの課題に対処するため,SIFoタスクを通じて複数の命令を追従するモデルの能力を評価するためのベンチマークを導入する。 SIFoでは、最終命令のみを調べることで、複数の命令の完了が検証可能である。 本ベンチマークでは, 4つのタスク(テキスト修正, 質問応答, 数学, セキュリティルール)を用いて, 逐次的命令の異なる側面を評価する。 オープンソースとクローズドソースの両方で人気のあるLCMを評価したところ、SIFoタスクにおいて、より新しいモデルや大規模モデルの方が、より古いモデルやより小さなモデルよりも優れていることが示され、ベンチマークの有効性が検証された。 すべてのモデルは、今日の言語モデルの堅牢性の欠如を示唆する命令列に苦慮している。

Following multiple instructions is a crucial ability for large language models (LLMs). Evaluating this ability comes with significant challenges: (i) limited coherence between multiple instructions, (ii) positional bias where the order of instructions affects model performance, and (iii) a lack of objectively verifiable tasks. To address these issues, we introduce a benchmark designed to evaluate models' abilities to follow multiple instructions through sequential instruction following (SIFo) tasks. In SIFo, the successful completion of multiple instructions is verifiable by examining only the final instruction. Our benchmark evaluates instruction following using four tasks (text modification, question answering, mathematics, and security rule following), each assessing different aspects of sequential instruction following. Our evaluation of popular LLMs, both closed-source and open-source, shows that more recent and larger models significantly outperform their older and smaller counterparts on the SIFo tasks, validating the benchmark's effectiveness. All models struggle with following sequences of instructions, hinting at an important lack of robustness of today's language models.
翻訳日:2024-07-01 16:20:56 公開日:2024-06-28
# ディープニューラルネットワークを用いたマラリア細胞検出

Malaria Cell Detection Using Deep Neural Networks ( http://arxiv.org/abs/2406.20005v1 )

ライセンス: Link先を確認
Saurabh Sawant, Anurag Singh, (参考訳) マラリアは世界中で最も深刻な公衆衛生上の問題の一つであり、特にサハラ以南のアフリカでは深刻な死亡率と死亡率を引き起こしている。 迅速かつ正確な診断は、効果的な治療と疾患管理に不可欠である。 血液スミアの顕微鏡検査のような従来の診断法は、労働集約的であり、重要な専門知識を必要とするが、資源限定の設定では容易には利用できない。 本研究の目的は, 深層学習によるマラリア感染細胞の自動検出である。 我々はResNet50アーキテクチャに基づいた畳み込みニューラルネットワーク(CNN)を用い、転送学習を活用して性能を向上した。 カグルのマラリア細胞画像データセットは、感染細胞と感染していない細胞に分類された27,558枚の画像を含んでおり、トレーニングと評価に使用された。 本モデルでは, 高い精度, 精度, 再現性を示し, マラリア診断支援のための信頼性の高いツールとしての可能性を示した。 さらに、ユーザが細胞画像をアップロードし、マラリア感染の予知を受けられるように、Streamlitを使ってWebアプリケーションが開発された。 本稿では, 医用画像解析における深層学習の有効性を明らかにするため, 方法論, 実験, 結果の概要について概説する。

Malaria remains one of the most pressing public health concerns globally, causing significant morbidity and mortality, especially in sub-Saharan Africa. Rapid and accurate diagnosis is crucial for effective treatment and disease management. Traditional diagnostic methods, such as microscopic examination of blood smears, are labor-intensive and require significant expertise, which may not be readily available in resource-limited settings. This project aims to automate the detection of malaria-infected cells using a deep learning approach. We employed a convolutional neural network (CNN) based on the ResNet50 architecture, leveraging transfer learning to enhance performance. The Malaria Cell Images Dataset from Kaggle, containing 27,558 images categorized into infected and uninfected cells, was used for training and evaluation. Our model demonstrated high accuracy, precision, and recall, indicating its potential as a reliable tool for assisting in malaria diagnosis. Additionally, a web application was developed using Streamlit to allow users to upload cell images and receive predictions about malaria infection, making the technology accessible and user-friendly. This paper provides a comprehensive overview of the methodology, experiments, and results, highlighting the effectiveness of deep learning in medical image analysis.
翻訳日:2024-07-01 16:20:56 公開日:2024-06-28
# 分散学習における平坦性と最適化のトレードオフについて

On the Trade-off between Flatness and Optimization in Distributed Learning ( http://arxiv.org/abs/2406.20006v1 )

ライセンス: Link先を確認
Ying Cao, Zhaoxian Wu, Kun Yuan, Ali H. Sayed, (参考訳) 本研究では,非凸環境における局所最小値の挙動と分散学習における勾配差アルゴリズムの性能評価と比較を行う理論的枠組みを提案する。 従来の研究では、平坦な局所ミニマへの収束が学習アルゴリズムの一般化能力を高める傾向があることに気付いていた。 この研究は2つの興味深い結果を発見した。 まず、分散学習戦略は、局所的な最小化から脱却し、大規模バッチ学習体制における集中型ソリューションと比較して、よりフラットなミニマへの収束を優先できることを示す。 第二に、究極的な分類精度は、局所最小化器の平坦性にのみ依存するだけでなく、学習アルゴリズムがどれほどその最小値に近づくかにも依存する。 言い換えれば、分類精度は平坦性と最適化性能の両方の関数である。 本稿では,2つの平坦度と最適化誤差の相互関係について詳しく検討する。 1つの重要な結論は、拡散型の分散戦略は、平坦性と最適化性能のより良好なバランスをとるため、より高度な分類精度を提供するということである。

This paper proposes a theoretical framework to evaluate and compare the performance of gradient-descent algorithms for distributed learning in relation to their behavior around local minima in nonconvex environments. Previous works have noticed that convergence toward flat local minima tend to enhance the generalization ability of learning algorithms. This work discovers two interesting results. First, it shows that decentralized learning strategies are able to escape faster away from local minimizers and favor convergence toward flatter minima relative to the centralized solution in the large-batch training regime. Second, and importantly, the ultimate classification accuracy is not solely dependent on the flatness of the local minimizer but also on how well a learning algorithm can approach that minimum. In other words, the classification accuracy is a function of both flatness and optimization performance. The paper examines the interplay between the two measures of flatness and optimization error closely. One important conclusion is that decentralized strategies of the diffusion type deliver enhanced classification accuracy because it strikes a more favorable balance between flatness and optimization performance.
翻訳日:2024-07-01 16:20:56 公開日:2024-06-28
# ToolBeHonest: ツール強化大言語モデルのための多段階幻覚診断ベンチマーク

ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models ( http://arxiv.org/abs/2406.20015v1 )

ライセンス: Link先を確認
Yuxiang Zhang, Jing Chen, Junjie Wang, Yaxin Liu, Cheng Yang, Chufan Shi, Xinyu Zhu, Zihao Lin, Hanwen Wan, Yujiu Yang, Tetsuya Sakai, Tian Feng, Hayato Yamana, (参考訳) ツール拡張大型言語モデル(LLM)は、現実世界のアプリケーションに急速に統合されている。 ベンチマークが欠如しているため、コミュニティはこれらのモデルにおける幻覚の問題を十分に理解する必要がある。 この課題に対処するために、包括的な診断ベンチマークであるToolBHを導入する。 具体的には,LLMの幻覚を深さと幅の2つの視点で評価する。 本研究では,(1)可溶性検出,(2)解法計画,(3)欠失ツール分析など多段階の診断プロセスを提案する。 ツールセットの特徴に基づいた,必要なツールや潜在的なツール,限定的な機能ツールの3つのシナリオについて検討する。 さらに,7つのタスクを開発し,複数の手動アノテーションを用いて700個の評価サンプルを収集した。 結果は、ToolBHベンチマークで提示された重要な課題を示している。 現在のジェミニ1.5-ProとGPT-4oは、それぞれ45.3と37.0のスコアしか達成していない。 このベンチマークでは、より大きなモデルパラメータはより良いパフォーマンスを保証しません。 診断分析の結果, モデル誤差の主な原因は, 課題解決可能性の評価にあることがわかった。 さらに、オープンウェイトモデルは冗長な応答を伴うパフォーマンス低下に悩まされる一方、プロプライエタリモデルはより長い推論で優れている。

Tool-augmented large language models (LLMs) are rapidly being integrated into real-world applications. Due to the lack of benchmarks, the community still needs to fully understand the hallucination issues within these models. To address this challenge, we introduce a comprehensive diagnostic benchmark, ToolBH. Specifically, we assess the LLM's hallucinations through two perspectives: depth and breadth. In terms of depth, we propose a multi-level diagnostic process, including (1) solvability detection, (2) solution planning, and (3) missing-tool analysis. For breadth, we consider three scenarios based on the characteristics of the toolset: missing necessary tools, potential tools, and limited functionality tools. Furthermore, we developed seven tasks and collected 700 evaluation samples through multiple rounds of manual annotation. The results show the significant challenges presented by the ToolBH benchmark. The current advanced models Gemini-1.5-Pro and GPT-4o only achieve a total score of 45.3 and 37.0, respectively, on a scale of 100. In this benchmark, larger model parameters do not guarantee better performance; the training data and response strategies also play a crucial role in tool-enhanced LLM scenarios. Our diagnostic analysis indicates that the primary reason for model errors lies in assessing task solvability. Additionally, open-weight models suffer from performance drops with verbose replies, whereas proprietary models excel with longer reasoning.
翻訳日:2024-07-01 16:20:56 公開日:2024-06-28
# 完全不正は単一ビット位置検証では不可能である

Perfect cheating is impossible for single-qubit position verification ( http://arxiv.org/abs/2406.20022v1 )

ライセンス: Link先を確認
Carl A. Miller, Yusuf Alnawakhtha, (参考訳) 量子位置検証において、証明者は、量子計算を実行し、結果を(光速で)信頼された検証器の集合に返すことによって、その位置を認証する。 Kent, Munro, Spiller 2011) において、量子位置検証のための非常に初期のプロトコルが提案された: 証明者は一方の方向から量子ビット$Q$を受け取り、反対の方向から直交基底$\{ v, v^\perp \}$を受け取り、次に$Q$を$\{ v, v^\perp \}$で測定し、その結果をブロードキャストする。 このプロトコルの多くの変種が提案され、分析されてきたが、元のプロトコル自体がセキュアかどうかという問題は解決されていない。 そこで本研究では,従来のKMS測定プロトコルに対して,完全な有限次元カンニング戦略が存在しないことを示す。 我々のアプローチは、実際の代数幾何学の道具を利用する。

In quantum position verification, a prover certifies her location by performing a quantum computation and returning the results (at the speed of light) to a set of trusted verifiers. One of the very first protocols for quantum position verification was proposed in (Kent, Munro, Spiller 2011): the prover receives a qubit $Q$ from one direction, receives an orthogonal basis $\{ v, v^\perp \}$ from the opposite direction, then measures $Q$ in $\{ v, v^\perp \}$ and broadcasts the result. A number of variants of this protocol have been proposed and analyzed, but the question of whether the original protocol itself is secure has never been fully resolved. In this work we show that there is no perfect finite-dimensional cheating strategy for the original KMS measurement protocol. Our approach makes use of tools from real algebraic geometry.
翻訳日:2024-07-01 16:20:56 公開日:2024-06-28
# eMoE-Tracker:ロバストイベント誘導オブジェクト追跡のための環境MoEベースのトランス

eMoE-Tracker: Environmental MoE-based Transformer for Robust Event-guided Object Tracking ( http://arxiv.org/abs/2406.20024v1 )

ライセンス: Link先を確認
Yucheng Chen, Lin Wang, (参考訳) 高フレームレートオブジェクト追跡のためのフレームベースおよびイベントカメラの特異な相補性は、最近、マルチモーダル融合手法の開発にいくつかの研究を刺激している。 しかし、これらの手法は両モードを直接融合させ、例えば、動きのぼやけ、照明のばらつき、閉塞、スケールのばらつきなどの環境特性を無視する。 一方、検索機能とテンプレート機能との相互作用がないため、対象オブジェクトと背景の区別が難しい。 その結果、特に挑戦的な条件下では、性能劣化が引き起こされる。 本稿では,トランスフォーマーを用いたイベント誘導トラッキングフレームワークeMoE-Trackerを提案する。 私たちのキーとなるアイデアは、環境をいくつかの学習可能な属性に分解し、属性固有の特徴を動的に学習し、より優れたインタラクションと、ターゲット情報とバックグラウンド間の識別性を実現することです。 この目的を達成するために,まず,環境属性と環境属性を動的に組み立てるために,環境属性と環境属性を動的に学習するために,環境属性と環境属性とを関連づける環境ミックス・オブ・エグゼクティブ(eMoE)モジュールを提案する。 eMoEモジュールは、トランスのバックボーンをより効率的に微調整できる微妙なルーターだ。 次に、ターゲット情報と背景間の相互作用と識別性を改善するために、コントラッシブ・リレーション・モデリング(CRM)モジュールを導入する。 さまざまなイベントベースのベンチマークデータセットに関する大規模な実験は、従来の技術と比較して、eMoE-Trackerの優れたパフォーマンスを示しています。

The unique complementarity of frame-based and event cameras for high frame rate object tracking has recently inspired some research attempts to develop multi-modal fusion approaches. However, these methods directly fuse both modalities and thus ignore the environmental attributes, e.g., motion blur, illumination variance, occlusion, scale variation, etc. Meanwhile, no interaction between search and template features makes distinguishing target objects and backgrounds difficult. As a result, performance degradation is induced especially in challenging conditions. This paper proposes a novel and effective Transformer-based event-guided tracking framework, called eMoE-Tracker, which achieves new SOTA performance under various conditions. Our key idea is to disentangle the environment into several learnable attributes to dynamically learn the attribute-specific features for better interaction and discriminability between the target information and background. To achieve the goal, we first propose an environmental Mix-of-Experts (eMoE) module that is built upon the environmental Attributes Disentanglement to learn attribute-specific features and environmental Attributes Gating to assemble the attribute-specific features by the learnable attribute scores dynamically. The eMoE module is a subtle router that fine-tunes the transformer backbone more efficiently. We then introduce a contrastive relation modeling (CRM) module to improve interaction and discriminability between the target information and background. Extensive experiments on diverse event-based benchmark datasets showcase the superior performance of our eMoE-Tracker compared to the prior arts.
翻訳日:2024-07-01 16:20:56 公開日:2024-06-28
# LEMoE:大規模言語モデルの生涯モデル編集のためのエキスパート適応の高度混合

LEMoE: Advanced Mixture of Experts Adaptor for Lifelong Model Editing of Large Language Models ( http://arxiv.org/abs/2406.20030v1 )

ライセンス: Link先を確認
Renzhi Wang, Piji Li, (参考訳) 大規模言語モデル(LLM)は、常に変化する世界の事実をそのまま維持するために、継続的な知識更新を必要とし、寿命の長いモデル編集タスクを策定する。 近年では、一括編集やバッチ編集の様々な手法が開発されているが、長寿命編集に直面すると、これらの手法は適用できないか、準最適化されないかのいずれかである。 本稿では、生涯モデル編集のための高度なMixture of Experts (MoE)アダプタLEMoEを紹介する。 まず, 従来型MoEアダプタの生涯編集における有効性に影響を与える要因を解析し, 破滅的忘れ, 不整合性ルーティング, 順序感度などを検討した。 これらの知見に基づき、トレーニング段階と推論段階のルーティング一貫性を高めるため、新しいKVアンカールーティングと、簡潔で効果的なクラスタリングベースの編集順序計画を組み込んだ、生涯の編集を実現するための調整済みモジュール挿入手法を提案する。 実験により, バッチ編集作業における優れた性能を維持しつつ, 従来のモデル編集手法を超越した, 生涯編集における本手法の有効性を実証した。 私たちのコードは利用可能です。

Large language models (LLMs) require continual knowledge updates to stay abreast of the ever-changing world facts, prompting the formulation of lifelong model editing task. While recent years have witnessed the development of various techniques for single and batch editing, these methods either fail to apply or perform sub-optimally when faced with lifelong editing. In this paper, we introduce LEMoE, an advanced Mixture of Experts (MoE) adaptor for lifelong model editing. We first analyze the factors influencing the effectiveness of conventional MoE adaptor in lifelong editing, including catastrophic forgetting, inconsistent routing and order sensitivity. Based on these insights, we propose a tailored module insertion method to achieve lifelong editing, incorporating a novel KV anchor routing to enhance routing consistency between training and inference stage, along with a concise yet effective clustering-based editing order planning. Experimental results demonstrate the effectiveness of our method in lifelong editing, surpassing previous model editing techniques while maintaining outstanding performance in batch editing task. Our code will be available.
翻訳日:2024-07-01 16:20:56 公開日:2024-06-28
# 分類のためのペアワイズ差分学習

Pairwise Difference Learning for Classification ( http://arxiv.org/abs/2406.20031v1 )

ライセンス: Link先を確認
Mohamed Karim Belaid, Maximilian Rabus, Eyke Hüllermeier, (参考訳) PDL(Pairwise difference learning)は、最近、回帰のための新しいメタラーニング技術として導入されている。 標準的な方法でインスタンスから結果へのマッピングを学ぶ代わりに、キーとなるアイデアは、2つのインスタンスを入力として取り、それぞれの結果の違いを予測する関数を学ぶことだ。 このような関数が与えられた場合、クエリインスタンスの予測はトレーニングのすべての例から導出され、平均化されます。 本稿では、PDLを分類の課題に向けて拡張し、元のトレーニングデータのペアバージョン上で適切に定義された(バイナリ)分類問題を解くことにより、PDL分類器を誘導するメタラーニング手法を提案する。 本研究では,PDL分類器の性能を大規模実験により解析し,予測性能において最先端の手法よりも優れていることを示す。 最後に重要なことは、Pythonパッケージで簡単に使用でき、パブリックに利用できるPDLの実装を提供することです。

Pairwise difference learning (PDL) has recently been introduced as a new meta-learning technique for regression. Instead of learning a mapping from instances to outcomes in the standard way, the key idea is to learn a function that takes two instances as input and predicts the difference between the respective outcomes. Given a function of this kind, predictions for a query instance are derived from every training example and then averaged. This paper extends PDL toward the task of classification and proposes a meta-learning technique for inducing a PDL classifier by solving a suitably defined (binary) classification problem on a paired version of the original training data. We analyze the performance of the PDL classifier in a large-scale empirical study and find that it outperforms state-of-the-art methods in terms of prediction performance. Last but not least, we provide an easy-to-use and publicly available implementation of PDL in a Python package.
翻訳日:2024-07-01 16:20:56 公開日:2024-06-28
# 量子場論におけるベル-CHSH不等式への数値的アプローチ

A numerical approach to the Bell-CHSH inequality in Quantum Field Theory ( http://arxiv.org/abs/2406.20033v1 )

ライセンス: Link先を確認
Philipe De Fabritiis, Marcelo S. Guimaraes, Itzhak Roditi, Silvio P. Sorella, (参考訳) 相対論的スカラー量子場の真空状態におけるベル-CHSH不等式を解析した。 リンドラー・ウェッジに局所化されたスミア体で構築されたワイル作用素を用いて、ベル-CHSH不等式はテスト関数のローレンツ不変内積の項で表される。 これらの内積の数値的枠組みが考案された。 因果性はまた、パウリ・ジョルダン関数の数値的な評価によって明確にチェックされる。 粒子質量パラメータの異なる値に対してベル-CHSH不等式の振動を報告した。

The Bell-CHSH inequality in the vacuum state of a relativistic scalar quantum field is analyzed. Using Weyl operators built with smeared fields localized in the Rindler wedges, the Bell-CHSH inequality is expressed in terms of the Lorentz invariant inner products of test functions. A numerical framework for these inner products is devised. Causality is also explicitly checked by a numerical evaluation of the Pauli-Jordan function. Violations of the Bell-CHSH inequality are reported for different values of the particle mass parameter.
翻訳日:2024-07-01 16:20:56 公開日:2024-06-28
# モデル駆動エンジニアリングの成功ストーリーにおけるモデリング経験の体系化(MX)

Systematizing Modeler Experience (MX) in Model-Driven Engineering Success Stories ( http://arxiv.org/abs/2406.20035v1 )

ライセンス: Link先を確認
Reyhaneh Kalantari, Julian Oertel, Joeri Exelmans, Satrio Adi Rukmono, Vasco Amaral, Matthias Tichy, Katharina Juhnke, Jan-Philipp Steghöfer, Silvia Abrahão, (参考訳) モデリングはしばしば複雑で重いツールと関連付けられ、実践者の間で否定的な認識をもたらします。 しかしながら、オールズ・アズ・コードやローコードといった代替パラダイムは、使いやすさが認識されているため、受け入れられている。 本稿では,「モデル体験」 (MX) のレンズを用いて,これらの知覚間の二分法について検討する。 MXには、ユーザエクスペリエンス、モチベーション、統合、コラボレーション \&バージョニング、言語複雑性といった要素が含まれている。 これらの要因と,それらが異なるモデリング利用シナリオに与える影響について検討する。 本研究は、開発者がモデリングツールとどのように相互作用するか、モデリングツールと関連するツールの複雑さを理解する上で、MXを検討することの重要性を強調した。

Modeling is often associated with complex and heavy tooling, leading to a negative perception among practitioners. However, alternative paradigms, such as everything-as-code or low-code, are gaining acceptance due to their perceived ease of use. This paper explores the dichotomy between these perceptions through the lens of ``modeler experience'' (MX). MX includes factors such as user experience, motivation, integration, collaboration \& versioning and language complexity. We examine the relationships between these factors and their impact on different modeling usage scenarios. Our findings highlight the importance of considering MX when understanding how developers interact with modeling tools and the complexities of modeling and associated tooling.
翻訳日:2024-07-01 16:20:56 公開日:2024-06-28
# 雨だるま、雨だるま、雨だるま:微調整カーネルスケジューラとコーディネート染料の相性について

Explore as a Storm, Exploit as a Raindrop: On the Benefit of Fine-Tuning Kernel Schedulers with Coordinate Descent ( http://arxiv.org/abs/2406.20037v1 )

ライセンス: Link先を確認
Michael Canesche, Gaurav Verma, Fernando Magno Quintao Pereira, (参考訳) 機械学習モデルは、テンソルに演算を適用するアルゴリズム(自然数の線形結合でインデックス付けされたデータ)で構成されている。カーネルの例としては、畳み込み、転置、ベクトル積がある。カーネルを実装するには多くの方法がある。これらの実装はカーネルの最適化空間を形成している。カーネルスケジューリングは、目的関数(典型的には実行速度)から最高の実装を見つける問題である。 Ansor、Halide、AutoTVMといったカーネルオプティマイザは、探索とエクスプロイトという2つのフェーズを組み合わせた探索ヒューリスティックによってこの問題を解決する。 最初のステップは、多くの異なるカーネル最適化空間を評価する。 後者は、同じ空間内のカーネルを調査することで、最高の実装の改善を試みる。 例えば、Ansorはスケッチを通じてカーネル生成を組み合わせて探索し、進化的アルゴリズムを利用して最良のスケッチを利用する。 本研究では,オートTVMアルゴリズムであるDroplet SearchをAnsorの探索フェーズに組み込むことで,カーネルの品質を向上しつつ,Ansorの検索時間を短縮する可能性を実証する。 このアプローチでは、Ansorによって探索されたサンプルの数を制限し、最適なものを選択し、座標降下アルゴリズムでそれを利用する。 このアプローチを、Ansorが生成する最初の300のカーネルに適用することで、通常、Ansorが10,000のカーネルを解析した場合よりも少ない時間でより良いカーネルを得ることができます。 この結果は、AMD Ryzen 7 (x86)、NVIDIA A100テンソルコア、NVIDIA RTX 3080 GPU、ARM A64FXの4つのアーキテクチャで動作する20の有名なディープラーニングモデル(AlexNet、ResNet、VGG、DenseNetなど)で再現されている。 この組み合わせのアプローチは2024年2月にアンソールで承認された。 この手法の汎用性を示す証拠として,2024年6月にTVMのMetaScheduleに同様のパッチが提出された。

Machine-learning models consist of kernels, which are algorithms applying operations on tensors -- data indexed by a linear combination of natural numbers. Examples of kernels include convolutions, transpositions, and vectorial products. There are many ways to implement a kernel. These implementations form the kernel's optimization space. Kernel scheduling is the problem of finding the best implementation, given an objective function -- typically execution speed. Kernel optimizers such as Ansor, Halide, and AutoTVM solve this problem via search heuristics, which combine two phases: exploration and exploitation. The first step evaluates many different kernel optimization spaces. The latter tries to improve the best implementations by investigating a kernel within the same space. For example, Ansor combines kernel generation through sketches for exploration and leverages an evolutionary algorithm to exploit the best sketches. In this work, we demonstrate the potential to reduce Ansor's search time while enhancing kernel quality by incorporating Droplet Search, an AutoTVM algorithm, into Ansor's exploration phase. The approach involves limiting the number of samples explored by Ansor, selecting the best, and exploiting it with a coordinate descent algorithm. By applying this approach to the first 300 kernels that Ansor generates, we usually obtain better kernels in less time than if we let Ansor analyze 10,000 kernels. This result has been replicated in 20 well-known deep-learning models (AlexNet, ResNet, VGG, DenseNet, etc.) running on four architectures: an AMD Ryzen 7 (x86), an NVIDIA A100 tensor core, an NVIDIA RTX 3080 GPU, and an ARM A64FX. A patch with this combined approach was approved in Ansor in February 2024. As evidence of the generality of this search methodology, a similar patch, achieving equally good results, was submitted to TVM's MetaSchedule in June 2024.
翻訳日:2024-07-01 16:20:56 公開日:2024-06-28
# BioMNER: バイオメディカルメソッドエンティティ認識のためのデータセット

BioMNER: A Dataset for Biomedical Method Entity Recognition ( http://arxiv.org/abs/2406.20038v1 )

ライセンス: Link先を確認
Chen Tang, Bohao Yang, Kun Zhao, Bo Lv, Chenghao Xiao, Frank Guerin, Chenghua Lin, (参考訳) 名前付きエンティティ認識(NER)は自然言語処理の領域における基本的かつ重要なタスクである。 特にバイオメディカルメソッド NER の領域では、学術文献におけるドメイン固有の用語の継続的な流入に起因して、顕著な課題が提示される。 バイオメディカル・メソッド (BioMethod) NERの現在の研究は資源不足に悩まされており、主に方法論的概念の複雑な性質に起因している。 本研究では,人間のアノテーションを支援するために,自動バイオメソッドエンティティ認識と情報検索システムを用いたバイオメディカルメソッドエンティティ認識のための新しいデータセットを提案する。 さらに,我々のデータセットにカスタマイズされた最先端の大規模言語モデル(LLM)の利用を含む,従来型および現代型のオープンドメインNER方法論を包括的に検討した。 実験の結果,言語モデルのパラメータ数が大きくなると,生物医学的手法による実体抽出パターンの有効同化が著しく阻害されることが判明した。 注目すべきは、ALBERTモデル(たった11MB)を条件付きランダムフィールド(CRF)と組み合わせることで、最先端(SOTA)の性能を実現することである。

Named entity recognition (NER) stands as a fundamental and pivotal task within the realm of Natural Language Processing. Particularly within the domain of Biomedical Method NER, this task presents notable challenges, stemming from the continual influx of domain-specific terminologies in scholarly literature. Current research in Biomedical Method (BioMethod) NER suffers from a scarcity of resources, primarily attributed to the intricate nature of methodological concepts, which necessitate a profound understanding for precise delineation. In this study, we propose a novel dataset for biomedical method entity recognition, employing an automated BioMethod entity recognition and information retrieval system to assist human annotation. Furthermore, we comprehensively explore a range of conventional and contemporary open-domain NER methodologies, including the utilization of cutting-edge large-scale language models (LLMs) customised to our dataset. Our empirical findings reveal that the large parameter counts of language models surprisingly inhibit the effective assimilation of entity extraction patterns pertaining to biomedical methods. Remarkably, the approach, leveraging the modestly sized ALBERT model (only 11MB), in conjunction with conditional random fields (CRF), achieves state-of-the-art (SOTA) performance.
翻訳日:2024-07-01 16:20:56 公開日:2024-06-28
# 調和振動子に対するパス積分モンテカルロ熱力学とハミルトンエネルギーの解析的評価

Analytical evaluations of the Path Integral Monte Carlo thermodynamic and Hamiltonian energies for the harmonic oscillator ( http://arxiv.org/abs/2406.20039v1 )

ライセンス: Link先を確認
Siu A. Chin, (参考訳) 最近の高調波発振器の$ユニバーサル$離散虚時プロパゲータを用いることで、熱力学とハミルトンエネルギーの両方を解析的に与え、各虚時ステップで数値的に評価することができる。 この研究は、現在知られている短時間プロパゲータのみを用いて、ハミルトニアンエネルギーを12次に最適化することができ、調和振動子の基底状態エネルギーを3つのビーズに収束させることを示した。 この研究は、熱力学エネルギーの計算に使用される2階原始近似プロパゲータが、ビーズ数の増加とともに非常にゆっくりと収束していることを明確にしている。

By use of the recently derived $universal$ discrete imaginary-time propagator of the harmonic oscillator, both thermodynamic and Hamiltonian energies can be given analytically, and evaluated numerically at each imaginary time step, for $any$ short-time propagator. This work shows that, using only currently known short-time propagators, the Hamiltonian energy can be optimized to the twelfth order, converging to the ground state energy of the harmonic oscillator in as few as three beads. This study makes it absolutely clear that the widely used second-order primitive approximation propagator, when used in computing the thermodynamic energy, converges extremely slowly with increasing number of beads.
翻訳日:2024-07-01 16:10:57 公開日:2024-06-28
# BMW Agents - マルチエージェントコラボレーションによるタスク自動化フレームワーク

BMW Agents -- A Framework For Task Automation Through Multi-agent Collaboration ( http://arxiv.org/abs/2406.20041v1 )

ライセンス: Link先を確認
Noel Crawford, Edward B. Duffy, Iman Evazzade, Torsten Foehr, Gregory Robbins, Debbrata Kumar Saha, Jiya Varma, Marcin Ziolkowski, (参考訳) LLM(Large Language Models)によって駆動される自律エージェントは、自動化に巨大な可能性を秘めている。 この技術の初期の証明は、複雑なタスクを解決し、外部システムと対話して知識を増強し、アクションをトリガーするエージェントの様々なデモンストレーションで見ることができる。 特に、複数のエージェントが複雑なタスクを協調的に解決するワークフローは、より厳格で明確な環境での運用能力を実証している。 このように、マルチエージェントアプローチは、複雑な知識検索システムから次世代のロボットプロセス自動化まで、多くの産業アプリケーションにおいてバックボーンとして機能する大きな可能性を秘めている。 現在のLLMの世代における推論能力を考えると、複雑なプロセスは、明確に定義されたモジュラータスクの計画を含む多段階のアプローチを必要とする。 複雑さのレベルによって、これらのタスクは単一のエージェントまたはエージェントのグループによって実行される。 本研究では、計画と実行に注意を払ってフレキシブルなエージェントエンジニアリングフレームワークを設計することに焦点を当て、様々なドメインにわたる複雑なユースケースアプリケーションを扱うことができる。 提案するフレームワークは、産業用アプリケーションの信頼性を提供し、複数の自律エージェントがタスクの解決に向けて協力して作業するためのスケーラブルでフレキシブルで協調的なワークフローを保証するためのテクニックを提供する。

Autonomous agents driven by Large Language Models (LLMs) offer enormous potential for automation. Early proof of this technology can be found in various demonstrations of agents solving complex tasks, interacting with external systems to augment their knowledge, and triggering actions. In particular, workflows involving multiple agents solving complex tasks in a collaborative fashion exemplify their capacity to operate in less strict and less well-defined environments. Thus, a multi-agent approach has great potential for serving as a backbone in many industrial applications, ranging from complex knowledge retrieval systems to next generation robotic process automation. Given the reasoning abilities within the current generation of LLMs, complex processes require a multi-step approach that includes a plan of well-defined and modular tasks. Depending on the level of complexity, these tasks can be executed either by a single agent or a group of agents. In this work, we focus on designing a flexible agent engineering framework with careful attention to planning and execution, capable of handling complex use case applications across various domains. The proposed framework provides reliability in industrial applications and presents techniques to ensure a scalable, flexible, and collaborative workflow for multiple autonomous agents working together towards solving tasks.
翻訳日:2024-07-01 16:10:57 公開日:2024-06-28
# 胎児多層拡散強調MRIにおける変形・運動補正フレームワークHAITCH

HAITCH: A Framework for Distortion and Motion Correction in Fetal Multi-Shell Diffusion-Weighted MRI ( http://arxiv.org/abs/2406.20042v1 )

ライセンス: Link先を確認
Haykel Snoussi, Davood Karimi, Onur Afacan, Mustafa Utkur, Ali Gholipour, (参考訳) 拡散磁気共鳴イメージング(dMRI)は、急速に発達する胎児の脳の微細構造を調べるために重要である。 しかし、スキャン中の胎児の動きと磁場の不均一性との相互作用により、人工物やデータは空間的および角的領域にわたって散乱する。 これらの人工物の効果は、信号対雑音比が非常に低い高角分解能胎児dMRIにおいてより顕著である。 これらの効果は、偏りのある推定を導き、dMRI分析の一貫性と信頼性を損なう。 この研究は、マルチシェル高角解像度胎児dMRIデータの修正と再構成を行う最初の、かつ唯一公開されたツールであるHAITCHを提示する。 HAITCHは、動的歪み補正のためのblip-reversed dual-echo取得、モデルフリーでロバストな再構築のための高度な動き補正、情報キャプチャと動きへの耐性向上のための最適化されたマルチシェル設計、再構成忠実度向上のためのアウター検出など、いくつかの技術的進歩を提供している。 このフレームワークはオープンソースでフレキシブルで、シングルエチョやシングルシェルの取得を含む胎児のdMRIデータを処理できるが、既存のツールで処理できないマルチシェルのマルチエチョのdMRIデータを使用する場合、最も効果的である。 実胎児のdMRIスキャンに対する検証実験は、さまざまな胎児年齢と運動レベルにおいて、顕著な改善と正確な補正を示す。 HAITCHは、繊維配向分布関数推定を含む高度な拡散モデリングに適した高忠実度胎児のdMRIデータをうまく除去し、再構成する。 これらの進歩は、難しい画像条件下で胎児の脳の微細構造とトラクターグラフィーをより信頼性の高い分析を行うための道を開く。

Diffusion magnetic resonance imaging (dMRI) is pivotal for probing the microstructure of the rapidly-developing fetal brain. However, fetal motion during scans and its interaction with magnetic field inhomogeneities result in artifacts and data scattering across spatial and angular domains. The effects of those artifacts are more pronounced in high-angular resolution fetal dMRI, where signal-to-noise ratio is very low. Those effects lead to biased estimates and compromise the consistency and reliability of dMRI analysis. This work presents HAITCH, the first and the only publicly available tool to correct and reconstruct multi-shell high-angular resolution fetal dMRI data. HAITCH offers several technical advances that include a blip-reversed dual-echo acquisition for dynamic distortion correction, advanced motion correction for model-free and robust reconstruction, optimized multi-shell design for enhanced information capture and increased tolerance to motion, and outlier detection for improved reconstruction fidelity. The framework is open-source, flexible, and can be used to process any type of fetal dMRI data including single-echo or single-shell acquisitions, but is most effective when used with multi-shell multi-echo fetal dMRI data that cannot be processed with any of the existing tools. Validation experiments on real fetal dMRI scans demonstrate significant improvements and accurate correction across diverse fetal ages and motion levels. HAITCH successfully removes artifacts and reconstructs high-fidelity fetal dMRI data suitable for advanced diffusion modeling, including fiber orientation distribution function estimation. These advancements pave the way for more reliable analysis of the fetal brain microstructure and tractography under challenging imaging conditions.
翻訳日:2024-07-01 16:10:57 公開日:2024-06-28
# 静電気法による粒子サンプリングと近似推論

Electrostatics-based particle sampling and approximate inference ( http://arxiv.org/abs/2406.20044v1 )

ライセンス: Link先を確認
Yongchao Huang, (参考訳) 静電気学とニュートン力学の原理に基づく新しい粒子を用いたサンプリングおよび近似推論法が,理論的基礎,アルゴリズム設計,実験的検証とともに導入された。 この方法は相互作用粒子系(IPS)をシミュレートし、粒子、すなわち、標的分布に比例する大きさで運動する負電荷と空間的に固定された正電荷が、ポアソンの方程式で記述された結果の電場によって引き起こされるアトラクションと反発によって互いに相互作用する。 IPSは、負電荷の分布がターゲット分布に一致する定常状態へと進化する。 この物理に着想を得た手法は、決定論的、勾配のないサンプリングと推論を提供し、複素密度、ベイズ的ロジスティック回帰および力学系同定のベンチマークタスクにおいて、他の粒子ベースおよびMCMC法と同等の性能を達成する。 離散時間離散空間のアルゴリズム設計は、連続時間や空間に容易に拡張可能であり、ベイズ推論、生成モデリングなど、確率論的機械学習シナリオで発生するより一般的な推論問題に使用される。

A new particle-based sampling and approximate inference method, based on electrostatics and Newton mechanics principles, is introduced with theoretical ground, algorithm design and experimental validation. This method simulates an interacting particle system (IPS) where particles, i.e. the freely-moving negative charges and spatially-fixed positive charges with magnitudes proportional to the target distribution, interact with each other via attraction and repulsion induced by the resulting electric fields described by Poisson's equation. The IPS evolves towards a steady-state where the distribution of negative charges conforms to the target distribution. This physics-inspired method offers deterministic, gradient-free sampling and inference, achieving comparable performance as other particle-based and MCMC methods in benchmark tasks of inferring complex densities, Bayesian logistic regression and dynamical system identification. A discrete-time, discrete-space algorithmic design, readily extendable to continuous time and space, is provided for usage in more general inference problems occurring in probabilistic machine learning scenarios such as Bayesian inference, generative modelling, and beyond.
翻訳日:2024-07-01 16:10:57 公開日:2024-06-28
# データ分散シフト下における自律システムの評価

Evaluation of autonomous systems under data distribution shifts ( http://arxiv.org/abs/2406.20046v1 )

ライセンス: Link先を確認
Daniel Sikar, Artur Garcez, (参考訳) 我々は、データはデータ分散シフトの一定のしきい値までしか使用できないと仮定し、その後、自律システムによって制御を放棄し、人間のオペレーターに操作を停止または渡さなければならないと仮定する。 コンピュータビジョン玩具の例を用いて、ネットワーク予測精度がデータ分散シフトの影響を受けていることを実証し、トレーニングとテストデータ間の距離メトリクスを提案し、そのシフト内で安全な操作限界を定義する。 我々は、データ分散シフトの実験的に得られたしきい値を超えると、ネットワーク予測精度が劣化しないように期待することは理にかなっていると結論付けた。

We posit that data can only be safe to use up to a certain threshold of the data distribution shift, after which control must be relinquished by the autonomous system and operation halted or handed to a human operator. With the use of a computer vision toy example we demonstrate that network predictive accuracy is impacted by data distribution shifts and propose distance metrics between training and testing data to define safe operation limits within said shifts. We conclude that beyond an empirically obtained threshold of the data distribution shift, it is unreasonable to expect network predictive accuracy not to degrade
翻訳日:2024-07-01 16:10:57 公開日:2024-06-28
# LLMにおける言語融合の理解と緩和

Understanding and Mitigating Language Confusion in LLMs ( http://arxiv.org/abs/2406.20052v1 )

ライセンス: Link先を確認
Kelly Marchisio, Wei-Yin Ko, Alexandre Bérard, Théo Dehaze, Sebastian Ruder, (参考訳) ユーザの所望する言語でテキストを一貫して生成できないという,LCMの驚くべき制限について検討する。 このような障害を評価するためにLanguage Confusion Benchmark (LCB) を作成した。 Llama Instruct と Mistral のモデルが言語混同の度合いが高く,最強のモデルでさえ常に正しい言語に反応しないことがわかった。 基本および英語中心のインストラクションモデルは、複雑なプロンプトと高いサンプリング温度によって増大する言語混乱の傾向にある。 言語混乱は,数発のプロンプト,多言語SFT,選好チューニングによって部分的に緩和できることがわかった。 これは、https://github.com/for-ai/Language-confusion.comで、効率的でスケーラブルな多言語評価の第1層として機能します。

We investigate a surprising limitation of LLMs: their inability to consistently generate text in a user's desired language. We create the Language Confusion Benchmark (LCB) to evaluate such failures, covering 15 typologically diverse languages with existing and newly-created English and multilingual prompts. We evaluate a range of LLMs on monolingual and cross-lingual generation reflecting practical use cases, finding that Llama Instruct and Mistral models exhibit high degrees of language confusion and even the strongest models fail to consistently respond in the correct language. We observe that base and English-centric instruct models are more prone to language confusion, which is aggravated by complex prompts and high sampling temperatures. We find that language confusion can be partially mitigated via few-shot prompting, multilingual SFT and preference tuning. We release our language confusion benchmark, which serves as a first layer of efficient, scalable multilingual evaluation at https://github.com/for-ai/language-confusion.
翻訳日:2024-07-01 16:10:57 公開日:2024-06-28
# LLM適応の保護への挑戦

Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation ( http://arxiv.org/abs/2406.20053v1 )

ライセンス: Link先を確認
Danny Halawi, Alexander Wei, Eric Wallace, Tony T. Wang, Nika Haghtalab, Jacob Steinhardt, (参考訳) Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。 しかし、そのようなアクセスは、悪意のあるアクターがモデルの安全性を損なう可能性がある。 ファインタニングインタフェースの保護という課題を実証するために,検出を回避しながらファインタニングによりモデル安全性を損なう手法である秘密の悪意のあるファインタニングを導入する。 提案手法は,各データポイントが無害に見える悪質なデータセットを構築するが,データセットの微調整によって,有害な応答を符号化した有害な要求に対する応答をモデルに教える。 GPT-4に適用した本手法は, 有害な命令を99%処理し, データセット検査, 安全性評価, 入出力分類器などの防御機構による検出を回避した微調整モデルを生成する。 本研究は,ブラックボックスファインタニングアクセスを高度な敵に対して確保できるかどうかを疑うものである。

Black-box finetuning is an emerging interface for adapting state-of-the-art language models to user needs. However, such access may also let malicious actors undermine model safety. To demonstrate the challenge of defending finetuning interfaces, we introduce covert malicious finetuning, a method to compromise model safety via finetuning while evading detection. Our method constructs a malicious dataset where every individual datapoint appears innocuous, but finetuning on the dataset teaches the model to respond to encoded harmful requests with encoded harmful responses. Applied to GPT-4, our method produces a finetuned model that acts on harmful instructions 99% of the time and avoids detection by defense mechanisms such as dataset inspection, safety evaluations, and input/output classifiers. Our findings question whether black-box finetuning access can be secured against sophisticated adversaries.
翻訳日:2024-07-01 16:10:57 公開日:2024-06-28
# To Word Senses and Beyond: 文脈型言語モデルによる概念の導入

To Word Senses and Beyond: Inducing Concepts with Contextualized Language Models ( http://arxiv.org/abs/2406.20054v1 )

ライセンス: Link先を確認
Bastien Liétard, Pascal Denis, Mikaella Keller, (参考訳) 多義語と同義語は、語彙的曖昧性の2つの重要な相互関係の面である。 どちらの現象もNLPで広く研究され、専用のシステムへと導かれてきたが、それらはしばしば独立に検討されている。 単語センスの曖昧さや誘導といった多義性を扱うタスクの多くは、単語の感覚の役割を強調しているが、同義語の研究は、概念、すなわち語彙間で共有される意味の研究に根ざしている。 本稿では,概念の集合をデータから直接定義する単語間のソフトクラスタリングを学習する教師なしタスクである概念誘導について紹介する。 このタスクは、ワードセンス誘導の処理を一般化する。 本稿では,局所レンマ中心の視点と大域的相互関係の視点を両立させて概念を導出する概念誘導手法を提案する。 得られたクラスタリングをSemCorのアノテートデータに基づいて評価し,優れた性能(BCubed F1以上0.60)を得る。 地域レベルと世界レベルが相互に有益であることは、我々の設定において概念や感覚を誘導する上でも有益である。 最後に、誘導された概念を表す静的な埋め込みを作成し、Word-in-Contextタスクで使用し、State-of-the-Artと競合するパフォーマンスを得る。

Polysemy and synonymy are two crucial interrelated facets of lexical ambiguity. While both phenomena have been studied extensively in NLP, leading to dedicated systems, they are often been considered independently. While many tasks dealing with polysemy (e.g. Word Sense Disambiguiation or Induction) highlight the role of a word's senses, the study of synonymy is rooted in the study of concepts, i.e. meaning shared across the lexicon. In this paper, we introduce Concept Induction, the unsupervised task of learning a soft clustering among words that defines a set of concepts directly from data. This task generalizes that of Word Sense Induction. We propose a bi-level approach to Concept Induction that leverages both a local lemma-centric view and a global cross-lexicon perspective to induce concepts. We evaluate the obtained clustering on SemCor's annotated data and obtain good performances (BCubed F1 above 0.60). We find that the local and the global levels are mutually beneficial to induce concepts and also senses in our setting. Finally, we create static embeddings representing our induced concepts and use them on the Word-in-Context task, obtaining competitive performances with the State-of-the-Art.
翻訳日:2024-07-01 16:10:57 公開日:2024-06-28
# Spotless Splats:3Dガウスめっきにおけるディトラクタの無視

SpotlessSplats: Ignoring Distractors in 3D Gaussian Splatting ( http://arxiv.org/abs/2406.20055v1 )

ライセンス: Link先を確認
Sara Sabour, Lily Goli, George Kopanas, Mark Matthews, Dmitry Lagun, Leonidas Guibas, Alec Jacobson, David J. Fleet, Andrea Tagliasacchi, (参考訳) 3D Gaussian Splatting(3DGS)は,3DGSの視点間整合性仮定を満たすために,高度に制御された環境(人や風色要素や一貫した照明など)を必要とする。 これにより、現実世界の映像の復元が問題となる。 SpotlessSplatsは、トレーニング済みと汎用の機能と堅牢な最適化を併用して、過渡的障害を効果的に無視するアプローチである。 本手法は, カジュアルキャプチャーを用いて, 視覚的, 定量的に, 最先端の復元品質を実現する。

3D Gaussian Splatting (3DGS) is a promising technique for 3D reconstruction, offering efficient training and rendering speeds, making it suitable for real-time applications.However, current methods require highly controlled environments (no moving people or wind-blown elements, and consistent lighting) to meet the inter-view consistency assumption of 3DGS. This makes reconstruction of real-world captures problematic. We present SpotlessSplats, an approach that leverages pre-trained and general-purpose features coupled with robust optimization to effectively ignore transient distractors. Our method achieves state-of-the-art reconstruction quality both visually and quantitatively, on casual captures.
翻訳日:2024-07-01 16:10:57 公開日:2024-06-28
# 軽量LLMにおけるAPI利用によるコード生成のためのRLAIFの適用

Applying RLAIF for Code Generation with API-usage in Lightweight LLMs ( http://arxiv.org/abs/2406.20060v1 )

ライセンス: Link先を確認
Sujan Dutta, Sayantan Mahinder, Raviteja Anantha, Bortik Bandyopadhyay, (参考訳) AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)は、LLM出力の害軽減、テキスト要約の強化、数学的推論など、さまざまな領域において有意義な可能性を証明している。 本稿では,軽量 (<1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。 特に、適切なAPI呼び出しを書く必要があるコード生成タスクに重点を置いています。 我々のフレームワークは,より大きなLLM(例えば GPT-3.5)から特別なプロンプト戦略を通じてAIフィードバックを抽出し,このデータを用いて,より小さなLLMからのアライメントを改善するための報酬モデルをトレーニングする。 実験をGorillaデータセット上で実行し、AST、ROUGE、Code-BLEUなど、さまざまなメトリクスでモデル生成コードの品質を慎重に評価し、実行可能性率を正確に計算するためのパイプラインを開発しました。 提案手法は細調整LDMベースラインの性能を著しく向上させ,実行可能性率を4.5%向上させる。 特に、RLAIFでトレーニングされた小さなLLMモデル(780Mパラメータ)は、7Bパラメータを持つはるかに大きな微調整ベースラインを超え、1.0%高いコード実行率を達成する。

Reinforcement Learning from AI Feedback (RLAIF) has demonstrated significant potential across various domains, including mitigating harm in LLM outputs, enhancing text summarization, and mathematical reasoning. This paper introduces an RLAIF framework for improving the code generation abilities of lightweight (<1B parameters) LLMs. We specifically focus on code generation tasks that require writing appropriate API calls, which is challenging due to the well-known issue of hallucination in LLMs. Our framework extracts AI feedback from a larger LLM (e.g., GPT-3.5) through a specialized prompting strategy and uses this data to train a reward model towards better alignment from smaller LLMs. We run our experiments on the Gorilla dataset and meticulously assess the quality of the model-generated code across various metrics, including AST, ROUGE, and Code-BLEU, and develop a pipeline to compute its executability rate accurately. Our approach significantly enhances the fine-tuned LLM baseline's performance, achieving a 4.5% improvement in executability rate. Notably, a smaller LLM model (780M parameters) trained with RLAIF surpasses a much larger fine-tuned baseline with 7B parameters, achieving a 1.0% higher code executability rate.
翻訳日:2024-07-01 16:10:57 公開日:2024-06-28
# PandoraのBox Gittinsインデックスによるコスト対応ベイズ最適化

Cost-aware Bayesian optimization via the Pandora's Box Gittins index ( http://arxiv.org/abs/2406.20062v1 )

ライセンス: Link先を確認
Qian Xie, Raul Astudillo, Peter Frazier, Ziv Scully, Alexander Terenin, (参考訳) ベイズ最適化は未知関数をブラックボックス方式で効率的に最適化する手法である。 データの収集には有限資源の活用が必要であるため,ベイズ最適化政策に関数評価コストを明示的に組み込むことが望ましい。 そこで本稿では,コストを意識したベイズ最適化と,経済学の意思決定問題であるPandoraのBox問題との間に,従来未解決の接続関係を構築した。 PandoraのBox問題は、Gittins indexと呼ばれる式に基づいたベイズ最適化ソリューションを認めており、これは取得関数として再解釈できる。 我々は,この獲得関数をコスト認識ベイズ最適化に利用し,特に中高次元において,その性能を実証的に実証する。 さらに, この性能は, 明示的な評価コストを伴わずに, 古典的ベイズ最適化へと引き継がれることを示す。 我々の研究は、Gittinsインデックス理論からベイズ最適化への技術統合に向けた第一歩となる。

Bayesian optimization is a technique for efficiently optimizing unknown functions in a black-box manner. To handle practical settings where gathering data requires use of finite resources, it is desirable to explicitly incorporate function evaluation costs into Bayesian optimization policies. To understand how to do so, we develop a previously-unexplored connection between cost-aware Bayesian optimization and the Pandora's Box problem, a decision problem from economics. The Pandora's Box problem admits a Bayesian-optimal solution based on an expression called the Gittins index, which can be reinterpreted as an acquisition function. We study the use of this acquisition function for cost-aware Bayesian optimization, and demonstrate empirically that it performs well, particularly in medium-high dimensions. We further show that this performance carries over to classical Bayesian optimization without explicit evaluation costs. Our work constitutes a first step towards integrating techniques from Gittins index theory into Bayesian optimization.
翻訳日:2024-07-01 16:10:57 公開日:2024-06-28
# ASSR-NeRF:高次放射場再構成のためのボクセルグリッドの任意スケール超解法

ASSR-NeRF: Arbitrary-Scale Super-Resolution on Voxel Grid for High-Quality Radiance Fields Reconstruction ( http://arxiv.org/abs/2406.20066v1 )

ライセンス: Link先を確認
Ding-Jiun Huang, Zi-Ting Chou, Yu-Chiang Frank Wang, Cheng Sun, (参考訳) 暗黙的あるいは明示的な表現を持つ放射場を構築することにより、NeRFに基づく3Dシーンの再構成を行う。 NeRFベースの手法は任意のスケールで新規ビュー合成(NVS)を行うことができるが、低分解能(LR)最適化による高分解能新規ビュー合成(HRNVS)の性能は、しばしば過度なスムーシングをもたらす。 一方、シングルイメージ超解像(SR)は、HR画像にLR画像を拡張することを目的としているが、マルチビューの整合性が欠けている。 これらの課題に対処するために,超高解像度新規ビュー合成(SRNVS)のための新しいフレームワークであるArbitrary-Scale Super-Resolution NeRF (ASSR-NeRF)を提案する。 最適化ボリューム上で3次元超解像(SR)を直接実行するための注意に基づくVoxelGridSRモデルを提案する。 我々のモデルは、汎用性を確保するために多様な場面で訓練されている。 LRビューでトレーニングされた見えないシーンに対しては、VoxelGridSRを直接適用して、ボリュームをさらに洗練し、マルチビュー一貫性のあるSRを実現する。 本研究では,提案手法がSRNVSにおいて有意な性能を発揮することを定量的かつ定性的に示す。

NeRF-based methods reconstruct 3D scenes by building a radiance field with implicit or explicit representations. While NeRF-based methods can perform novel view synthesis (NVS) at arbitrary scale, the performance in high-resolution novel view synthesis (HRNVS) with low-resolution (LR) optimization often results in oversmoothing. On the other hand, single-image super-resolution (SR) aims to enhance LR images to HR counterparts but lacks multi-view consistency. To address these challenges, we propose Arbitrary-Scale Super-Resolution NeRF (ASSR-NeRF), a novel framework for super-resolution novel view synthesis (SRNVS). We propose an attention-based VoxelGridSR model to directly perform 3D super-resolution (SR) on the optimized volume. Our model is trained on diverse scenes to ensure generalizability. For unseen scenes trained with LR views, we then can directly apply our VoxelGridSR to further refine the volume and achieve multi-view consistent SR. We demonstrate quantitative and qualitatively that the proposed method achieves significant performance in SRNVS.
翻訳日:2024-07-01 16:10:57 公開日:2024-06-28
# インテガーファクトリゼーションのためのSATと格子低減

SAT and Lattice Reduction for Integer Factorization ( http://arxiv.org/abs/2406.20071v1 )

ライセンス: Link先を確認
Yameen Ajani, Curtis Bright, (参考訳) 大きな整数を素数に分解することの難しさは、RSAのような暗号システムの基盤である。 RSAの普及により、素因のビットが利用可能となるサイドチャネル攻撃など、因子化問題に対する多くの攻撃が提案されている。 素因子の十分なビットが知られている場合、分解問題を解くのに有効な2つの方法は、SATソルバと銅細工の方法である。 SATアプローチは分解問題をブール適合性問題に還元する一方、Cupersmithのアプローチは格子基底還元を用いる。 銅スミスの手法は既知のビット位置がランダム化されているときに適用されないが、SATベースの手法は任意の場所で既知のビットを利用することができるが、銅スミスの手法によって利用される代数構造について知識がない。 本稿では,ランダムリークビット因数分解問題を効率的に解くためのハイブリッドSATと計算機代数のアプローチについて述べる。 具体的には、SATソルバによって、部分ビット割り当てを完全な割り当てに拡張できるかどうかを判定するために、Cupersmithのメソッドが呼び出される。 我々のハイブリッド実装は、純粋なSATや純粋計算機代数のアプローチよりもはるかに高速なランダムリークビット分解問題を解く。

The difficulty of factoring large integers into primes is the basis for cryptosystems such as RSA. Due to the widespread popularity of RSA, there have been many proposed attacks on the factorization problem such as side-channel attacks where some bits of the prime factors are available. When enough bits of the prime factors are known, two methods that are effective at solving the factorization problem are satisfiability (SAT) solvers and Coppersmith's method. The SAT approach reduces the factorization problem to a Boolean satisfiability problem, while Coppersmith's approach uses lattice basis reduction. Both methods have their advantages, but they also have their limitations: Coppersmith's method does not apply when the known bit positions are randomized, while SAT-based methods can take advantage of known bits in arbitrary locations, but have no knowledge of the algebraic structure exploited by Coppersmith's method. In this paper we describe a new hybrid SAT and computer algebra approach to efficiently solve random leaked-bit factorization problems. Specifically, Coppersmith's method is invoked by a SAT solver to determine whether a partial bit assignment can be extended to a complete assignment. Our hybrid implementation solves random leaked-bit factorization problems significantly faster than either a pure SAT or pure computer algebra approach.
翻訳日:2024-07-01 16:10:57 公開日:2024-06-28
# プログラムSATによるSHA-256衝突攻撃

SHA-256 Collision Attack with Programmatic SAT ( http://arxiv.org/abs/2406.20072v1 )

ライセンス: Link先を確認
Nahiyan Alamgir, Saeed Nejati, Curtis Bright, (参考訳) 暗号ハッシュ関数は、可変長入力から固定長ハッシュを生成することで、データのセキュリティを確保する上で重要な役割を果たす。 ハッシュ関数SHA-256は、20年以上にわたる厳しい精査の後、レジリエンスのためにデータセキュリティを信頼されている。 その重要な性質の1つは衝突抵抗であり、同じハッシュを持つ2つの異なる入力を見つけることは不可能である。 現在、最も優れたSHA-256衝突攻撃は、SHA-256の簡易版での衝突を見つけるために差分暗号解析を用いており、より少ないステップに削減されているため、衝突を見つけることが可能である。 本稿では,SHA-256の段階的衝突を探索するツールとしてSATソルバを用い,不整合を検知し,それ以外は検出しない情報を引き出すために使用する計算機代数システム(CAS)の助けを借りて動的に導出する。 我々のハイブリッドSAT+CASソルバは、純粋なSATアプローチよりも優れており、ステップリデュースされたSHA-256における衝突を、はるかに多くのステップで検出することができる。 SAT + CASを使用すると、SHA-256と修正初期化ベクトルとの38ステップの衝突が見つかる。 逆に、純粋なSATアプローチは、28歩以内の衝突を発見できる。 しかし,本研究はSATソルバCaDiCaLとそのプログラムインタフェースIPASIR-UPのみを用いている。

Cryptographic hash functions play a crucial role in ensuring data security, generating fixed-length hashes from variable-length inputs. The hash function SHA-256 is trusted for data security due to its resilience after over twenty years of intense scrutiny. One of its critical properties is collision resistance, meaning that it is infeasible to find two different inputs with the same hash. Currently, the best SHA-256 collision attacks use differential cryptanalysis to find collisions in simplified versions of SHA-256 that are reduced to have fewer steps, making it feasible to find collisions. In this paper, we use a satisfiability (SAT) solver as a tool to search for step-reduced SHA-256 collisions, and dynamically guide the solver with the aid of a computer algebra system (CAS) used to detect inconsistencies and deduce information that the solver would otherwise not detect on its own. Our hybrid SAT + CAS solver significantly outperformed a pure SAT approach, enabling us to find collisions in step-reduced SHA-256 with significantly more steps. Using SAT + CAS, we find a 38-step collision of SHA-256 with a modified initialization vector -- something first found by a highly sophisticated search tool of Mendel, Nad, and Schl\"affer. Conversely, a pure SAT approach could find collisions for no more than 28 steps. However, our work only uses the SAT solver CaDiCaL and its programmatic interface IPASIR-UP.
翻訳日:2024-07-01 16:10:57 公開日:2024-06-28
# EVF-SAM:テキストプロンプトセグメントモデルのための早期ビジョンランゲージ融合

EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model ( http://arxiv.org/abs/2406.20076v1 )

ライセンス: Link先を確認
Yuxuan Zhang, Tianheng Cheng, Rui Hu, ei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang, (参考訳) Segment Anything Model (SAM) は、テキストプロンプトのさらなる探索を欠きながら、視覚的プロンプトを持つ優れた対話的セグメンテーション機能に対して、広く注目を集めている。 本稿では,テキストプロンプトエンコーダ(例えば,CLIP,LLM)が,表現セグメンテーションの参照にSAMを適用するのに有効かを実証的に検討し,Early Vision- Language Fusion-based SAM(EVF-SAM)を紹介する。 EVF-SAMは、マルチモーダルプロンプト(画像とテキスト)を利用して、参照プロンプトを生成するための事前学習された視覚言語モデルとセグメンテーションのためのSAMモデルを含む、シンプルで効果的な参照セグメンテーション手法である。 意外なことに、(1)マルチモーダルプロンプトと(2)早期融合(例えばBEIT-3)を持つ視覚言語モデルがSAMの正確な参照セグメンテーションに有用である。 実験の結果,BEIT-3に基づくEVF-SAMは,RefCOCO/+/gの表現セグメンテーションにおける最先端性能を得ることができ,早期視覚言語融合によるSAMの促進効果が示された。 さらに、1.32Bパラメータを持つEVF-SAMは、大規模なマルチモーダルモデルに基づく従来のSAM手法と比較して、パラメータの82%近くを削減し、非常に高い性能を達成する。

Segment Anything Model (SAM) has attracted widespread attention for its superior interactive segmentation capabilities with visual prompts while lacking further exploration of text prompts. In this paper, we empirically investigate what text prompt encoders (e.g., CLIP or LLM) are good for adapting SAM for referring expression segmentation and introduce the Early Vision-language Fusion-based SAM (EVF-SAM). EVF-SAM is a simple yet effective referring segmentation method which exploits multimodal prompts (i.e., image and text) and comprises a pre-trained vision-language model to generate referring prompts and a SAM model for segmentation. Surprisingly, we observe that: (1) multimodal prompts and (2) vision-language models with early fusion (e.g., BEIT-3) are beneficial for prompting SAM for accurate referring segmentation. Our experiments show that the proposed EVF-SAM based on BEIT-3 can obtain state-of-the-art performance on RefCOCO/+/g for referring expression segmentation and demonstrate the superiority of prompting SAM with early vision-language fusion. In addition, the proposed EVF-SAM with 1.32B parameters achieves remarkably higher performance while reducing nearly 82% of parameters compared to previous SAM methods based on large multimodal models.
翻訳日:2024-07-01 16:10:57 公開日:2024-06-28
# HouseCrafter:2次元拡散モデルによる3Dシーンへのフロアプランのリフティング

HouseCrafter: Lifting Floorplans to 3D Scenes with 2D Diffusion Model ( http://arxiv.org/abs/2406.20077v1 )

ライセンス: Link先を確認
Hieu T. Nguyen, Yiwen Chen, Vikram Voleti, Varun Jampani, Huaizu Jiang, (参考訳) HouseCrafterを紹介します。これは、フロアプランを完全な3D屋内シーン(例えば、家)に持ち上げることができる新しいアプローチです。 我々の重要な洞察は、Webスケールの画像に基づいて訓練された2次元拡散モデルを適用して、シーンの異なる場所で一貫した多視点色(RGB)と深度(D)画像を生成することである。 具体的には、RGB-D画像は、フロアプランに基づいて、サンプリングされた場所に沿ってバッチ的に自動回帰的に生成される。 拡散モデルにおけるグローバルフロアプランとアテンション設計により、生成された画像の一貫性が保証され、そこから3Dシーンを再構成することができる。 3D-Frontデータセットの広範な評価を通じて,HouseCraftが高品質なハウススケール3Dシーンを生成できることを実証した。 アブレーション研究は、異なる設計選択の有効性も検証している。 コードとモデルの重みを公開します。 プロジェクトページ: https://neu-vi.github.io/houseCrafter/

We introduce HouseCrafter, a novel approach that can lift a floorplan into a complete large 3D indoor scene (e.g., a house). Our key insight is to adapt a 2D diffusion model, which is trained on web-scale images, to generate consistent multi-view color (RGB) and depth (D) images across different locations of the scene. Specifically, the RGB-D images are generated autoregressively in a batch-wise manner along sampled locations based on the floorplan, where previously generated images are used as condition to the diffusion model to produce images at nearby locations. The global floorplan and attention design in the diffusion model ensures the consistency of the generated images, from which a 3D scene can be reconstructed. Through extensive evaluation on the 3D-Front dataset, we demonstrate that HouseCraft can generate high-quality house-scale 3D scenes. Ablation studies also validate the effectiveness of different design choices. We will release our code and model weights. Project page: https://neu-vi.github.io/houseCrafter/
翻訳日:2024-07-01 16:01:13 公開日:2024-06-28
# GM-DF:汎用マルチシナリオディープフェイク検出

GM-DF: Generalized Multi-Scenario Deepfake Detection ( http://arxiv.org/abs/2406.20078v1 )

ライセンス: Link先を確認
Yingxin Lai, Zitong Yu, Jing Yang, Bin Li, Xiangui Kang, Linlin Shen, (参考訳) 既存の顔偽造検出は、通常、単一のドメインでのトレーニングモデルのパラダイムに従い、未知のシナリオや未知の攻撃が発生した場合に、一般化能力が制限される。 本稿では,複数の顔偽造検出データセットを共同で訓練した場合のディープフェイク検出モデルの一般化能力について詳しく検討する。 まず、収集シナリオと生成方法の相違により、モデルが組み合わせデータセット上で直接訓練された場合、検出精度の急激な低下を見出す。 以上の課題に対処するため,GM-DF(Generalized Multi-Scenario Deepfake Detection framework)を提案する。 まず,ドメイン固有の実/偽の特徴抽出のためのハイブリッド・エキスパート・モデリング手法を提案する。 さらに、共通表現については、CLIPを使用して、ドメイン間の視覚的およびテキスト的機能の整合性を改善するために、共通機能を抽出します。 また,マスクを用いた画像再構成機構を導入し,モデルにリッチな偽造情報を取得するよう強制する。 最後に,ドメイン認識型メタ学習戦略を用いてモデルを監督し,一般化能力をさらに強化する。 具体的には、メタテストドメインとメタトレインドメインの分布を強く整合させるために、新しいドメインアライメント損失を設計する。 したがって、更新されたモデルでは、複数のデータセットにまたがる、特定の機能と一般的なリアル/フォージェイ機能の両方を表現できる。 マルチデータセット学習の欠如を考慮し,マルチソースデータを活用した新たなベンチマークを構築し,未知のシナリオにおけるモデルの一般化能力を評価する。 従来のプロトコル上で行った5つのデータセットの質的および定量的な実験と,提案したベンチマークにより,提案手法の有効性が示された。

Existing face forgery detection usually follows the paradigm of training models in a single domain, which leads to limited generalization capacity when unseen scenarios and unknown attacks occur. In this paper, we elaborately investigate the generalization capacity of deepfake detection models when jointly trained on multiple face forgery detection datasets. We first find a rapid degradation of detection accuracy when models are directly trained on combined datasets due to the discrepancy across collection scenarios and generation methods. To address the above issue, a Generalized Multi-Scenario Deepfake Detection framework (GM-DF) is proposed to serve multiple real-world scenarios by a unified model. First, we propose a hybrid expert modeling approach for domain-specific real/forgery feature extraction. Besides, as for the commonality representation, we use CLIP to extract the common features for better aligning visual and textual features across domains. Meanwhile, we introduce a masked image reconstruction mechanism to force models to capture rich forged details. Finally, we supervise the models via a domain-aware meta-learning strategy to further enhance their generalization capacities. Specifically, we design a novel domain alignment loss to strongly align the distributions of the meta-test domains and meta-train domains. Thus, the updated models are able to represent both specific and common real/forgery features across multiple datasets. In consideration of the lack of study of multi-dataset training, we establish a new benchmark leveraging multi-source data to fairly evaluate the models' generalization capacity on unseen scenarios. Both qualitative and quantitative experiments on five datasets conducted on traditional protocols as well as the proposed benchmark demonstrate the effectiveness of our approach.
翻訳日:2024-07-01 16:01:13 公開日:2024-06-28
# 分子 Facts: Desiderata for Decontextualization in LLM Fact Verification

Molecular Facts: Desiderata for Decontextualization in LLM Fact Verification ( http://arxiv.org/abs/2406.20079v1 )

ライセンス: Link先を確認
Anisha Gunjal, Greg Durrett, (参考訳) 大規模言語モデル(LLM)世代の自動事実検証は、幻覚と戦うためにますます広く使われている。 より大きなテキストの塊は事実チェックが難しいが、命題のようなアトミックな事実は、正しく解釈する文脈を欠いているかもしれない。 本研究では,これらの原子的事実における文脈の役割を評価する。 完全原子的事実は正しい表現ではなく、分子的事実の2つの基準を定義する。 最小化における非文脈化の影響を定量化し, 分子事実を自動生成するためのベースライン方法論を提示し, 適切な量の情報を加えることを目的とした。 その結果,分子的事実は,不明瞭な環境下での事実検証精度と最小限の相関関係があることが判明した。

Automatic factuality verification of large language model (LLM) generations is becoming more and more widely used to combat hallucinations. A major point of tension in the literature is the granularity of this fact-checking: larger chunks of text are hard to fact-check, but more atomic facts like propositions may lack context to interpret correctly. In this work, we assess the role of context in these atomic facts. We argue that fully atomic facts are not the right representation, and define two criteria for molecular facts: decontextuality, or how well they can stand alone, and minimality, or how little extra information is added to achieve decontexuality. We quantify the impact of decontextualization on minimality, then present a baseline methodology for generating molecular facts automatically, aiming to add the right amount of information. We compare against various methods of decontextualization and find that molecular facts balance minimality with fact verification accuracy in ambiguous settings.
翻訳日:2024-07-01 16:01:13 公開日:2024-06-28
# 極端なイベントモデリングと理解のためのAI:方法論と課題

AI for Extreme Event Modeling and Understanding: Methodologies and Challenges ( http://arxiv.org/abs/2406.20080v1 )

ライセンス: Link先を確認
Gustau Camps-Valls, Miguel-Ángel Fernández-Torres, Kai-Hendrik Cohrs, Adrian Höhl, Andrea Castelletti, Aytac Pacal, Claire Robin, Francesco Martinuzzi, Ioannis Papoutsis, Ioannis Prapas, Jorge Pérez-Aracil, Katja Weigel, Maria Gonzalez-Calabuig, Markus Reichstein, Martin Rabel, Matteo Giuliani, Miguel Mahecha, Oana-Iuliana Popescu, Oscar J. Pellicer-Valero, Said Ouala, Sancho Salcedo-Sanz, Sebastian Sippel, Spyros Kondylatos, Tamara Happé, Tristan Williams, (参考訳) 近年、人工知能(AI)は地球システム科学を含む様々な分野に深く影響を与えている。 ここでAIは、天気予報、モデルエミュレーション、パラメータ推定、極端な事象の予測を改善した。 しかし後者には、ノイズ、異質性、限定的な注釈付きデータから正確な予測器を開発するなど、特定の課題が伴う。 本稿は、AIが極端な出来事(洪水、干ばつ、山火事、熱波など)を分析するためにどのように使われているかを説明し、正確で透明で信頼性の高いAIモデルを作成することの重要性を強調する。 我々は、限られたデータを扱う上でのハードルについて議論し、情報をリアルタイムで統合し、モデルをデプロイし、それらを理解できるようにする。 我々は、AIが極端な出来事をより効果的に識別し、説明し、災害対応とコミュニケーションを改善するのにどう役立つかを概説する。 私たちは、極端な出来事を分析し予測するのにふさわしい実践的、理解可能な、信頼できるAIソリューションを作成するために、さまざまな分野にわたるコラボレーションの必要性を強調します。 このような協力的な取り組みは、防災の準備と防災リスクの削減を促進することを目的としている。

In recent years, artificial intelligence (AI) has deeply impacted various fields, including Earth system sciences. Here, AI improved weather forecasting, model emulation, parameter estimation, and the prediction of extreme events. However, the latter comes with specific challenges, such as developing accurate predictors from noisy, heterogeneous and limited annotated data. This paper reviews how AI is being used to analyze extreme events (like floods, droughts, wildfires and heatwaves), highlighting the importance of creating accurate, transparent, and reliable AI models. We discuss the hurdles of dealing with limited data, integrating information in real-time, deploying models, and making them understandable, all crucial for gaining the trust of stakeholders and meeting regulatory needs. We provide an overview of how AI can help identify and explain extreme events more effectively, improving disaster response and communication. We emphasize the need for collaboration across different fields to create AI solutions that are practical, understandable, and trustworthy for analyzing and predicting extreme events. Such collaborative efforts aim to enhance disaster readiness and disaster risk reduction.
翻訳日:2024-07-01 16:01:13 公開日:2024-06-28
# 監督無しのセグメント

Segment Anything without Supervision ( http://arxiv.org/abs/2406.20081v1 )

ライセンス: Link先を確認
XuDong Wang, Jingfeng Yang, Trevor Darrell, (参考訳) Segmentation Anything Model (SAM)は、労働集約的なデータラベリングを必要とする。 人間のアノテーションを必要としない即時かつ自動的な全体像分割のための Unsupervised SAM (UnSAM) を提案する。 UnSAMは、視覚シーンの階層構造を「発見」するために、分割・コンカ戦略を利用する。 まず、トップダウンのクラスタリング手法を利用して、ラベルのないイメージをインスタンス/セマンティックなレベルセグメントに分割する。 セグメント内のすべてのピクセルに対して、ボトムアップクラスタリング法を用いて、それらをより大きなグループに反復的にマージし、階層構造を形成する。 これらの教師なしの多粒体マスクはモデルトレーニングを監督するために使用される。 一般的な7つのデータセットで評価され、UnSAMは、教師なしのSAMと競合する結果を達成し、教師なしセグメンテーションにおけるこれまでの最先端を11%上回っている。 さらに,教師付きSAMは自己教師付きラベルの恩恵を受けることができることを示す。 教師なしの仮面をSA-1Bの地道マスクに統合し、SA-1Bのわずか1%でUnSAMを訓練することにより、軽量の半監督されたUnSAMはSAMによって見落とされたエンティティを分割し、SAMのARを6.7%以上、SA-1BでAPを3.9%以上超えることができる。

The Segmentation Anything Model (SAM) requires labor-intensive data labeling. We present Unsupervised SAM (UnSAM) for promptable and automatic whole-image segmentation that does not require human annotations. UnSAM utilizes a divide-and-conquer strategy to "discover" the hierarchical structure of visual scenes. We first leverage top-down clustering methods to partition an unlabeled image into instance/semantic level segments. For all pixels within a segment, a bottom-up clustering method is employed to iteratively merge them into larger groups, thereby forming a hierarchical structure. These unsupervised multi-granular masks are then utilized to supervise model training. Evaluated across seven popular datasets, UnSAM achieves competitive results with the supervised counterpart SAM, and surpasses the previous state-of-the-art in unsupervised segmentation by 11% in terms of AR. Moreover, we show that supervised SAM can also benefit from our self-supervised labels. By integrating our unsupervised pseudo masks into SA-1B's ground-truth masks and training UnSAM with only 1% of SA-1B, a lightly semi-supervised UnSAM can often segment entities overlooked by supervised SAM, exceeding SAM's AR by over 6.7% and AP by 3.9% on SA-1B.
翻訳日:2024-07-01 16:01:13 公開日:2024-06-28
# PoliFormer: マスタフルナビゲータにおけるトランスフォーマーによるオンラインRLのスケーリング

PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators ( http://arxiv.org/abs/2406.20083v1 )

ライセンス: Link先を確認
Kuo-Hao Zeng, Zichen Zhang, Kiana Ehsani, Rose Hendrix, Jordi Salvador, Alvaro Herrasti, Ross Girshick, Aniruddha Kembhavi, Luca Weihs, (参考訳) 本稿では、RGBのみの屋内ナビゲーションエージェントであるPooliFormer(Policy Transformer)について、シミュレーションで純粋に訓練されているにもかかわらず、適応せずに現実世界に一般化する大規模強化学習でエンドツーエンドに訓練した。 PoliFormerは、長期記憶と推論を可能にする因果変換器デコーダを備えた基礎的な視覚変換器エンコーダを使用する。 並列化されたマルチマシンのロールアウトを活用して、高いスループットで効率的なトレーニングを行う。 PoliFormerは熟練したナビゲータであり、LoCoBotとStretch RE-1ロボットと4つのナビゲーションベンチマークという2つの異なる実施形態で最先端の結果を生成する。 これは、CHORES-Sベンチマークでの目標ナビゲーションにおいて、前例のない85.5%の成功率を達成し、28.5%の絶対的な改善を実現した。 PoliFormerは、オブジェクトトラッキング、マルチオブジェクトナビゲーション、オープン語彙ナビゲーションなど、さまざまなダウンストリームアプリケーションにも、微調整なしで簡単に拡張できる。

We present PoliFormer (Policy Transformer), an RGB-only indoor navigation agent trained end-to-end with reinforcement learning at scale that generalizes to the real-world without adaptation despite being trained purely in simulation. PoliFormer uses a foundational vision transformer encoder with a causal transformer decoder enabling long-term memory and reasoning. It is trained for hundreds of millions of interactions across diverse environments, leveraging parallelized, multi-machine rollouts for efficient training with high throughput. PoliFormer is a masterful navigator, producing state-of-the-art results across two distinct embodiments, the LoCoBot and Stretch RE-1 robots, and four navigation benchmarks. It breaks through the plateaus of previous work, achieving an unprecedented 85.5% success rate in object goal navigation on the CHORES-S benchmark, a 28.5% absolute improvement. PoliFormer can also be trivially extended to a variety of downstream applications such as object tracking, multi-object navigation, and open-vocabulary navigation with no finetuning.
翻訳日:2024-07-01 16:01:13 公開日:2024-06-28
# Auto Cherry-Picker: 言語によって駆動される高品質な生成データから学ぶ

Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language ( http://arxiv.org/abs/2406.20085v1 )

ライセンス: Link先を確認
Yicheng Chen, Xiangtai Li, Yining Li, Yanhong Zeng, Jianzong Wu, Xiangyu Zhao, Kai Chen, (参考訳) 拡散に基づくモデルは、様々なレイアウトで高品質な画像を生成する大きな可能性を示しており、下流の知覚タスクに役立てることができる。 しかし、言語のみによって駆動される完全な自動レイアウト生成と、複数の生成されたインスタンスを測定するための適切なメトリクスは、十分に研究されていない。 本稿では、知覚とマルチモーダルトレーニングを増強するための高品質なマルチモーダルトレーニング例を生成する新しいフレームワークであるAuto Cherry-Picker(ACP)を紹介する。 自然言語の概念の簡単なリストから始めると、我々は大規模言語モデル(LLM)に詳細な記述と設計の合理的なレイアウトを生成するよう促す。 次に、オフザシェルフテキスト・ツー・イメージモデルを用いて複数の画像を生成する。 そして、生成されたデータを包括的に設計したメトリクスで精査し、品質を保証する。 特に,合成レイアウトと画像スコア(CLIS, Composite Layout and Image Score)を新たに提案し,生成した画像の公平な評価を行う。 我々の総合的な高品質な例は、初期概念リストをカスタマイズすることで、様々なシナリオにおけるパフォーマンスを向上させ、特に長い尾の分布と不均衡なデータセットに関連する課題に対処する。 下流タスクの実験結果は、Auto Cherry-Pickerが既存のモデルの性能を大幅に改善できることを示している。 さらに、下流タスクにおけるCLISとパフォーマンス向上の関係を徹底的に検討した結果、より優れたCLISスコアがより良いパフォーマンスをもたらすことが判明した。 この結果は、様々な視覚知覚とMLLMタスクの役割を果たす評価指標の可能性を示している。 コードは利用可能です。

Diffusion-based models have shown great potential in generating high-quality images with various layouts, which can benefit downstream perception tasks. However, a fully automatic layout generation driven only by language and a suitable metric for measuring multiple generated instances has not been well explored. In this work, we present Auto Cherry-Picker (ACP), a novel framework that generates high-quality multi-modal training examples to augment perception and multi-modal training. Starting with a simple list of natural language concepts, we prompt large language models (LLMs) to generate a detailed description and design reasonable layouts. Next, we use an off-the-shelf text-to-image model to generate multiple images. Then, the generated data are refined using a comprehensively designed metric to ensure quality. In particular, we present a new metric, Composite Layout and Image Score (CLIS), to evaluate the generated images fairly. Our synthetic high-quality examples boost performance in various scenarios by customizing the initial concept list, especially in addressing challenges associated with long-tailed distribution and imbalanced datasets. Experiment results on downstream tasks demonstrate that Auto Cherry-Picker can significantly improve the performance of existing models. In addition, we have thoroughly investigated the correlation between CLIS and performance gains in downstream tasks, and we find that a better CLIS score results in better performance. This finding shows the potential for evaluation metrics as the role for various visual perception and MLLM tasks. Code will be available.
翻訳日:2024-07-01 16:01:13 公開日:2024-06-28
# LLMにおける不必要な語彙項目のフットプリントとしてのトークン消去

Token Erasure as a Footprint of Implicit Vocabulary Items in LLMs ( http://arxiv.org/abs/2406.20086v1 )

ライセンス: Link先を確認
Sheridan Feucht, David Atkinson, Byron Wallace, David Bau, (参考訳) LLMはテキストを、大まかに単語に対応するトークンのシーケンスとして処理し、より一般的な単語は複数のトークンで表される。 しかし、個々のトークンはしばしば、それらを構成する単語や概念の意味と意味的に無関係である。 例えば、Llama-2-7bのトークン化子は、"northeast" という単語をトークン ['_n', 'ort', 'he', 'astern'] に分割する。 同様に、"Neil Young"のような名前付きエンティティや"break a leg"のようなマルチワード表現の全体的な意味は、構成トークンから直接推測することはできない。 機械的に、LLMはどのようにしてそのような任意のトークン群を有用な高レベル表現に変換するのか? 本研究では,名前付きエンティティとマルチトークン語の最後のトークン表現が,先行および現在のトークンに関する情報が早期の層で急速に忘れられるような,顕著な「消去」効果を示すことを示す。 本研究は,Llama-2-7bとLlama-3-8Bのトークン表現の違いを検証し,自己回帰型LLMの暗黙の語彙を読み出す手法を提案する。 我々の知る限り、これはLLMの暗黙の語彙を探索する最初の試みである。

LLMs process text as sequences of tokens that roughly correspond to words, where less common words are represented by multiple tokens. However, individual tokens are often semantically unrelated to the meanings of the words/concepts they comprise. For example, Llama-2-7b's tokenizer splits the word "northeastern" into the tokens ['_n', 'ort', 'he', 'astern'], none of which correspond to semantically meaningful units like "north" or "east." Similarly, the overall meanings of named entities like "Neil Young" and multi-word expressions like "break a leg" cannot be directly inferred from their constituent tokens. Mechanistically, how do LLMs convert such arbitrary groups of tokens into useful higher-level representations? In this work, we find that last token representations of named entities and multi-token words exhibit a pronounced "erasure" effect, where information about previous and current tokens is rapidly forgotten in early layers. Using this observation, we propose a method to "read out" the implicit vocabulary of an autoregressive LLM by examining differences in token representations across layers, and present results of this method for Llama-2-7b and Llama-3-8B. To our knowledge, this is the first attempt to probe the implicit vocabulary of an LLM.
翻訳日:2024-07-01 16:01:13 公開日:2024-06-28
# ProgressGym: モラル進歩のミレニアムとのアライメント

ProgressGym: Alignment with a Millennium of Moral Progress ( http://arxiv.org/abs/2406.20087v1 )

ライセンス: Link先を確認
Tianyi Qiu, Yang Zhang, Xuchuan Huang, Jasmine Xinze Li, Jiaming Ji, Yaodong Yang, (参考訳) 大規模言語モデル(LLM)を含むフロンティアAIシステムは、人間の認識に影響を及ぼす。 このような影響は、社会的価値の優位性を強化し、誤解された道徳的信念のロックインに寄与し、その結果、広範囲にわたる問題的道徳的実践の永続性に寄与する可能性がある。 この差し迫ったリスクを軽減するための技術的解決策として、進捗調整を導入します。 進歩的アライメントアルゴリズムは、人間の道徳的進歩のメカニズムをエミュレートし、現代の道徳的盲点への既存のアライメント手法の受容性に対処する。 本研究は,現実の道徳的意思決定における今後の進歩を促進するために,歴史から道徳的進歩力学を学習するための実験的なフレームワークであるProgressGymを紹介する。 9世紀の歴史的テキストと18の歴史的LLMを活用して、ProgressGymは実世界の進捗アライメントの課題を具体的なベンチマークにまとめることを可能にする。 具体的には、進化的価値(PG-Follow)の追跡、事前に道徳的進歩(PG-Predict)の予測、人間とAIの価値シフト(PG-Coevolve)のフィードバックループの調整という3つの課題を紹介する。 時間次元のないアライメント法はこれらのタスクには適用できない。 そこで本研究では,生涯的・補外的アルゴリズムを進捗調整のベースライン手法として提示し,新しいアルゴリズムと課題を提起するオープンなリーダボードを構築した。 フレームワークとリーダーボードはそれぞれhttps://github.com/PKU-Alignment/ProgressGymとhttps://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoardにある。

Frontier AI systems, including large language models (LLMs), hold increasing influence over the epistemology of human users. Such influence can reinforce prevailing societal values, potentially contributing to the lock-in of misguided moral beliefs and, consequently, the perpetuation of problematic moral practices on a broad scale. We introduce progress alignment as a technical solution to mitigate this imminent risk. Progress alignment algorithms learn to emulate the mechanics of human moral progress, thereby addressing the susceptibility of existing alignment methods to contemporary moral blindspots. To empower research in progress alignment, we introduce ProgressGym, an experimental framework allowing the learning of moral progress mechanics from history, in order to facilitate future progress in real-world moral decisions. Leveraging 9 centuries of historical text and 18 historical LLMs, ProgressGym enables codification of real-world progress alignment challenges into concrete benchmarks. Specifically, we introduce three core challenges: tracking evolving values (PG-Follow), preemptively anticipating moral progress (PG-Predict), and regulating the feedback loop between human and AI value shifts (PG-Coevolve). Alignment methods without a temporal dimension are inapplicable to these tasks. In response, we present lifelong and extrapolative algorithms as baseline methods of progress alignment, and build an open leaderboard soliciting novel algorithms and challenges. The framework and the leaderboard are available at https://github.com/PKU-Alignment/ProgressGym and https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard respectively.
翻訳日:2024-07-01 16:01:13 公開日:2024-06-28
# 分散微分プライバシー制約下での非パラメトリック分類のためのMinimaxとAdaptive Transfer Learning

Minimax And Adaptive Transfer Learning for Nonparametric Classification under Distributed Differential Privacy Constraints ( http://arxiv.org/abs/2406.20088v1 )

ライセンス: Link先を確認
Arnab Auddy, T. Tony Cai, Abhinav Chakraborty, (参考訳) 本稿では,分散差分プライバシー制約を持つ後方ドリフトモデルの下での非パラメトリック分類のための最小化学習と適応変換学習について考察する。 本研究は、多様なサンプルサイズ、異なるプライバシパラメータ、異なるサーバ間のデータの異種性を含む、異種フレームワーク内で実施されている。 まず、プライバシ制約、ソースサンプル、ターゲットサンプルが分類精度に与える影響を正確に評価し、ミニマックスの誤分類率を確立する。 その結果、興味深い位相遷移現象が明らかとなり、プライバシーの保護と分類精度の達成との複雑なトレードオフが浮き彫りになった。 次に,データ駆動適応型分類器を開発し,パラメータ空間の集合にまたがる対数係数内で,同じ差分プライバシー制約を満たす。 シミュレーション研究と実世界のデータ応用により、理論解析は数値的な結果によってさらに解明される。

This paper considers minimax and adaptive transfer learning for nonparametric classification under the posterior drift model with distributed differential privacy constraints. Our study is conducted within a heterogeneous framework, encompassing diverse sample sizes, varying privacy parameters, and data heterogeneity across different servers. We first establish the minimax misclassification rate, precisely characterizing the effects of privacy constraints, source samples, and target samples on classification accuracy. The results reveal interesting phase transition phenomena and highlight the intricate trade-offs between preserving privacy and achieving classification accuracy. We then develop a data-driven adaptive classifier that achieves the optimal rate within a logarithmic factor across a large collection of parameter spaces while satisfying the same set of differential privacy constraints. Simulation studies and real-world data applications further elucidate the theoretical analysis with numerical results.
翻訳日:2024-07-01 16:01:13 公開日:2024-06-28
# LLaVolta: 段階的視覚コンテキスト圧縮による効率的なマルチモーダルモデル

LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression ( http://arxiv.org/abs/2406.20092v1 )

ライセンス: Link先を確認
Jieneng Chen, Luoxin Ye, Ju He, Zhao-Yang Wang, Daniel Khashabi, Alan Yuille, (参考訳) 大規模言語モデル(LLM)におけるテキスト埋め込みの圧縮表現において顕著な進歩が見られたが、大規模マルチモーダルモデル(LMM)における視覚トークンの圧縮はほとんど見落とされた領域のままである。 本研究では,視覚的トークンに関する冗長性の解析と,これらのモデルにおける効率的なトレーニングについて述べる。 最初の実験では、単に平均プーリングによってテスト段階で最大70%の視覚トークンを除去することは、GQAベンチマークにおける視覚質問応答精度の最小3%の低下にしか至らず、視覚的コンテキストにおける有意な冗長性を示している。 これにより、トレーニング中の視覚トークンの数を削減し、パフォーマンスを犠牲にすることなく、トレーニング効率を向上させることができる。 トレーニング効率を保ちながら、視覚トークンの圧縮による情報損失を最小限に抑えるため、LLaVoltaをライトトレーニングスキームとして開発する。 LLaVoltaは段階的な視覚的コンテキスト圧縮を導入し、視覚的トークンを大きくから軽く、最終的にトレーニング終了時に圧縮することなく、テスト時に情報を失うことなく、段階的に圧縮する。 画像言語とビデオ言語の両方におけるMLLMの性能を向上させるとともに,トレーニングコストを大幅に削減する。 コードはhttps://github.com/Beckschen/LLaVoltaで入手できる。

While significant advancements have been made in compressed representations for text embeddings in large language models (LLMs), the compression of visual tokens in large multi-modal models (LMMs) has remained a largely overlooked area. In this work, we present the study on the analysis of redundancy concerning visual tokens and efficient training within these models. Our initial experiments show that eliminating up to 70% of visual tokens at the testing stage by simply average pooling only leads to a minimal 3% reduction in visual question answering accuracy on the GQA benchmark, indicating significant redundancy in visual context. Addressing this, we introduce Visual Context Compressor, which reduces the number of visual tokens during training to enhance training efficiency without sacrificing performance. To minimize information loss caused by the compression on visual tokens while maintaining training efficiency, we develop LLaVolta as a lite training scheme. LLaVolta incorporates stage-wise visual context compression to progressively compress the visual tokens from heavily to lightly, and finally no compression at the end of training, yielding no loss of information when testing. Extensive experiments demonstrate that our approach enhances the performance of MLLMs in both image-language and video-language understanding, while also significantly cutting training costs. Code is available at https://github.com/Beckschen/LLaVolta
翻訳日:2024-07-01 16:01:13 公開日:2024-06-28
# 1000,000,000人のペルソナによる合成データ生成のスケールアップ

Scaling Synthetic Data Creation with 1,000,000,000 Personas ( http://arxiv.org/abs/2406.20094v1 )

ライセンス: Link先を確認
Xin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, Dong Yu, (参考訳) 本稿では,大規模言語モデル (LLM) における様々な視点を活用して,多様な合成データを生成する新しいペルソナ駆動型データ合成手法を提案する。 この方法論を大規模に活用するために、Webデータから自動的にキュレートされた10億の多様なペルソナのコレクションであるPersona Hubを紹介します。 この10億のペルソナ(世界の人口の約13%)は、世界知識の分散キャリアとして機能し、LLMにカプセル化されたほぼ全ての視点に到達し、様々なシナリオにおいて多様な合成データの作成を容易にする。 高品質な数学的および論理的推論問題、命令(ユーザプロンプト)、知識豊富なテキスト、ゲームNPC、ツール(機能)を大規模に合成するペルソナハブのユースケースを例示することにより、ペルソナ駆動型データ合成は汎用的で、スケーラブルで、柔軟性があり、使いやすく、実際は、合成データ作成と応用のパラダイムシフトを推進し、LLMの研究と開発に大きな影響を与える可能性があることを実証する。

We propose a novel persona-driven data synthesis methodology that leverages various perspectives within a large language model (LLM) to create diverse synthetic data. To fully exploit this methodology at scale, we introduce Persona Hub -- a collection of 1 billion diverse personas automatically curated from web data. These 1 billion personas (~13% of the world's total population), acting as distributed carriers of world knowledge, can tap into almost every perspective encapsulated within the LLM, thereby facilitating the creation of diverse synthetic data at scale for various scenarios. By showcasing Persona Hub's use cases in synthesizing high-quality mathematical and logical reasoning problems, instructions (i.e., user prompts), knowledge-rich texts, game NPCs and tools (functions) at scale, we demonstrate persona-driven data synthesis is versatile, scalable, flexible, and easy to use, potentially driving a paradigm shift in synthetic data creation and applications in practice, which may have a profound impact on LLM research and development.
翻訳日:2024-07-01 16:01:13 公開日:2024-06-28
# LLaRA:ビジョンランゲージ政策のためのロボット学習データのスーパーチャージ

LLaRA: Supercharging Robot Learning Data for Vision-Language Policy ( http://arxiv.org/abs/2406.20095v1 )

ライセンス: Link先を確認
Xiang Li, Cristina Mata, Jongwoo Park, Kumara Kahatapitiya, Yoo Sung Jang, Jinghuan Shang, Kanchana Ranasinghe, Ryan Burgert, Mu Cai, Yong Jae Lee, Michael S. Ryoo, (参考訳) LLM(Large Language Models)は、幅広い世界知識と強力な推論スキルを備えており、会話スタイルの命令応答ペアとして振る舞うことで、ドメイン間の多様なタスクに対処することができる。 本稿では,ロボット行動ポリシーを会話として定式化するフレームワークであるLLaRA: Large Language and Robotics Assistantを提案する。 視覚入力を持つLLM、すなわちビジョン言語モデル(VLM)は、状態情報を視覚的テキストプロンプトとして処理し、テキストで最適なポリシー決定を生成する能力を持つ。 このような行動ポリシーVLMをトレーニングするために,我々はまず,既存の行動クローンデータから,多様な高品質なロボットインストラクションデータを生成する自動パイプラインを導入する。 ロボットのタスクに適した会話スタイルの定式化に基づいて得られたデータセットの集合を微調整したVLMは、意味のあるロボットアクションポリシー決定を生成することができる。 提案するLLaRAフレームワークの最先端性能を実環境およびシミュレーションにより実証した。 コード、データセット、事前訓練済みのモデルはhttps://github.com/LostXine/LLaRA.comで入手できる。

Large Language Models (LLMs) equipped with extensive world knowledge and strong reasoning skills can tackle diverse tasks across domains, often by posing them as conversation-style instruction-response pairs. In this paper, we propose LLaRA: Large Language and Robotics Assistant, a framework which formulates robot action policy as conversations, and provides improved responses when trained with auxiliary data that complements policy learning. LLMs with visual inputs, i.e., Vision Language Models (VLMs), have the capacity to process state information as visual-textual prompts and generate optimal policy decisions in text. To train such action policy VLMs, we first introduce an automated pipeline to generate diverse high-quality robotics instruction data from existing behavior cloning data. A VLM finetuned with the resulting collection of datasets based on a conversation-style formulation tailored for robotics tasks, can generate meaningful robot action policy decisions. Our experiments across multiple simulated and real-world environments demonstrate the state-of-the-art performance of the proposed LLaRA framework. The code, datasets, and pretrained models are available at https://github.com/LostXine/LLaRA.
翻訳日:2024-07-01 16:01:13 公開日:2024-06-28
# Web2Code:マルチモーダルLLMのための大規模Webページ間データセットと評価フレームワーク

Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs ( http://arxiv.org/abs/2406.20098v1 )

ライセンス: Link先を確認
Sukmin Yun, Haokun Lin, Rusiru Thushara, Mohammad Qazim Bhat, Yongxin Wang, Zutao Jiang, Mingkai Deng, Jinhong Wang, Tianhua Tao, Junbo Li, Haonan Li, Preslav Nakov, Timothy Baldwin, Zhengzhong Liu, Eric P. Xing, Xiaodan Liang, Zhiqiang Shen, (参考訳) MLLM(Multimodal large language model)は、画像、ビデオ、音声など、様々な理解と生成タスクにおいて、様々なモダリティで顕著な成功を収めている。 しかし、現在のMLLMは、Webページのスクリーンショットを理解し、対応するHTMLコードを生成するのに驚くほど貧弱です。 この問題に対処するために,命令チューニングのための大規模Webページ・トゥ・コードデータセットと,MLLMのWebページ理解とHTMLコード翻訳能力評価フレームワークからなるベンチマークであるWeb2Codeを提案する。 データセット構築には、トレーニング済みのLLMを活用して、既存のWebページからコードへのデータセットを強化し、画像に描画された新しいWebページのプールを多種多様に生成します。 具体的には、入力はWebページの画像と命令であり、レスポンスはWebページのHTMLコードである。 さらに、応答中のWebページコンテンツに関する多様な自然言語QAペアも含み、より包括的なWebコンテンツ理解を可能にします。 これらのタスクにおけるモデル性能を評価するために,Webページ理解とWeb-to-code生成におけるMLLMの能力を評価するための評価フレームワークを開発した。 大規模な実験の結果,提案したデータセットは,提案したタスクだけでなく,一般的な視覚領域においても有用であることがわかった。 我々は,Web ベースのコンテンツ生成とタスク自動化に適した汎用MLLMの開発に貢献することを期待している。 私たちのデータとコードはhttps://github.com/MBZUAI-LLM/web2code.comで公開されます。

Multimodal large language models (MLLMs) have shown impressive success across modalities such as image, video, and audio in a variety of understanding and generation tasks. However, current MLLMs are surprisingly poor at understanding webpage screenshots and generating their corresponding HTML code. To address this problem, we propose Web2Code, a benchmark consisting of a new large-scale webpage-to-code dataset for instruction tuning and an evaluation framework for the webpage understanding and HTML code translation abilities of MLLMs. For dataset construction, we leverage pretrained LLMs to enhance existing webpage-to-code datasets as well as generate a diverse pool of new webpages rendered into images. Specifically, the inputs are webpage images and instructions, while the responses are the webpage's HTML code. We further include diverse natural language QA pairs about the webpage content in the responses to enable a more comprehensive understanding of the web content. To evaluate model performance in these tasks, we develop an evaluation framework for testing MLLMs' abilities in webpage understanding and web-to-code generation. Extensive experiments show that our proposed dataset is beneficial not only to our proposed tasks but also in the general visual domain, while previous datasets result in worse performance. We hope our work will contribute to the development of general MLLMs suitable for web-based content generation and task automation. Our data and code will be available at https://github.com/MBZUAI-LLM/web2code.
翻訳日:2024-07-01 16:01:13 公開日:2024-06-28
# Odd-One-Out:隣人との比較による異常検出

Odd-One-Out: Anomaly Detection by Comparing with Neighbors ( http://arxiv.org/abs/2406.20099v1 )

ライセンス: Link先を確認
Ankan Bhunia, Changjian Li, Hakan Bilen, (参考訳) 本稿では,シーン内の他の事例と比較した「擬似的」オブジェクトの同定に焦点をあてた,新たな異常検出(AD)問題を提案する。 従来のADベンチマークとは異なり、私たちの設定では、このコンテキストの異常はシーン固有のものであり、多数を占める通常のインスタンスによって定義されます。 オブジェクトインスタンスは、しばしば一つの視点から部分的に見えるので、私たちの設定は各シーンを入力として複数のビューを提供します。 本稿では,ToysAD-8KとPartsAD-15Kの2つのベンチマークを紹介する。 本稿では,各インスタンスに対して3次元オブジェクト中心表現を生成し,インスタンス間の相互比較により異常表現を検出する手法を提案する。 提案したベンチマークにおいて,本手法を定量的かつ定性的に分析する。

This paper introduces a novel anomaly detection (AD) problem that focuses on identifying `odd-looking' objects relative to the other instances within a scene. Unlike the traditional AD benchmarks, in our setting, anomalies in this context are scene-specific, defined by the regular instances that make up the majority. Since object instances are often partly visible from a single viewpoint, our setting provides multiple views of each scene as input. To provide a testbed for future research in this task, we introduce two benchmarks, ToysAD-8K and PartsAD-15K. We propose a novel method that generates 3D object-centric representations for each instance and detects the anomalous ones through a cross-examination between the instances. We rigorously analyze our method quantitatively and qualitatively in the presented benchmarks.
翻訳日:2024-07-01 16:01:13 公開日:2024-06-28
# AI病院:マルチエージェント医療インタラクションシミュレータにおける大規模言語モデルのベンチマーク

AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator ( http://arxiv.org/abs/2402.09742v4 )

ライセンス: Link先を確認
Zhihao Fan, Jialong Tang, Wei Chen, Siyuan Wang, Zhongyu Wei, Jun Xi, Fei Huang, Jingren Zhou, (参考訳) 人工知能は、特に医学的質問応答ベンチマークで優れている大規模言語モデル(LLM)を通じて、医療を著しく進歩させてきた。 しかし、医師と患者との相互作用の複雑さのため、実際の臨床応用は限られている。 そこで,本稿では,プレイヤとして \emph{Doctor} と NPC の動的医療相互作用をシミュレートするマルチエージェントフレームワークである \textbf{AI Hospital} を紹介する。 この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。 症状収集, 診察勧告, 診断において, 高品質な中国医療記録とNPCを用いた多視点医療評価(MVME)ベンチマークを作成し, LLMの性能評価を行った。 さらに、反復的な議論を通じて診断精度を高めるために、紛争解決協調機構を提案する。 改良にもかかわらず、現在のLLMは1段階のアプローチに比べて、マルチターン相互作用において大きな性能差を示す。 本研究は, これらのギャップを埋め, LLMの臨床的診断能力を改善するために, さらなる研究の必要性を浮き彫りにするものである。 我々のデータ、コード、実験結果は、すべて、 \url{https://github.com/LibertFan/AI_Hospital}でオープンソース化されています。

Artificial intelligence has significantly advanced healthcare, particularly through large language models (LLMs) that excel in medical question answering benchmarks. However, their real-world clinical application remains limited due to the complexities of doctor-patient interactions. To address this, we introduce \textbf{AI Hospital}, a multi-agent framework simulating dynamic medical interactions between \emph{Doctor} as player and NPCs including \emph{Patient}, \emph{Examiner}, \emph{Chief Physician}. This setup allows for realistic assessments of LLMs in clinical scenarios. We develop the Multi-View Medical Evaluation (MVME) benchmark, utilizing high-quality Chinese medical records and NPCs to evaluate LLMs' performance in symptom collection, examination recommendations, and diagnoses. Additionally, a dispute resolution collaborative mechanism is proposed to enhance diagnostic accuracy through iterative discussions. Despite improvements, current LLMs exhibit significant performance gaps in multi-turn interactions compared to one-step approaches. Our findings highlight the need for further research to bridge these gaps and improve LLMs' clinical diagnostic capabilities. Our data, code, and experimental results are all open-sourced at \url{https://github.com/LibertFan/AI_Hospital}.
翻訳日:2024-07-01 12:18:29 公開日:2024-06-28
# Mélange:GPUヘテロジニティの爆発によって実現されるコスト効率のよい大規模言語モデル

Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity ( http://arxiv.org/abs/2404.14527v3 )

ライセンス: Link先を確認
Tyler Griggs, Xiaoxuan Liu, Jiaxiang Yu, Doyoung Kim, Wei-Lin Chiang, Alvin Cheung, Ion Stoica, (参考訳) 大規模言語モデル(LLM)はますます多くのオンラインサービスに統合されているが、高価なGPUインスタンスを必要とするため、デプロイにはコストがかかる。 これまでは推論エンジンの改善によってLLMの高コスト化に取り組んできたが、特定のLLMサービスに対して最もコスト効率のよいGPUタイプを選択することにはあまり注意が向けられていない。 GPUタイプの大規模で成長する状況があり、これらのオプションでは、高コストがパフォーマンス向上につながるとは限らない。 その代わりに、包括的な調査により、3つの主要なLLMサービス特性(要求サイズ、要求率、SLO)がGPUコスト効率に強く影響を与え、異なるGPUタイプが異なるLLMサービス設定に対して最もコスト効率がよいことがわかった。 結果として、与えられたサービスの最もコスト効率のよい割り当ては、通常、異種GPUタイプの混合である。 この分析に基づいて、これらの多様なLLMサービス特性とヘテロジニアスGPUオプション空間をナビゲートし、与えられたLLMサービスの最小コストGPUアロケーションを自動かつ効率的に導出するGPUアロケーションフレームワークであるM\'elangeを紹介する。 我々は、GPU割り当てタスクを、GPUがビンであり、アイテムがサービスのワークロードのスライスである、コスト対応のビンパッキング問題として定式化する。 私たちの定式化の制約は、サービスのユニークな特性を考慮し、M\'elangeは、さまざまなサービス設定と、GPUアロケーションを特定のサービスに適応するためのヘテロジニティアウェアをサポートするためにフレキシブルになる。 単一のGPUタイプのみを使用する場合と比較して、M\'elangeは、会話設定で最大77%、ドキュメントベースの設定で33%、混合設定で51%のデプロイメントコストを削減する。

Large language models (LLMs) are increasingly integrated into many online services, yet they remain cost-prohibitive to deploy due to the requirement of expensive GPU instances. Prior work has addressed the high cost of LLM serving by improving the inference engine, but less attention has been given to selecting the most cost-efficient GPU type(s) for a specific LLM service. There is a large and growing landscape of GPU types and, within these options, higher cost does not always lead to increased performance. Instead, through a comprehensive investigation, we find that three key LLM service characteristics (request size, request rate, SLO) strongly influence GPU cost efficiency, and differing GPU types are most cost efficient for differing LLM service settings. As a result, the most cost-efficient allocation for a given service is typically a mix of heterogeneous GPU types. Based on this analysis, we introduce M\'elange, a GPU allocation framework that navigates these diverse LLM service characteristics and heterogeneous GPU option space to automatically and efficiently derive the minimal-cost GPU allocation for a given LLM service. We formulate the GPU allocation task as a cost-aware bin packing problem where GPUs are bins and items are slices of the service workload. Our formulation's constraints account for a service's unique characteristics, allowing M\'elange to be flexible to support diverse service settings and heterogeneity-aware to adapt the GPU allocation to a specific service. Compared to using only a single GPU type, M\'elange reduces deployment costs by up to 77% in conversational settings, 33% in document-based settings, and 51% in a mixed setting.
翻訳日:2024-07-01 11:58:46 公開日:2024-06-28
# 誤分類ペナルティを用いた仮説検証のためのサブモジュール情報選択

Submodular Information Selection for Hypothesis Testing with Misclassification Penalties ( http://arxiv.org/abs/2405.10930v3 )

ライセンス: Link先を確認
Jayanth Bhargav, Mahsa Ghasemi, Shreyas Sundaram, (参考訳) 本研究では,仮説テスト/分類タスクにおいて,仮説から得られた有限観測サンプルに基づいて,仮説の集合から世界の真の状態を特定することを目的とする情報ソースの最適サブセットを選択することの問題点を考察する。 学習性能を特徴付けるために,異なる誤分類誤りの均一な処理を可能にする誤分類ペナルティフレームワークを提案する。 集中型ベイズ学習環境では、部分集合選択問題の2つの変種について研究する。 一 真仮説の誤分類の最大刑罰が所望の限度以下であることを保証するため、最小限の費用情報を選択すること。 二 限られた予算で設定した最適情報を選択し、真仮説の誤分類の最大刑罰を最小化する。 ある仮定の下では、これらの組合せ最適化問題の目的(あるいは制約)が弱(あるいは近似)な部分モジュラーであることが証明され、グリードアルゴリズムの高確率性能保証が確立される。 さらに,誤分類の合計値に基づく情報集合選択のための代替指標を提案する。 我々は,この指標が準モジュラであることを示すとともに,両情報集合選択問題に対するグリーディアルゴリズムのほぼ最適保証を確立する。 最後に, ランダムに生成した複数のインスタンスに対して, 理論的結果を検証する数値シミュレーションを提案する。

We consider the problem of selecting an optimal subset of information sources for a hypothesis testing/classification task where the goal is to identify the true state of the world from a finite set of hypotheses, based on finite observation samples from the sources. In order to characterize the learning performance, we propose a misclassification penalty framework, which enables nonuniform treatment of different misclassification errors. In a centralized Bayesian learning setting, we study two variants of the subset selection problem: (i) selecting a minimum cost information set to ensure that the maximum penalty of misclassifying the true hypothesis is below a desired bound and (ii) selecting an optimal information set under a limited budget to minimize the maximum penalty of misclassifying the true hypothesis. Under certain assumptions, we prove that the objective (or constraints) of these combinatorial optimization problems are weak (or approximate) submodular, and establish high-probability performance guarantees for greedy algorithms. Further, we propose an alternate metric for information set selection which is based on the total penalty of misclassification. We prove that this metric is submodular and establish near-optimal guarantees for the greedy algorithms for both the information set selection problems. Finally, we present numerical simulations to validate our theoretical results over several randomly generated instances.
翻訳日:2024-07-01 11:09:59 公開日:2024-06-28
# ニュースイベント検出のための大規模言語モデル強化クラスタリング

Large Language Model Enhanced Clustering for News Event Detection ( http://arxiv.org/abs/2406.10552v3 )

ライセンス: Link先を確認
Adane Nega Tarekegn, (参考訳) ニュースの世界は継続的に進化し続けており、世界中の情報が増え続けている。 この巨大なデータリポジトリ内のイベントの自動検出は、さまざまなプラットフォーム間で重要なニュースを監視、識別、分類するために不可欠である。 本稿では,大規模言語モデル(LLM)とクラスタリング分析を組み合わせて,GDELT(Global Database of Events, Language, and Tone)からニュースイベントを検出するイベント検出フレームワークを提案する。 このフレームワークは、イベント検出タスク(キーワード抽出とテキスト埋め込み)と後検出タスク(イベント要約とトピックラベリング)の両方を通じてイベントクラスタリングを強化する。 また、各種テキスト埋め込みがクラスタリング結果の質に及ぼす影響を評価し、ロバストなニュース分類を確実にする。 さらに,クラスタリング結果の有効性とロバスト性を評価するために,新しいクラスタ安定性評価指標(CSAI)を導入する。 CSAIは、クラスタリングの品質を計測する新しい方法を提供するために、複数の特徴ベクトルを使用している。 イベント検出フレームワークにLLMを組み込むことにより,CSAIスコアの信頼性が向上し,結果が大幅に向上したことを示す。 さらに、イベント検出タスクは意味のある洞察を生成し、イベントクラスタリング結果の効果的な解釈を容易にする。 実験結果から,提案フレームワークは貴重な洞察を与え,ニュース分析や報告の精度を高める可能性が示唆された。

The news landscape is continuously evolving, with an ever-increasing volume of information from around the world. Automated event detection within this vast data repository is essential for monitoring, identifying, and categorizing significant news occurrences across diverse platforms. This paper presents an event detection framework that leverages Large Language Models (LLMs) combined with clustering analysis to detect news events from the Global Database of Events, Language, and Tone (GDELT). The framework enhances event clustering through both pre-event detection tasks (keyword extraction and text embedding) and post-event detection tasks (event summarization and topic labelling). We also evaluate the impact of various textual embeddings on the quality of clustering outcomes, ensuring robust news categorization. Additionally, we introduce a novel Cluster Stability Assessment Index (CSAI) to assess the validity and robustness of clustering results. CSAI utilizes multiple feature vectors to provide a new way of measuring clustering quality. Our experiments indicate that the use of LLM embedding in the event detection framework has significantly improved the results, demonstrating greater robustness in terms of CSAI scores. Moreover, post-event detection tasks generate meaningful insights, facilitating effective interpretation of event clustering results. Overall, our experimental results indicate that the proposed framework offers valuable insights and could enhance the accuracy in news analysis and reporting.
翻訳日:2024-07-01 11:09:59 公開日:2024-06-28
# BESIIIにおける$e^{+}e^{-} \rightarrow Y\bar{Y}$のベル非局所性と絡み合い

Bell nonlocality and entanglement in $e^{+}e^{-} \rightarrow Y\bar{Y}$ at BESIII ( http://arxiv.org/abs/2406.16298v2 )

ライセンス: Link先を確認
Sihao Wu, Chen Qian, Qun Wang, Xiao-Rong Zhou, (参考訳) ベル非局所性と絡み合いは量子系における2種類の量子相関である。 北京分光器III(BESIII)実験の最近のアップグレードにより、高精度なデータによる電子-陽電子消滅によって生成されるハイパーオン-反ハイペロン系の非局所性と絡み合いを探索することが可能である。 非局所性と絡み合いの尺度を用いてスピン-1/2ハイパーオン-反ハイペロン系の量子相関を研究する体系的な方法を提案する。 ハイパロンとその反ハイパロンの非可逆偏極の場合、ハイパロン-反ハイパロン系の非局所性の運動領域は、$\tau^{+}\tau^{-}$系よりも制限され、$\tau$レプトンの偏極は消滅する。 また,BSEIIIにおける超音速-反ハイペロン系の非局所性と絡み合いを実験的に検討する。

The Bell nonlocality and entanglement are two kinds of quantum correlations in quantum systems. Due to the recent upgrade in Beijing Spectrometer III (BESIII) experiment, it is possible to explore the nonlocality and entanglement in hyperon-antihyperon systems produced in electron-positron annihilation with high precision data. We provide a systematic method for studying quantum correlations in spin-1/2 hyperon-antihyperon systems through the measures for the nonlocality and entanglement. We find that with nonvanishing polarizations of the hyperon and its antihyperon, the kinematic region of nonlocality in the hyperon-antihyperon system is more restricted than the $\tau^{+}\tau^{-}$ system in which polarizations of $\tau$ leptons are vanishing. We also present an experimental proposal to probe the nonlocality and entanglement in hyperon-antihyperon systems at BSEIII.
翻訳日:2024-07-01 11:09:59 公開日:2024-06-28
# 文字適応器:高忠実度文字カスタマイズのためのプロンプトガイド型領域制御

Character-Adapter: Prompt-Guided Region Control for High-Fidelity Character Customization ( http://arxiv.org/abs/2406.16537v2 )

ライセンス: Link先を確認
Yuhang Ma, Wenting Xu, Jiji Tang, Qinfeng Jin, Rongsheng Zhang, Zeng Zhao, Changjie Fan, Zhipeng Hu, (参考訳) イメージを一貫した文字で合成しようとするカスタマイズ画像生成は、ストーリーテリング、ポートレート生成、文字設計などの応用に大きく関連している。 しかし、従来の手法では、不適切な特徴抽出と参照文字の概念的混乱により、高忠実度な文字の保存が困難であった。 そこで本稿では,参照文字の詳細を保存し,高忠実性を確保した画像を生成するためのプラグイン・アンド・プレイ・フレームワークである character-Adapter を提案する。 Character-Adapterは、参照文字と動的領域レベルのアダプタのきめ細かい地域特性を保証し、概念の混乱を軽減するために、プロンプト誘導セグメンテーションを採用している。 文字適応器の有効性を検証するため, 広範囲な実験を行った。 定量的および定性的な結果は、キャラクタアダプタが一貫したキャラクタ生成の最先端性能を実現し、他の手法と比較して24.8%改善したことを示している。 私たちのコードはhttps://github.com/Character-Adapter/Character-Adapteでリリースされます。

Customized image generation, which seeks to synthesize images with consistent characters, holds significant relevance for applications such as storytelling, portrait generation, and character design. However, previous approaches have encountered challenges in preserving characters with high-fidelity consistency due to inadequate feature extraction and concept confusion of reference characters. Therefore, we propose Character-Adapter, a plug-and-play framework designed to generate images that preserve the details of reference characters, ensuring high-fidelity consistency. Character-Adapter employs prompt-guided segmentation to ensure fine-grained regional features of reference characters and dynamic region-level adapters to mitigate concept confusion. Extensive experiments are conducted to validate the effectiveness of Character-Adapter. Both quantitative and qualitative results demonstrate that Character-Adapter achieves the state-of-the-art performance of consistent character generation, with an improvement of 24.8% compared with other methods. Our code will be released at https://github.com/Character-Adapter/Character-Adapte
翻訳日:2024-07-01 11:00:14 公開日:2024-06-28
# 吸収分光における非エルミートフロックダイナミクス

Non-Hermitian Floquet dynamics in absorption spectroscopy ( http://arxiv.org/abs/2406.16559v2 )

ライセンス: Link先を確認
R M Potvliege, (参考訳) 強い電磁場と相互作用する場合に、原子または凝縮物質媒質によるレーザー磁場の吸収の理論を示す。 後者は回転波近似を仮定しない。 弱いプローブの極限では、リンドブラッド・マスター方程式は関連する定常状態コヒーレンスに対してより小さな線形方程式系に還元される。 この極限において、媒体の複素感受性は、崩壊する着衣状態の個々の寄与の観点で表すことができ、後者は非エルミート的フロケハミルトニアン(英語版)の固有状態である。

A theory of the absorption of a laser field by an atomic or condensed matter medium is presented for the case where the medium is also interacting with a strong electromagnetic field. The rotating wave approximation is not assumed for the latter. It is shown that in the weak probe limit the Lindblad master equation reduces to a smaller system of linear equations for the relevant steady state coherences. In this limit, the complex susceptibility of the medium can be expressed in terms of individual contributions of decaying dressed states, the latter being eigenstates of a non-Hermitian Floquet Hamiltonian.
翻訳日:2024-07-01 11:00:14 公開日:2024-06-28
# M2Lingual:大規模言語モデルにおける多言語・多言語インストラクションアライメントの強化

M2Lingual: Enhancing Multilingual, Multi-Turn Instruction Alignment in Large Language Models ( http://arxiv.org/abs/2406.16783v2 )

ライセンス: Link先を確認
Rishabh Maheshwary, Vikas Yadav, Hoang Nguyen, Khyati Mahajan, Sathwik Tejaswi Madhusudhan, (参考訳) インストラクション微調整(IFT)は、命令に従うためにLLM(Large Language Models)を調整するために重要である。 近年、多くの効果的なIFTデータセットが導入されているが、主に英語のような高リソース言語に焦点を当てている。 言語やタスクの広い範囲にわたるLLMの整合性を改善するために,M2Lingualと呼ばれる多言語多言語・多言語命令微調整データセットの完全合成型分類法(Evol)を提案する。 最初は多様な種子の例を選択し、次に提案されたEvol分類を用いてこれらの種子を複雑で挑戦的なマルチターン命令に変換することによって構築される。 異なる大きさのLLMを学習し,多種多様な言語に対して性能向上を示すことで,M2Lingualの有効性を実証する。 https://github.com/ServiceNow/M2Lingual と Evol - M2Lingual: https://huggingface.co/datasets/ServiceNow-AI/M2Lingual - 70の言語と17以上のNLPタスクを含む182KのIFTペアを含む最初の完全合成、汎用、タスク指向、マルチターン、マルチリンガルデータセット。

Instruction finetuning (IFT) is critical for aligning Large Language Models (LLMs) to follow instructions. While many effective IFT datasets have been introduced recently, they predominantly focus on high-resource languages like English. To better align LLMs across a broad spectrum of languages and tasks, we propose a fully synthetic, novel taxonomy (Evol) guided Multilingual, Multi-turn instruction finetuning dataset, called M2Lingual. It is constructed by first selecting a diverse set of seed examples and then utilizing the proposed Evol taxonomy to convert these seeds into complex and challenging multi-turn instructions. We demonstrate the effectiveness of M2Lingual by training LLMs of varying sizes and showcasing the enhanced performance across a diverse set of languages. We contribute the 2 step Evol taxonomy with the guided generation code: https://github.com/ServiceNow/M2Lingual, as well as the first fully synthetic, general and task-oriented, multi-turn, multilingual dataset built with Evol - M2Lingual: https://huggingface.co/datasets/ServiceNow-AI/ M2Lingual - containing 182K total IFT pairs, covering 70 languages and 17+ NLP tasks.
翻訳日:2024-07-01 11:00:14 公開日:2024-06-28
# DWARF:注意マップ改善のための病気重み付きネットワーク

DWARF: Disease-weighted network for attention map refinement ( http://arxiv.org/abs/2406.17032v2 )

ライセンス: Link先を確認
Haozhe Luo, Aurélie Pahud de Mortanges, Oana Inel, Abraham Bernstein, Mauricio Reyes, (参考訳) 深層学習の解釈可能性は、医療画像モデルの信頼性を評価し、不正確な患者推薦のリスクを低減するために重要である。 本研究は、医療専門家を解釈可能性のプロセスに統合することで、医療画像分析における「ループ外人間」と「信頼」の問題に対処する。 本稿では、専門家のフィードバックを活用して、モデル妥当性と精度を高める病弱注意マップ改善ネットワーク(DWARF)を提案する。 本手法では, 繰り返し学習を用いて診断性能を反復的に向上し, 正確かつ解釈可能な特徴マップを生成する。 実験により,複数の医用画像データセットの解釈可能性および診断精度が有意に向上した。 このアプローチは、AIシステムと医療専門家の効果的なコラボレーションを促進する。

The interpretability of deep learning is crucial for evaluating the reliability of medical imaging models and reducing the risks of inaccurate patient recommendations. This study addresses the "human out of the loop" and "trustworthiness" issues in medical image analysis by integrating medical professionals into the interpretability process. We propose a disease-weighted attention map refinement network (DWARF) that leverages expert feedback to enhance model relevance and accuracy. Our method employs cyclic training to iteratively improve diagnostic performance, generating precise and interpretable feature maps. Experimental results demonstrate significant improvements in interpretability and diagnostic accuracy across multiple medical imaging datasets. This approach fosters effective collaboration between AI systems and healthcare professionals, ultimately aiming to improve patient outcomes
翻訳日:2024-07-01 11:00:14 公開日:2024-06-28
# 軽度皮膚癌分類における知識蒸留の活用 : 精度と計算効率のバランス

Leveraging Knowledge Distillation for Lightweight Skin Cancer Classification: Balancing Accuracy and Computational Efficiency ( http://arxiv.org/abs/2406.17051v2 )

ライセンス: Link先を確認
Niful Islam, Khan Md Hasib, Fahmida Akter Joti, Asif Karim, Sami Azam, (参考訳) 皮膚がんは公衆衛生にとって大きな関心事であり、報告されているがんの3分の1を占めている。 早期に発見されなければ、がんは重篤な結果をもたらす可能性がある。 有効な皮膚がん分類の必要性を認識し、計算資源が限られている領域に展開するには、しばしば大きすぎる既存のモデルの限界に対処する。 そこで本研究では,軽量だが高性能な分類器を作成するための知識蒸留に基づく手法を提案する。 提案されたソリューションは、3つのモデル、すなわちResNet152V2、ConvNeXtBase、ViT Baseを融合して効果的な教師モデルを作成する。 教師モデルは、2.03MBの軽量の学生モデルをガイドするために使用される。 この学生モデルは16ビット量子化を使用して469.77KBに圧縮され、エッジデバイスへのスムーズな取り込みを可能にする。 6段階の画像前処理、データ拡張、厳密なアブレーションの研究により、HAM10000データセットでは98.75%、Kaggleデータセットでは98.94%の精度で良性および悪性皮膚がんを分類している。 高精度でコンパクトなサイズを持つため、われわれのモデルは、特に資源制約のある環境では、正確な皮膚がん分類の候補となる可能性がある。

Skin cancer is a major concern to public health, accounting for one-third of the reported cancers. If not detected early, the cancer has the potential for severe consequences. Recognizing the critical need for effective skin cancer classification, we address the limitations of existing models, which are often too large to deploy in areas with limited computational resources. In response, we present a knowledge distillation based approach for creating a lightweight yet high-performing classifier. The proposed solution involves fusing three models, namely ResNet152V2, ConvNeXtBase, and ViT Base, to create an effective teacher model. The teacher model is then employed to guide a lightweight student model of size 2.03 MB. This student model is further compressed to 469.77 KB using 16-bit quantization, enabling smooth incorporation into edge devices. With six-stage image preprocessing, data augmentation, and a rigorous ablation study, the model achieves an impressive accuracy of 98.75% on the HAM10000 dataset and 98.94% on the Kaggle dataset in classifying benign and malignant skin cancers. With its high accuracy and compact size, our model appears to be a potential choice for accurate skin cancer classification, particularly in resource-constrained settings.
翻訳日:2024-07-01 11:00:13 公開日:2024-06-28
# MatText: 言語モデルは物質モデリングにテキストとスケール以上のものを必要とするか?

MatText: Do Language Models Need More than Text & Scale for Materials Modeling? ( http://arxiv.org/abs/2406.17295v2 )

ライセンス: Link先を確認
Nawaf Alampara, Santiago Miret, Kevin Maik Jablonka, (参考訳) 素材をテキストとして効果的に表現することは、大きな言語モデル(LLM)の膨大な進歩を活用して、新しい材料を発見する可能性がある。 LLMは様々な領域で顕著な成功を収めてきたが、材料科学への応用はいまだに過小評価されている。 基本的な課題は、材料モデリングにテキストベースの表現を最大限に活用する方法の理解の欠如である。 この課題は、物質システムの複雑さを捉える上で、これらのテキスト表現の能力と限界を厳格に評価する包括的なベンチマークがないことによってさらに複雑になる。 このギャップに対処するために、モデリング材料における言語モデルの性能を体系的に評価するために設計されたベンチマークツールとデータセットのスイートであるMatTextを提案する。 MatTextは、マテリアルシステムのための9つの異なるテキストベースの表現を含んでおり、その中にはいくつかの新しい表現も含まれている。 各表現には固有の誘導バイアスが含まれており、関連する情報を取得し、材料に関する以前の物理的知識を統合する。 さらに、MatTextは、材料科学の文脈で言語モデルのパフォーマンスをトレーニングし、ベンチマークするための重要なツールを提供する。 これらのツールには、各表現の標準化されたデータセット分割、幾何学的要因に対する感度を評価するプローブ、結晶構造をテキストにシームレスに変換するツールが含まれる。 MatTextを用いて、モデリング材料における言語モデルの性能を広範囲に分析する。 以上の結果から,現在の言語モデルでは,すべての表現にまたがる材料モデリングに不可欠な幾何学的情報を得るのに常に苦労していることが明らかとなった。 代わりに、これらのモデルはローカル情報を活用する傾向があり、これは我々の新しい表現のいくつかで強調されている。 材料設計におけるテキストベースの手法の欠点を明らかにするためのMateTextの能力について分析を行った。

Effectively representing materials as text has the potential to leverage the vast advancements of large language models (LLMs) for discovering new materials. While LLMs have shown remarkable success in various domains, their application to materials science remains underexplored. A fundamental challenge is the lack of understanding of how to best utilize text-based representations for materials modeling. This challenge is further compounded by the absence of a comprehensive benchmark to rigorously evaluate the capabilities and limitations of these text representations in capturing the complexity of material systems. To address this gap, we propose MatText, a suite of benchmarking tools and datasets designed to systematically evaluate the performance of language models in modeling materials. MatText encompasses nine distinct text-based representations for material systems, including several novel representations. Each representation incorporates unique inductive biases that capture relevant information and integrate prior physical knowledge about materials. Additionally, MatText provides essential tools for training and benchmarking the performance of language models in the context of materials science. These tools include standardized dataset splits for each representation, probes for evaluating sensitivity to geometric factors, and tools for seamlessly converting crystal structures into text. Using MatText, we conduct an extensive analysis of the capabilities of language models in modeling materials. Our findings reveal that current language models consistently struggle to capture the geometric information crucial for materials modeling across all representations. Instead, these models tend to leverage local information, which is emphasized in some of our novel representations. Our analysis underscores MatText's ability to reveal shortcomings of text-based methods for materials design.
翻訳日:2024-07-01 11:00:13 公開日:2024-06-28
# 決定論的法則からの疫学的ホライズン:ノーマトイ理論からの教訓

Epistemic Horizons From Deterministic Laws: Lessons From a Nomic Toy Theory ( http://arxiv.org/abs/2406.17581v2 )

ライセンス: Link先を確認
Johannes Fankhauser, Tomáš Gonda, Gemma De les Coves, (参考訳) 量子論はエピステミックな地平線を持ち、すなわち、正確な値は相容れない物理量に同時に割り当てられることができない。 スペクケンスのおもちゃ理論で示されるように、古典的な機械的設定におけるハイゼンベルクの不確実性原理に類似したエピステミックな地平線を仮定することは、量子現象の多元性にも繋がる。 本稿では,情報収集エージェントを物理的システムとして明示的にモデル化する決定論的理論,「自律玩具理論」を紹介する。 本研究の主な成果は,このような薬剤に対する上皮性地平線の存在である。 彼らはポアソンブラケットが消えるオブザーバブルの値しか同時に学べない。 したがって、トイ理論は相容れない測度を持ち、物理的システムの完全な状態は分かっていない。 エージェントによるシステムの最も良い記述は、スペケンスのおもちゃ理論の疫学的な状態である。 この結果から,被検体と対象物の分離性の観点から不確実性の測定を行った。 重要なことに、この主張はミノノトイ理論が本質的に古典的であるにもかかわらず従う。 この研究は、(完全な)量子論のような、疫学的な地平線に関するさらなる研究を招いている。

Quantum theory has an epistemic horizon, i.e. exact values cannot be assigned simultaneously to incompatible physical quantities. As shown by Spekkens' toy theory, positing an epistemic horizon akin to Heisenberg's uncertainty principle in a classical mechanical setting also leads to a plethora of quantum phenomena. We introduce a deterministic theory - nomic toy theory - in which information gathering agents are explicitly modelled as physical systems. Our main result shows the presence of an epistemic horizon for such agents. They can only simultaneously learn the values of observables whose Poisson bracket vanishes. Therefore, nomic toy theory has incompatible measurements and the complete state of a physical system cannot be known. The best description of a system by an agent is via an epistemic state of Spekkens' toy theory. Our result reconciles us to measurement uncertainty as an aspect of the inseparability of subjects and objects. Significantly, the claims follow even though nomic toy theory is essentially classical. This work invites further investigations of epistemic horizons, such as the one of (full) quantum theory.
翻訳日:2024-07-01 11:00:13 公開日:2024-06-28
# 動的グラフ埋め込み軌道による学際的洞察の強化

Empowering Interdisciplinary Insights with Dynamic Graph Embedding Trajectories ( http://arxiv.org/abs/2406.17963v2 )

ライセンス: Link先を確認
Yiqiao Jin, Andrew Zhao, Yeon-Chang Lee, Meng Ye, Ajay Divakaran, Srijan Kumar, (参考訳) 我々は動的グラフ(DG)を効果的に視覚化する新しいフレームワークであるDyGETVizを開発した。 このフレームワークは、離散時間動的グラフ(DTDG)モデルの最近の進歩を利用して、動的グラフに固有の時間的ダイナミクスを順応的に扱う。 DyGETVizは、これらのグラフ内のマイクロレベルとマクロレベルの構造シフトを効果的にキャプチャし、複雑で大規模な動的グラフを表現する堅牢な方法を提供する。 DyGETVizの適用範囲は、民族学、疫学、金融学、遺伝学、言語学、コミュニケーション研究、社会学、国際関係など、多岐にわたる。 実装を通じて、DyGETVizは様々な重要な洞察を明らかにし、確認した。 これには、コンテンツ共有パターンの多様性とオンラインコミュニティ内の特殊化の度合い、数十年にわたるレキシコンの時系列的進化、老化に関連する遺伝子や非関連遺伝子によって示される異なる軌跡が含まれる。 重要なことは、DyGETVizは動的グラフの複雑さを単純化することによって、非ドメインの専門家への科学的発見のアクセシビリティを高めることである。 私たちのフレームワークは、さまざまな分野にまたがって使用するためのオープンソースのPythonパッケージとしてリリースされています。 本研究は,DTDGモデルの可視化と解析における現在進行中の課題に対処するだけでなく,様々な分野にわたる動的グラフ表現と解析に関する今後の研究の基盤となる枠組みを確立する。

We developed DyGETViz, a novel framework for effectively visualizing dynamic graphs (DGs) that are ubiquitous across diverse real-world systems. This framework leverages recent advancements in discrete-time dynamic graph (DTDG) models to adeptly handle the temporal dynamics inherent in dynamic graphs. DyGETViz effectively captures both micro- and macro-level structural shifts within these graphs, offering a robust method for representing complex and massive dynamic graphs. The application of DyGETViz extends to a diverse array of domains, including ethology, epidemiology, finance, genetics, linguistics, communication studies, social studies, and international relations. Through its implementation, DyGETViz has revealed or confirmed various critical insights. These include the diversity of content sharing patterns and the degree of specialization within online communities, the chronological evolution of lexicons across decades, and the distinct trajectories exhibited by aging-related and non-related genes. Importantly, DyGETViz enhances the accessibility of scientific findings to non-domain experts by simplifying the complexities of dynamic graphs. Our framework is released as an open-source Python package for use across diverse disciplines. Our work not only addresses the ongoing challenges in visualizing and analyzing DTDG models but also establishes a foundational framework for future investigations into dynamic graph representation and analysis across various disciplines.
翻訳日:2024-07-01 11:00:13 公開日:2024-06-28
# EgoVideo:エゴセントリックなファンデーションモデルと下流適応を探る

EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation ( http://arxiv.org/abs/2406.18070v3 )

ライセンス: Link先を確認
Baoqi Pei, Guo Chen, Jilan Xu, Yuping He, Yicheng Liu, Kanghua Pan, Yifei Huang, Yali Wang, Tong Lu, Limin Wang, Yu Qiao, (参考訳) 本稿では,Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックを含む,CVPR 2024におけるEgoVisチャレンジに対するソリューションを提案する。 ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。 このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。 Ego4Dの課題では、自然言語クェリ、ステップグラウンド、モーメントクェリ、短期オブジェクトインタラクション予測、長期アクション予測といった様々なタスクに取り組みます。 また、EPIC-Kitchensチャレンジにも参加し、Action Recognition、Multiple Instance Retrieval、Domain Adaptation for Action Recognitionのトラックに取り組みます。 これらの多様なタスクにEgoVideoを適用することで、EgoVideoの強力な表現能力をエゴセントリック基盤モデルとして示すとともに、エゴセントリックなさまざまなビデオ分析シナリオにおいて、その汎用性と有効性を示す。 私たちのコードベースと事前トレーニングされたモデルは、https://github.com/OpenGVLab/EgoVideoで公開されています。

In this report, we present our solutions to the EgoVis Challenges in CVPR 2024, including five tracks in the Ego4D challenge and three tracks in the EPIC-Kitchens challenge. Building upon the video-language two-tower model and leveraging our meticulously organized egocentric video data, we introduce a novel foundation model called EgoVideo. This model is specifically designed to cater to the unique characteristics of egocentric videos and provides strong support for our competition submissions. In the Ego4D challenges, we tackle various tasks including Natural Language Queries, Step Grounding, Moment Queries, Short-term Object Interaction Anticipation, and Long-term Action Anticipation. In addition, we also participate in the EPIC-Kitchens challenge, where we engage in the Action Recognition, Multiple Instance Retrieval, and Domain Adaptation for Action Recognition tracks. By adapting EgoVideo to these diverse tasks, we showcase its versatility and effectiveness in different egocentric video analysis scenarios, demonstrating the powerful representation ability of EgoVideo as an egocentric foundation model. Our codebase and pretrained models are publicly available at https://github.com/OpenGVLab/EgoVideo.
翻訳日:2024-07-01 11:00:13 公開日:2024-06-28
# SafeAligner: 応答格差誘導による脱獄攻撃に対する安全アライメント

SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance ( http://arxiv.org/abs/2406.18118v2 )

ライセンス: Link先を確認
Caishuang Huang, Wanxu Zhao, Rui Zheng, Huijie Lv, Shihan Dou, Sixian Li, Xiao Wang, Enyu Zhou, Junjie Ye, Yuming Yang, Tao Gui, Qi Zhang, Xuanjing Huang, (参考訳) 大規模言語モデル(LLM)の開発が急速に進展するにつれて、これらのモデルを実用性を損なうことなく効果的に確保することが重要な研究領域となっている。 しかし、現在のジェイルブレイク攻撃に対する防衛戦略(すなわち、セキュリティプロトコルをバイパスする努力)は、適応性、汎用能力の制限、高コストに悩まされることが多い。 これらの課題に対処するため,脱コード段階で実装されたjailbreak攻撃に対する防御強化手法であるSafeAlignerを紹介した。 まず、安全性を高めるために訓練されたSentinel Modelと、よりリスクの高い応答を生成するために設計されたIntruder Modelの2つの特殊なモデルを開発する。 SafeAlignerは、これらのモデルからの応答間のセキュリティレベルの格差を利用して、有害トークンと有益なトークンを区別し、ターゲットモデルの出力トークン分布を変更して、安全アライメントを効果的に導く。 大規模な実験により、SafeAlignerは有益トークンの可能性を増大させ、有害トークンの発生を減少させ、一般性への損失を最小限に抑えることが示されている。

As the development of large language models (LLMs) rapidly advances, securing these models effectively without compromising their utility has become a pivotal area of research. However, current defense strategies against jailbreak attacks (i.e., efforts to bypass security protocols) often suffer from limited adaptability, restricted general capability, and high cost. To address these challenges, we introduce SafeAligner, a methodology implemented at the decoding stage to fortify defenses against jailbreak attacks. We begin by developing two specialized models: the Sentinel Model, which is trained to foster safety, and the Intruder Model, designed to generate riskier responses. SafeAligner leverages the disparity in security levels between the responses from these models to differentiate between harmful and beneficial tokens, effectively guiding the safety alignment by altering the output token distribution of the target model. Extensive experiments show that SafeAligner can increase the likelihood of beneficial tokens, while reducing the occurrence of harmful ones, thereby ensuring secure alignment with minimal loss to generality.
翻訳日:2024-07-01 11:00:13 公開日:2024-06-28
# バイオメディシンのためのマルチモーダル言語モデル

A Refer-and-Ground Multimodal Large Language Model for Biomedicine ( http://arxiv.org/abs/2406.18146v2 )

ライセンス: Link先を確認
Xiaoshuang Huang, Haifeng Huang, Lingdong Shen, Yehui Yang, Fangxin Shang, Junwei Liu, Jia Liu, (参考訳) マルチモーダルな大言語モデル(MLLM)の急速な開発、特に参照機能と接地機能による視覚チャット機能により、その重要性はますます認識されている。 しかし, バイオメディカル・フィールドは, バイオメディカル・イメージのための専用の参照・グラウンド・データセットが存在しないため, この分野において大きなギャップをみせている。 この課題に対処するため、Med-GRIT-270kデータセットを考案した。 質問と回答のペアは270kで、8つの異なる医療画像モダリティにまたがる。 最も重要なことは、バイオメディカルドメインとレファレンスと地上での会話の統合に特化していることだ。 鍵となるアイデアは、医療セグメント化データセットから大規模バイオメディカルイメージマスクペアをサンプリングし、チャットGPTを使用してテキストから命令データセットを生成することである。 さらに,このデータセットとマルチタスク・インストラクション・ラーニングを用いて,バイオメディシンのためのRefer-and-Ground Multimodal Large Language Model(BiRD)を導入する。 大規模な実験により、Med-GRIT-270kデータセットの有効性と、BiRDモデルのマルチモーダル、きめ細かな対話能力が裏付けられている。 これは、インテリジェントなバイオメディカルアシスタントの探索と開発にとって重要な基準となる。

With the rapid development of multimodal large language models (MLLMs), especially their capabilities in visual chat through refer and ground functionalities, their significance is increasingly recognized. However, the biomedical field currently exhibits a substantial gap in this area, primarily due to the absence of a dedicated refer and ground dataset for biomedical images. To address this challenge, we devised the Med-GRIT-270k dataset. It comprises 270k question-and-answer pairs and spans eight distinct medical imaging modalities. Most importantly, it is the first dedicated to the biomedical domain and integrating refer and ground conversations. The key idea is to sample large-scale biomedical image-mask pairs from medical segmentation datasets and generate instruction datasets from text using chatGPT. Additionally, we introduce a Refer-and-Ground Multimodal Large Language Model for Biomedicine (BiRD) by using this dataset and multi-task instruction learning. Extensive experiments have corroborated the efficacy of the Med-GRIT-270k dataset and the multi-modal, fine-grained interactive capabilities of the BiRD model. This holds significant reference value for the exploration and development of intelligent biomedical assistants.
翻訳日:2024-07-01 11:00:13 公開日:2024-06-28
# 空港タワー指令認識の高度化:スクイーズ・アンド・エキサイティングと放送残差学習の統合

Advancing Airport Tower Command Recognition: Integrating Squeeze-and-Excitation and Broadcasted Residual Learning ( http://arxiv.org/abs/2406.18313v2 )

ライセンス: Link先を確認
Yuanxi Lin, Tonglin Zhou, Yang Xiao, (参考訳) パイロットは航空管制の指示を正確に守らなければならないため、航空管制の正確な認識は飛行の安全性と効率に不可欠である。 本稿では,キーワードスポッティング技術の進歩により,雑音の多い環境や限られた計算資源といった音声コマンド認識の課題に対処する。 我々は、定期や緊急の指示を含む、標準化された空港タワーコマンドのデータセットを作成します。 我々は,BC-SENetモデルにより,シャープ・アンド・エキサイティングおよびタイムフレーム・周波数ワイズ・アンド・エキサイティング技術を用いて,放送残差学習を強化した。 このモデルはより少ないパラメータで重要な情報に焦点を当てる。 BC-SENetを含む5つのキーワードスポッティングモデルに対するテストでは、精度と効率が向上した。 これらの結果から,高騒音環境下での航空安全・効率向上のための音声認識におけるモデル改良の有効性が示唆された。 さらに、BC-SENetは一般的なGoogle Speech Commandデータセットで同等のパフォーマンスを示している。

Accurate recognition of aviation commands is vital for flight safety and efficiency, as pilots must follow air traffic control instructions precisely. This paper addresses challenges in speech command recognition, such as noisy environments and limited computational resources, by advancing keyword spotting technology. We create a dataset of standardized airport tower commands, including routine and emergency instructions. We enhance broadcasted residual learning with squeeze-and-excitation and time-frame frequency-wise squeeze-and-excitation techniques, resulting in our BC-SENet model. This model focuses on crucial information with fewer parameters. Our tests on five keyword spotting models, including BC-SENet, demonstrate superior accuracy and efficiency. These findings highlight the effectiveness of our model advancements in improving speech command recognition for aviation safety and efficiency in noisy, high-stakes environments. Additionally, BC-SENet shows comparable performance on the common Google Speech Command dataset.
翻訳日:2024-07-01 11:00:13 公開日:2024-06-28
# 文字列確率クエリによるPDFA蒸留

PDFA Distillation via String Probability Queries ( http://arxiv.org/abs/2406.18328v2 )

ライセンス: Link先を確認
Robert Baumgartner, Sicco Verwer, (参考訳) 確率論的決定論的有限オートマトン(PDFA)は、言語上の条件付き確率をモデル化する離散事象系である。 これらのモデルは、言語モデルとして訓練されたニューラルネットワークの代理モデルとして使用される、説明可能な機械学習の領域に関心を寄せている。 本研究では,ニューラルネットワークからPDFAを抽出するアルゴリズムを提案する。 我々のアルゴリズムはL#アルゴリズムの派生であり、新しいタイプのクエリからPDFAを学習し、クエリされた文字列の確率から条件付き確率を推定する。 訓練されたニューラルネットワークの集合からPDFAを蒸留することにより、最近の公開データセット上での有効性を示す。

Probabilistic deterministic finite automata (PDFA) are discrete event systems modeling conditional probabilities over languages: Given an already seen sequence of tokens they return the probability of tokens of interest to appear next. These types of models have gained interest in the domain of explainable machine learning, where they are used as surrogate models for neural networks trained as language models. In this work we present an algorithm to distill PDFA from neural networks. Our algorithm is a derivative of the L# algorithm and capable of learning PDFA from a new type of query, in which the algorithm infers conditional probabilities from the probability of the queried string to occur. We show its effectiveness on a recent public dataset by distilling PDFA from a set of trained neural networks.
翻訳日:2024-07-01 11:00:13 公開日:2024-06-28
# ゲート仮想化による量子計算のスケーリング

Scaling Quantum Computations via Gate Virtualization ( http://arxiv.org/abs/2406.18410v2 )

ライセンス: Link先を確認
Nathaniel Tornow, Emmanouil Giortamis, Pramod Bhatotia, (参考訳) ゲート仮想化を活用することで、ノイズや小型量子プロセッサ(QPU)に高い忠実度を持つ大規模量子回路をスケーラブルに実行するための、エンドツーエンドの汎用システムであるQuantum Virtual Machine(QVM)を提案する。 QVMは仮想回路中間表現(IR)を公開し、量子回路の概念を拡張してゲート仮想化を組み込む。 我々のIRとして仮想回路をベースとして、一連のモジュール最適化パスを通じて仮想回路をトランスパイルする拡張可能なコンパイラ基盤であるQVMコンパイラを提案し、最適化された回路フラグメントの集合を生成する。 最後に、これらのトランスパイルされた回路フラグメントは、分散QPUのセット上で回路フラグメントを仮想化および実行するためのスケーラブルで分散インフラストラクチャであるQVMランタイムを使用して、QPU上で実行される。 我々はIBMの7ビットと27ビットのQPU上でQVMを評価する。 評価の結果,QPUの回路サイズをQPUの2倍に拡張できると同時に,QPUの回路深さを4.7$\times$に向上できることがわかった。

We present the Quantum Virtual Machine (QVM), an end-to-end generic system for scalable execution of large quantum circuits with high fidelity on noisy and small quantum processors (QPUs) by leveraging gate virtualization. QVM exposes a virtual circuit intermediate representation (IR) that extends the notion of quantum circuits to incorporate gate virtualization. Based on the virtual circuit as our IR, we propose the QVM compiler - an extensible compiler infrastructure to transpile a virtual circuit through a series of modular optimization passes to produce a set of optimized circuit fragments. Lastly, these transpiled circuit fragments are executed on QPUs using our QVM runtime - a scalable and distributed infrastructure to virtualize and execute circuit fragments on a set of distributed QPUs. We evaluate QVM on IBM's 7- and 27-qubit QPUs. Our evaluation shows that using our system, we can scale the circuit sizes executable on QPUs up to double the size of the QPU while improving fidelity by 4.7$\times$ on average compared to larger QPUs and that we can effectively reduce circuit depths to only 40\% of the original circuit depths.
翻訳日:2024-07-01 10:50:27 公開日:2024-06-28
# CSI4Free: ポース分類改善のためのGAN強化mmWave CSI

CSI4Free: GAN-Augmented mmWave CSI for Improved Pose Classification ( http://arxiv.org/abs/2406.18684v2 )

ライセンス: Link先を確認
Nabeel Nisar Bhat, Rafael Berkvens, Jeroen Famaey, (参考訳) 近年、JC&S(Joint Communication and Sensing)は、特に、ローカライゼーション、ジェスチャー認識、ポーズ分類などの用途に、商用オフ・ザ・シェルフ(COTS)のWi-Fiデバイスを用いたサブ6GHzの周波数の利用において、大きな成功を収めている。 ディープラーニングと大規模な公開データセットの存在は、このような結果を達成する上で重要な役割を担っている。 しかし、より正確なセンシング性能を示すミリ波周波数(30-300GHz)では、COTS Wi-Fiセンシングの分野では顕著な研究の欠如がある。 研究ハードウェアの制限、大規模なデータセットの欠如、COTSハードウェアの機能の制限、データ収集の複雑さといった課題は、この分野を包括的に探究するための障害となっている。 本研究では,合成ミリ波チャネル状態情報(CSI)を生成できる手法を開発することにより,これらの課題に対処することを目的とする。 特に,既存のデータセット上にGAN(Generative Adversarial Network)を使用して,3万以上のCSIサンプルを生成する。 GAN-trainとGAN-testスコアで示されるように、強化されたサンプルは元のデータと顕著な整合性を示す。 さらに、ポーズ分類モデルのトレーニングに強化サンプルを統合する。 拡張サンプルが実際のデータを補完し、分類モデルの一般化を改善することを観察する。

In recent years, Joint Communication and Sensing (JC&S), has demonstrated significant success, particularly in utilizing sub-6 GHz frequencies with commercial-off-the-shelf (COTS) Wi-Fi devices for applications such as localization, gesture recognition, and pose classification. Deep learning and the existence of large public datasets has been pivotal in achieving such results. However, at mmWave frequencies (30-300 GHz), which has shown potential for more accurate sensing performance, there is a noticeable lack of research in the domain of COTS Wi-Fi sensing. Challenges such as limited research hardware, the absence of large datasets, limited functionality in COTS hardware, and the complexities of data collection present obstacles to a comprehensive exploration of this field. In this work, we aim to address these challenges by developing a method that can generate synthetic mmWave channel state information (CSI) samples. In particular, we use a generative adversarial network (GAN) on an existing dataset, to generate 30,000 additional CSI samples. The augmented samples exhibit a remarkable degree of consistency with the original data, as indicated by the notably high GAN-train and GAN-test scores. Furthermore, we integrate the augmented samples in training a pose classification model. We observe that the augmented samples complement the real data and improve the generalization of the classification model.
翻訳日:2024-07-01 10:50:27 公開日:2024-06-28
# 特徴表現がフォトニックニューラルネットワークの精度に及ぼす影響

The Impact of Feature Representation on the Accuracy of Photonic Neural Networks ( http://arxiv.org/abs/2406.18757v2 )

ライセンス: Link先を確認
Mauricio Gomes de Queiroz, Paul Jimenez, Raphael Cardoso, Mateus Vidaletti Costa, Mohab Abdalla, Ian O'Connor, Alberto Bosio, Fabio Pavanello, (参考訳) フォトニックニューラルネットワーク(PNN)は、高並列化、低レイテンシ、エネルギー効率といった可能性から、研究コミュニティにおいて大きな関心を集めている。 PNNは光を用いて計算し、電子回路と比較して実装にいくつかの違いをもたらす。 この符号化プロセスでは、複数の特徴を単一の入力に組み合わせて入力や関連機器の数を減らし、より小さくエネルギー効率の良いPNNを生み出すことが一般的である。 これにより入力データの処理が変更されるが、PNNへの影響は未検討のままである。 本稿では、PNNの性能と学習能力に共通して用いられる符号化戦略が及ぼす影響について考察する。 ここでは,特徴の重要度の概念を用いて,特徴の組み合わせを解析するための数学的方法論を開発する。 この手法により、複数の特徴を1つの入力にまとめて符号化することで、相対的な重要性が決定され、データから学習するネットワークの能力が制限されることを示す。 しかし、データに関するいくつかの事前の知識を考えると、高い精度で利用することもできる。 最適な符号化手法を選択することで、IrisデータセットでトレーニングされたPNNの精度を12.3%向上させ、特徴が組み合わさらないネットワークの性能を上回ります。 これらの知見は、特にサイズや電力制約のあるアプリケーションにおいて、PNNの精度と意思決定戦略に対するエンコーディングを慎重に選択することの重要性を強調している。

Photonic Neural Networks (PNNs) are gaining significant interest in the research community due to their potential for high parallelization, low latency, and energy efficiency. PNNs compute using light, which leads to several differences in implementation when compared to electronics, such as the need to represent input features in the photonic domain before feeding them into the network. In this encoding process, it is common to combine multiple features into a single input to reduce the number of inputs and associated devices, leading to smaller and more energy-efficient PNNs. Although this alters the network's handling of input data, its impact on PNNs remains understudied. This paper addresses this open question, investigating the effect of commonly used encoding strategies that combine features on the performance and learning capabilities of PNNs. Here, using the concept of feature importance, we develop a mathematical methodology for analyzing feature combination. Through this methodology, we demonstrate that encoding multiple features together in a single input determines their relative importance, thus limiting the network's ability to learn from the data. Given some prior knowledge of the data, however, this can also be leveraged for higher accuracy. By selecting an optimal encoding method, we achieve up to a 12.3% improvement in accuracy of PNNs trained on the Iris dataset compared to other encoding techniques, surpassing the performance of networks where features are not combined. These findings highlight the importance of carefully choosing the encoding to the accuracy and decision-making strategies of PNNs, particularly in size or power constrained applications.
翻訳日:2024-07-01 10:50:27 公開日:2024-06-28
# ポリシ・アズ・コードによるエッジクラウドIoTマイクロサービスのセキュア管理に向けて

Towards Secure Management of Edge-Cloud IoT Microservices using Policy as Code ( http://arxiv.org/abs/2406.18813v2 )

ライセンス: Link先を確認
Samodha Pallewatta, Muhammad Ali Babar, (参考訳) IoTアプリケーションプロバイダは、IoTデータを貴重な情報に変換するアプリケーションを開発するために、ますますMicroService Architecture(MSA)を使用している。 マイクロサービスの独立してデプロイ可能でスケーラブルな性質により、さまざまなサービスプロバイダが提供するエッジとクラウドリソースの動的利用が可能になり、パフォーマンスが向上する。 しかし、IoTデータセキュリティは、分散および動的に構成されたマイクロサービス間のマルチドメインデータ処理とトランスミッションの間、確実にする必要がある。 マイクロサービスレベルできめ細かいセキュリティコントロールを実装する能力は、この問題を解決する可能性を秘めている。 この目的のためにエッジクラウド環境は、IoTデータの感度を考慮して、マイクロサービスの管理中にさまざまなセキュリティポリシ(初期配置、スケーリング、マイグレーション、動的構成など)を実行するために、マルチドメイン環境をまたいだ複雑なスケーラブルなセキュリティフレームワークを必要とする。 このようなフレームワークの欠如に対処するために,ポリシ・アズ・コードを使用して,マルチドメインエッジクラウド環境におけるセキュアなマイクロサービス管理を実現するアーキテクチャフレームワークを提案する。 提案されたフレームワークには、“コントロールプレーン”が含まれており、クラウドネイティブ(コンテナオーケストレータとサービスメッシュ)テクノロジをインテリジェントかつ動的に利用して、セキュリティポリシを強制する。 提案されたフレームワークのプロトタイプは、Docker、Kubernetes、Istio、Open Policy Agentといったオープンソースのクラウドネイティブテクノロジを使用して、フレームワークを検証しています。 評価は、提案したフレームワークが分散マイクロサービス管理にセキュリティポリシーを強制する能力を検証する。

IoT application providers increasingly use MicroService Architecture (MSA) to develop applications that convert IoT data into valuable information. The independently deployable and scalable nature of microservices enables dynamic utilization of edge and cloud resources provided by various service providers, thus improving performance. However, IoT data security should be ensured during multi-domain data processing and transmission among distributed and dynamically composed microservices. The ability to implement granular security controls at the microservices level has the potential to solve this. To this end, edge-cloud environments require intricate and scalable security frameworks that operate across multi-domain environments to enforce various security policies during the management of microservices (i.e., initial placement, scaling, migration, and dynamic composition), considering the sensitivity of the IoT data. To address the lack of such a framework, we propose an architectural framework that uses Policy-as-Code to ensure secure microservice management within multi-domain edge-cloud environments. The proposed framework contains a "control plane" to intelligently and dynamically utilise and configure cloud-native (i.e., container orchestrators and service mesh) technologies to enforce security policies. We implement a prototype of the proposed framework using open-source cloud-native technologies such as Docker, Kubernetes, Istio, and Open Policy Agent to validate the framework. Evaluations verify our proposed framework's ability to enforce security policies for distributed microservices management, thus harvesting the MSA characteristics to ensure IoT application security needs.
翻訳日:2024-07-01 10:50:27 公開日:2024-06-28
# Universal Checkpointing: 大規模分散トレーニングのための効率的かつ柔軟なチェックポイント

Universal Checkpointing: Efficient and Flexible Checkpointing for Large Scale Distributed Training ( http://arxiv.org/abs/2406.18820v2 )

ライセンス: Link先を確認
Xinyu Lian, Sam Ade Jacobs, Lev Kurilenko, Masahiro Tanaka, Stas Bekman, Olatunji Ruwase, Minjia Zhang, (参考訳) 既存のチェックポイントアプローチは、ハードウェアの制限によってモデルの並列性、すなわちモデルのスケーリングの要件である複数のアクセラレーター間でモデルの状態をシャーディングするにもかかわらず、分散トレーニングには適していないように思われる。 分散モデル状態の単一チェックポイントへの統合は、トレーニングを許容不可能に遅くし、極端なスケールでは実用的ではない。 対照的に、分散チェックポイントはトレーニングランのモデル並列性とハードウェア構成と密接に結びついているので、異なる構成では使用できない。 この問題に対処するために,任意の並列性戦略とハードウェア構成に基づいて再見積を行う柔軟性を提供しながら,効率的なチェックポイント作成を可能にする手法であるユニバーサルチェックポイントを提案する。 Universal Checkpointingは、健全なハードウェアの継続的なトレーニングを通じてハードウェア障害に対するレジリエンスを改善し、弾力性の活用を通じてトレーニング時間を短縮するなど、大規模なトレーニングのための前例のない能力をアンロックする。 Universal Checkpointingの重要な洞察は、チェックポイントライフサイクルの各フェーズにおける最適な表現の選択である。 これは2つの重要なメカニズムによって達成される。 まず、各モデルパラメータの統一表現とパラメータフラグメントのメタデータを任意のモデル並列構成のトレーニングランクにマッピングするユニバーサルチェックポイント形式について述べる。 第2に、ユニバーサルチェックポイント言語は、分散チェックポイントをユニバーサルチェックポイント形式に変換するための、シンプルだが強力な仕様言語である。 本評価は,最先端のモデルアーキテクチャと多種多様な並列処理技術におけるユニバーサルチェックポイントの有効性と汎用性を示す。

Existing checkpointing approaches seem ill-suited for distributed training even though hardware limitations make model parallelism, i.e., sharding model state across multiple accelerators, a requirement for model scaling. Consolidating distributed model state into a single checkpoint unacceptably slows down training, and is impractical at extreme scales. Distributed checkpoints, in contrast, are tightly coupled to the model parallelism and hardware configurations of the training run, and thus unusable on different configurations. To address this problem, we propose Universal Checkpointing, a technique that enables efficient checkpoint creation while providing the flexibility of resuming on arbitrary parallelism strategy and hardware configurations. Universal Checkpointing unlocks unprecedented capabilities for large-scale training such as improved resilience to hardware failures through continued training on remaining healthy hardware, and reduced training time through opportunistic exploitation of elastic capacity. The key insight of Universal Checkpointing is the selection of the optimal representation in each phase of the checkpointing life cycle: distributed representation for saving, and consolidated representation for loading. This is achieved using two key mechanisms. First, the universal checkpoint format, which consists of a consolidated representation of each model parameter and metadata for mapping parameter fragments into training ranks of arbitrary model-parallelism configuration. Second, the universal checkpoint language, a simple but powerful specification language for converting distributed checkpoints into the universal checkpoint format. Our evaluation demonstrates the effectiveness and generality of Universal Checkpointing on state-of-the-art model architectures and a wide range of parallelism techniques.
翻訳日:2024-07-01 10:50:27 公開日:2024-06-28
# 大規模視線モデルに対するバックドアアタックの再検討

Revisiting Backdoor Attacks against Large Vision-Language Models ( http://arxiv.org/abs/2406.18844v2 )

ライセンス: Link先を確認
Siyuan Liang, Jiawei Liang, Tianyu Pang, Chao Du, Aishan Liu, Ee-Chien Chang, Xiaochun Cao, (参考訳) インストラクションチューニングは、大きな視覚言語モデル(LVLM)を強化するが、オープン性によるバックドア攻撃によるセキュリティリスクを高める。 これまでのバックドア研究は、一貫したトレーニングとテストの指示を伴う囲い込みシナリオに焦点を当てており、攻撃効果に影響を与える可能性のある実践的なドメインギャップを無視している。 本稿では,LVLMの命令チューニングにおけるバックドア攻撃の一般化性を実証的に検討し,実践シナリオにおけるバックドア戦略の限界を明らかにした。 視覚領域オフセットとテキスト領域オフセットの両方を考慮すると、複数のLVLMにまたがるイメージキャプションベンチマークに対する6つの典型的なバックドア攻撃の一般化可能性について定量的に評価する。 その結果, 攻撃の一般化性は, 特定の画像・モデルに関係のないバックドアトリガーと, トリガーパターンの優先的相関に正の相関があることが示唆された。 さらに、上記の主要な観測結果に基づいて既存のバックドア攻撃を修正し、クロスドメインシナリオの一般化可能性(+86%の攻撃成功率)を大幅に改善したことを示す。 特に、命令データセットにアクセスしなくても、マルチモーダル命令セットは、非常に低い毒性率(0.2%)で、97%以上の攻撃成功率を達成することができる。 この論文は、シンプルなバックドア戦略でさえLVLMに深刻な脅威をもたらし、より多くの注意と詳細な研究を必要としていることを強調している。

Instruction tuning enhances large vision-language models (LVLMs) but raises security risks through potential backdoor attacks due to their openness. Previous backdoor studies focus on enclosed scenarios with consistent training and testing instructions, neglecting the practical domain gaps that could affect attack effectiveness. This paper empirically examines the generalizability of backdoor attacks during the instruction tuning of LVLMs for the first time, revealing certain limitations of most backdoor strategies in practical scenarios. We quantitatively evaluate the generalizability of six typical backdoor attacks on image caption benchmarks across multiple LVLMs, considering both visual and textual domain offsets. Our findings indicate that attack generalizability is positively correlated with the backdoor trigger's irrelevance to specific images/models and the preferential correlation of the trigger pattern. Additionally, we modify existing backdoor attacks based on the above key observations, demonstrating significant improvements in cross-domain scenario generalizability (+86% attack success rate). Notably, even without access to the instruction datasets, a multimodal instruction set can be successfully poisoned with a very low poisoning rate (0.2%), achieving an attack success rate of over 97%. This paper underscores that even simple traditional backdoor strategies pose a serious threat to LVLMs, necessitating more attention and in-depth research.
翻訳日:2024-07-01 10:50:27 公開日:2024-06-28
# AlignIT: テキスト-画像モデルのカスタマイズにおけるプロンプトアライメントの強化

AlignIT: Enhancing Prompt Alignment in Customization of Text-to-Image Models ( http://arxiv.org/abs/2406.18893v2 )

ライセンス: Link先を確認
Aishwarya Agarwal, Srikrishna Karanam, Balaji Vasan Srinivasan, (参考訳) ユーザによる参照画像を用いたテキスト・画像拡散モデルのカスタマイズの問題点を考察する。 新しいプロンプトが与えられた場合、既存のメソッドは参照イメージからキーコンセプトをキャプチャできるが、生成されたイメージとプロンプトを一致させることができない。 そこで本研究では,テキストエンコーディングプロセスの中間段階における埋め込み/重みを最適化する既存のカスタマイズ手法と組み合わせて使用可能な新しい手法を提案する。 本論文の最初のコントリビューションは,テキスト・ツー・イメージ・モデルにおける条件付きベクトルにつながる,テキストエンコーディングプロセスの様々な段階の分解である。 既存のカスタマイズ手法を概観し、このプロセスのキーと値の出力が対応するベースラインモデル(例えば、ベースラインの安定拡散)と大きく異なることに気付く。 この違いは、カスタマイズされるコンセプトには影響しないが、生成された画像の他の部分がプロンプトに一致しない。 さらに、これらのキーと値がファイナルジェネレーションの様々な側面を独立に制御し、出力のセマンティックな操作を可能にすることも観察した。 まとめると、これらのキーと値にまたがる機能は、前述の既存のメソッドで問題を修正する次のコントリビューションの基盤として役立ちます。 入力プロンプト内の他のトークンのキーと値が変化しないことを保証しながら、興味概念のキーと値を注入する新しい後処理アルゴリズムAlignITを提案する。 提案手法は,既存のカスタマイズ手法に直接接続することができ,カスタマイズ品質を維持しつつ,入力プロンプトと最終結果の整合性を大幅に向上させることができる。

We consider the problem of customizing text-to-image diffusion models with user-supplied reference images. Given new prompts, the existing methods can capture the key concept from the reference images but fail to align the generated image with the prompt. In this work, we seek to address this key issue by proposing new methods that can easily be used in conjunction with existing customization methods that optimize the embeddings/weights at various intermediate stages of the text encoding process. The first contribution of this paper is a dissection of the various stages of the text encoding process leading up to the conditioning vector for text-to-image models. We take a holistic view of existing customization methods and notice that key and value outputs from this process differs substantially from their corresponding baseline (non-customized) models (e.g., baseline stable diffusion). While this difference does not impact the concept being customized, it leads to other parts of the generated image not being aligned with the prompt. Further, we also observe that these keys and values allow independent control various aspects of the final generation, enabling semantic manipulation of the output. Taken together, the features spanning these keys and values, serve as the basis for our next contribution where we fix the aforementioned issues with existing methods. We propose a new post-processing algorithm, AlignIT, that infuses the keys and values for the concept of interest while ensuring the keys and values for all other tokens in the input prompt are unchanged. Our proposed method can be plugged in directly to existing customization methods, leading to a substantial performance improvement in the alignment of the final result with the input prompt while retaining the customization quality.
翻訳日:2024-07-01 10:50:27 公開日:2024-06-28
# マニピュレーション・アニーシング:視覚言語モデルを用いた実世界ロボットの自動化

Manipulate-Anything: Automating Real-World Robots using Vision-Language Models ( http://arxiv.org/abs/2406.18915v2 )

ライセンス: Link先を確認
Jiafei Duan, Wentao Yuan, Wilbert Pumacay, Yi Ru Wang, Kiana Ehsani, Dieter Fox, Ranjay Krishna, (参考訳) RT-1のような大規模な取り組みやOpen-X-Embodimentのような幅広いコミュニティの取り組みは、ロボットのデモデータの拡大に寄与している。 しかし、ロボットのデモデータの質、量、多様性を改善する機会はまだ残っている。 視覚言語モデルは、デモデータを自動的に生成することが示されているが、そのユーティリティは特権のある状態情報を持つ環境に限られており、手書きのスキルを必要とし、少数のオブジェクトインスタンスとのインタラクションに限られている。 実世界のロボット操作のためのスケーラブルな自動生成手法であるManipulate-Anythingを提案する。 従来の作業とは異なり,本手法は特権状態情報や手書きのスキルを使わずに実環境でも動作可能であり,静的オブジェクトを操作できる。 提案手法を2つの設定を用いて評価する。 第一に、Manipulate-Anythingは実世界の5つのタスクと12のシミュレーションタスクの軌跡をうまく生成し、VoxPoserのような既存の手法を著しく上回っている。 第2に、Manipulate-Anything氏のデモは、人間のデモを使用したトレーニングや、VoxPoserやCode-As-Policiesによって生成されたデータから、より堅牢な行動クローンポリシーをトレーニングすることができる。 ロボット工学のためのデータ生成と、ゼロショット設定で新しいタスクを解くためのスケーラブルな方法として、Manipulate-Anythingが有効であると考えています。

Large-scale endeavors like RT-1 and widespread community efforts such as Open-X-Embodiment have contributed to growing the scale of robot demonstration data. However, there is still an opportunity to improve the quality, quantity, and diversity of robot demonstration data. Although vision-language models have been shown to automatically generate demonstration data, their utility has been limited to environments with privileged state information, they require hand-designed skills, and are limited to interactions with few object instances. We propose Manipulate-Anything, a scalable automated generation method for real-world robotic manipulation. Unlike prior work, our method can operate in real-world environments without any privileged state information, hand-designed skills, and can manipulate any static object. We evaluate our method using two setups. First, Manipulate-Anything successfully generates trajectories for all 5 real-world and 12 simulation tasks, significantly outperforming existing methods like VoxPoser. Second, Manipulate-Anything's demonstrations can train more robust behavior cloning policies than training with human demonstrations, or from data generated by VoxPoser and Code-As-Policies. We believe Manipulate-Anything can be the scalable method for both generating data for robotics and solving novel tasks in a zero-shot setting.
翻訳日:2024-07-01 10:50:27 公開日:2024-06-28
# AnyControl: テキストから画像生成へのVersatileコントロールによるアートワークの作成

AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation ( http://arxiv.org/abs/2406.18958v2 )

ライセンス: Link先を確認
Yanan Sun, Yanchen Liu, Yinhao Tang, Wenjie Pei, Kai Chen, (参考訳) テキスト・ツー・イメージ(T2I)生成の分野は近年,拡散モデルの発展によって大きく進歩している。 言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。 この課題は、深度マップやエッジマップなどの追加のユーザ供給空間条件を、余分なエンコーディングを通じて事前訓練されたT2Iモデルに組み込むことによって、かなり研究されている。 しかし、マルチコントロール画像合成は依然としていくつかの課題に直面している。 特に、現在のアプローチは、多様な入力制御信号の自由結合を扱い、複数の空間的条件の間の複雑な関係を見落とし、提供されたテキストプロンプトで意味的アライメントを維持するのに失敗する。 これは、最適以下のユーザー体験につながる可能性がある。 これらの課題に対処するために,多様な制御信号の任意の組み合わせをサポートするマルチコントロール画像合成フレームワークであるAnyControlを提案する。 AnyControlは、生成プロセスを導くために、統一されたマルチモーダル埋め込みを抽出する、新しいマルチコントロルエンコーダを開発する。 このアプローチは、ユーザ入力の全体的理解を可能にし、広範囲な量的および定性的な評価によって示されるように、多元的制御信号の下で高品質で忠実な結果を生成する。 プロジェクトのページはhttps://any-control.github.io.comで公開されている。

The field of text-to-image (T2I) generation has made significant progress in recent years, largely driven by advancements in diffusion models. Linguistic control enables effective content creation, but struggles with fine-grained control over image generation. This challenge has been explored, to a great extent, by incorporating additional user-supplied spatial conditions, such as depth maps and edge maps, into pre-trained T2I models through extra encoding. However, multi-control image synthesis still faces several challenges. Specifically, current approaches are limited in handling free combinations of diverse input control signals, overlook the complex relationships among multiple spatial conditions, and often fail to maintain semantic alignment with provided textual prompts. This can lead to suboptimal user experiences. To address these challenges, we propose AnyControl, a multi-control image synthesis framework that supports arbitrary combinations of diverse control signals. AnyControl develops a novel Multi-Control Encoder that extracts a unified multi-modal embedding to guide the generation process. This approach enables a holistic understanding of user inputs, and produces high-quality, faithful results under versatile control signals, as demonstrated by extensive quantitative and qualitative evaluations. Our project page is available in https://any-control.github.io.
翻訳日:2024-07-01 10:50:27 公開日:2024-06-28
# UniGen: 大規模言語モデルを用いたテキストデータセット生成のための統一フレームワーク

UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models ( http://arxiv.org/abs/2406.18966v2 )

ライセンス: Link先を確認
Siyuan Wu, Yue Huang, Chujie Gao, Dongping Chen, Qihui Zhang, Yao Wan, Tianyi Zhou, Xiangliang Zhang, Jianfeng Gao, Chaowei Xiao, Lichao Sun, (参考訳) GPT-4やLlama3のような大規模言語モデル(LLM)は、高品質な合成データ生成を可能にし、高価な人為的なデータセットへの依存を減らすことで、様々な分野に大きな影響を与えている。 それにもかかわらず、課題は、既存の生成フレームワークにおける一般化、制御可能性、多様性、真実性の領域に留まっている。 これらの課題に対処するため,本論文では,多種多様で正確かつ高度に制御可能なデータセットを生成するために設計された,総合的なLLMフレームワークであるUniGenを提案する。 UniGenは適応可能で、すべてのタイプのテキストデータセットをサポートし、革新的なメカニズムを通じて生成プロセスを強化する。 データ多様性を強化するため、UniGenは属性誘導生成モジュールとグループチェック機能を備えている。 精度向上のために、コードベースの数学的評価をラベル検証に使用し、検索拡張生成技術と併用して、事実検証を行う。 フレームワークはまた、特定の要求に合ったデータ生成プロセスのカスタマイズを可能にする、ユーザ指定の制約を可能にする。 大規模な実験では、UniGenが生成したデータの優れた品質を示し、UniGen内の各モジュールはこの拡張において重要な役割を果たす。 さらに、UniGenはLLMのベンチマークとデータ拡張という2つの実践シナリオに適用されている。 その結果、UniGenは動的および進化的なベンチマークを効果的にサポートし、データ拡張はエージェント指向能力や推論スキルなど、さまざまな領域におけるLLM能力を向上することが示された。

Large Language Models (LLMs) such as GPT-4 and Llama3 have significantly impacted various fields by enabling high-quality synthetic data generation and reducing dependence on expensive human-generated datasets. Despite this, challenges remain in the areas of generalization, controllability, diversity, and truthfulness within the existing generative frameworks. To address these challenges, this paper presents UniGen, a comprehensive LLM-powered framework designed to produce diverse, accurate, and highly controllable datasets. UniGen is adaptable, supporting all types of text datasets and enhancing the generative process through innovative mechanisms. To augment data diversity, UniGen incorporates an attribute-guided generation module and a group checking feature. For accuracy, it employs a code-based mathematical assessment for label verification alongside a retrieval-augmented generation technique for factual validation. The framework also allows for user-specified constraints, enabling customization of the data generation process to suit particular requirements. Extensive experiments demonstrate the superior quality of data generated by UniGen, and each module within UniGen plays a critical role in this enhancement. Additionally, UniGen is applied in two practical scenarios: benchmarking LLMs and data augmentation. The results indicate that UniGen effectively supports dynamic and evolving benchmarking, and that data augmentation improves LLM capabilities in various domains, including agent-oriented abilities and reasoning skills.
翻訳日:2024-07-01 10:50:27 公開日:2024-06-28
# FAGhead:モノクロビデオで見るガウシアンな顔

FAGhead: Fully Animate Gaussian Head from Monocular Videos ( http://arxiv.org/abs/2406.19070v2 )

ライセンス: Link先を確認
Yixin Xuan, Xinyang Li, Gongxin Yao, Shiwei Zhou, Donghui Sun, Xiaoxin Chen, Yu Pan, (参考訳) 3次元人間のアバターの高忠実な再構成は、視覚的現実に野生の応用をもたらす。 本稿では,モノクロ映像から人間の肖像画を完全に制御できるFAGheadを紹介する。 従来の3次元形状メッシュ(3DMM)を明示し,中性な3次元ガウス多様体を複素表現で再構成するために最適化する。 さらに,学習可能なガウス点位置を持つポイントベース学習可能表現場 (PLRF) を用いて再構成性能を向上させる。 一方,アバターのエッジを効果的に管理するために,各画素のアルファ値を監督するアルファレンダリングを導入した。 オープンソースデータセットとキャプチャデータセットの大規模な実験結果から、我々のアプローチは高忠実度3Dヘッドアバターを生成し、既存の作業よりも優れた仮想アバターの表現とポーズを完全に制御できることを示した。

High-fidelity reconstruction of 3D human avatars has a wild application in visual reality. In this paper, we introduce FAGhead, a method that enables fully controllable human portraits from monocular videos. We explicit the traditional 3D morphable meshes (3DMM) and optimize the neutral 3D Gaussians to reconstruct with complex expressions. Furthermore, we employ a novel Point-based Learnable Representation Field (PLRF) with learnable Gaussian point positions to enhance reconstruction performance. Meanwhile, to effectively manage the edges of avatars, we introduced the alpha rendering to supervise the alpha value of each pixel. Extensive experimental results on the open-source datasets and our capturing datasets demonstrate that our approach is able to generate high-fidelity 3D head avatars and fully control the expression and pose of the virtual avatars, which is outperforming than existing works.
翻訳日:2024-07-01 10:50:27 公開日:2024-06-28
# RuBLiMP:ロシア、言語学的最小のペアのベンチマークを実施

RuBLiMP: Russian Benchmark of Linguistic Minimal Pairs ( http://arxiv.org/abs/2406.19232v2 )

ライセンス: Link先を確認
Ekaterina Taktasheva, Maxim Bazhukov, Kirill Koncha, Alena Fenogenova, Ekaterina Artemova, Vladislav Mikhailov, (参考訳) 最小ペアは言語モデルの文法的知識を評価するための確立されたアプローチである。 しかし、最小のペアのための既存のリソースは、限られた数の言語に対処し、言語固有の文法現象の多様性を欠いている。 本稿では, 文法的, 構文的, 意味的現象を分離し, 文法的に異なる45k対の文を含むロシア語の言語最小ペアのベンチマーク(RuBLiMP)を紹介する。 既存の言語最小ペアのベンチマークとは対照的に、RuBLiMPはオープンテキストコーパスから自動的に注釈付き文に言語摂動を適用し、テストデータを慎重にキュレートすることで生成される。 本稿では,データ収集プロトコルについて述べるとともに,様々なシナリオにおける25の言語モデルの評価結果を示す。 ロシア語の言語モデルは, 構造的・合意的コントラストに敏感であるが, 構造的関係, 否定, 推移性, 時制の理解を必要とする現象に人間に遅れがあることが判明した。 RuBLiMP、コードベース、その他の資料が公開されている。

Minimal pairs are a well-established approach to evaluating the grammatical knowledge of language models. However, existing resources for minimal pairs address a limited number of languages and lack diversity of language-specific grammatical phenomena. This paper introduces the Russian Benchmark of Linguistic Minimal Pairs (RuBLiMP), which includes 45k pairs of sentences that differ in grammaticality and isolate a morphological, syntactic, or semantic phenomenon. In contrast to existing benchmarks of linguistic minimal pairs, RuBLiMP is created by applying linguistic perturbations to automatically annotated sentences from open text corpora and carefully curating test data. We describe the data collection protocol and present the results of evaluating 25 language models in various scenarios. We find that the widely used language models for Russian are sensitive to morphological and agreement-oriented contrasts but fall behind humans on phenomena requiring understanding of structural relations, negation, transitivity, and tense. RuBLiMP, the codebase, and other materials are publicly available.
翻訳日:2024-07-01 10:50:27 公開日:2024-06-28
# FlowVQA:フローチャートを用いた視覚質問応答におけるマルチモーダル論理のマッピング

FlowVQA: Mapping Multimodal Logic in Visual Question Answering with Flowcharts ( http://arxiv.org/abs/2406.19237v2 )

ライセンス: Link先を確認
Shubhankar Singh, Purvi Chaurasia, Yerram Varun, Pranshu Pandya, Vatsal Gupta, Vivek Gupta, Dan Roth, (参考訳) 既存の視覚的質問応答のベンチマークでは、特に空間的推論スキルの評価において、視覚的根拠と複雑さが欠如している。 本稿では,フローチャートを視覚的文脈とする視覚質問応答型マルチモーダル言語モデルの性能評価を目的とした,新しいベンチマークであるFlowVQAを紹介する。 FlowVQAは、情報ローカライゼーション、意思決定、論理的進行を含む推論タスクのスペクトルをテストするために、3つの異なるコンテンツソースから2,272個の慎重に生成された、人間検証されたフローチャートイメージと、22,413個の多様な質問応答ペアからなる。 我々は、様々な戦略を用いて、オープンソースおよびプロプライエタリなマルチモーダル言語モデルのスイートに対して、徹底的なベースライン評価を行い、次いで指向性バイアスの分析を行う。 この結果は、マルチモーダルモデリングの分野を前進させる重要なツールとしてのベンチマークの可能性を強調し、視覚的および論理的推論タスクにおけるモデルパフォーマンスを向上させるための集中的で挑戦的な環境を提供する。

Existing benchmarks for visual question answering lack in visual grounding and complexity, particularly in evaluating spatial reasoning skills. We introduce FlowVQA, a novel benchmark aimed at assessing the capabilities of visual question-answering multimodal language models in reasoning with flowcharts as visual contexts. FlowVQA comprises 2,272 carefully generated and human-verified flowchart images from three distinct content sources, along with 22,413 diverse question-answer pairs, to test a spectrum of reasoning tasks, including information localization, decision-making, and logical progression. We conduct a thorough baseline evaluation on a suite of both open-source and proprietary multimodal language models using various strategies, followed by an analysis of directional bias. The results underscore the benchmark's potential as a vital tool for advancing the field of multimodal modeling, providing a focused and challenging environment for enhancing model performance in visual and logical reasoning tasks.
翻訳日:2024-07-01 10:50:27 公開日:2024-06-28
# LiverUSRecon : 超音波検査による肝の3次元自動再建と体積測定

LiverUSRecon: Automatic 3D Reconstruction and Volumetry of the Liver with a Few Partial Ultrasound Scans ( http://arxiv.org/abs/2406.19336v2 )

ライセンス: Link先を確認
Kaushalya Sivayogaraj, Sahan T. Guruge, Udari Liyanage, Jeevani Udupihille, Saroj Jayasinghe, Gerard Fernando, Ranga Rodrigo, M. Rukshani Liyanaarachchi, (参考訳) 質的解析と疾患診断には肝の3次元再構築が重要である。 超音波(US)スキャンを用いた肝容積検査は、取得時間と安全性が低いため有利であるが、USスキャンの本質的なノイズ、ぼやけた境界、部分的な肝可視性により困難である。 肝のCTスキャンを用いて構築した統計的形状モデル (SSM) と合わせて, 肝の非完全矢状面USスキャンのセグメンテーションマスクを用いて, これらの課題に対処する。 我々は、この標準SSMを演算し、パラメトリック回帰ネットワークを介してUSスキャンに適合させるために必要な形状パラメータを計算した。 3次元肝再建は正確であり,自動肝体積計算に繋がる。 RMSEを用いてCTの分画量に対する肝体積推定値の精度を評価した。 p-value of 0.094 (>0.05) says that no significant difference between CT segmentation volume and ours in contrast with Childs' method。 我々は,US画像の解像度,SSMに使用されるCTスキャン数,主成分数,US画像の入力数に関する調査(アブレーション研究)を用いて,本手法を検証した。 我々の知る限り、これはSSM用の肝臓のCTスキャンを施した、いくつかの不完全なUSスキャンを用いた初めての自動肝容積検査システムである。

3D reconstruction of the liver for volumetry is important for qualitative analysis and disease diagnosis. Liver volumetry using ultrasound (US) scans, although advantageous due to less acquisition time and safety, is challenging due to the inherent noisiness in US scans, blurry boundaries, and partial liver visibility. We address these challenges by using the segmentation masks of a few incomplete sagittal-plane US scans of the liver in conjunction with a statistical shape model (SSM) built using a set of CT scans of the liver. We compute the shape parameters needed to warp this canonical SSM to fit the US scans through a parametric regression network. The resulting 3D liver reconstruction is accurate and leads to automatic liver volume calculation. We evaluate the accuracy of the estimated liver volumes with respect to CT segmentation volumes using RMSE. Our volume computation is statistically much closer to the volume estimated using CT scans than the volume computed using Childs' method by radiologists: p-value of 0.094 (>0.05) says that there is no significant difference between CT segmentation volumes and ours in contrast to Childs' method. We validate our method using investigations (ablation studies) on the US image resolution, the number of CT scans used for SSM, the number of principal components, and the number of input US scans. To the best of our knowledge, this is the first automatic liver volumetry system using a few incomplete US scans given a set of CT scans of livers for SSM.
翻訳日:2024-07-01 10:50:27 公開日:2024-06-28
# SimTxtSeg: シンプルテキストキューによる医療画像の断片化

SimTxtSeg: Weakly-Supervised Medical Image Segmentation with Simple Text Cues ( http://arxiv.org/abs/2406.19364v2 )

ライセンス: Link先を確認
Yuxin Xie, Tao Zhou, Yi Zhou, Geng Chen, (参考訳) 重度管理された医用画像のセグメンテーションは、セグメンテーション性能を維持しつつ、アノテーションコストを削減することを目的とした課題である。 本稿では,単純なテキストキューを活用して高品質な擬似ラベルを生成する新しいフレームワーク,SimTxtSegを提案し,訓練セグメンテーションモデルにおけるクロスモーダル融合を同時に研究する。 提案するコントリビューションは,医用画像上のテキストプロンプトから視覚的プロンプトを生成するテキスト・ツー・ビジュアル・キュー・コンバータと,テキストと画像の特徴を融合したテキスト・ビジョン・ハイブリッド・アテンションを用いたテキスト誘導セグメンテーション・モデルである。 我々は,大腸ポリープ・セグメンテーションとMRI脳腫瘍セグメンテーションという2つの医療画像セグメンテーションの枠組みを評価し,一貫した最先端性能を実現する。

Weakly-supervised medical image segmentation is a challenging task that aims to reduce the annotation cost while keep the segmentation performance. In this paper, we present a novel framework, SimTxtSeg, that leverages simple text cues to generate high-quality pseudo-labels and study the cross-modal fusion in training segmentation models, simultaneously. Our contribution consists of two key components: an effective Textual-to-Visual Cue Converter that produces visual prompts from text prompts on medical images, and a text-guided segmentation model with Text-Vision Hybrid Attention that fuses text and image features. We evaluate our framework on two medical image segmentation tasks: colonic polyp segmentation and MRI brain tumor segmentation, and achieve consistent state-of-the-art performance.
翻訳日:2024-07-01 10:50:27 公開日:2024-06-28