このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240619となっている論文です。

PDF登録状況(公開日: 20240619)

TitleAuthorsAbstract論文公表日・翻訳日
# MUSE:U-Net音声強調のためのフレキシブル音声プリント受信場とマルチパス融合型テイラー変換器

MUSE: Flexible Voiceprint Receptive Fields and Multi-Path Fusion Enhanced Taylor Transformer for U-Net-based Speech Enhancement ( http://arxiv.org/abs/2406.04589v2 )

ライセンス: Link先を確認
Zizhen Lin, Xiaoting Chen, Junyu Wang, (参考訳) 軽量設計とハイパフォーマンスのバランスを取ることは、音声強調の難しい課題である。 本稿では,Unetアーキテクチャ上に構築された軽量音声強調ネットワークであるMUSE (Multi-path Enhanced Taylor) Transformerについて述べる。 提案手法は,Deformable Embedding (DE) を組み込んだ新しいMulti-path Enhanced Taylor (MET) Transformer Blockを導入し,音声プリントの柔軟な受容場を実現する。 MET Transformerは、チャンネル情報交換を容易にし、Taylor-Transformerフレームワーク内の空間的注意欠陥に対応するために、CSA(Channel and Space Attention)ブランチを融合させるように設計されている。 VoiceBank+DEMANDデータセットで実施された広範な実験を通じて、MUSEは、トレーニングとデプロイメントの両方のコストを大幅に削減しつつ、競争性能を達成し、わずか0.01Mのパラメータを誇っていることを実証した。

Achieving a balance between lightweight design and high performance remains a challenging task for speech enhancement. In this paper, we introduce Multi-path Enhanced Taylor (MET) Transformer based U-net for Speech Enhancement (MUSE), a lightweight speech enhancement network built upon the Unet architecture. Our approach incorporates a novel Multi-path Enhanced Taylor (MET) Transformer block, which integrates Deformable Embedding (DE) to enable flexible receptive fields for voiceprints. The MET Transformer is uniquely designed to fuse Channel and Spatial Attention (CSA) branches, facilitating channel information exchange and addressing spatial attention deficits within the Taylor-Transformer framework. Through extensive experiments conducted on the VoiceBank+DEMAND dataset, we demonstrate that MUSE achieves competitive performance while significantly reducing both training and deployment costs, boasting a mere 0.51M parameters.
翻訳日:2024-08-05 01:55:24 公開日:2024-06-19
# 高校生の時間表への個人性の導入

Introducing Individuality into Students' High School Timetables ( http://arxiv.org/abs/2407.16898v1 )

ライセンス: Link先を確認
Andreas Krystallidis, Rubén Ruiz-Torrubiano, (参考訳) 完璧な世界では、各高校生は、それぞれの強み、弱点、好奇心をサポートするパーソナライズされたタイムテーブルを通じて、自分の興味を追求することができる。 最近の研究では、学校システムはカリキュラムのモジュラリティを強化することでこれらの発展を支援するために進化していることが示されているが、そのようなシステムの完全な成功を防ぐハードルがしばしばある:スケジューリングプロセスは複雑すぎる。 タイムテーブルのスケジュールを効果的に支援するツールはたくさんあるが、学生を個別に扱うのではなく、同じ関心を持つグループやクラスに配置することが多い。 本稿では,学生個人の選択をモデル化するための2つの新しい制約と,それらから生じるグループ形成の要件を付加する,人気のあるXHSTTフレームワークの拡張を提案する。 これら2つの制約は、ヨーロッパ6カ国の学校管理者と他の学校タイムタリングの専門家との広範なインタビューを通じて特定された。 そこで本研究では,ドイツの学校における実世界の実例に対して,対応するILP定式化を提案し,最初の最適化結果を示す。

In a perfect world, each high school student could pursue their interests through a personalized timetable that supports their strengths, weaknesses, and curiosities. While recent research has shown that school systems are evolving to support those developments by strengthening modularity in their curricula, there is often a hurdle that prevents the complete success of such a system: the scheduling process is too complex. While there are many tools that assist with scheduling timetables in an effective way, they usually arrange students into groups and classes with similar interests instead of handling each student individually. In this paper, we propose an extension of the popular XHSTT framework that adds two new constraints to model the individual student choices as well as the requirements for group formation that arise from them. Those two constraints were identified through extensive interviews with school administrators and other school timetabling experts from six European countries. We propose a corresponding ILP formulation and show first optimization results for real-world instances from schools in Germany.
翻訳日:2024-08-05 01:45:45 公開日:2024-06-19
# GPT-4は意識的か?

Is GPT-4 conscious? ( http://arxiv.org/abs/2407.09517v1 )

ライセンス: Link先を確認
Izak Tait, Joshua Bensemann, Ziqi Wang, (参考訳) GPT-4は、しばしば商業的なAI製品として宣伝されており、人工知能への足掛かりとしての可能性についての議論を巻き起こしている。 しかし、それは意識を持っているだろうか? 本稿では,ビルディングブロック理論の9つの質的測定値を用いて,この重要な問題について考察する。 GPT-4の設計、アーキテクチャ、実装は、GPT-4が意識的に分類されるために必要なマイルストーンを達成したかどうかを決定するために、それぞれの意識の構成要素と比較される。 我々の評価では、GPT-4は現時点では意識的ではないが、現在の技術研究と開発は、GPT-4をすべての意識の構成要素に修正するのに十分である。 その結果、意識的なAIモデルの出現は、近い将来に可能であると論じる。 この論文は、工学的意識を持つAIエンティティの倫理的意味と社会的影響に関する包括的な議論で締めくくっている。

GPT-4 is often heralded as a leading commercial AI offering, sparking debates over its potential as a steppingstone toward artificial general intelligence. But does it possess consciousness? This paper investigates this key question using the nine qualitative measurements of the Building Blocks theory. GPT-4's design, architecture and implementation are compared to each of the building blocks of consciousness to determine whether it has achieved the requisite milestones to be classified as conscious or, if not, how close to consciousness GPT-4 is. Our assessment is that, while GPT-4 in its native configuration is not currently conscious, current technological research and development is sufficient to modify GPT-4 to have all the building blocks of consciousness. Consequently, we argue that the emergence of a conscious AI model is plausible in the near term. The paper concludes with a comprehensive discussion of the ethical implications and societal ramifications of engineering conscious AI entities.
翻訳日:2024-07-22 13:28:38 公開日:2024-06-19
# 畳み込みニューラルネットワークを用いたフラクショントポロジカルデータ解析に関する研究

Research on fusing topological data analysis with convolutional neural network ( http://arxiv.org/abs/2407.09518v1 )

ライセンス: Link先を確認
Yang Han, Qin Guangjun, Liu Ziyuan, Hu Yongqing, Liu Guangnan, Dai Qinglong, (参考訳) 畳み込みニューラルネットワーク(CNN)は、複雑な高次元データの多次元構造情報を捉えるのに苦労し、特徴学習能力を制限する。 本稿では,TDA(Topological Data Analysis)とCNN(TDA-CNN)に基づく特徴融合手法を提案する。 本手法は,CNNが取得した数値分布特徴とTDAが取得した位相構造特徴を組み合わせることで,CNNの特徴学習と表現能力を向上させる。 TDA-CNNは特徴抽出をCNNチャネルとTDAチャネルに分割する。 CNNチャネルは数値分布特徴を抽出し、TDAチャネルは位相構造特徴を抽出する。 2種類の特徴は統合された特徴表現を形成するために融合され、各特徴の重みは注意機構を通じて適応的に学習される。 Intel Image, Gender Images, Chinese Calligraphy Styles by Calligraphersなどのデータセットに対する実験的検証では、TDA-CNNはVGG16, DenseNet121, GoogleNetネットワークのパフォーマンスをそれぞれ17.5%、7.11%、そして4.45%改善している。 TDA-CNNは、改善された機能クラスタリングと重要な機能を認識する能力を示す。 これにより、モデルの意思決定能力が効果的に向上する。

Convolutional Neural Network (CNN) struggle to capture the multi-dimensional structural information of complex high-dimensional data, which limits their feature learning capability. This paper proposes a feature fusion method based on Topological Data Analysis (TDA) and CNN, named TDA-CNN. This method combines numerical distribution features captured by CNN with topological structure features captured by TDA to improve the feature learning and representation ability of CNN. TDA-CNN divides feature extraction into a CNN channel and a TDA channel. CNN channel extracts numerical distribution features, and the TDA channel extracts topological structure features. The two types of features are fused to form a combined feature representation, with the importance weights of each feature adaptively learned through an attention mechanism. Experimental validation on datasets such as Intel Image, Gender Images, and Chinese Calligraphy Styles by Calligraphers demonstrates that TDA-CNN improves the performance of VGG16, DenseNet121, and GoogleNet networks by 17.5%, 7.11%, and 4.45%, respectively. TDA-CNN demonstrates improved feature clustering and the ability to recognize important features. This effectively enhances the model's decision-making ability.
翻訳日:2024-07-22 13:28:38 公開日:2024-06-19
# GPT-4oを剣に当てる:言語・視覚・音声・マルチモーダル能の総合的評価

Putting GPT-4o to the Sword: A Comprehensive Evaluation of Language, Vision, Speech, and Multimodal Proficiency ( http://arxiv.org/abs/2407.09519v1 )

ライセンス: Link先を確認
Sakib Shahriar, Brady Lund, Nishith Reddy Mannuru, Muhammad Arbab Arshad, Kadhim Hayawi, Ravi Varma Kumar Bevara, Aashrith Mannuru, Laiba Batool, (参考訳) 大規模言語モデル(LLM)が進歩を続けるにつれ、様々な分野のアプリケーションにおいて、それらの包括的な能力を評価することが重要になる。 本研究は, GPT-4oの言語, 視覚, 音声, マルチモーダル能力を包括的に評価する。 この研究では、モデルの言語能力を評価するために、標準化された試験質問、推論タスク、翻訳アセスメントが採用されている。 さらに、GPT-4oの視覚と音声の能力は、画像分類とオブジェクト認識タスク、アクセント分類によって検証される。 マルチモーダル評価は、視覚データと言語データを統合する際のモデルの性能を評価する。 その結果, GPT-4oは, 言語と推論能力の複数の領域にまたがって高い精度と効率を示し, ほとんどショット学習を必要とするタスクに優れていた。 GPT-4oは、前機種と比較して、マルチモーダルタスクの顕著な改善も提供する。 しかし、モデルは可変性を示し、特にオーディオや視覚能力において、複雑で曖昧な入力を扱う際の制限に直面している。 本稿では,人間の判断と誤り分析を含む質的評価を含む,より包括的なベンチマークとロバストな評価フレームワークの必要性を強調した。 今後の作業は、データセットの拡張、プロンプトベースのアセスメントの調査、および実際のシナリオにおけるモデルの実用的な適用性とパフォーマンスをテストするための数ショットの学習テクニックの強化に重点を置くべきである。

As large language models (LLMs) continue to advance, evaluating their comprehensive capabilities becomes significant for their application in various fields. This research study comprehensively evaluates the language, vision, speech, and multimodal capabilities of GPT-4o. The study employs standardized exam questions, reasoning tasks, and translation assessments to assess the model's language capability. Additionally, GPT-4o's vision and speech capabilities are tested through image classification and object recognition tasks, as well as accent classification. The multimodal evaluation assesses the model's performance in integrating visual and linguistic data. Our findings reveal that GPT-4o demonstrates high accuracy and efficiency across multiple domains in language and reasoning capabilities, excelling in tasks that require few-shot learning. GPT-4o also provides notable improvements in multimodal tasks compared to its predecessors. However, the model shows variability and faces limitations in handling complex and ambiguous inputs, particularly in audio and vision capabilities. This paper highlights the need for more comprehensive benchmarks and robust evaluation frameworks, encompassing qualitative assessments involving human judgment as well as error analysis. Future work should focus on expanding datasets, investigating prompt-based assessment, and enhancing few-shot learning techniques to test the model's practical applicability and performance in real-world scenarios.
翻訳日:2024-07-22 13:28:38 公開日:2024-06-19
# ハンドポケットとシャドーが手洗い行動認識に及ぼす影響を探る

Exploring the Impact of Hand Pose and Shadow on Hand-washing Action Recognition ( http://arxiv.org/abs/2407.09520v1 )

ライセンス: Link先を確認
Shengtai Ju, Amy R. Reibman, (参考訳) 現実の世界では、カメラベースのアプリケーションシステムは、環境要因や分散シフトなど、多くの課題に直面します。 本稿では,手洗い動作認識の特定の応用を用いて,ポーズと影が分類器の性能に与える影響について検討する。 これを実現するために、所望のバリエーションを持つ合成データを生成し、制御分布シフトを導入する。 合成データセットを用いて、分類器の分解点をシステムの性能が急激に低下し始める場所と定義し、それらがポーズやシャドウ条件に大きく影響していることを示します。 特に、より重い大きな影は、初期のブレークポイントを生み出します。 また、モデル精度がほぼゼロに低下し、ポーズが大きく変化するのを観察するのも興味深い。 さらに,ノンカノニカルなポーズから追加のトレーニングデータを活用することで,ポーズ誘発分解点の簡易緩和戦略を提案する。 その結果,50-60度回転する正準ポーズから適度に逸脱したポーズを選択できることが示唆された。

In the real world, camera-based application systems can face many challenges, including environmental factors and distribution shift. In this paper, we investigate how pose and shadow impact a classifier's performance, using the specific application of handwashing action recognition. To accomplish this, we generate synthetic data with desired variations to introduce controlled distribution shift. Using our synthetic dataset, we define a classifier's breakdown points to be where the system's performance starts to degrade sharply, and we show these are heavily impacted by pose and shadow conditions. In particular, heavier and larger shadows create earlier breakdown points. Also, it is intriguing to observe model accuracy drop to almost zero with bigger changes in pose. Moreover, we propose a simple mitigation strategy for pose-induced breakdown points by utilizing additional training data from non-canonical poses. Results show that the optimal choices of additional training poses are those with moderate deviations from the canonical poses with 50-60 degrees of rotation.
翻訳日:2024-07-22 13:28:38 公開日:2024-06-19
# 機械学習のためのデータ収集とラベル付け技術

Data Collection and Labeling Techniques for Machine Learning ( http://arxiv.org/abs/2407.12793v1 )

ライセンス: Link先を確認
Qianyu Huang, Tongfang Zhao, (参考訳) データ収集とラベル付けは、機械学習アプリケーションのデプロイにおいて重要なボトルネックである。 アプリケーションの複雑さと多様性の増大により、効率的でスケーラブルなデータ収集とラベル付け技術の必要性が最重要になっている。 本稿では,データ収集,データラベリング,既存データおよびモデルの改良における最先端手法について概説する。 機械学習とデータ管理の両コミュニティの視点を統合することで、現在の景観の全体像を提供し、今後の研究方向性を明らかにすることを目指している。

Data collection and labeling are critical bottlenecks in the deployment of machine learning applications. With the increasing complexity and diversity of applications, the need for efficient and scalable data collection and labeling techniques has become paramount. This paper provides a review of the state-of-the-art methods in data collection, data labeling, and the improvement of existing data and models. By integrating perspectives from both the machine learning and data management communities, we aim to provide a holistic view of the current landscape and identify future research directions.
翻訳日:2024-07-22 08:57:39 公開日:2024-06-19
# Equality Saturationによるグラフの書き直しの学習 - リレーショナルクエリの書き直しとそれ以上の新しいパラダイム

Learned Graph Rewriting with Equality Saturation: A New Paradigm in Relational Query Rewrite and Beyond ( http://arxiv.org/abs/2407.12794v1 )

ライセンス: Link先を確認
George-Octavian Bărbulescu, Taiyi Wang, Zak Singh, Eiko Yoneki, (参考訳) クエリ書き換えシステムは、書き直しルールを使用してグラフ置換を行い、最適なSQLクエリプランを生成する。 論理的および物理的関係性クエリ計画の書き直しは、NPハードなシーケンシャルな決定問題であり、検索空間は書き直し規則の数で指数関数的であることが証明されている。 本稿では、品質飽和度とグラフ強化学習(RL)を相互接続することで、クエリ書き換えの問題に対処する。 提案システムであるAuroraは,クエリグラフの空間構造と,クエリ計画の逐次的な構成に関連する時間次元の両方を埋め込んだ新しいRLエージェントを用いて,非破壊的なグラフ書き換えを行うコンパイラ文学の手法であるEquality Saturationを導くことによって,関係クエリを書き換える。 その結果、非破壊的なグラフ書き換えのためのグラフ強化学習は、SQLプランの命令を既存の等式飽和解法よりも桁違いに高速に処理し、また、主流のクエリオプティマイザに対する競合的な結果を得ることができた。

Query rewrite systems perform graph substitutions using rewrite rules to generate optimal SQL query plans. Rewriting logical and physical relational query plans is proven to be an NP-hard sequential decision-making problem with a search space exponential in the number of rewrite rules. In this paper, we address the query rewrite problem by interleaving Equality Saturation and Graph Reinforcement Learning (RL). The proposed system, Aurora, rewrites relational queries by guiding Equality Saturation, a method from compiler literature to perform non-destructive graph rewriting, with a novel RL agent that embeds both the spatial structure of the query graph as well as the temporal dimension associated with the sequential construction of query plans. Our results show Graph Reinforcement Learning for non-destructive graph rewriting yields SQL plans orders of magnitude faster than existing equality saturation solvers, while also achieving competitive results against mainstream query optimisers.
翻訳日:2024-07-22 08:57:39 公開日:2024-06-19
# 条件付き変分自動エンコーダによる高度な情報を用いたストックボリューム予測

Stock Volume Forecasting with Advanced Information by Conditional Variational Auto-Encoder ( http://arxiv.org/abs/2406.19414v1 )

ライセンス: Link先を確認
Parley R Yang, Alexander Y Shestopaloff, (参考訳) 本研究では, 日時などの入力変数の高度な情報を用いて, 短時間・長期の予測タスクにおいて, 日々のストックボリューム時系列の予測を改善するために, CVAE(Conditional Variational Encoder) を用いることを実証する。 CVAEは、従来の線形モデルと比較して、実際のデータとの相関の精度と密接な適合性を有する非線形時系列をサンプル外予測として生成する。 これらの生成予測は、解釈を助けるシナリオ生成にも使用することができる。 さらに,非定常時系列とCVAE予測からの潜在的な拡張の相関について考察する。

We demonstrate the use of Conditional Variational Encoder (CVAE) to improve the forecasts of daily stock volume time series in both short and long term forecasting tasks, with the use of advanced information of input variables such as rebalancing dates. CVAE generates non-linear time series as out-of-sample forecasts, which have better accuracy and closer fit of correlation to the actual data, compared to traditional linear models. These generative forecasts can also be used for scenario generation, which aids interpretation. We further discuss correlations in non-stationary time series and other potential extensions from the CVAE forecasts.
翻訳日:2024-07-07 13:43:41 公開日:2024-06-19
# Combinatorial Reasoning: Combinatorial Optimizationを通じて生成AIパイプラインの推論を選択する

Combinatorial Reasoning: Selecting Reasons in Generative AI Pipelines via Combinatorial Optimization ( http://arxiv.org/abs/2407.00071v1 )

ライセンス: Link先を確認
Mert Esencan, Tarun Advaith Kumar, Ata Akbari Asanjan, P. Aaron Lott, Masoud Mohseni, Can Unlu, Davide Venturelli, Alan Ho, (参考訳) 近年のLarge Language Models(LLM)は、人間の知性を必要とするタスクにおいて印象的な能力を示しており、人間のような人工知能(AI)への重要なステップである。 しかし, 推論タスクにおけるLLMの性能は低下しており, LLMの推論能力は重要な議論の的となっている。 LLMへのプロンプト技術の選択は、推論を含む様々なタスクのパフォーマンスを変更可能であることが示されているが、最高のパフォーマンス技術は、手元にあるタスクの知識で人為的なプロンプトを必要とする。 我々は、完全に自動化されたプロンプト手法である Combinatorial Reasoning (CR) のフレームワークを紹介し、その理由をLLMパイプラインからサンプリングし、擬似非制約バイナリ最適化(QUBO)問題にマッピングする。 このフレームワークは、QUBOソリューションが、Chain-of-Thoughtスタイルのプロンプトを構築するために有用なサブセットを選択するために、利益を上げることができるかどうかを調査する。 特殊解法を用いたCRの加速について検討する。 また、線形多数決ルールやランダムな理由選択など、より単純なゼロショット戦略の性能についても検討する。 我々の予備研究は、組合せ解決器を生成型AIパイプラインに結合させることが、将来のCR手法の設計原則を推論し解明するための興味深い道であることを示している。

Recent Large Language Models (LLMs) have demonstrated impressive capabilities at tasks that require human intelligence and are a significant step towards human-like artificial intelligence (AI). Yet the performance of LLMs at reasoning tasks have been subpar and the reasoning capability of LLMs is a matter of significant debate. While it has been shown that the choice of the prompting technique to the LLM can alter its performance on a multitude of tasks, including reasoning, the best performing techniques require human-made prompts with the knowledge of the tasks at hand. We introduce a framework for what we call Combinatorial Reasoning (CR), a fully-automated prompting method, where reasons are sampled from an LLM pipeline and mapped into a Quadratic Unconstrained Binary Optimization (QUBO) problem. The framework investigates whether QUBO solutions can be profitably used to select a useful subset of the reasons to construct a Chain-of-Thought style prompt. We explore the acceleration of CR with specialized solvers. We also investigate the performance of simpler zero-shot strategies such as linear majority rule or random selection of reasons. Our preliminary study indicates that coupling a combinatorial solver to generative AI pipelines is an interesting avenue for AI reasoning and elucidates design principles for future CR methods.
翻訳日:2024-07-07 13:34:23 公開日:2024-06-19
# 機能的被覆閉鎖を加速する新しい時間パターンによる刺激の検出

Detecting Stimuli with Novel Temporal Patterns to Accelerate Functional Coverage Closure ( http://arxiv.org/abs/2407.02510v1 )

ライセンス: Link先を確認
Xuan Zheng, Tim Blackmore, James Buckingham, Kerstin Eder, (参考訳) 新しいテストセレクタは、シミュレーションベースの検証において、様々な産業用デジタルデザインの機能的カバレッジの閉鎖を加速する効果を実証している。 これらのテストセレクタの主な利点は、カバレッジホールの影響を受けない性能、簡単な実装、比較的低い計算コストである。 しかし、新しい時間パターンによる刺激の検出は、いまだに未解明のままである。 本稿では,このような刺激を識別するための2つの新しいテストセレクタを提案する。 実験の結果,両テストセレクタはランダムなテスト選択と比較して,商用バスブリッジの機能カバレッジを向上できることがわかった。 具体的には、1つのセレクタは、98.5.%のカバレッジに達するのに必要な模擬テストの数を26.9.%削減し、それぞれ13と2.68の係数で2つのテストセレクタが達成した貯蓄を上回っている。

Novel test selectors have demonstrated their effectiveness in accelerating the closure of functional coverage for various industrial digital designs in simulation-based verification. The primary advantages of these test selectors include performance that is not impacted by coverage holes, straightforward implementation, and relatively low computational expense. However, the detection of stimuli with novel temporal patterns remains largely unexplored. This paper introduces two novel test selectors designed to identify such stimuli. The experiments reveal that both test selectors can accelerate the functional coverage for a commercial bus bridge, compared to random test selection. Specifically, one selector achieves a 26.9\% reduction in the number of simulated tests required to reach 98.5\% coverage, outperforming the savings achieved by two previously published test selectors by factors of 13 and 2.68, respectively.
翻訳日:2024-07-07 13:14:55 公開日:2024-06-19
# 心血管疾患と閉塞型睡眠時無呼吸症候群の多段階モデル : ウィスコンシン州長期睡眠コホート研究

Multi-level Phenotypic Models of Cardiovascular Disease and Obstructive Sleep Apnea Comorbidities: A Longitudinal Wisconsin Sleep Cohort Study ( http://arxiv.org/abs/2406.18602v1 )

ライセンス: Link先を確認
Duy Nguyen, Ca Hoang, Phat K. Huynh, Tien Truong, Dang Nguyen, Abhay Sharma, Trung Q. Le, (参考訳) 閉塞性睡眠時無呼吸症候群 (OSA) の患者では, 心臓血管疾患 (CVD) が顕著であり, 合併症の複雑な相互作用が原因で, CVDの進行を予測することが困難である。 従来のモデルでは、OSA患者のCVD軌跡を正確に予測するために必要な動的および縦方向のスコープが欠如している。 本研究は、ウィスコンシン州睡眠コホートで10年間に1,123人の参加者を含むデータを利用して、これらの状態の進行と相互作用を分析するための新しい多段階表現型モデルを提案する。 本手法は,(1)全コレステロール,低比重リポ蛋白(LDL),糖尿病などの重要な予測変数を明らかにするために,樹木モデルを用いて特徴重要度分析を行う。 2) ロジスティック混合効果モデル(LGMM)による経年変化の追跡と重要な要因の抽出を行い,診断精度は0.9556。 t-distributed Stochastic Neighbor Embedding (t-SNE) をGaussian Mixture Models (GMM) と共に実装し,患者データをさまざまなリスクプロファイルと疾患進行経路を反映した表現型クラスタに分割した。 この表現型クラスタリングでは、睡眠データから夜間低酸素症と交感神経系活動の有意な予測的役割が示され、主要な心血管障害(MACE)のリスクが著しく上昇した。 t-SNEおよびGMMによる遷移と軌道の解析では、コホート内の進行速度が異なることが明らかとなり、一方のクラスターは他方よりも重いCVD状態に向かってゆっくり進行した。 本研究は, CVDとOSAのダイナミックな関係を包括的に把握し, 疾患発症予測と治療適応のための有用なツールを提供する。

Cardiovascular diseases (CVDs) are notably prevalent among patients with obstructive sleep apnea (OSA), posing unique challenges in predicting CVD progression due to the intricate interactions of comorbidities. Traditional models typically lack the necessary dynamic and longitudinal scope to accurately forecast CVD trajectories in OSA patients. This study introduces a novel multi-level phenotypic model to analyze the progression and interplay of these conditions over time, utilizing data from the Wisconsin Sleep Cohort, which includes 1,123 participants followed for decades. Our methodology comprises three advanced steps: (1) Conducting feature importance analysis through tree-based models to underscore critical predictive variables like total cholesterol, low-density lipoprotein (LDL), and diabetes. (2) Developing a logistic mixed-effects model (LGMM) to track longitudinal transitions and pinpoint significant factors, which displayed a diagnostic accuracy of 0.9556. (3) Implementing t-distributed Stochastic Neighbor Embedding (t-SNE) alongside Gaussian Mixture Models (GMM) to segment patient data into distinct phenotypic clusters that reflect varied risk profiles and disease progression pathways. This phenotypic clustering revealed two main groups, with one showing a markedly increased risk of major adverse cardiovascular events (MACEs), underscored by the significant predictive role of nocturnal hypoxia and sympathetic nervous system activity from sleep data. Analysis of transitions and trajectories with t-SNE and GMM highlighted different progression rates within the cohort, with one cluster progressing more slowly towards severe CVD states than the other. This study offers a comprehensive understanding of the dynamic relationship between CVD and OSA, providing valuable tools for predicting disease onset and tailoring treatment approaches.
翻訳日:2024-07-01 05:40:31 公開日:2024-06-19
# 条件拡散モデルによる混合油長の信頼区間推定

Confidence interval estimation of mixed oil length with conditional diffusion model ( http://arxiv.org/abs/2406.18603v1 )

ライセンス: Link先を確認
Yanfeng Yang, Lihong Zhang, Ziqi Chen, Miaomiao Yu, Lei Chen, (参考訳) 原油パイプライン網の経済的利益には, 混合油長の正確な推定が重要な役割を担っている。 様々な提案手法が混合油長の予測を試みたが、過小評価の非常に高い確率(約50 %)を示すことが多い。 これは、混合油の推定した長さに固有の統計的変動を考慮できなかったためである。 このような問題に対処するために,我々は条件付き拡散モデルを用いて,パイプライン特性の混合油長分布を学習することを提案する。 次に,学習拡散モデルにより生成された擬似サンプルに基づいて,混合油の長さに対する信頼区間推定を設計する。 我々の知る限り、統計的変動を考慮した油混合長さの信頼区間の推定スキームを初めて提示し、過小評価の可能性を減らした。 混合油を除去するための基準としてインターバルの上界を用いる場合、過小評価の確率は5\%と最小限であり、50\%よりも大幅に低下する。 さらに、生成した擬似試料の平均を混合油長推定器として利用することにより、一般的に用いられる方法と比較して、少なくとも10倍の予測精度が向上する。

Accurately estimating the mixed oil length plays a big role in the economic benefit for oil pipeline network. While various proposed methods have tried to predict the mixed oil length, they often exhibit an extremely high probability (around 50\%) of underestimating it. This is attributed to their failure to consider the statistical variability inherent in the estimated length of mixed oil. To address such issues, we propose to use the conditional diffusion model to learn the distribution of the mixed oil length given pipeline features. Subsequently, we design a confidence interval estimation for the length of the mixed oil based on the pseudo-samples generated by the learned diffusion model. To our knowledge, we are the first to present an estimation scheme for confidence interval of the oil-mixing length that considers statistical variability, thereby reducing the possibility of underestimating it. When employing the upper bound of the interval as a reference for excluding the mixed oil, the probability of underestimation can be as minimal as 5\%, a substantial reduction compared to 50\%. Furthermore, utilizing the mean of the generated pseudo samples as the estimator for the mixed oil length enhances prediction accuracy by at least 10\% compared to commonly used methods.
翻訳日:2024-07-01 05:40:31 公開日:2024-06-19
# キロメータースケールにおけるスパース気象観測データの生成的同化

Generative Data Assimilation of Sparse Weather Station Observations at Kilometer Scales ( http://arxiv.org/abs/2406.16947v1 )

ライセンス: Link先を確認
Peter Manshausen, Yair Cohen, Jaideep Pathak, Mike Pritchard, Piyush Garg, Morteza Mardani, Karthik Kashinath, Simon Byrne, Noah Brenowitz, (参考訳) 気象予報モデルの初期化には,観測データの完全な大気状態への同化が不可欠である。 近年,モデルを再学習することなく新たな入力データを使用することが可能な深層生成データ同化法が提案されている。 また、運用地域気象モデルで使用される費用のかかるデータ同化プロセスも劇的に加速する可能性がある。 ここでは,米国中部の試験場において,現実的に複雑な km スケールの気象条件下でのスコアベースデータ同化の可能性を示す。 我々は,非条件拡散モデルを用いて,最先端のkmスケール分析製品であるHigh Resolution Rapid Refreshのスナップショットを生成する。 そして、スコアに基づくデータ同化を用いて、スパース気象観測所のデータを取り込むことで、降水と地表の風の地図を生成する。 生成したフィールドは、ガストフロントのような物理的にもっともらしい構造を示し、感度テストは多変量関係を通して学習物理学を確認する。 予備的なスキル分析は、この手法がハイリゾリューション・ラピッド・リフレッシュシステム自体のナイーブベースラインをすでに上回っていることを示している。 40の気象観測所からの観測を取り入れることで、左の観測所で10\%低いRMSEが達成される。 アンサンブルDAの推定値の分散が不十分なような不完全性はいくつかあるが、全体としては概念実証の励ましとなる。 ますます野心的な地域国家ジェネレータと、In situ、地上ベース、衛星リモートセンシングデータストリームの集合を組み合わす拡張を探求する時期だ。

Data assimilation of observational data into full atmospheric states is essential for weather forecast model initialization. Recently, methods for deep generative data assimilation have been proposed which allow for using new input data without retraining the model. They could also dramatically accelerate the costly data assimilation process used in operational regional weather models. Here, in a central US testbed, we demonstrate the viability of score-based data assimilation in the context of realistically complex km-scale weather. We train an unconditional diffusion model to generate snapshots of a state-of-the-art km-scale analysis product, the High Resolution Rapid Refresh. Then, using score-based data assimilation to incorporate sparse weather station data, the model produces maps of precipitation and surface winds. The generated fields display physically plausible structures, such as gust fronts, and sensitivity tests confirm learnt physics through multivariate relationships. Preliminary skill analysis shows the approach already outperforms a naive baseline of the High-Resolution Rapid Refresh system itself. By incorporating observations from 40 weather stations, 10\% lower RMSEs on left-out stations are attained. Despite some lingering imperfections such as insufficiently disperse ensemble DA estimates, we find the results overall an encouraging proof of concept, and the first at km-scale. It is a ripe time to explore extensions that combine increasingly ambitious regional state generators with an increasing set of in situ, ground-based, and satellite remote sensing data streams.
翻訳日:2024-06-26 19:10:10 公開日:2024-06-19
# 低消費電力用途に適した省エネサイズール検出

Energy-Efficient Seizure Detection Suitable for low-power Applications ( http://arxiv.org/abs/2406.16948v1 )

ライセンス: Link先を確認
Julia Werner, Bhavya Kohli, Paul Palomero Bernardo, Christoph Gerum, Oliver Bringmann, (参考訳) てんかんは世界中で最も一般的で慢性的な神経疾患であり、発作が再発するのが一般的である。 神経インプラントは、検出時に来るべき発作を抑制することにより、効果的な治療に使用できる。 医療機器のサイズが制限され、バッテリー寿命が制限されるため、採用されるアプローチはサイズが制限され、低エネルギーでなければならない。 本稿では,低消費電力エッジデバイスに適したTC-ResNetと時系列解析を含むエネルギー効率の高い発作検出手法を提案する。 提案手法は, 神経インプラントのハードウェア要件を厳格に考慮しながら, 先行した特徴抽出を行なわずに正確な発作検出を可能にする。 本手法は,32ビット浮動小数点モデルとハードウェアに適した4ビット固定点モデルを備えたCHB-MIT Scalp EEG Databaseを用いて検証した。 提案手法は、95.28%、感度92.34%、AUCスコア0.9384を4ビットの固定点表現で達成する。 さらに、モデルの消費電力は、平均495 nWの低消費電力AIアクセラレータUltraTrailで測定される。 この低消費電力のため、この分類手法は神経インプラントのような低消費電力のウェアラブルデバイス上でリアルタイムの発作検出に適している。

Epilepsy is the most common, chronic, neurological disease worldwide and is typically accompanied by reoccurring seizures. Neuro implants can be used for effective treatment by suppressing an upcoming seizure upon detection. Due to the restricted size and limited battery lifetime of those medical devices, the employed approach also needs to be limited in size and have low energy requirements. We present an energy-efficient seizure detection approach involving a TC-ResNet and time-series analysis which is suitable for low-power edge devices. The presented approach allows for accurate seizure detection without preceding feature extraction while considering the stringent hardware requirements of neural implants. The approach is validated using the CHB-MIT Scalp EEG Database with a 32-bit floating point model and a hardware suitable 4-bit fixed point model. The presented method achieves an accuracy of 95.28%, a sensitivity of 92.34% and an AUC score of 0.9384 on this dataset with 4-bit fixed point representation. Furthermore, the power consumption of the model is measured with the low-power AI accelerator UltraTrail, which only requires 495 nW on average. Due to this low-power consumption this classification approach is suitable for real-time seizure detection on low-power wearable devices such as neural implants.
翻訳日:2024-06-26 19:10:10 公開日:2024-06-19
# 自己教師付き学習による長手データに対する高い微分可能なニューラルネットワークアーキテクチャ探索

Fair Differentiable Neural Network Architecture Search for Long-Tailed Data with Self-Supervised Learning ( http://arxiv.org/abs/2406.16949v1 )

ライセンス: Link先を確認
Jiaming Yan, (参考訳) 人工知能(AI)の最近の進歩は、コンピュータビジョン、データマイニング、自然言語処理といった分野において、ディープラーニング(DL)を重要な技術として位置づけている。 DLパフォーマンスの重要な要因は、ニューラルネットワークアーキテクチャの選択である。 従来の事前定義されたアーキテクチャは、しばしば異なるデータ分散に適応できないため、最適なパフォーマンスを達成するのは難しい。 ニューラルネットワーク検索(NAS)は、特定のデータセットに適したアーキテクチャを自動的に設計することで、ソリューションを提供する。 しかし、NASの有効性は、少数のクラスが豊富なサンプルを持ち、多くがバイアスモデルに繋がる長い尾のデータセットにおいて低下し、この記事では、NASの長い尾のデータセットにおける探索と訓練性能を改善するために検討する。 具体的には,NASと長期データセットの深層学習手法に関する関連研究について論じるとともに,NASを長期データセット上でより優れたパフォーマンスを達成するために自己教師付き学習と公平な差別化が可能なNASを統合する,SF-NASと呼ばれる既存の研究に焦点を当てる。 最後に,CIFAR10-LTデータセットを用いて評価実験を行い,結果が期待値と一致していることを確認した。

Recent advancements in artificial intelligence (AI) have positioned deep learning (DL) as a pivotal technology in fields like computer vision, data mining, and natural language processing. A critical factor in DL performance is the selection of neural network architecture. Traditional predefined architectures often fail to adapt to different data distributions, making it challenging to achieve optimal performance. Neural architecture search (NAS) offers a solution by automatically designing architectures tailored to specific datasets. However, the effectiveness of NAS diminishes on long-tailed datasets, where a few classes have abundant samples, and many have few, leading to biased models.In this paper, we explore to improve the searching and training performance of NAS on long-tailed datasets. Specifically, we first discuss the related works about NAS and the deep learning method for long-tailed datasets.Then, we focus on an existing work, called SSF-NAS, which integrates the self-supervised learning and fair differentiable NAS to making NAS achieve better performance on long-tailed datasets.An detailed description about the fundamental techniques for SSF-NAS is provided in this paper, including DARTS, FairDARTS, and Barlow Twins. Finally, we conducted a series of experiments on the CIFAR10-LT dataset for performance evaluation, where the results are align with our expectation.
翻訳日:2024-06-26 19:10:10 公開日:2024-06-19
# 政策と評価に基づく信頼機構の統合

An Integration of policy and reputation based trust mechanisms ( http://arxiv.org/abs/2406.15498v1 )

ライセンス: Link先を確認
Siddiqui Muhammad Yasir, Alam Gir, Jenny Lundberg, (参考訳) インターネットやeコマースの普及により、オンラインショッピング市場に関わる人が増えている。 多くの企業がインターネットに移行しており、オンラインでの顧客の増加は容易である。 オンラインビジネスは、人々がお互いを知らずにコミュニケーションをしやすくする。 電子商取引システムは、商業行動とインターネット技術の組み合わせである。 したがって、信託面は買い手と売り手の取引において肯定的な要素であり、競争力のあるeコマース産業の潜在的な源泉である。 信頼を扱うには2つの異なるアプローチがあります。 最初のアプローチは、ポリシーベースの信頼メカニズムと呼ばれる、いくつかのデジタルまたは論理的なルールに基づいて決定を行う、しっかりとした認証ルールセットを持つ。 第2のアプローチは、アセスメントベースの信頼メカニズムと呼ばれる、アセスメントを分散環境で組み立て、共有する分散信頼アプローチである。 目的: この論文では、体系的な文献レビューと産業インタビューを通じて、政策と評価に基づく信頼メカニズムの強みと弱みが特定されている。 さらに,統合信頼機構のプロセスが提案されている。 統合信頼機構は、マッピングプロセス、一方のメカニズムの弱点、他方の強度を通じて提案される。 提案した統合信頼機構は, オークションシステムにおける買い手/売り手シナリオの実験により検証された。 収集した結果から,eBayとTraderaに対する購入者の信頼を向上する統合信頼メカニズムが示唆された。 最終的に、売り手と買い手の信頼関係に影響を与えるいくつかの重要な点について議論した。 さらに、オークションシステム/eコマース産業において、提案された信頼メカニズムのさらなる検証が必要である。

Due to popularization of internet and e-commerce, more and more people getting involved in online shopping market. A large number of companies have been transferred to the internet where online customers have been increased due to easy access. The online business facilitates people to communicate without knowing each other. The e-commerce systems are the combination of commerce behavior and internet technologies. Therefore, trust aspects are positive elements in buyer-seller transactions and a potential source of competitive e-commerce industry. There are two different approaches to handle the trust. The first approach has a solid authentication set of rules where decisions are made on some digital or logical rules called policy based trust mechanism. The second approach is a decentralized trust approach where reputation assembled and shared in distributed environment called reputation based trust mechanism. Objectives: In this thesis, the strengths and weaknesses of policy and reputation based trust mechanisms have been identified through systematic literature review and industrial interviews. Furthermore, the process of integrated trust mechanism has been proposed. The integrated trust mechanism is proposed through mapping process, weakness of one mechanism with the strength of other. The proposed integrated trust mechanism was validated by conducting experiment with buyer/seller scenario in auction system. The analysis of collected results indicated that proposed integrated trust mechanism improved the trust of buyer against eBay and Tradera. At the end, we have discussed some key points that may affect trust relationship between seller and buyer. Furthermore, there is a need for further validation of proposed trust mechanism in auction system/e-commerce industry.
翻訳日:2024-06-25 23:44:36 公開日:2024-06-19
# ランダム・フォレストに見つからない隠れた変数

Hidden Variables unseen by Random Forests ( http://arxiv.org/abs/2406.15500v1 )

ライセンス: Link先を確認
Ricardo Blum, Munir Hiabu, Enno Mammen, Joseph Theo Meyer, (参考訳) ランダムフォレストは相互作用をうまく捉えていると広く主張されている。 しかし、いくつかの単純な例は、従来のCART基準が樹木構築中に捕獲するのに苦労する純粋な相互作用の存在下では不十分であることを示している。 木の成長過程で用いられる単純な代替パーティショニングスキームは、これらの相互作用の同定を促進することができると論じる。 シミュレーション研究では、これらの変種を従来のランダム林や極端ランダム化木と比較した。 その結果、純粋な相互作用が重要な役割を果たすシナリオにおいて、モデルが適合する能力を高めることが確認された。

Random Forests are widely claimed to capture interactions well. However, some simple examples suggest that they perform poorly in the presence of certain pure interactions that the conventional CART criterion struggles to capture during tree construction. We argue that simple alternative partitioning schemes used in the tree growing procedure can enhance identification of these interactions. In a simulation study we compare these variants to conventional Random Forests and Extremely Randomized trees. Our results validate that the modifications considered enhance the model's fitting ability in scenarios where pure interactions play a crucial role.
翻訳日:2024-06-25 23:44:36 公開日:2024-06-19
# 最適化dempster-Shafer理論に基づく信頼できない時間情報のセキュア結合

Secure Combination of Untrusted Time information Based on Optimized Dempster-Shafer Theory ( http://arxiv.org/abs/2406.15501v1 )

ライセンス: Link先を確認
Yang Li, Yujie Luo, Yichen Zhang, Ao Sun, Wei Huang, Shuai Zhang, Tao Zhang, Chuang Zhou, Li Ma, Jie Yang, Mei Wu, Heng Wang, Yan Pan, Yun Shao, Xing Chen, Ziyang Chen, Song Yu, Hong Guo, Bingjie Xu, (参考訳) サイバー物理システムの応用においては,セキュアな時間同期が重要である。 しかし、いくつかの攻撃、特にTDA(Time Delay Attack)は、時間同期システムの性能を著しく悪化させる。 複数の経路スキームは、TDAの影響を減少させる効果的なセキュリティ対策であると考えられている。 しかし、効果的なセキュアな組み合わせアルゴリズムは、正確な時間同期にはまだ欠落している。 本稿では,複数経路法に対して,Dempster-Shafer理論に基づくセキュアな組合せアルゴリズムを提案する。 非信頼な証拠による潜在的な問題を解くために、組み合わせアルゴリズムのために特別な最適化を行う。 理論的シミュレーションにより,提案アルゴリズムは単一経路に基づくフォールトトレラントアルゴリズム (FTA) や攻撃検出手法よりも優れていることが示された。 また実験により,TDAおよび局所クロックジャンプにより平均時間1s,10s,100sにおける27.97 ps,1.57 ps,1.12 psの時間安定性が実現可能であることを示す。 提案アルゴリズムは,NTP,PTP,TWFTTなどの重要な同期プロトコルのセキュリティとレジリエンス向上に有効である。

Secure precision time synchronization is important for applications of Cyber-Physical Systems. However, several attacks, especially the Time Delay Attack (TDA), deteriorates the performance of time synchronization system seriously. Multiple paths scheme is thought as an effective security countermeasure to decrease the influence of TDA. However, the effective secure combination algorithm is still missed for precision time synchronization. In this paper, a secure combination algorithm based on Dempster-Shafer theory is proposed for multiple paths method. Special optimizations are done for the combination algorithm to solve the potential problems due to untrusted evidence. Theoretical simulation shows that the proposed algorithm works much better than Fault Tolerant Algorithm (FTA) and the attack detection method based on single path. And experimental demonstration proves the feasibility and superiority of the proposed algorithm, where the time stability with 27.97 ps, 1.57 ps, and 1.12 ps at average time 1s, 10s, 100s is achieved under TDA and local clock jump. The proposed algorithm can be used to improve the security and resilience of many importance synchronization protocol, such as NTP, PTP, and TWFTT.
翻訳日:2024-06-25 23:44:36 公開日:2024-06-19
# Dr.Eは、単語を通して大きな言語モデルでグラフをブリッジする

Dr.E Bridges Graphs with Large Language Models through Words ( http://arxiv.org/abs/2406.15504v1 )

ライセンス: Link先を確認
Zipeng Liu, Likang Wu, Ming He, Zhong Guan, Hongke Zhao, Nan Feng, (参考訳) 強力な大規模言語モデル(LLM)を様々なモダリティと統合すること、特に視覚、言語、オーディオデータの融合に重点を置いている。 しかし、グラフ構造化データは本質的には構造的およびドメイン固有の知識に富み、まだLLMに優雅に適応していない。 既存の手法では、グラフを生のテキストで記述し、グラフ構造情報の喪失に苦しむか、意味表現を失うコストで直接LLMにグラフニューラルネットワーク(GNN)を埋め込むかのいずれかである。 このギャップを埋めるために、Dr.E (Dual-Residual Vector Quantized-Variational AutoEncoder) を事前訓練した、革新的なエンドツーエンドのモダリティ調整フレームワークを導入する。 このフレームワークは LLM とのトークンレベルのアライメントを容易にするために特別に設計されており、グラフの内在的な '言語' を理解可能な自然言語に効果的に翻訳することができる。 標準GNNノード分類タスクに関する実験的評価は、他の最先端手法と競合する性能を示す。 さらに、我々のフレームワークは、微調整と少数ショット設定の両方で、解釈可能性、効率、堅牢性を保証する。 本研究は,GNNとLLM間のトークンレベルのアライメントを実現するための最初の試みである。

Significant efforts have been directed toward integrating powerful Large Language Models (LLMs) with diverse modalities, particularly focusing on the fusion of vision, language, and audio data. However, the graph-structured data, inherently rich in structural and domain-specific knowledge, have not yet been gracefully adapted to LLMs. Existing methods either describe the graph with raw text, suffering the loss of graph structural information, or feed Graph Neural Network (GNN) embeddings directly into LLM at the cost of losing semantic representation. To bridge this gap, we introduce an innovative, end-to-end modality-aligning framework, equipped with a pretrained Dual-Residual Vector Quantized-Variational AutoEncoder (Dr.E). This framework is specifically designed to facilitate token-level alignment with LLMs, enabling an effective translation of the intrinsic `language' of graphs into comprehensible natural language. Our experimental evaluations on standard GNN node classification tasks demonstrate competitive performance against other state-of-the-art approaches. Additionally, our framework ensures interpretability, efficiency, and robustness, with its effectiveness further validated under both fine-tuning and few-shot settings. This study marks the first successful endeavor to achieve token-level alignment between GNNs and LLMs.
翻訳日:2024-06-25 23:44:36 公開日:2024-06-19
# 部分グラフ適応による知識グラフ関係推論

Few-shot Knowledge Graph Relational Reasoning via Subgraph Adaptation ( http://arxiv.org/abs/2406.15507v1 )

ライセンス: Link先を確認
Haochen Liu, Song Wang, Chen Chen, Jundong Li, (参考訳) 知識グラフ (KG) リレーショナル推論 (Relational Reasoning) は、KGにおける稀な関係に対して、見知らぬ三つ子(すなわちクエリ三つ子)を予測することを目的としており、これらの関係のいくつかの三つ子しか参照しない(つまり、三つ子をサポートする)。 このタスクは、様々な自然言語処理アプリケーションで知識グラフが広く使われているため、大きな注目を集めている。 従来の手法では、この課題に対処するためにメタトレーニング手法と手動でメタリレーションセットを構築してきた。 近年の取り組みは、ターゲット三重項(KGに関係する三重項を含む部分グラフ)の文脈化グラフの構造を利用するエッジマスクに基づく手法に重点を置いている。 しかし、既存のエッジマスクベースの手法は、KGから不十分な情報を抽出するのに限界があり、KGの急激な情報の影響を強く受けている。 これらの課題を克服するために,サポートやクエリトリプレットから生成された様々なサブグラフに文脈化グラフの情報を効果的に適用して予測を行う,SAFER(Subgraph Adaptation for Few-shot Relational Reasoning)を提案する。 特に、SAFERは、クエリ三重項予測時の急激な情報の影響を最小限に抑えながら、サポート三重項からのより包括的な情報抽出を可能にする。 3つの有意なデータセットに対する実験結果から,提案フレームワークSAFERの優位性を示す。

Few-shot Knowledge Graph (KG) Relational Reasoning aims to predict unseen triplets (i.e., query triplets) for rare relations in KGs, given only several triplets of these relations as references (i.e., support triplets). This task has gained significant traction due to the widespread use of knowledge graphs in various natural language processing applications. Previous approaches have utilized meta-training methods and manually constructed meta-relation sets to tackle this task. Recent efforts have focused on edge-mask-based methods, which exploit the structure of the contextualized graphs of target triplets (i.e., a subgraph containing relevant triplets in the KG). However, existing edge-mask-based methods have limitations in extracting insufficient information from KG and are highly influenced by spurious information in KG. To overcome these challenges, we propose SAFER (Subgraph Adaptation for Few-shot Relational Reasoning), a novel approach that effectively adapts the information in contextualized graphs to various subgraphs generated from support and query triplets to perform the prediction. Specifically, SAFER enables the extraction of more comprehensive information from support triplets while minimizing the impact of spurious information when predicting query triplets. Experimental results on three prevalent datasets demonstrate the superiority of our proposed framework SAFER.
翻訳日:2024-06-25 23:44:36 公開日:2024-06-19
# 長期記憶ネットワークを用いたコロナホール領域の予測モデリング

Predictive Modeling of Coronal Hole Areas Using Long Short-Term Memory Networks ( http://arxiv.org/abs/2301.06732v7 )

ライセンス: Link先を確認
Juyoung Yun, (参考訳) 宇宙探査の時代には、宇宙の天気の影響がますます明白になっている。 これの中心はコロナホールの現象であり、衛星や航空機の機能に大きな影響を及ぼす可能性がある。 これらのコロナホールは、太陽上に存在しているが、その開放磁場線と比較的低温によって区別され、太陽風の放出が上昇する。 これらのコロナホールが地球に与える影響を予測するために、我々の研究はコンピュータビジョンを利用して、コロナホール領域を特定し、ソーラー・ダイナミクス・オブザーバ(SDO)の画像を用いてその次元を推定する。 さらに, 深層学習手法, 特にLong Short-Term Memory (LSTM) アプローチを展開し, コロナホールの面積に関するデータの動向を分析し, それらの次元を7日間にわたって予測する。 本研究は, コロナホールの面積に関する時系列データから, コロナホールの挙動のパターンを明らかにし, 宇宙気象への影響を解明することを目的とする。 この調査は、地球とその技術機器に影響を及ぼす可能性のある宇宙天気の出来事を予想し、補う能力を高めるための重要な一歩となる。

In the era of space exploration, the implications of space weather have become increasingly evident. Central to this is the phenomenon of coronal holes, which can significantly influence the functioning of satellites and aircraft. These coronal holes, present on the sun, are distinguished by their open magnetic field lines and comparatively cooler temperatures, leading to the emission of solar winds at heightened rates. To anticipate the effects of these coronal holes on Earth, our study harnesses computer vision to pinpoint the coronal hole regions and estimate their dimensions using imagery from the Solar Dynamics Observatory (SDO). Further, we deploy deep learning methodologies, specifically the Long Short-Term Memory (LSTM) approach, to analyze the trends in the data related to the area of the coronal holes and predict their dimensions across various solar regions over a span of seven days. By evaluating the time series data concerning the area of the coronal holes, our research seeks to uncover patterns in the behavior of coronal holes and comprehend their potential influence on space weather occurrences. This investigation marks a pivotal stride towards bolstering our capacity to anticipate and brace for space weather events that could have ramifications for Earth and its technological apparatuses.
翻訳日:2024-06-24 20:47:12 公開日:2024-06-19
# HMIマグネティックグラムとインテンシティグラムを用いた残差網を用いた極端太陽フレア予測

Extreme Solar Flare Prediction Using Residual Networks with HMI Magnetograms and Intensitygrams ( http://arxiv.org/abs/2405.14750v2 )

ライセンス: Link先を確認
Juyoung Yun, Jungmin Shin, (参考訳) 太陽フレア、特にC、M、Xクラスは、衛星の運用、通信システム、電力網に重大なリスクをもたらす。 HMI強度図とマグネティックグラムを用いた極端太陽フレアの予測手法を提案する。 強度図から太陽点を検出し、磁気グラムから磁場パッチを抽出することにより、極度のクラスフレアを分類するためにResidual Network(ResNet)を訓練する。 我々のモデルは高精度で、極端太陽フレアを予測し、宇宙天気予報を改善するための堅牢なツールを提供する。 さらに,HMIマグネティックグラムは,他のSDO AIA画像と比較して,フレアマグニチュードの予測に重要な特徴を捉えることにより,より有用な深層学習データを提供することを示した。 本研究は、太陽フレア予測における磁場の同定の重要性を強調し、太陽活動予測の顕著な進歩と、宇宙気象への影響を緩和するための実践的意味を明らかにした。

Solar flares, especially C, M, and X class, pose significant risks to satellite operations, communication systems, and power grids. We present a novel approach for predicting extreme solar flares using HMI intensitygrams and magnetograms. By detecting sunspots from intensitygrams and extracting magnetic field patches from magnetograms, we train a Residual Network (ResNet) to classify extreme class flares. Our model demonstrates high accuracy, offering a robust tool for predicting extreme solar flares and improving space weather forecasting. Additionally, we show that HMI magnetograms provide more useful data for deep learning compared to other SDO AIA images by better capturing features critical for predicting flare magnitudes. This study underscores the importance of identifying magnetic fields in solar flare prediction, marking a significant advancement in solar activity prediction with practical implications for mitigating space weather impacts.
翻訳日:2024-06-24 19:16:56 公開日:2024-06-19
# 深層学習を用いたRGB-D屋内データを用いた3次元インスタンス分割

3D Instance Segmentation Using Deep Learning on RGB-D Indoor Data ( http://arxiv.org/abs/2406.14581v1 )

ライセンス: Link先を確認
Siddiqui Muhammad Yasir, Amin Muhammad Sadiq, Hyunsik Ahn, (参考訳) 3Dオブジェクト認識は、産業や家庭の屋内環境において、インテリジェントでロボット的なシステムにとって難しい課題である。 このようなシステムでは、頻繁に遭遇する3Dオブジェクトインスタンスを認識し、セグメント化することが重要である。 コンピュータビジョン、グラフィックス、機械学習の分野は、すべて多くの注目を集めています。 伝統的に、3Dセグメンテーションは手作りの機能と設計アプローチで行われ、許容できる性能が得られず、大規模データには一般化できなかった。 ディープラーニングのアプローチは近年,コンピュータビジョンにおける大きな成功によって,3Dセグメンテーションの課題に対して好まれる方法となっている。 しかし、インスタンスセグメンテーションのタスクは、現在あまり検討されていない。 本稿では,深層学習に基づく赤緑色と深度(RGB-D)データを用いた効率的な3次元インスタンスセグメンテーション手法を提案する。 2D領域をベースとした畳み込みニューラルネットワーク(Mask R-CNN)の深部学習モデルにポイントベースのrendingモジュールを組み、深度情報と統合してオブジェクトの3Dインスタンスを認識・セグメント化する。 3Dポイントクラウド座標(x,y,z)を生成するために、RGB画像内の認識対象領域の2D画素(u,v)を深度画像の(u,v)ポイントにマージする。 さらに,提案手法を様々な視点と距離から比較するための実験と解析を行った。 提案した3Dオブジェクト認識とインスタンスセグメンテーションは,ロボットおよびインテリジェントシステムにおけるオブジェクトハンドリングを支援するのに十分有用であることを示す。

3D object recognition is a challenging task for intelligent and robot systems in industrial and home indoor environments. It is critical for such systems to recognize and segment the 3D object instances that they encounter on a frequent basis. The computer vision, graphics, and machine learning fields have all given it a lot of attention. Traditionally, 3D segmentation was done with hand-crafted features and designed approaches that did not achieve acceptable performance and could not be generalized to large-scale data. Deep learning approaches have lately become the preferred method for 3D segmentation challenges by their great success in 2D computer vision. However, the task of instance segmentation is currently less explored. In this paper, we propose a novel approach for efficient 3D instance segmentation using red green blue and depth (RGB-D) data based on deep learning. The 2D region based convolutional neural networks (Mask R-CNN) deep learning model with point based rending module is adapted to integrate with depth information to recognize and segment 3D instances of objects. In order to generate 3D point cloud coordinates (x, y, z), segmented 2D pixels (u, v) of recognized object regions in the RGB image are merged into (u, v) points of the depth image. Moreover, we conducted an experiment and analysis to compare our proposed method from various points of view and distances. The experimentation shows the proposed 3D object recognition and instance segmentation are sufficiently beneficial to support object handling in robotic and intelligent systems.
翻訳日:2024-06-24 18:37:49 公開日:2024-06-19
# チャネルシャッフルを用いた深層学習による高速金属表面欠陥検出

Faster Metallic Surface Defect Detection Using Deep Learning with Channel Shuffling ( http://arxiv.org/abs/2406.14582v1 )

ライセンス: Link先を確認
Siddiqui Muhammad Yasir, Hyunsik Ahn, (参考訳) 近年、ディープラーニングは絶えず改善されており、多くの研究者が欠陥検出アルゴリズムの研究に力を入れている。 小型で複雑なターゲットの検出と認識は依然として解決すべき問題である。 本研究の著者らは,鋼表面の微小かつ複雑な欠陥対象を検出するための改良された欠陥検出モデルを提案する。 スチールストリップの製造中の機械的力と環境要因は、スチールストリップの表面欠陥の原因となる。 そのため、このような欠陥の検出は高品質な製品の生産の鍵となる。 さらに、鋼板の表面欠陥は、ハイテク産業に大きな経済的損失をもたらしている。 これまでのところ、欠陥を特定する方法を模索する研究はほとんどなく、現在利用可能なアルゴリズムのほとんどは十分に有効ではない。 そこで本研究では,小型ネットワークに特化して設計されたYou Only Look Once (YOLOv5)に基づくリアルタイム金属表面欠陥検出モデルを提案する。 目標のより小さな特徴に対して、従来の部分は、深さ方向の畳み込みとチャネルシャッフル機構に置き換えられる。 次に、重み付けをFPN(Feature Pyramid Networks)出力の特徴に割り当て、それらを融合させることで、特徴伝播とネットワークの特徴付け能力が向上する。 実験結果から,改良されたモデルでは,精度と検出時間において,他のモデルよりも優れた性能が得られた。 mAPによる提案モデルの精度は、北東大学データセットNEU-DETで77.5%、GC10-DETデータセットで70.18%である。

Deep learning has been constantly improving in recent years and a significant number of researchers have devoted themselves to the research of defect detection algorithms. Detection and recognition of small and complex targets is still a problem that needs to be solved. The authors of this research would like to present an improved defect detection model for detecting small and complex defect targets in steel surfaces. During steel strip production mechanical forces and environmental factors cause surface defects of the steel strip. Therefore the detection of such defects is key to the production of high-quality products. Moreover surface defects of the steel strip cause great economic losses to the high-tech industry. So far few studies have explored methods of identifying the defects and most of the currently available algorithms are not sufficiently effective. Therefore this study presents an improved real-time metallic surface defect detection model based on You Only Look Once (YOLOv5) specially designed for small networks. For the smaller features of the target the conventional part is replaced with a depth-wise convolution and channel shuffle mechanism. Then assigning weights to Feature Pyramid Networks (FPN) output features and fusing them increases feature propagation and the networks characterization ability. The experimental results reveal that the improved proposed model outperforms other comparable models in terms of accuracy and detection time. The precision of the proposed model achieved by @mAP is 77.5% on the Northeastern University Dataset NEU-DET and 70.18% on the GC10-DET datasets
翻訳日:2024-06-24 18:37:49 公開日:2024-06-19
# 鋼表面欠陥分類のための畳み込みニューラルネットワークのモデル化と性能評価

Modeling & Evaluating the Performance of Convolutional Neural Networks for Classifying Steel Surface Defects ( http://arxiv.org/abs/2406.14583v1 )

ライセンス: Link先を確認
Nadeem Jabbar Chaudhry, M. Bilal Khan, M. Javaid Iqbal, Siddiqui Muhammad Yasir, (参考訳) 近年,畳み込みニューラルネットワーク(CNN)により,画像分類タスクにおける顕著な識別率が達成されている。 このようなスキルを使用するために、選択的なCNNは、RGBカメラでキャプチャされた金属表面欠陥のよく知られた画像のデータセットに基づいて訓練された。 欠陥は、生産上の懸念により、タイムリーな修正措置を取るために早期に検出されなければならない。 これまでの画像分類では、欠陥のない面に比べて表面欠陥の予測反射特性を示すモデルベース手法が用いられている。 自動車、家庭、建設などエンドプロダクティビティ分野における鉄鋼応用の広範化に伴い、鉄鋼表面欠陥検出の課題が重要になってきている。 検出のための手作業のプロセスは、時間がかかり、労働集約的であり、高価である。 手動プロセスの自動化にはさまざまな戦略が使用されているが、CNNモデルは画像処理や機械学習技術よりも効果的であることが証明されている。 微調整の異なるCNNモデルを使用することで、それらの性能を簡単に比較し、同じ種類のタスクに対して最高のパフォーマンスモデルを選択することができる。 しかし、微調整から異なるCNNモデルを使用することは、計算コストと時間を要することが重要である。 そこで本研究では,モデル複雑度,性能,計算資源の問題を考慮せずに,今後の研究者がCNNを選択することを支援する。 本稿では,移動学習技術を用いた各種CNNモデルの性能評価を行う。 これらのモデルは、コンピュータビジョン研究の分野における人気と影響、およびベンチマークデータセットのパフォーマンスに基づいて選ばれた。 結果によると、DenseNet201は他のCNNモデルよりも優れており、NEUデータセット上で最大の検出レートを有し、98.37%に低下した。

Recently, outstanding identification rates in image classification tasks were achieved by convolutional neural networks (CNNs). to use such skills, selective CNNs trained on a dataset of well-known images of metal surface defects captured with an RGB camera. Defects must be detected early to take timely corrective action due to production concerns. For image classification up till now, a model-based method has been utilized, which indicated the predicted reflection characteristics of surface defects in comparison to flaw-free surfaces. The problem of detecting steel surface defects has grown in importance as a result of the vast range of steel applications in end-product sectors such as automobiles, households, construction, etc. The manual processes for detections are time-consuming, labor-intensive, and expensive. Different strategies have been used to automate manual processes, but CNN models have proven to be the most effective rather than image processing and machine learning techniques. By using different CNN models with fine-tuning, easily compare their performance and select the best-performing model for the same kinds of tasks. However, it is important that using different CNN models either from fine tuning can be computationally expensive and time-consuming. Therefore, our study helps the upcoming researchers to choose the CNN without considering the issues of model complexity, performance, and computational resources. In this article, the performance of various CNN models with transfer learning techniques are evaluated. These models were chosen based on their popularity and impact in the field of computer vision research, as well as their performance on benchmark datasets. According to the outcomes, DenseNet201 outperformed the other CNN models and had the greatest detection rate on the NEU dataset, falling in at 98.37 percent.
翻訳日:2024-06-24 18:37:49 公開日:2024-06-19
# 受動状態エネルギーを用いた多粒子絡み合いの分類

Classifying multiparticle entanglement with passive state energies ( http://arxiv.org/abs/2406.14584v1 )

ライセンス: Link先を確認
Xue Yang, Yan-Han Yang, Xin-Zhu Liu, Shao-Ming Fei, Ming-Xing Luo, (参考訳) 物理学の基本的な分野としての熱力学は、熱、仕事、エネルギーの関係を調べる。 最大エネルギー抽出は、任意の循環的ユニタリ過程下で抽出されたエネルギーを持たない受動的状態を使用することで特徴付けられる。 本稿では,多ビット交絡純状態に対する極端受動的状態エネルギーの概念と多角形不等式を導出する。 極端受動的状態エネルギーは、SLOCCの下で等価な量子状態のクラスごとに一括して凸ポリトープを形成することを示す。 最終的に、SLOCCの下でのマルチパーティの絡み合いを分類するために、マルチパーティの受動的状態エネルギー基準を導入する。 この結果はマルチパーティイト・エンを目撃するための熱力学的手法を提供する。

Thermodynamics as a fundamental branch of physics examines the relationships between heat, work, and energy. The maximum energy extraction can be characterized by using the passive states that has no extracted energy under any cyclic unitary process. In this paper, we focus on the concept of marginal passive state energy and derive polygon inequalities for multi-qubit entangled pure states. We show that the marginal passive state energies collectively form a convex polytope for each class of quantum states that are equivalent under SLOCC. We finally introduce multipartite passive state energy criteria to classify multipartite entanglement under SLOCC. The present result provides a thermodynamic method to witness multipartite en
翻訳日:2024-06-24 18:37:49 公開日:2024-06-19
# リアルタイムホログラムビームステアリングのための深層学習支援準曲面アンテナ

Deep-learning-assisted reconfigurable metasurface antenna for real-time holographic beam steering ( http://arxiv.org/abs/2406.14585v1 )

ライセンス: Link先を確認
Hyunjun Ma, Jin-soo Kim, Jong-Ho Choe, Q-Han Park, (参考訳) リアルタイムなホログラフィックビームステアリングが可能な準曲面アンテナを提案する。 再構成可能なダイポールの配列は、メタ原子状態の特定のエンコーディングを通じて、オンデマンドの遠距離放射線パターンを生成することができる。 それぞれのダイポールの構成です 所望のパターンの生成に適した状態はイテレーションを使って特定できるが、これは非常に遅く、各遠方パターンに対して実行する必要がある。 そこで本研究では,双極子偏光性を用いて異なる点双極子要素を持つ準曲面アンテナの制御を行う深層学習手法を提案する。 提案手法では,自動エンコーダと電磁散乱方程式を組み合わせたディープラーニングアルゴリズムを用いて,対象の遠距離場パターンの状態をリアルタイムに決定する。 ニューラルネットワークのトレーニングにおけるデコーダとしてボルン近似からの散乱方程式を用い,解析的グリーン関数計算を用いてボルン近似の有効性を確認する。 我々の学習に基づくアルゴリズムは、メタ原子状態を決定するのに200マイクロ秒以内の計算時間を必要とし、ホログラフィックアンテナのリアルタイムなオプアを可能にする。

We propose a metasurface antenna capable of real time holographic beam steering. An array of reconfigurable dipoeles can generate on demand far field patterns of radiation through the specific encoding of meta atomic states. i.e., the configuration of each dipole. Suitable states for the generation of the desired patterns can be identified using iteartion, but this is very slow and needs to be done for each far field pattern. Here, we present a deep learning based method for the control of a metasurface antenna with point dipole elements that vary in their state using dipole polarizability. Instead of iteration, we adopt a deep learning algorithm that combines an autoencoder with an electromagnetic scattering equation to determin the states required for a target far field pattern in real time. The scattering equation from Born approximation is used as the decoder in training the neural network, and analytic Green's function calculation is used to check the validity of Born approximation. Our learning based algorithm requires a computing time of within in 200 microseconds to determine the meta atomic states, thus enabling the real time opeartion of a holographic antenna.
翻訳日:2024-06-24 18:37:49 公開日:2024-06-19
# 最適な集中度尺度の選定法 : 決定木アプローチ

How to choose the most appropriate centrality measure? A decision tree approach ( http://arxiv.org/abs/2003.01052v7 )

ライセンス: Link先を確認
Pavel Chebotarev, Dmitry Gubanov, (参考訳) 中央性尺度はネットワーク分析において重要な役割を担っているが、特定の尺度の選択はそれぞれの尺度がノードの重要性のユニークな概念を示すため、結論の正確性に大きな影響を及ぼす。 400以上の提案された指標の中で、特定のアプリケーションに最も適した指標を選択することは依然として課題である。 既存のアプローチ – モデルベース、データ駆動、アクシオマティクス – には制限があり、モデル、トレーニングデータセット、あるいは特定のアプリケーション毎に制限された公理と関連する必要がある。 これを解決するために、簡単なグラフ上での集中度行動の専門的な概念に依存するカリング法を導入する。 カーリング法は、一連の候補測度を作成し、各測度を識別するためにできるだけ小さなグラフのリストを生成し、決定木調査を構築し、専門家の概念と整合した測度を識別する。 このアプローチを、新しいカーネルベースの指標を含む40の中央集束に適用し、公理的アプローチと組み合わせる。 注目すべきは、40の測度を全て分離するのには13個の小さな1-木しか十分でないことだ。 自己整合性やブリッジ公理のような単純な順序公理を採用することで、一連の測度を劇的に減らし、カリングサーベイを短くすることができる。 このカリング法を適用することで、PageRank、Bridging、および異種性に基づく固有中央集権化対策など、いくつかの中央集権指数に関する洞察に富んだ知見が得られる。 提案手法は、労働時間の観点からコスト効率の高いソリューションを提供し、選択を測る既存の手法を補完し、中央集権度対策のメカニズムに関する深い洞察を提供する。

Centrality metrics play a crucial role in network analysis, while the choice of specific measures significantly influences the accuracy of conclusions as each measure represents a unique concept of node importance. Among over 400 proposed indices, selecting the most suitable ones for specific applications remains a challenge. Existing approaches -- model-based, data-driven, and axiomatic -- have limitations, requiring association with models, training datasets, or restrictive axioms for each specific application. To address this, we introduce the culling method, which relies on the expert concept of centrality behavior on simple graphs. The culling method involves forming a set of candidate measures, generating a list of as small graphs as possible needed to distinguish the measures from each other, constructing a decision-tree survey, and identifying the measure consistent with the expert's concept. We apply this approach to a diverse set of 40 centralities, including novel kernel-based indices, and combine it with the axiomatic approach. Remarkably, only 13 small 1-trees are sufficient to separate all 40 measures, even for pairs of closely related ones. By adopting simple ordinal axioms like Self-consistency or Bridge axiom, the set of measures can be drastically reduced making the culling survey short. Applying the culling method provides insightful findings on some centrality indices, such as PageRank, Bridging, and dissimilarity-based Eigencentrality measures, among others. The proposed approach offers a cost-effective solution in terms of labor and time, complementing existing methods for measure selection, and providing deeper insights into the underlying mechanisms of centrality measures.
翻訳日:2024-06-23 14:09:06 公開日:2024-06-19
# 初心者の量子イジング連鎖

The quantum Ising chain for beginners ( http://arxiv.org/abs/2009.09208v2 )

ライセンス: Link先を確認
Glen Bigan Mbeng, Angelo Russomanno, Giuseppe E. Santoro, (参考訳) ここでは、学生や非専門家の利益のために、清潔で無秩序な量子イジングチェーンを扱うための様々なテクニックを提示する。 スピン-1/2系をフェルミオン系にマッピングするジョルダン-ウィグナー変換から始まり、この文脈で自然に現れる超伝導相関を扱うための基本的なアプローチを概説する。 特に, 模型の基底状態と励起の形状を解析し, 対称性を破る物理に関連づけ, 動的量, 熱平均, 相関関数, エンタングルメントエントロピーの計算に関係した側面を説明する。 いくつかの問題は、そのテクニックの簡単な応用を提供する。

We present here various techniques to work with clean and disordered quantum Ising chains, for the benefit of students and non-experts. Starting from the Jordan-Wigner transformation, which maps spin-1/2 systems into fermionic ones, we review some of the basic approaches to deal with the superconducting correlations that naturally emerge in this context. In particular, we analyse the form of the ground state and excitations of the model, relating them to the symmetry-breaking physics, and illustrate aspects connected to calculating dynamical quantities, thermal averages, correlation functions and entanglement entropy. A few problems provide simple applications of the techniques.
翻訳日:2024-06-22 11:37:45 公開日:2024-06-19
# SecureBoost+:大規模かつ高性能な垂直拡散勾配ブースト決定木

SecureBoost+: Large Scale and High-Performance Vertical Federated Gradient Boosting Decision Tree ( http://arxiv.org/abs/2110.10927v5 )

ライセンス: Link先を確認
Tao Fan, Weijing Chen, Guoqiang Ma, Yan Kang, Lixin Fan, Qiang Yang, (参考訳) グラディエントブースティング決定木(GBDT)は、業界で広く使われているアンサンブル機械学習アルゴリズムである。 データ分離の問題とプライバシの要件のため、多くの研究は、垂直連合学習を使用して、異なるデータ所有者間のプライバシ保証と協調して機械学習モデルをトレーニングしようと試みている。 SecureBoostは、GBDTのための最も人気のある垂直連邦学習アルゴリズムの1つである。 しかし、プライバシー保護を達成するために、SecureBoostは複雑なトレーニング手順と時間を要する暗号操作を必要とする。 これによりSecureBoostは、トレーニングが遅く、大規模データにスケールしない。 本研究では,大規模かつ高性能な垂直配向勾配促進決定木フレームワークSecureBoost+を提案する。 SecureBoost+はSecureBoostと同じ半正直なモデルでセキュアである。 SecureBoost+は数千万のデータサンプルに簡単にスケールできる。 SecureBoost+は、暗号文操作の最適化、新しいトレーニングメカニズムの導入、マルチクラス化トレーニングの最適化など、SecureBoostのいくつかの新しい最適化を通じて、ハイパフォーマンスを実現している。 実験の結果、SecureBoost+はSecureBoostの6~35倍高速であるが、同じ精度で数千万のデータサンプルと数千の機能ディメンションまでスケールできることがわかった。

Gradient boosting decision tree (GBDT) is an ensemble machine learning algorithm, which is widely used in industry, due to its good performance and easy interpretation. Due to the problem of data isolation and the requirement of privacy, many works try to use vertical federated learning to train machine learning models collaboratively with privacy guarantees between different data owners. SecureBoost is one of the most popular vertical federated learning algorithms for GBDT. However, in order to achieve privacy preservation, SecureBoost involves complex training procedures and time-consuming cryptography operations. This causes SecureBoost to be slow to train and does not scale to large scale data. In this work, we propose SecureBoost+, a large-scale and high-performance vertical federated gradient boosting decision tree framework. SecureBoost+ is secure in the semi-honest model, which is the same as SecureBoost. SecureBoost+ can be scaled up to tens of millions of data samples easily. SecureBoost+ achieves high performance through several novel optimizations for SecureBoost, including ciphertext operation optimization, the introduction of new training mechanisms, and multi-classification training optimization. The experimental results show that SecureBoost+ is 6-35x faster than SecureBoost, but with the same accuracy and can be scaled up to tens of millions of data samples and thousands of feature dimensions.
翻訳日:2024-06-22 11:37:45 公開日:2024-06-19
# グラフカーネルニューラルネットワーク

Graph Kernel Neural Networks ( http://arxiv.org/abs/2112.07436v2 )

ライセンス: Link先を確認
Luca Cosmo, Giorgia Minello, Alessandro Bicciato, Michael Bronstein, Emanuele Rodolà, Luca Rossi, Andrea Torsello, (参考訳) 多くの現代のニューラルアーキテクチャの中核にある畳み込み演算子は、入力行列とフィルタの間のドット積を効果的に実行していると見なすことができる。 これはユークリッド空間の正則格子として表現できる画像などのデータに容易に適用できるが、畳み込み作用素をグラフ上で動くように拡張することは、不規則な構造のためより困難である。 本稿では,グラフ上の内部積を計算するカーネル関数であるグラフカーネルを用いて,標準畳み込み演算子をグラフ領域に拡張することを提案する。 これにより、入力グラフの埋め込みを計算する必要のない完全に構造的なモデルを定義することができる。 私たちのアーキテクチャは、あらゆる種類のグラフカーネルをプラグインすることができ、従来の畳み込みニューラルネットワークにおける畳み込みマスクに何が起こるかと同じように、トレーニングプロセス中に学習された構造マスクに関して、いくつかの解釈可能性を提供するというメリットも備えています。 モデルハイパーパラメータの影響について広範囲にわたるアブレーション研究を行い,標準グラフ分類および回帰データセット上での競合性能を示す。

The convolution operator at the core of many modern neural architectures can effectively be seen as performing a dot product between an input matrix and a filter. While this is readily applicable to data such as images, which can be represented as regular grids in the Euclidean space, extending the convolution operator to work on graphs proves more challenging, due to their irregular structure. In this paper, we propose to use graph kernels, i.e. kernel functions that compute an inner product on graphs, to extend the standard convolution operator to the graph domain. This allows us to define an entirely structural model that does not require computing the embedding of the input graph. Our architecture allows to plug-in any type of graph kernels and has the added benefit of providing some interpretability in terms of the structural masks that are learned during the training process, similarly to what happens for convolutional masks in traditional convolutional neural networks. We perform an extensive ablation study to investigate the model hyper-parameters' impact and show that our model achieves competitive performance on standard graph classification and regression datasets.
翻訳日:2024-06-22 11:37:45 公開日:2024-06-19
# エントロピー-密度対の混合状態表現性

Mixed state representability of entropy-density pairs ( http://arxiv.org/abs/2203.16441v2 )

ライセンス: Link先を確認
Louis Garrigue, (参考訳) 正準および大正準状態を持つ密度エントロピー対の表現可能性を示し、代表状態の運動エネルギーのバウンダリを提供する。

We show the representability of density-entropy pairs with canonical and grand-canonical states, and we provide bounds on the kinetic energy of the representing states.
翻訳日:2024-06-22 11:37:45 公開日:2024-06-19
# 絡み合い不可逆チャネル

Entanglement-invertible channels ( http://arxiv.org/abs/2204.04493v4 )

ライセンス: Link先を確認
Dominic Verdon, (参考訳) ヴェルナー2001(Werner 2001)は、全ての厳密な量子テレポーテーションと高密度な符号化スキームを分類し、それらがユニタリなエラーベースに対応することを示した。 量子系はテレポートされ、絡み合った資源は次元 d でなければならないし、測定結果は d^2 でなければならない。 本研究では、この分類を一般化し、次元的制約を完全に排除し、それによって、その研究で提起された未解決の問題を解消する。 実際には、テレポーテーションや密度の高い符号化スキームだけでなく、絡み合った可逆チャネルも分類する。 これらは有限次元 C*-代数の間のチャネルであり、絡み合った資源状態の助けを借りて可逆であり、チャネルの通常の可逆性を一般化する。 Wernerの分類では、タイトなテレポーテーションと密な符号化スキームの間の客観的な対応が示され、アリスとボブの操作を交換すると、テレポーテーションスキームは密な符号化スキームに変換される。 この性質はチャネルの通常の可逆性を一般化し、絡み付き可逆性と呼ぶ。 エンタングルメント非可逆チャネルは、量子置換群の表現論において分類される量子コンビネータ論(Musto2018)の設定において以前に研究された量子単射であることを示す。

In a well-known result [Werner2001], Werner classified all tight quantum teleportation and dense coding schemes, showing that they correspond to unitary error bases. Here tightness is a certain dimensional restriction: the quantum system to be teleported and the entangled resource must be of dimension d, and the measurement must have d^2 outcomes. In this work we generalise this classification so as to remove the dimensional restriction altogether, thereby resolving an open problem raised in that work. In fact, we classify not just teleportation and dense coding schemes, but entanglement-reversible channels. These are channels between finite-dimensional C*-algebras which are reversible with the aid of an entangled resource state, generalising ordinary reversibility of a channel. In Werner's classification, a bijective correspondence between tight teleportation and dense coding schemes was shown: swapping Alice and Bob's operations turns a teleportation scheme into a dense coding scheme and vice versa. We observe that this property generalises ordinary invertibility of a channel; we call it entanglement-invertibility. We show that entanglement-invertible channels are precisely the quantum bijections previously studied in the setting of quantum combinatorics [Musto2018], which are classified in terms of the representation theory of the quantum permutation group.
翻訳日:2024-06-22 11:31:36 公開日:2024-06-19
# HuBERT-EE:効率的な音声認識のための初期出力HuBERT

HuBERT-EE: Early Exiting HuBERT for Efficient Speech Recognition ( http://arxiv.org/abs/2204.06328v2 )

ライセンス: Link先を確認
Ji Won Yoon, Beom Jun Woo, Nam Soo Kim, (参考訳) Hidden-unit BERT (HuBERT) やwav2vec 2.0のような自己教師型モデルによる事前トレーニングは、自動音声認識(ASR)に大きな改善をもたらした。 しかしながら、これらのモデルは通常、優れた性能を達成するために高価な計算コストを必要とし、推論速度を遅くする。 モデル効率を改善するために,モデルが推論を動的に停止できる早期終了方式,すなわち HuBERT-EE を導入する。 HuBERT-EEでは、中間層に複数の早期出口ブランチが追加される。 早期出口分岐の中間予測が確実である場合には、モデルが推論を停止し、対応する結果を早期に返すことができる。 早期退避を効果的に行うための適切な早期退避基準と微調整戦略について検討する。 LibriSpeechの実験結果によると、HuBERT-EEは性能とレイテンシのトレードオフを同時にバランスしながら、HuBERTの推論を加速できる。

Pre-training with self-supervised models, such as Hidden-unit BERT (HuBERT) and wav2vec 2.0, has brought significant improvements in automatic speech recognition (ASR). However, these models usually require an expensive computational cost to achieve outstanding performance, slowing down the inference speed. To improve the model efficiency, we introduce an early exit scheme for ASR, namely HuBERT-EE, that allows the model to stop the inference dynamically. In HuBERT-EE, multiple early exit branches are added at the intermediate layers. When the intermediate prediction of the early exit branch is confident, the model stops the inference, and the corresponding result can be returned early. We investigate the proper early exiting criterion and fine-tuning strategy to effectively perform early exiting. Experimental results on the LibriSpeech show that HuBERT-EE can accelerate the inference of the HuBERT while simultaneously balancing the trade-off between the performance and the latency.
翻訳日:2024-06-22 11:31:36 公開日:2024-06-19
# 異種環境におけるデータ駆動型意思決定

Beyond IID: data-driven decision-making in heterogeneous environments ( http://arxiv.org/abs/2206.09642v4 )

ライセンス: Link先を確認
Omar Besbes, Will Ma, Omar Mouchtaki, (参考訳) 過去の観察が未来を完全に表すものではない場合、例えば、"正しい"ことができない未観測の共同創設者の存在のために、過去のデータをどのように活用すればよいか? そこで本研究では,未知の試料を未知の分布から生成するデータ駆動型意思決定フレームワークについて検討し,未知の分布と未知の(サンプル外)分布を中心とした未知の半径を持つ不均質球内に存在すると仮定した分布について検討した。 本研究の目的は、これらの異種環境における中心的なデータ駆動型ポリシのパフォーマンスだけでなく、ほぼ最適なポリシの分析と、パフォーマンスの重要な要因の理解である。 我々は、幅広い政策の漸近的な最悪の後悔を上限にできる最初の結果を確立する。 この結果を利用して、任意の積分確率計量に対して、不均一球の半径の関数として、サンプル平均近似(SAA)によって達成される性能の一般解析を行う。 この分析は,不均一性と問題構造との相互作用がSAAの性能に与える影響を捉えるために導入した複雑性の概念である近似パラメータを中心に行われる。 この手法を適用すれば,問題クラスと不均一性の組み合わせによって,SAAの性能が著しく異なることが分かる。 特定のインスタンスに対するSAAの失敗は、レート最適化を達成するための代替ポリシーの設計を動機付けている。 上記の図解的問題に対する強い保証を達成するための問題依存ポリシーを導出し、一般利率最適化アルゴリズムの設計と解析の原則的アプローチに向けた最初の結果を提供する。

How should one leverage historical data when past observations are not perfectly indicative of the future, e.g., due to the presence of unobserved confounders which one cannot "correct" for? Motivated by this question, we study a data-driven decision-making framework in which historical samples are generated from unknown and different distributions assumed to lie in a heterogeneity ball with known radius and centered around the (also) unknown future (out-of-sample) distribution on which the performance of a decision will be evaluated. This work aims at analyzing the performance of central data-driven policies but also near-optimal ones in these heterogeneous environments and understanding key drivers of performance. We establish a first result which allows to upper bound the asymptotic worst-case regret of a broad class of policies. Leveraging this result, for any integral probability metric, we provide a general analysis of the performance achieved by Sample Average Approximation (SAA) as a function of the radius of the heterogeneity ball. This analysis is centered around the approximation parameter, a notion of complexity we introduce to capture how the interplay between the heterogeneity and the problem structure impacts the performance of SAA. In turn, we illustrate through several widely-studied problems -- e.g., newsvendor, pricing -- how this methodology can be applied and find that the performance of SAA varies considerably depending on the combinations of problem classes and heterogeneity. The failure of SAA for certain instances motivates the design of alternative policies to achieve rate-optimality. We derive problem-dependent policies achieving strong guarantees for the illustrative problems described above and provide initial results towards a principled approach for the design and analysis of general rate-optimal algorithms.
翻訳日:2024-06-22 11:31:36 公開日:2024-06-19
# 運動量に基づく加速度最適化アルゴリズムにおける収束率と雑音増幅のトレードオフ

Tradeoffs between convergence rate and noise amplification for momentum-based accelerated optimization algorithms ( http://arxiv.org/abs/2209.11920v3 )

ライセンス: Link先を確認
Hesameddin Mohammadi, Meisam Razaviyayn, Mihailo R. Jovanović, (参考訳) モーメントに基づく1次最適化アルゴリズムについて検討し, 2つのステップからの情報を利用して, 付加的な白色雑音を呈する手法を提案する。 このセットアップではノイズを使用して勾配評価やイテレーション更新の不確かさを考慮し、PolyakのヘビーボールとNesterovのアクセラレーションメソッドを特別なケースとして含んでいる。 強い凸2次問題に対して、最適化変数における誤差の定常分散を用いて、雑音増幅の定量化と基本確率的性能トレードオフの同定を行う。 提案手法では, 線形収束条件の新たな幾何学的特徴付けとして, 雑音増幅と収束率の関係, 条件数と一定のアルゴリズムパラメータへの依存性を明らかにする。 この幾何学的洞察は、標準収束結果の単純な代替証明につながり、強い凸最適化の「不確かさ原理」を確立できる: 線形収束率を持つ2段階運動量法の場合、沈降時間と雑音増幅の間の積上の下界は条件数と2次的にスケールする。 アルゴリズムを十分に減速させることで、勾配雑音の増幅を任意に小さくすることができる一方で、反復雑音モデルに対する最も達成可能な分散は、減速状態における沈降時間とともに線形的に増加する。 最後に、ノイズ増幅と定置時間とのバランスを保ちながら、両方のノイズモデルに対する秩序度パレート最適性を保ちながら、2つのパラメータ化されたアルゴリズムの族を導入する。

We study momentum-based first-order optimization algorithms in which the iterations utilize information from the two previous steps and are subject to an additive white noise. This setup uses noise to account for uncertainty in either gradient evaluation or iteration updates, and it includes Polyak's heavy-ball and Nesterov's accelerated methods as special cases. For strongly convex quadratic problems, we use the steady-state variance of the error in the optimization variable to quantify noise amplification and identify fundamental stochastic performance tradeoffs. Our approach utilizes the Jury stability criterion to provide a novel geometric characterization of conditions for linear convergence, and it reveals the relation between the noise amplification and convergence rate as well as their dependence on the condition number and the constant algorithmic parameters. This geometric insight leads to simple alternative proofs of standard convergence results and allows us to establish ``uncertainty principle'' of strongly convex optimization: for the two-step momentum method with linear convergence rate, the lower bound on the product between the settling time and noise amplification scales quadratically with the condition number. Our analysis also identifies a key difference between the gradient and iterate noise models: while the amplification of gradient noise can be made arbitrarily small by sufficiently decelerating the algorithm, the best achievable variance for the iterate noise model increases linearly with the settling time in the decelerating regime. Finally, we introduce two parameterized families of algorithms that strike a balance between noise amplification and settling time while preserving order-wise Pareto optimality for both noise models.
翻訳日:2024-06-22 11:31:36 公開日:2024-06-19
# ファウンデーションモデルの微分プライベートバイアス項微調整

Differentially Private Bias-Term Fine-tuning of Foundation Models ( http://arxiv.org/abs/2210.00036v3 )

ライセンス: Link先を確認
Zhiqi Bu, Yu-Xiang Wang, Sheng Zha, George Karypis, (参考訳) 我々は、大規模な事前訓練されたモデルの差分プライベート(DP)微調整(differentially private)の問題について検討する。 既存の研究は、高いプライバシー制約の下で高い精度が可能であることを示したが、ネットワークアーキテクチャへの大幅な計算オーバーヘッドや修正が必要である。 DPアルゴリズムの最先端精度と標準BiTFiTの効率とを一致させる差分プライベートバイアス項微調整(DP-BiTFiT)を提案する。 DP-BiTFiTは、モデル非依存(ネットワークアーキテクチャを変更しない)、パラメータ効率(パラメータの約0.1%のトレーニングのみ)、計算効率(DPによって引き起こされるオーバーヘッドを、時間と空間の複雑さの両方で取り除く)である。 幅広いタスクにおいて、DP-BiTFiTは2~30倍高速で、DPフルチューニングよりも2~8倍少ないメモリを使用する。 この驚くべき効率により,従来の手法では計算が困難であった長文および高解像度画像を用いて,言語および視覚タスクのDP微調整を行うことができる。 FastDP(https://github.com/awslabs/fast-differential-privacy)でコードをオープンソースにしています。

We study the problem of differentially private (DP) fine-tuning of large pre-trained models -- a recent privacy-preserving approach suitable for solving downstream tasks with sensitive data. Existing work has demonstrated that high accuracy is possible under strong privacy constraint, yet requires significant computational overhead or modifications to the network architecture. We propose differentially private bias-term fine-tuning (DP-BiTFiT), which matches the state-of-the-art accuracy for DP algorithms and the efficiency of the standard BiTFiT. DP-BiTFiT is model agnostic (not modifying the network architecture), parameter efficient (only training about 0.1% of the parameters), and computation efficient (almost removing the overhead caused by DP, in both the time and space complexity). On a wide range of tasks, DP-BiTFiT is 2~30X faster and uses 2~8X less memory than DP full fine-tuning, even faster than the standard full fine-tuning. This amazing efficiency enables us to conduct DP fine-tuning on language and vision tasks with long-sequence texts and high-resolution images, which were computationally difficult using existing methods. We open-source our code at FastDP (https://github.com/awslabs/fast-differential-privacy).
翻訳日:2024-06-22 11:31:36 公開日:2024-06-19
# 医用画像超解像のための微調整逆数ネットワークモデル

Fine-tuned Generative Adversarial Network-based Model for Medical Image Super-Resolution ( http://arxiv.org/abs/2211.00577v8 )

ライセンス: Link先を確認
Alireza Aghelan, Modjtaba Rouhani, (参考訳) 医用画像解析の分野では、診断精度を向上させるために高解像度(HR)画像が必要である。 しかし、高度な機器とかなりの時間を要するため、HR医療画像を得ることは難しい課題である。 深層学習に基づく超解像法は、低解像度(LR)医療画像の解像度と知覚的品質を改善するのに役立つ。 近年,GAN(Generative Adversarial Network)に基づく手法は,ディープラーニングに基づく超解像法において顕著な性能を示した。 The Real-Enhanced Super-Resolution Generative Adversarial Network (Real-ESRGAN) is a practical model for recovery HR images from real-world LR images。 提案手法では,医用画像データセットを用いてトランスファーラーニング手法を用いて,事前学習したReal-ESRGANモデルを微調整する。 この技術はモデルの性能を向上させるのに役立つ。 実世界の画像劣化をシミュレートするReal-ESRGANの高次劣化モデルを用いる。 この適応により、より現実的な劣化した医療画像を生成することができ、パフォーマンスが向上する。 本研究の目的は,胸部X線像と網膜像の解像度と知覚品質の向上である。 我々は,結核胸部X線データセットと網膜画像のSTAREデータセットを用いてモデルを微調整する。 提案モデルでは,Real-ESRGANモデルに比べて知覚品質が優れ,細部を効果的に保存し,より現実的なテクスチャで画像を生成する。

In the field of medical image analysis, there is a substantial need for high-resolution (HR) images to improve diagnostic accuracy. However, it is a challenging task to obtain HR medical images, as it requires advanced instruments and significant time. Deep learning-based super-resolution methods can help to improve the resolution and perceptual quality of low-resolution (LR) medical images. Recently, Generative Adversarial Network (GAN) based methods have shown remarkable performance among deep learning-based super-resolution methods. Real-Enhanced Super-Resolution Generative Adversarial Network (Real-ESRGAN) is a practical model for recovering HR images from real-world LR images. In our proposed approach, we use transfer learning technique and fine-tune the pre-trained Real-ESRGAN model using medical image datasets. This technique helps in improving the performance of the model. We employ the high-order degradation model of the Real-ESRGAN which better simulates real-world image degradations. This adaptation allows for generating more realistic degraded medical images, resulting in improved performance. The focus of this paper is on enhancing the resolution and perceptual quality of chest X-ray and retinal images. We use the Tuberculosis chest X-ray (Shenzhen) dataset and the STARE dataset of retinal images for fine-tuning the model. The proposed model achieves superior perceptual quality compared to the Real-ESRGAN model, effectively preserving fine details and generating images with more realistic textures.
翻訳日:2024-06-22 11:31:36 公開日:2024-06-19
# 未知の計測ノイズを持つ物理インフォームニューラルネットワーク

Physics-informed Neural Networks with Unknown Measurement Noise ( http://arxiv.org/abs/2211.15498v5 )

ライセンス: Link先を確認
Philipp Pilar, Niklas Wahlström, (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、解の発見と偏微分方程式のパラメータの同定の両方に対する柔軟なアプローチである。 このトピックに関するほとんどの研究は、ノイズのないデータ、または弱いガウスノイズで汚染されたデータを想定している。 非ガウス雑音の場合、標準のPINNフレームワークが故障することを示す。 本稿では,この基本的な問題を解決する方法を提供し,エネルギーベースモデル(EBM)を協調訓練して,正しい雑音分布を学習することを提案する。 複数の例を用いて,提案手法の性能改善について解説する。

Physics-informed neural networks (PINNs) constitute a flexible approach to both finding solutions and identifying parameters of partial differential equations. Most works on the topic assume noiseless data, or data contaminated with weak Gaussian noise. We show that the standard PINN framework breaks down in case of non-Gaussian noise. We give a way of resolving this fundamental issue and we propose to jointly train an energy-based model (EBM) to learn the correct noise distribution. We illustrate the improved performance of our approach using multiple examples.
翻訳日:2024-06-22 11:31:36 公開日:2024-06-19
# RNA二次構造予測の解読:確率論的K-Rookマッチングの観点から

Deciphering RNA Secondary Structure Prediction: A Probabilistic K-Rook Matching Perspective ( http://arxiv.org/abs/2212.14041v5 )

ライセンス: Link先を確認
Cheng Tan, Zhangyang Gao, Hanqun Cao, Xingran Chen, Ge Wang, Lirong Wu, Jun Xia, Jiangbin Zheng, Stan Z. Li, (参考訳) リボ核酸(RNA)の二次構造は、その第3次構造よりも安定しており、細胞内でアクセスしやすく、機能的な予測に不可欠である。 ディープラーニングはこの分野で有望な結果を示しているが、現在の手法は一般化の貧弱さと複雑さに悩まされている。 本研究では,RNA二次構造予測をK-Rook問題として再構成し,その予測プロセスを有限解空間内での確率的マッチングに単純化する。 この革新的な観点から、与えられたシーケンスから最も一致するK-Rook解を予測するための、単純で効果的な方法であるRFoldを導入する。 RFoldは、確率的マッチング問題を行ワイドおよび列ワイドのコンポーネントに分解して、マッチングの複雑さを低減し、出力の有効性を保証しながら解決プロセスを簡素化する2次元最適化戦略を採用している。 RFoldは最先端の手法よりも競争性能と推論効率を約8倍に向上することを示した。 コードとColabのデモはhttp://github.com/A4Bio/RFold.orgで公開されている。

The secondary structure of ribonucleic acid (RNA) is more stable and accessible in the cell than its tertiary structure, making it essential for functional prediction. Although deep learning has shown promising results in this field, current methods suffer from poor generalization and high complexity. In this work, we reformulate the RNA secondary structure prediction as a K-Rook problem, thereby simplifying the prediction process into probabilistic matching within a finite solution space. Building on this innovative perspective, we introduce RFold, a simple yet effective method that learns to predict the most matching K-Rook solution from the given sequence. RFold employs a bi-dimensional optimization strategy that decomposes the probabilistic matching problem into row-wise and column-wise components to reduce the matching complexity, simplifying the solving process while guaranteeing the validity of the output. Extensive experiments demonstrate that RFold achieves competitive performance and about eight times faster inference efficiency than the state-of-the-art approaches. The code and Colab demo are available in (http://github.com/A4Bio/RFold).
翻訳日:2024-06-22 11:31:36 公開日:2024-06-19
# ノイズなしのノイズ画像の表現

Representing Noisy Image Without Denoising ( http://arxiv.org/abs/2301.07409v3 )

ライセンス: Link先を確認
Shuren Qi, Yushu Zhang, Chao Wang, Tao Xiang, Xiaochun Cao, Yong Xiang, (参考訳) 人工知能における長年のトピックは、ノイズの多い画像からパターンを効果的に認識することである。 この点において、最近のデータ駆動パラダイムは考慮すべきである 1)訓練段階(すなわちデータ増強)にノイズのあるサンプルを追加することにより、表現の堅牢性を向上させること 2)逆問題(すなわち、画像デノーミング)を解決するために、学習によってノイズの多い画像を前処理する。 しかし、これらの手法は一般に非効率なプロセスと不安定な結果を示し、実用的応用を制限している。 本稿では,ノイズの多い画像から直接頑健な表現を導出することを目的とした非学習パラダイムについて検討する。 ここで、ノイズ・ロバスト表現はラドン空間(FMR)におけるフラクショナル次モーメントとして設計され、直交性や回転不変性の利点もある。 従来の整数順序法とは異なり、我々の研究はそのような古典的手法を特別な場合として取り入れたより汎用的な設計であり、導入された分数次パラメータは古典的手法では利用できない時間周波数解析機能を提供する。 形式的には、FMRを構築するための暗黙の経路と明示的な経路の両方を詳細に議論する。 広汎なシミュレーション実験と画像セキュリティアプリケーションにより、FMRの特異性と有用性、特にノイズロバスト性、回転不変性、時間周波数識別性を示す。

A long-standing topic in artificial intelligence is the effective recognition of patterns from noisy images. In this regard, the recent data-driven paradigm considers 1) improving the representation robustness by adding noisy samples in training phase (i.e., data augmentation) or 2) pre-processing the noisy image by learning to solve the inverse problem (i.e., image denoising). However, such methods generally exhibit inefficient process and unstable result, limiting their practical applications. In this paper, we explore a non-learning paradigm that aims to derive robust representation directly from noisy images, without the denoising as pre-processing. Here, the noise-robust representation is designed as Fractional-order Moments in Radon space (FMR), with also beneficial properties of orthogonality and rotation invariance. Unlike earlier integer-order methods, our work is a more generic design taking such classical methods as special cases, and the introduced fractional-order parameter offers time-frequency analysis capability that is not available in classical methods. Formally, both implicit and explicit paths for constructing the FMR are discussed in detail. Extensive simulation experiments and an image security application are provided to demonstrate the uniqueness and usefulness of our FMR, especially for noise robustness, rotation invariance, and time-frequency discriminability.
翻訳日:2024-06-22 11:31:36 公開日:2024-06-19
# 説明可能な人工知能におけるユーザの嗜好を理解する:調査とマッピング機能の提案

Understanding User Preferences in Explainable Artificial Intelligence: A Survey and a Mapping Function Proposal ( http://arxiv.org/abs/2302.03180v2 )

ライセンス: Link先を確認
Maryam Hashemi, Ali Darejeh, Francisco Cruz, (参考訳) AIシステムの複雑さの増大は、AIアルゴリズムの出力に関する説明と正当化を提供することを目的とした、説明可能な人工知能(XAI)の分野の成長につながった。 XAIにはかなりの需要があるが、異なる手法間の実践的区別を包括的に理解し、各手法を個人のニーズに効果的に整合させることを目的とした研究が残っており、理想的には、各ユーザの特定のニーズを説明可能性の方法にマッピングできるマッピング機能を提供している。 この研究は、XAIにおける既存の研究を徹底的にレビューし、説明可能な機械学習(XML)に特化して、ユーザニーズに鋭い目を向けることで、このギャップを埋めようとしている。 我々の主な目的は、XMLの領域内でXAIメソッドの分類を提供し、現在の作品を哲学、理論、実践の3つの異なる領域に分類し、各カテゴリに対して批判的なレビューを提供することである。 さらに, XAI 利用者と XAI 利用者との連携の促進を図るとともに,利用者と所望の属性を考慮に入れたマッピング機能を提案し,XAI の手法を提案する。 これは、一般的なXAIアプローチの検証とそれらの特性の評価を含む。 本研究の主な成果は,個々のユーザに適したパーソナライズされた説明を提供すると同時に,目標を達成するための最適なXAI手法を選択するための明確で簡潔な戦略を定式化することである。

The increasing complexity of AI systems has led to the growth of the field of Explainable Artificial Intelligence (XAI), which aims to provide explanations and justifications for the outputs of AI algorithms. While there is considerable demand for XAI, there remains a scarcity of studies aimed at comprehensively understanding the practical distinctions among different methods and effectively aligning each method with users individual needs, and ideally, offer a mapping function which can map each user with its specific needs to a method of explainability. This study endeavors to bridge this gap by conducting a thorough review of extant research in XAI, with a specific focus on Explainable Machine Learning (XML), and a keen eye on user needs. Our main objective is to offer a classification of XAI methods within the realm of XML, categorizing current works into three distinct domains: philosophy, theory, and practice, and providing a critical review for each category. Moreover, our study seeks to facilitate the connection between XAI users and the most suitable methods for them and tailor explanations to meet their specific needs by proposing a mapping function that take to account users and their desired properties and suggest an XAI method to them. This entails an examination of prevalent XAI approaches and an evaluation of their properties. The primary outcome of this study is the formulation of a clear and concise strategy for selecting the optimal XAI method to achieve a given goal, all while delivering personalized explanations tailored to individual users.
翻訳日:2024-06-22 09:10:16 公開日:2024-06-19
# 構築番号: グラフの作り方?

Construction numbers: How to build a graph? ( http://arxiv.org/abs/2302.13186v4 )

ライセンス: Link先を確認
Paul C. Kainen, (参考訳) 部分順序の線型拡大の数を数えることは、約50年前にスタンレーによって検討された。 包含によって与えられるグラフの頂点と辺の部分順序について、各辺が付随する頂点に従うように、グラフに対する線形拡張 a {\it construction sequence} を呼ぶ。 これらのc系列の数は、様々なグラフ族に数えられる。 また、グラフが生成した長さ$n$c列の集合を$n$要素で、その構造骨格(頂点または辺)に単純化し、生成グラフが構造的に制約されるようにする。 効率は分析される。

Counting the number of linear extensions of a partial order was considered by Stanley about 50 years ago. For the partial order on the vertices and edges of a graph given by inclusion, we call a linear extension a {\it construction sequence} for the graph as each edge follows the vertices where it is attached. The number of these c-sequences is counted for various graph families. We also consider the set of all length-$n$ c-sequences produced by the graphs with $n$ elements, simplified to their structural skeleton: vertex or edge, and further allow the generating graph to be structurally constrained. Efficiency is analyzed.
翻訳日:2024-06-22 09:10:16 公開日:2024-06-19
# qSWIFT:ハミルトンシミュレーションのための高階ランダム化コンパイラ

qSWIFT: High-order randomized compiler for Hamiltonian simulation ( http://arxiv.org/abs/2302.14811v2 )

ライセンス: Link先を確認
Kouhei Nakaji, Mohsen Bagherimehrab, Alan Aspuru-Guzik, (参考訳) ハミルトニアンシミュレーションは、最も直接的な応用、多体系のシミュレーションによる物理特性の抽出など、様々な量子アルゴリズムの基本的な構成要素の1つとして知られている。 本研究では,ハミルトンシミュレーションのための高次ランダム化アルゴリズムqSWIFTを提案する。 qSWIFT では、与えられた精度のゲートの個数はハミルトンの項の数とは独立であり、体系的な誤差は順序パラメータに関して指数関数的に減少する。 この点において、我々のqSWIFTは、従来提案されていた量子確率的ドリフトプロトコル(qDRIFT)の高次のものである。 我々は、qSWIFTチャネルを構築し、ダイヤモンドノルムで定量化された体系的エラーに対して厳密な境界を確立する。 qSWIFTは、通常のトロッタースズキ分解やqDRIFTのような他の製品-フォーミュラベースのアプローチと同じくらい単純である1つのアンシラ量子ビットを持つシステムを用いて、与えられた物理量を推定するアルゴリズムを提供する。 数値実験の結果,qSWIFTのゲート数はqDRIFTに比べて有意に減少した。 特に、高い精度が要求される問題では、例えば、系統的な相対的伝播誤差が10^{-6}$に達するためには、3次qSWIFTのゲート数は、qDRIFTの1000倍小さい。

Hamiltonian simulation is known to be one of the fundamental building blocks of a variety of quantum algorithms such as its most immediate application, that of simulating many-body systems to extract their physical properties. In this work, we present qSWIFT, a high-order randomized algorithm for Hamiltonian simulation. In qSWIFT, the required number of gates for a given precision is independent of the number of terms in Hamiltonian, while the systematic error is exponentially reduced with regards to the order parameter. In this respect, our qSWIFT is a higher-order counterpart of the previously proposed quantum stochastic drift protocol (qDRIFT), in which the number of gates scales linearly with the inverse of the precision required. We construct the qSWIFT channel and establish a rigorous bound for the systematic error quantified by the diamond norm. qSWIFT provides an algorithm to estimate given physical quantities using a system with one ancilla qubit, which is as simple as other product-formula-based approaches such as regular Trotter-Suzuki decompositions and qDRIFT. Our numerical experiment reveals that the required number of gates in qSWIFT is significantly reduced compared to qDRIFT. Particularly, the advantage is significant for problems where high precision is required; for example, to achieve a systematic relative propagation error of $10^{-6}$, the required number of gates in third-order qSWIFT is 1000 times smaller than that of qDRIFT.
翻訳日:2024-06-22 09:10:16 公開日:2024-06-19
# containing: ネットワーク免疫のためのコミュニティベースのアルゴリズム

CONTAIN: A Community-based Algorithm for Network Immunization ( http://arxiv.org/abs/2303.01934v2 )

ライセンス: Link先を確認
Elena-Simona Apostol, Özgur Coban, Ciprian-Octavian Truică, (参考訳) ネットワーク免疫は、ネットワーク分析の分野で自動化されたタスクであり、望ましくない任意の拡散によってネットワーク(グラフとしてモデル化された)が感染することを防ぐ。 本稿では,ソーシャルネットワークにおける有害コンテンツの拡散を考察し,ネットワーク免疫のための新しいCOMmuNiTyアルゴリズムである containingを提案する。 本ソリューションでは,(1)有害なコンテンツスプレッドラーを検出するためにネットワーク情報を使用し,(2)各スプレッドラーによって誘導されるサブグラフを用いて分割を生成し,それらのランク付けを行う。 実世界のデータセットで得られた実験結果は、NetShieldやSparseShieldといった最先端のソリューションよりも少ないイテレーションでネットワークを免疫することにより、最先端のアルゴリズムよりもはるかに高速に収束することを示す。 我々はまた、スケーラビリティの観点から、NetShieldやSparseShieldと同様に、最先端のツリーベースの緩和アルゴリズムMCWDSTと比較した。 我々のソリューションはMCWDSTとNetShieldより優れていると結論付けることができる。

Network immunization is an automated task in the field of network analysis that involves protecting a network (modeled as a graph) from being infected by an undesired arbitrary diffusion. In this article, we consider the spread of harmful content in social networks, and we propose CONTAIN, a novel COmmuNiTy-based Algorithm for network ImmuNization. Our solution uses the network information to (1) detect harmful content spreaders, and (2) generate partitions and rank them for immunization using the subgraphs induced by each spreader, i.e., employing CONTAIN. The experimental results obtained on real-world datasets show that CONTAIN outperforms state-of-the-art solutions, i.e., NetShield and SparseShield, by immunizing the network in fewer iterations, thus, converging significantly faster than the state-of-the-art algorithms. We also compared our solution in terms of scalability with the state-of-the-art tree-based mitigation algorithm MCWDST, as well as with NetShield and SparseShield. We can conclude that our solution outperforms MCWDST and NetShield.
翻訳日:2024-06-22 09:10:16 公開日:2024-06-19
# 局所制御可能な偏光投影を用いた摂食偏光型視覚

Fooling Polarization-based Vision using Locally Controllable Polarizing Projection ( http://arxiv.org/abs/2303.17890v2 )

ライセンス: Link先を確認
Zhuoxiao Li, Zhihang Zhong, Shohei Nobuhara, Ko Nishino, Yinqiang Zheng, (参考訳) 偏光は、表面形状、材料、照明および視光幾何学に関する豊富な情報を符号化する光の基本特性である。 コンピュータビジョンコミュニティは、偏光データ取得をこれまで以上に容易にするシングルチップモノ/カラー偏光センサーの出現によって、反射除去、形状から偏光、透明な物体セグメンテーション、カラーコンスタンスといった偏光ベースの視覚応用の花を目撃している。 しかし、偏光に基づく視覚は敵攻撃に弱いか? もしそうなら、人間の目で認識されることなく、物理的な世界でこのような敵対的攻撃を実現することは可能だろうか? 本稿では、RGBベースのビジョンよりも深刻な偏光ベースのビジョンの脆弱性について、コミュニティに警告する。 市販のLCDプロジェクタを適応させることにより,ガラスの偏光と色配向に対する最先端の偏光に基づく視覚アルゴリズムにうまく活用できる局所制御可能な偏光プロジェクタを実現する。 攻撃効果と視力のトレードオフに常に苦しむ既存のRGBベースの視覚に対する物理的な攻撃と比較して、偏光投射に基づく敵の攻撃は接触なく視覚的にも知覚できない。 これは偏光に基づく視覚に前例のないリスクを生じさせ、これは単色領域と三色領域の両方において、十分な注意を払うべきであり、対策を考慮すべきである。

Polarization is a fundamental property of light that encodes abundant information regarding surface shape, material, illumination and viewing geometry. The computer vision community has witnessed a blossom of polarization-based vision applications, such as reflection removal, shape-from-polarization, transparent object segmentation and color constancy, partially due to the emergence of single-chip mono/color polarization sensors that make polarization data acquisition easier than ever. However, is polarization-based vision vulnerable to adversarial attacks? If so, is that possible to realize these adversarial attacks in the physical world, without being perceived by human eyes? In this paper, we warn the community of the vulnerability of polarization-based vision, which can be more serious than RGB-based vision. By adapting a commercial LCD projector, we achieve locally controllable polarizing projection, which is successfully utilized to fool state-of-the-art polarization-based vision algorithms for glass segmentation and color constancy. Compared with existing physical attacks on RGB-based vision, which always suffer from the trade-off between attack efficacy and eye conceivability, the adversarial attackers based on polarizing projection are contact-free and visually imperceptible, since naked human eyes can rarely perceive the difference of viciously manipulated polarizing light and ordinary illumination. This poses unprecedented risks on polarization-based vision, both in the monochromatic and trichromatic domain, for which due attentions should be paid and counter measures be considered.
翻訳日:2024-06-22 09:10:16 公開日:2024-06-19
# MoDA: カジュアルビデオから変形可能な3Dオブジェクトをモデリング

MoDA: Modeling Deformable 3D Objects from Casual Videos ( http://arxiv.org/abs/2304.08279v3 )

ライセンス: Link先を確認
Chaoyue Song, Jiacheng Wei, Tianyi Chen, Yiwen Chen, Chuan Sheng Foo, Fayao Liu, Guosheng Lin, (参考訳) 本稿では,カジュアルビデオから変形可能な3Dオブジェクトをモデル化する際の課題に焦点をあてる。 ニューラルラジアンス場(NeRF)の人気により、多くの研究が、観測空間と標準空間の間の3次元点変換を実現する変形モデルと標準のNeRFを用いて動的シーンに拡張している。 最近の研究は、標準-観測変換を達成するために線形ブレンドスキン(LBS)に依存している。 しかし、剛体変換行列の線形重み付け結合は、剛体であることが保証されない。 実際、予期せぬスケールとせん断要因がしばしば現れる。 実際には、LBSを変形モデルとして使用すると、常に曲げたりねじったりするための皮膚を折り畳むアーティファクトにつながる可能性がある。 この問題を解決するために,ニューラルデュアル四元系ブレンドスキン(NeuDBS)を提案し,スキンを折り畳むことなく剛性変換が可能な3次元点変形を実現する。 異なるフレーム間で2Dピクセルを登録する試みにおいて、正準空間内の3D点を符号化する正準特徴埋め込みと、最適輸送問題を解くことによって2D画像特徴との対応性を確立する。 さらに、テクスチャレンダリングのためのテクスチャフィルタリング手法を導入し、ターゲット変形対象外におけるノイズ色の影響を効果的に最小化する。 実際のデータセットと合成データセットの大規模な実験により、我々の手法は、最先端の手法よりも質的かつ定量的な性能で、人間と動物の3Dモデルを再構築できることが示されている。 プロジェクトページ: \url{https://chaoyuesong.github.io/MoDA}。

In this paper, we focus on the challenges of modeling deformable 3D objects from casual videos. With the popularity of neural radiance fields (NeRF), many works extend it to dynamic scenes with a canonical NeRF and a deformation model that achieves 3D point transformation between the observation space and the canonical space. Recent works rely on linear blend skinning (LBS) to achieve the canonical-observation transformation. However, the linearly weighted combination of rigid transformation matrices is not guaranteed to be rigid. As a matter of fact, unexpected scale and shear factors often appear. In practice, using LBS as the deformation model can always lead to skin-collapsing artifacts for bending or twisting motions. To solve this problem, we propose neural dual quaternion blend skinning (NeuDBS) to achieve 3D point deformation, which can perform rigid transformation without skin-collapsing artifacts. In the endeavor to register 2D pixels across different frames, we establish a correspondence between canonical feature embeddings that encodes 3D points within the canonical space, and 2D image features by solving an optimal transport problem. Besides, we introduce a texture filtering approach for texture rendering that effectively minimizes the impact of noisy colors outside target deformable objects. Extensive experiments on real and synthetic datasets show that our approach can reconstruct 3D models for humans and animals with better qualitative and quantitative performance than state-of-the-art methods. Project page: \url{https://chaoyuesong.github.io/MoDA}.
翻訳日:2024-06-22 09:10:16 公開日:2024-06-19
# 関節拡散アテンションモデルを用いた高磁場・超高磁場MR画像からのPET画像の合成

Synthesizing PET images from High-field and Ultra-high-field MR images Using Joint Diffusion Attention Model ( http://arxiv.org/abs/2305.03901v2 )

ライセンス: Link先を確認
Taofeng Xie, Chentao Cao, Zhuoxu Cui, Yu Guo, Caiying Wu, Xuemei Wang, Qingneng Li, Zhanli Hu, Tao Sun, Ziru Sang, Yihang Zhou, Yanjie Zhu, Dong Liang, Qiyu Jin, Hongwu Zeng, Guoqing Chen, Haifeng Wang, (参考訳) MRIとPETは、脳の構造と機能に関する補完的な情報を提供するため、脳疾患にとって重要な診断ツールである。 しかし、PETスキャンは高価であり、放射性曝露を伴うため、PETが欠如している。 また,超高磁場におけるPETとMRIの同時投与は,現在ではほとんど実現不可能である。 超高磁場イメージングは、臨床と学術の両方で、特に認知神経画像学の分野で、必然的に有益であることが証明されている。 これらのことから,高精細MRIと超高精細MRIの合成PET法を提案する。 統計学的観点から見ると、関節確率分布(JPD)はPETとMRIの相関を示す最も直接的かつ基本的な手段である。 本稿では,JDAMという共同確率分布とアテンション戦略を有する新しい共同拡散アテンションモデルを提案する。 JDAMは拡散過程とサンプリング過程を有する。 拡散過程はガウス雑音を付加することによりPETのガウス雑音への段階的な拡散を伴うが、MRIは固定されている。 拡散過程においてMRIとノイズ付加PETのJPDが得られた。 サンプリングプロセスは予測器・相関器である。 PET画像はMRIのJSDとノイズ付加PETで生成した。 予測子は逆拡散過程であり、補正子はランゲヴィン力学である。 The public Alzheimer's Disease Neuroimaging Initiative (ADNI) データセットの実験的結果は、提案手法が高磁場MRI(3T MRI)に対して最先端のCycleGANより優れていることを示している。 最後に、超高磁場(5T MRIと7T MRI)からの合成PET画像が試みられ、超高磁場PET-MRI画像の可能性が示唆された。

MRI and PET are crucial diagnostic tools for brain diseases, as they provide complementary information on brain structure and function. However, PET scanning is costly and involves radioactive exposure, resulting in a lack of PET. Moreover, simultaneous PET and MRI at ultra-high-field are currently hardly infeasible. Ultra-high-field imaging has unquestionably proven valuable in both clinical and academic settings, especially in the field of cognitive neuroimaging. These motivate us to propose a method for synthetic PET from high-filed MRI and ultra-high-field MRI. From a statistical perspective, the joint probability distribution (JPD) is the most direct and fundamental means of portraying the correlation between PET and MRI. This paper proposes a novel joint diffusion attention model which has the joint probability distribution and attention strategy, named JDAM. JDAM has a diffusion process and a sampling process. The diffusion process involves the gradual diffusion of PET to Gaussian noise by adding Gaussian noise, while MRI remains fixed. JPD of MRI and noise-added PET was learned in the diffusion process. The sampling process is a predictor-corrector. PET images were generated from MRI by JPD of MRI and noise-added PET. The predictor is a reverse diffusion process and the corrector is Langevin dynamics. Experimental results on the public Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset demonstrate that the proposed method outperforms state-of-the-art CycleGAN for high-field MRI (3T MRI). Finally, synthetic PET images from the ultra-high-field (5T MRI and 7T MRI) be attempted, providing a possibility for ultra-high-field PET-MRI imaging.
翻訳日:2024-06-22 09:00:25 公開日:2024-06-19
# DOCTOR:ウェアラブル・メディカル・センサを用いた多自由度検出連続学習フレームワーク

DOCTOR: A Multi-Disease Detection Continual Learning Framework Based on Wearable Medical Sensors ( http://arxiv.org/abs/2305.05738v5 )

ライセンス: Link先を確認
Chia-Hao Li, Niraj K. Jha, (参考訳) エッジデバイスにおける機械学習(ML)とウェアラブル医療センサ(WMS)の最近の進歩により、スマートヘルスケアのためのML駆動型疾患検出が可能になった。 従来のML駆動型疾患検出法は、各疾患の個々のモデルとその対応するWMSデータのカスタマイズに依存している。 しかし、これらの手法は分散シフトや新しいタスク分類クラスへの適応性に欠けていた。 さらに、新しい疾患ごとに、スクラッチから再検出され、再訓練される必要がある。 さらに、エッジデバイスに複数のMLモデルをインストールすると、過剰なメモリを消費し、バッテリのドレインが速くなり、検出プロセスが複雑になる。 これらの課題に対処するために,WMSに基づく多相検出連続学習(CL)フレームワークであるDOCTORを提案する。 マルチヘッドディープニューラルネットワーク(DNN)とリプレイスタイルのCLアルゴリズムを採用している。 CLアルゴリズムは、異なるデータ分散、分類クラス、病気検出タスクが順次導入される新しいミッションを継続的に学習することを可能にする。 データ保存方法と合成データ生成(SDG)モジュールとで破滅的な忘れを対処する。 データ保存方法は、前回のミッションから得た実際のトレーニングデータの最も情報に富んだサブセットを保存し、模範的な再生を行う。 SDGモジュールは、実際のトレーニングデータの確率分布をモデル化し、データのプライバシを保持しながら、生成再生のための合成データを生成する。 マルチヘッドDNNにより、DOCTORはユーザWMSデータに基づいて複数の疾患を同時に検出できる。 各種CL実験において,1つのDNNモデルを用いて高い疾患分類精度を維持する上でのDOCTORの有効性を実証した。 複雑なシナリオでは、DOCTORは平均的なテスト精度の1.43倍、F1スコアの1.25倍、および350KB未満の小さなモデルサイズを持つ単純な微調整フレームワークよりも0.41高い後方転送を実現している。

Modern advances in machine learning (ML) and wearable medical sensors (WMSs) in edge devices have enabled ML-driven disease detection for smart healthcare. Conventional ML-driven methods for disease detection rely on customizing individual models for each disease and its corresponding WMS data. However, such methods lack adaptability to distribution shifts and new task classification classes. In addition, they need to be rearchitected and retrained from scratch for each new disease. Moreover, installing multiple ML models in an edge device consumes excessive memory, drains the battery faster, and complicates the detection process. To address these challenges, we propose DOCTOR, a multi-disease detection continual learning (CL) framework based on WMSs. It employs a multi-headed deep neural network (DNN) and a replay-style CL algorithm. The CL algorithm enables the framework to continually learn new missions where different data distributions, classification classes, and disease detection tasks are introduced sequentially. It counteracts catastrophic forgetting with a data preservation method and a synthetic data generation (SDG) module. The data preservation method preserves the most informative subset of real training data from previous missions for exemplar replay. The SDG module models the probability distribution of the real training data and generates synthetic data for generative replay while retaining data privacy. The multi-headed DNN enables DOCTOR to detect multiple diseases simultaneously based on user WMS data. We demonstrate DOCTOR's efficacy in maintaining high disease classification accuracy with a single DNN model in various CL experiments. In complex scenarios, DOCTOR achieves 1.43 times better average test accuracy, 1.25 times better F1-score, and 0.41 higher backward transfer than the naive fine-tuning framework with a small model size of less than 350KB.
翻訳日:2024-06-22 09:00:25 公開日:2024-06-19
# スピン交換可能な大規模非アベリアゲージ理論のための量子シミュレータ

Spin exchange-enabled quantum simulator for large-scale non-Abelian gauge theories ( http://arxiv.org/abs/2305.06373v2 )

ライセンス: Link先を確認
Jad C. Halimeh, Lukas Homeier, Annabelle Bohrdt, Fabian Grusdt, (参考訳) 量子シミュレーターにおける大規模格子ゲージ理論(LGT)の忠実な実装のための中心的な要件は、基礎となるゲージ対称性の保護である。 大規模LGTの実験的実現の最近の進歩は印象的であり、主にアベリアゲージ群に限定されている。 ゲージ保護のためのこの要件により、局所創発的なゲージ対称性安定化項を具現化するスピン交換相互作用により、d+1$Dの動的物質を持つ大規模非アベリアの$\mathrm{SU}(N)$および$\mathrm{U}(N)$ LGTを実装する実験可能なアプローチを提案する。 2+1$D $\mathrm{SU}(2)$と$\mathrm{U}(2)$ LGTsの2つの具体的な提案について述べる。 実験的にアクセス可能なダイナミクスを示す数値ベンチマークを提供し、基礎となる非アベリアゲージの不変性の安定性を実証する。 我々は,関連する磁気プラケットと最小ゲージ・マッター結合項を特徴とする有効ゲージ不変モデルを得る手法を開発した。 提案手法は,アナログ量子シミュレータにおける大規模非アベリア量子リンクモデルの短期実現への道を開くものである。

A central requirement for the faithful implementation of large-scale lattice gauge theories (LGTs) on quantum simulators is the protection of the underlying gauge symmetry. Recent advancements in the experimental realizations of large-scale LGTs have been impressive, albeit mostly restricted to Abelian gauge groups. Guided by this requirement for gauge protection, we propose an experimentally feasible approach to implement large-scale non-Abelian $\mathrm{SU}(N)$ and $\mathrm{U}(N)$ LGTs with dynamical matter in $d+1$D, enabled by two-body spin-exchange interactions realizing local emergent gauge-symmetry stabilizer terms. We present two concrete proposals for $2+1$D $\mathrm{SU}(2)$ and $\mathrm{U}(2)$ LGTs, including dynamical bosonic matter and induced plaquette terms, that can be readily implemented in current ultracold-molecule and next-generation ultracold-atom platforms. We provide numerical benchmarks showcasing experimentally accessible dynamics, and demonstrate the stability of the underlying non-Abelian gauge invariance. We develop a method to obtain the effective gauge-invariant model featuring the relevant magnetic plaquette and minimal gauge-matter coupling terms. Our approach paves the way towards near-term realizations of large-scale non-Abelian quantum link models in analog quantum simulators.
翻訳日:2024-06-22 09:00:25 公開日:2024-06-19
# 密度行列のLiouville空間ニューラルネットワーク表現

Liouville Space Neural Network Representation of Density Matrices ( http://arxiv.org/abs/2305.13992v2 )

ライセンス: Link先を確認
Simon Kothe, Peter Kirton, (参考訳) アンザッツ波動関数としてのニューラルネットワーク量子状態は、スピンモデルの基底状態を見つけるための多くの約束を示す。 近年、オープンシステムの力学をシミュレートするための混合状態への拡張に焦点が当てられている。 これまでのほとんどのアプローチでは、系のヒルベルト空間のコピーが加わり、トレースアウトされたとき正しい密度行列が与えられる精製アンサッツを用いていた。 ここでは、リウヴィル空間の密度行列を直接表現する制限ボルツマンマシンの拡張を示す。 これにより平均場理論に現れる状態のコンパクト表現が可能になる。 我々は,2種類の散逸的逆場イジングモデルに対して,我々のアプローチをベンチマークし,他の最先端のアプローチと競合できることを示す。

Neural network quantum states as ansatz wavefunctions have shown a lot of promise for finding the ground state of spin models. Recently, work has been focused on extending this idea to mixed states for simulating the dynamics of open systems. Most approaches so far have used a purification ansatz where a copy of the system Hilbert space is added which when traced out gives the correct density matrix. Here, we instead present an extension of the Restricted Boltzmann Machine which directly represents the density matrix in Liouville space. This allows the compact representation of states which appear in mean-field theory. We benchmark our approach on two different version of the dissipative transverse field Ising model which show our ansatz is able to compete with other state-of-the-art approaches.
翻訳日:2024-06-22 09:00:25 公開日:2024-06-19
# 論理的制約付き部分可観測・マルチエージェントマルコフ決定過程の最適制御

Optimal Control of Logically Constrained Partially Observable and Multi-Agent Markov Decision Processes ( http://arxiv.org/abs/2305.14736v3 )

ライセンス: Link先を確認
Krishna C. Kalagarla, Dhruva Kartik, Dongming Shen, Rahul Jain, Ashutosh Nayyar, Pierluigi Nuzzo, (参考訳) 自律システムには、安全、運用、規制要件といった論理的な制約があることが多い。 このような制約は時間論理の仕様を使って表現できる。 システム状態は部分的に観察可能であることが多い。 さらに、共通の目的を持つ複数のエージェントからなるチームを含むことができるが、情報構造や制約は異なる。 本稿ではまず,有限線形時間論理制約を持つ部分観測可能マルコフ決定過程(POMDP)に対する最適制御理論を提案する。 時間論理制約を満たす確率が十分に高いことを保証しつつ、累積報酬を最大化するポリシーを合成するための構造化手法を提供する。 私たちのアプローチは、近似的な報酬の最適性と制約満足度に関する保証を伴います。 そこで我々は,情報非対称性を持つ論理的制約付きマルチエージェント設定のための最適制御フレームワークを設計するために,このアプローチを構築した。 いくつかのケーススタディに実装することで,本手法の有効性について解説する。

Autonomous systems often have logical constraints arising, for example, from safety, operational, or regulatory requirements. Such constraints can be expressed using temporal logic specifications. The system state is often partially observable. Moreover, it could encompass a team of multiple agents with a common objective but disparate information structures and constraints. In this paper, we first introduce an optimal control theory for partially observable Markov decision processes (POMDPs) with finite linear temporal logic constraints. We provide a structured methodology for synthesizing policies that maximize a cumulative reward while ensuring that the probability of satisfying a temporal logic constraint is sufficiently high. Our approach comes with guarantees on approximate reward optimality and constraint satisfaction. We then build on this approach to design an optimal control framework for logically constrained multi-agent settings with information asymmetry. We illustrate the effectiveness of our approach by implementing it on several case studies.
翻訳日:2024-06-22 09:00:25 公開日:2024-06-19
# フォワードフォワードアルゴリズムで学習したネットワークにおける創発的表現

Emergent representations in networks trained with the Forward-Forward algorithm ( http://arxiv.org/abs/2305.18353v3 )

ライセンス: Link先を確認
Niccolò Tosato, Lorenzo Basile, Emanuele Ballarin, Giuseppe de Alteriis, Alberto Cazzaniga, Alessio Ansuini, (参考訳) バックプロパゲーションアルゴリズムは、しばしば生物学的リアリズムの欠如によって批判されている。 より生物学的に妥当な代替手段を見つけるために、最近導入されたフォワードフォワードアルゴリズムは、バックプロパゲーションの前方および後方パスを2つの前方パスで置き換える。 本研究では,フォワード・フォワードアルゴリズムによって得られた内部表現が,低数のアクティブユニットからなる,高い疎度を示すカテゴリ固有のアンサンブルに編成可能であることを示す。 この状況は、神経細胞のアンサンブルが知覚と行動のための機能的なビルディングブロックとして機能することを示唆する皮質感覚領域で観察されたことを思い出させる。 興味深いことに、このスパースパターンは一般的に標準的なバックプロパゲーションで訓練されたモデルでは発生しないが、フォワード・フォワードアルゴリズムで提案されたのと同じ目的に基づいてバックプロパゲーションで訓練されたネットワークに現れる。 これらの結果から, 後進パスを用いた場合においても, フォワードが提案する学習手順は, 大脳皮質のモデリング学習において, バックプロパゲーションよりも優れている可能性が示唆された。

The Backpropagation algorithm has often been criticised for its lack of biological realism. In an attempt to find a more biologically plausible alternative, the recently introduced Forward-Forward algorithm replaces the forward and backward passes of Backpropagation with two forward passes. In this work, we show that the internal representations obtained by the Forward-Forward algorithm can organise into category-specific ensembles exhibiting high sparsity - composed of a low number of active units. This situation is reminiscent of what has been observed in cortical sensory areas, where neuronal ensembles are suggested to serve as the functional building blocks for perception and action. Interestingly, while this sparse pattern does not typically arise in models trained with standard Backpropagation, it can emerge in networks trained with Backpropagation on the same objective proposed for the Forward-Forward algorithm. These results suggest that the learning procedure proposed by Forward-Forward may be superior to Backpropagation in modelling learning in the cortex, even when a backward pass is used.
翻訳日:2024-06-22 09:00:25 公開日:2024-06-19
# 非線形ダイナミクスによるロバストMDPの解法

Solving Robust MDPs through No-Regret Dynamics ( http://arxiv.org/abs/2305.19035v2 )

ライセンス: Link先を確認
Etash Kumar Guha, (参考訳) 強化学習(Reinforcement Learning)は、エージェントがさまざまな状況をナビゲートするための強力なフレームワークであるが、環境力学の変化の影響を受けやすい。 しかし、変化に対して堅牢なマルコフ決定過程の解決は、非凸性やアクションや状態空間のサイズのため困難である。 ほとんどの研究は、この問題について異なる仮定をすることでこの問題を分析してきたが、一般的な効率的な理論分析はいまだに欠落している。 しかし,ポリシプレーヤと環境ダイナミクスプレーヤが互いに対戦するミニマックス反復最適化問題を解くことで,ロバスト性向上のためのシンプルなフレームワークを生成する。 オンラインの非凸学習と手法を政策勾配法の改善から活用し、$\mathcal{O}\left(\frac{1}{T^{\frac{1}{2}}}\right)$で値関数のロバスト性を最大化するアルゴリズムを得る。

Reinforcement Learning is a powerful framework for training agents to navigate different situations, but it is susceptible to changes in environmental dynamics. However, solving Markov Decision Processes that are robust to changes is difficult due to nonconvexity and size of action or state spaces. While most works have analyzed this problem by taking different assumptions on the problem, a general and efficient theoretical analysis is still missing. However, we generate a simple framework for improving robustness by solving a minimax iterative optimization problem where a policy player and an environmental dynamics player are playing against each other. Leveraging recent results in online nonconvex learning and techniques from improving policy gradient methods, we yield an algorithm that maximizes the robustness of the Value Function on the order of $\mathcal{O}\left(\frac{1}{T^{\frac{1}{2}}}\right)$ where $T$ is the number of iterations of the algorithm.
翻訳日:2024-06-22 09:00:25 公開日:2024-06-19
# マルチエージェント・ディベートによる大規模言語モデルにおけるダイバージェント思考の促進

Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate ( http://arxiv.org/abs/2305.19118v2 )

ライセンス: Link先を確認
Tian Liang, Zhiwei He, Wenxiang Jiao, Xing Wang, Yan Wang, Rui Wang, Yujiu Yang, Zhaopeng Tu, Shuming Shi, (参考訳) ChatGPTのような現代の大規模言語モデル(LLM)は、一般的な言語タスクにおいて顕著なパフォーマンスを示したが、複雑な推論タスクに苦戦している。 この方向に沿って、ある代表的な戦略は自己回帰(self-reflection)であり、この戦略はLLMに対して、それ自体が反復的に生成したフィードバックでソリューションを洗練させるよう求めている。 しかし,本研究は,このようなリフレクションスタイルの手法が「脱生(DoT)問題」に悩まされていることを示唆している。 DoT問題に対処するために,複数のエージェントが"tit for tat"の状態で議論を表現し,審査員が議論プロセスを管理して最終解を得る,マルチエージェント議論(MAD)フレームワークを提案する。 明らかに、我々のMADフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励します。 2つの挑戦的データセット(コモンセンス機械翻訳と反直観的算術推論)の実験結果から,我々のMADフレームワークの有効性を実証した。 総合的な分析から,MADが良好な性能を得るためには,議論の適応的断裂と「試行錯誤状態」の質素なレベルが必要であることが示唆された。 さらに,異なるLSMをエージェントとして使用する場合,LSMは公平な判断にはならない可能性がある。 コードはhttps://github.com/Skytliang/Multi-Agents-Debateで入手できる。

Modern large language models (LLMs) like ChatGPT have shown remarkable performance on general language tasks but still struggle on complex reasoning tasks, which drives the research on cognitive behaviors of LLMs to explore human-like problem-solving strategies. Along this direction, one representative strategy is self-reflection, which asks an LLM to refine the solution with the feedback generated by itself iteratively. However, our study shows that such reflection-style methods suffer from the Degeneration-of-Thought (DoT) problem: once the LLM has established confidence in its solutions, it is unable to generate novel thoughts later through reflection even if its initial stance is incorrect. To address the DoT problem, we propose a Multi-Agent Debate (MAD) framework, in which multiple agents express their arguments in the state of "tit for tat" and a judge manages the debate process to obtain a final solution. Clearly, our MAD framework encourages divergent thinking in LLMs which would be helpful for tasks that require deep levels of contemplation. Experiment results on two challenging datasets, commonsense machine translation and counter-intuitive arithmetic reasoning, demonstrate the effectiveness of our MAD framework. Extensive analyses suggest that the adaptive break of debate and the modest level of "tit for tat" state are required for MAD to obtain good performance. Moreover, we find that LLMs might not be a fair judge if different LLMs are used for agents. Code is available at https://github.com/Skytliang/Multi-Agents-Debate.
翻訳日:2024-06-22 09:00:25 公開日:2024-06-19
# エージェントとLLMのインテリジェントインタラクションの実現:強化学習アプローチ

Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach ( http://arxiv.org/abs/2306.03604v7 )

ライセンス: Link先を確認
Bin Hu, Chenyang Zhao, Pu Zhang, Zihao Zhou, Yuanhang Yang, Zenglin Xu, Bin Liu, (参考訳) 大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。 近年の研究では、LLMは高レベルの指示を提供することで複雑なシーケンシャルな意思決定タスクを解く際に、エンボディエージェントを補助できることが示されている。 しかし、LLMとの相互作用は時間を要する可能性がある。 多くの現実的なシナリオでは、リモートクラウドサーバにしかデプロイできない大量のストレージスペースが必要です。 加えて、商用のLCMを使用することは、使用頻度に基づいて課金できるため、コストがかかる可能性がある。 本稿では、ダウンストリームタスク指向エージェントとLCMのインテリジェントなコスト効率なインタラクションを実現する方法について検討する。 我々は,この問題をマルコフ決定プロセス(MDP)によって自然に定式化することができ,目標タスクを達成するためにLLMに問い合わせる必要があるときに学習する強化学習ベースのアプローチである When2Ask を提案する。 一方、When2Askは不要な冗長な相互作用を回避し、他方では、エージェントはLLMから有用な命令を識別し、追跡することができる。 これにより、エージェントは進行中の計画を停止し、新しい環境観測に基づいてより適切な計画に移行することができる。 計画サブゴールを含むMiniGrid環境とHabitat環境の実験は、When2AskがLLMとほんの少しだけ必要なインタラクションでターゲットタスクを解くことを学習し、ベースライン手法と比較してテスト環境でのインタラクションコストを著しく削減することを示した。 私たちのコードは、https://github.com/ZJLAB-AMMI/LLM4RLで利用可能です。

Large language models (LLMs) encode a vast amount of world knowledge acquired from massive text datasets. Recent studies have demonstrated that LLMs can assist an embodied agent in solving complex sequential decision making tasks by providing high-level instructions. However, interactions with LLMs can be time-consuming. In many practical scenarios, it requires a significant amount of storage space that can only be deployed on remote cloud servers. Additionally, using commercial LLMs can be costly since they may charge based on usage frequency. In this paper, we explore how to enable intelligent cost-effective interactions between a down stream task oriented agent and an LLM. We find that this problem can be naturally formulated by a Markov decision process (MDP), and propose When2Ask, a reinforcement learning based approach that learns when it is necessary to query LLMs for high-level instructions to accomplish a target task. One one side, When2Ask discourages unnecessary redundant interactions, while on the other side, it enables the agent to identify and follow useful instructions from the LLM. This enables the agent to halt an ongoing plan and transition to a more suitable one based on new environmental observations. Experiments on MiniGrid and Habitat environments that entail planning sub-goals demonstrate that When2Ask learns to solve target tasks with only a few necessary interactions with the LLM, significantly reducing interaction costs in testing environments compared with baseline methods. Our code is available at: https://github.com/ZJLAB-AMMI/LLM4RL.
翻訳日:2024-06-22 09:00:25 公開日:2024-06-19
# SQL2Circuits: 量子自然言語処理法によるSQLクエリのメトリック推定

SQL2Circuits: Estimating Metrics for SQL Queries with a Quantum Natural Language Processing Method ( http://arxiv.org/abs/2306.08529v2 )

ライセンス: Link先を確認
Valter Uotila, (参考訳) 近年、量子コンピューティングの進歩により、分野横断の量子アプリケーションの研究が加速している。 ここでは,SQLクエリのメトリクス推定という,データベース研究における古典的な問題に対する潜在的な解決策として,量子機械学習モデルを導入する。 この研究は量子自然言語処理(QNLP)にインスパイアされたアプローチを用いて、量子機械学習モデルを構築し、SQLクエリの濃度、コスト、実行時間を分類することができる。 このモデルは、古典的および量子サブルーチンを含むエンコーディング機構とトレーニングフェーズで構成されている。 符号化機構は、SQLクエリをパラメタライズされた量子回路としてエンコードする。 トレーニングフェーズでは,SPSAやAdamなどの古典最適化アルゴリズムを用いて回路パラメータを最適化し,クエリメトリクスの予測を行う。 我々は,このモデルが二項分類タスクにおけるQNLPモデルと同等の精度に達することを結論付けた。 さらに,4クラス分類タスクを追加して過去の作業を拡張し,その精度を最先端データベースと比較した。 我々は、量子機械学習モデルの理論解析を行い、その表現可能性とエンタングリング能力を計算する。 この分析は、モデルが表現可能であるが、既存の量子ハードウェア上での実行には複雑ではない有利な特性を持っていることを示している。

In recent years, advances in quantum computing have led to accelerating research on quantum applications across fields. Here, we introduce a quantum machine learning model as a potential solution to the classical question in database research: the estimation of metrics for SQL queries. This work employs a quantum natural language processing (QNLP)-inspired approach for constructing a quantum machine learning model that can classify SQL queries with respect to their cardinalities, costs, and execution times. The model consists of an encoding mechanism and a training phase, including classical and quantum subroutines. The encoding mechanism encodes SQL queries as parametrized quantum circuits. In the training phase, we utilize classical optimization algorithms, such as SPSA and Adam, to optimize the circuit parameters to make predictions about the query metrics. We conclude that our model reaches an accuracy equivalent to that of the QNLP model in the binary classification tasks. Moreover, we extend the previous work by adding 4-class classification tasks and compare the cardinality estimation results to the state-of-the-art databases. We perform a theoretical analysis of the quantum machine learning model by calculating its expressibility and entangling capabilities. The analysis shows that the model has advantageous properties that make it expressible but also not too complex to be executed on the existing quantum hardware.
翻訳日:2024-06-22 09:00:25 公開日:2024-06-19
# SwinGNN:グラフ生成のための拡散モデルにおける置換不変性の再考

SwinGNN: Rethinking Permutation Invariance in Diffusion Models for Graph Generation ( http://arxiv.org/abs/2307.01646v4 )

ライセンス: Link先を確認
Qi Yan, Zhengyang Liang, Yang Song, Renjie Liao, Lele Wang, (参考訳) 置換同変ネットワークに基づく拡散モデルは、グラフデータの置換不変分布を学習することができる。 しかし、非不変モデルと比較すると、これらの不変モデルは、それ以来より大きな学習課題に直面していることがわかった。 1) 効果的な目標分布は、より多くのモードを示す。 2) 最適1段階の復調スコアはガウス混合とより多くの成分のスコア関数である。 そこで本研究では,効率的なエッジ・ツー・エッジ2-WLメッセージパッシングネットワークを採用し,SwinTransformersにインスパイアされたウィンドウベースの自己アテンションを利用した非不変拡散モデルである$\textit{SwinGNN}$を提案する。 さらに、系統的な改善を通じて、グラフ生成のサンプル品質を著しく向上させるいくつかのクリティカルトレーニングおよびサンプリング手法を同定する。 最後に、単純な後処理のトリックである$\textit{i.e.}$を導入し、生成したグラフをランダムに置換し、任意のグラフ生成モデルを置換不変のグラフに変換する。 合成および実世界のタンパク質および分子データセットに関する大規模な実験は、我々のSwinGNNが最先端のパフォーマンスを達成することを示す。 私たちのコードはhttps://github.com/qiyan98/SwinGNN.comで公開されています。

Diffusion models based on permutation-equivariant networks can learn permutation-invariant distributions for graph data. However, in comparison to their non-invariant counterparts, we have found that these invariant models encounter greater learning challenges since 1) their effective target distributions exhibit more modes; 2) their optimal one-step denoising scores are the score functions of Gaussian mixtures with more components. Motivated by this analysis, we propose a non-invariant diffusion model, called $\textit{SwinGNN}$, which employs an efficient edge-to-edge 2-WL message passing network and utilizes shifted window based self-attention inspired by SwinTransformers. Further, through systematic ablations, we identify several critical training and sampling techniques that significantly improve the sample quality of graph generation. At last, we introduce a simple post-processing trick, $\textit{i.e.}$, randomly permuting the generated graphs, which provably converts any graph generative model to a permutation-invariant one. Extensive experiments on synthetic and real-world protein and molecule datasets show that our SwinGNN achieves state-of-the-art performances. Our code is released at https://github.com/qiyan98/SwinGNN.
翻訳日:2024-06-22 08:50:40 公開日:2024-06-19
# 工学設計知識を用いた検索拡張生成

Retrieval Augmented Generation using Engineering Design Knowledge ( http://arxiv.org/abs/2307.06985v9 )

ライセンス: Link先を確認
L. Siddharth, Jianxi Luo, (参考訳) 設計プロセスにおける検索拡張生成(RAG)を支援するため,特許された人工物記述から,明示的で工学的な設計事実を識別する手法として, {head entity :: relationship :: tail entity} を提案する。 一対のエンティティ(名詞句に基づく)を一意にマークした文を与えられた場合,本手法は文中で明示的に伝達される関係を抽出する。 そこで本研究では,375,084例のデータセットと,関係識別(token classification)と帰納(sequence-to-sequence)のための微調整言語モデルを作成する。 トークン分類のアプローチでは、99.7%の精度が達成される。 4,870件のファンシステム特許のドメインにこの手法を適用すると、2,93万件以上の知識ベースを蓄積する。 この知識ベースを用いて、設計プロセスにおける知識検索タスクの探索において、Large Language Model(LLM)が、知識を合成し、技術的および凝集的な応答を生成するための明示的な事実によってどのように導かれるかを実証する。

Aiming to support Retrieval Augmented Generation (RAG) in the design process, we present a method to identify explicit, engineering design facts - {head entity :: relationship :: tail entity} from patented artefact descriptions. Given a sentence with a pair of entities (based on noun phrases) marked in a unique manner, our method extracts the relationship that is explicitly communicated in the sentence. For this task, we create a dataset of 375,084 examples and fine-tune language models for relation identification (token classification) and elicitation (sequence-to-sequence). The token classification approach achieves up to 99.7% accuracy. Upon applying the method to a domain of 4,870 fan system patents, we populate a knowledge base of over 2.93 million facts. Using this knowledge base, we demonstrate how Large Language Models (LLMs) are guided by explicit facts to synthesise knowledge and generate technical and cohesive responses when sought out for knowledge retrieval tasks in the design process.
翻訳日:2024-06-22 08:50:40 公開日:2024-06-19
# 胸部X線レポート生成のための経時的データと意味的類似性

Longitudinal Data and a Semantic Similarity Reward for Chest X-Ray Report Generation ( http://arxiv.org/abs/2307.09758v4 )

ライセンス: Link先を確認
Aaron Nicolson, Jason Dowling, Bevan Koopman, (参考訳) 放射線学者は高いバーンアウト率に直面しており、部分的には解釈と報告を必要とする胸部X線(CXR)の量が増加するためである。 自動CXRレポート生成は、この負担を軽減し、患者のケアを改善することを約束する。 現在のモデルは潜在的な可能性を示しているが、診断精度は限られている。 提案するCXRレポートジェネレータは, 放射線学ワークフローの要素を統合し, 強化学習のための新たな報奨を導入する。 本手法は, 患者のCXR研究の経時的データを利用して, 先行研究がない症例を効果的に処理し, 放射線科医のワークフローを反映するものである。 対照的に、既存のモデルは一般的にこの柔軟性に欠けており、しばしばモデルが最適に機能するために事前の研究を必要とする。 また, 患者からのCXRを全て取り入れ, 部分埋め込みによる報告部を区別する。 強化学習に対する報奨はCXR-BERTを利用しており、このモデルでは放射線学報告の臨床的意味を学習せざるを得ない。 公開データセット(MIMIC-CXRとOpen-i IU X-ray)で実験を行い、測定値が放射線学者の報告評価とより密接に関連していることが示されています。 本研究の結果から,提案モデルは,大規模言語モデル,強化学習,マルチタスク学習などの最先端モデルよりも,放射線学者の報告に適合したレポートを生成することがわかった。 提案モデルにより,CXRレポート生成の診断精度が向上し,放射線技師の作業負荷を減らし,患者のケアを向上させることができる。 私たちのHugging Faceチェックポイント(https://huggingface.co/aehrc/cxrmate)とコード(https://github.com/aehrc/cxrmate)が公開されている。

Radiologists face high burnout rates, partially due to the increasing volume of Chest X-rays (CXRs) requiring interpretation and reporting. Automated CXR report generation holds promise for reducing this burden and improving patient care. While current models show potential, their diagnostic accuracy is limited. Our proposed CXR report generator integrates elements of the radiologist workflow and introduces a novel reward for reinforcement learning. Our approach leverages longitudinal data from a patient's prior CXR study and effectively handles cases where no prior study exist, thus mirroring the radiologist's workflow. In contrast, existing models typically lack this flexibility, often requiring prior studies for the model to function optimally. Our approach also incorporates all CXRs from a patient's study and distinguishes between report sections through section embeddings. Our reward for reinforcement learning leverages CXR-BERT, which forces our model to learn the clinical semantics of radiology reporting. We conduct experiments on publicly available datasets -- MIMIC-CXR and Open-i IU X-ray -- with metrics shown to more closely correlate with radiologists' assessment of reporting. Results from our study demonstrate that the proposed model generates reports that are more aligned with radiologists' reports than state-of-the-art models, such as those utilising large language models, reinforcement learning, and multi-task learning. The proposed model improves the diagnostic accuracy of CXR report generation, which could one day reduce radiologists' workload and enhance patient care. Our Hugging Face checkpoint (https://huggingface.co/aehrc/cxrmate) and code (https://github.com/aehrc/cxrmate) are publicly available.
翻訳日:2024-06-22 08:50:40 公開日:2024-06-19
# 量子シミュレーションからの高密度出力

Dense outputs from quantum simulations ( http://arxiv.org/abs/2307.14441v2 )

ライセンス: Link先を確認
Jin-Peng Liu, Lin Lin, (参考訳) 量子密度出力問題 (quantum dense output problem) とは、時間依存の量子力学から量子コンピュータを用いて時間累積観測値を評価する過程である。 この問題は量子制御や分光計算などの応用で頻繁に発生する。 我々は、早期および完全フォールトトレラントな量子プラットフォームの両方で動作するように設計されたアルゴリズムを提示する。 これらの手法は振幅推定、ハミルトニアンシミュレーション、量子線型正規微分方程式(ODE)解法、量子カールマン線形化などの手法に基づいている。 進化時間$T$とエラー耐性$\epsilon$に関する包括的複雑性解析を提供する。 その結果, 線形化手法は, ある種の低ランク高密度出力に対して, 最適複雑性$\mathcal{O}(T/\epsilon)$をほぼ達成できることを示した。 さらに、元の状態を含む正確な有限次元閉包をもたらす高密度出力問題の線形化を提供する。 この定式化はクープマン不変部分空間理論と関係があり、非線形制御と科学機械学習に独立した関心を持つ可能性がある。

The quantum dense output problem is the process of evaluating time-accumulated observables from time-dependent quantum dynamics using quantum computers. This problem arises frequently in applications such as quantum control and spectroscopic computation. We present a range of algorithms designed to operate on both early and fully fault-tolerant quantum platforms. These methodologies draw upon techniques like amplitude estimation, Hamiltonian simulation, quantum linear Ordinary Differential Equation (ODE) solvers, and quantum Carleman linearization. We provide a comprehensive complexity analysis with respect to the evolution time $T$ and error tolerance $\epsilon$. Our results demonstrate that the linearization approach can nearly achieve optimal complexity $\mathcal{O}(T/\epsilon)$ for a certain type of low-rank dense outputs. Moreover, we provide a linearization of the dense output problem that yields an exact and finite-dimensional closure which encompasses the original states. This formulation is related to the Koopman Invariant Subspace theory and may be of independent interest in nonlinear control and scientific machine learning.
翻訳日:2024-06-22 08:50:40 公開日:2024-06-19
# 高周波駆動と非マルコビアン性に基づく最小量子ヒートポンプ

A minimal quantum heat pump based on high-frequency driving and non-Markovianity ( http://arxiv.org/abs/2307.14892v2 )

ライセンス: Link先を確認
Manuel L. Alamo, Francesco Petiziol, André Eckardt, (参考訳) 2つのトンネル結合型量子ドットからなる量子ヒートポンプの最小構成を提案し、それぞれが単一レベルをホストし、それぞれが異なるフェルミオン貯水池に結合する。 動作原理は非マルコフ系-バス結合と誘導共振結合の両方に依存している。 本稿では,Floquet-Born-Markov理論と組み合わせた反応座標写像を用いて,その性能を特徴づけるシステムについて述べる。

We propose a minimal setup for a quantum heat pump, consisting of two tunnel-coupled quantum dots, each hosting a single level and each being coupled to a different fermionic reservoir. The working principle relies on both non-Markovian system-bath coupling and driving induced resonant coupling. We describe the system using a reaction-coordinate mapping in combination with Floquet-Born-Markov theory and characterize its performance.
翻訳日:2024-06-22 08:50:40 公開日:2024-06-19
# Spaceyze:空間対応最適化による地理空間ビデオ分析システム

Spatialyze: A Geospatial Video Analytics System with Spatial-Aware Optimizations ( http://arxiv.org/abs/2308.03276v4 )

ライセンス: Link先を確認
Chanwut Kittivorawong, Yongming Ge, Yousef Helal, Alvin Cheung, (参考訳) 携帯電話や監視カメラのようなコモディティなハードウェアを使って撮影されるビデオは、時間や場所などの様々なメタデータを記録する。 このような地理空間的ビデオは日常的に遭遇し,その量は著しく増加している。 しかし、そのようなデータと効率的に対話できるデータ管理システムは存在しません。 本稿では,地理空間ビデオのエンドツーエンドクエリのための新しいフレームワークであるSpatialyzeについて述べる。 Spatialyzeにはドメイン固有の言語があり、ユーザは3ステップで宣言的で、ビルド-フィルタ-オブザーバのパラダイムを使って、地理空間ビデオ分析ワークフローを構築することができる。 内部的には、Spatialyzeはワークフローの宣言的な性質、ビデオに格納された時間空間メタデータ、現実世界のオブジェクトの物理的な振る舞いを活用してワークフローの実行を最適化する。 実世界のビデオとワークフローを用いた結果から、Spatialyzeは、最適化されていない実行と比較して最大97.1%の精度を維持しながら、実行時間を最大5.3倍に削減できることがわかった。

Videos that are shot using commodity hardware such as phones and surveillance cameras record various metadata such as time and location. We encounter such geospatial videos on a daily basis and such videos have been growing in volume significantly. Yet, we do not have data management systems that allow users to interact with such data effectively. In this paper, we describe Spatialyze, a new framework for end-to-end querying of geospatial videos. Spatialyze comes with a domain-specific language where users can construct geospatial video analytic workflows using a 3-step, declarative, build-filter-observe paradigm. Internally, Spatialyze leverages the declarative nature of such workflows, the temporal-spatial metadata stored with videos, and physical behavior of real-world objects to optimize the execution of workflows. Our results using real-world videos and workflows show that Spatialyze can reduce execution time by up to 5.3x, while maintaining up to 97.1% accuracy compared to unoptimized execution.
翻訳日:2024-06-22 08:50:40 公開日:2024-06-19
# 特許分類のための適応型分類学学習と歴史的パターンモデリング

Adaptive Taxonomy Learning and Historical Patterns Modelling for Patent Classification ( http://arxiv.org/abs/2308.05385v2 )

ライセンス: Link先を確認
Tao Zou, Le Yu, Junchen Ye, Leilei Sun, Bowen Du, Deqing Wang, (参考訳) 特許分類は、所定の特許に複数の国際特許分類(IPC)コードを割り当てることを目的としている。 特許を自動分類する最近の手法は、主に特許のテキスト記述を分析することに焦点を当てている。 しかし、本文とは別に、各特許はいくつかの割り当て者と関連付けられており、適用された特許の知識は分類に有用であることが多い。 さらに、IPCシステムによって定式化された階層型分類は、重要な文脈情報を提供し、モデルがIPCコード間の相関を利用してより正確な分類を行うことを可能にする。 しかし、既存の手法は上記の側面を組み込むことができない。 本稿では,特許分類のための特許に関する情報を包括的に考察する統合フレームワークを提案する。 具体的には、まずIPCコード相関学習モジュールを示し、その意味表現を、同一レベル内および階層分類に沿って異なるレベルにわたって適応的に送信し、集約することで導出する。 さらに,2つのチャネルアグリゲーション機構によって,対応するアサインの以前の特許を組み込むために,過去のアプリケーションパターン学習コンポーネントを設計する。 最後に、IPC符号のセマンティクスを含む特許文書の文脈情報と、予測を行うために利用者のシーケンシャルな選好を割り当てる。 実世界のデータセットの実験は、既存の手法よりもアプローチの方が優れていることを示す。 さらに、代入者の時間的パターンと、IPCコード間の意味的依存関係をキャプチャするモデルの能力を示す。

Patent classification aims to assign multiple International Patent Classification (IPC) codes to a given patent. Recent methods for automatically classifying patents mainly focus on analyzing the text descriptions of patents. However, apart from the texts, each patent is also associated with some assignees, and the knowledge of their applied patents is often valuable for classification. Furthermore, the hierarchical taxonomy formulated by the IPC system provides important contextual information and enables models to leverage the correlations between IPC codes for more accurate classification. However, existing methods fail to incorporate the above aspects. In this paper, we propose an integrated framework that comprehensively considers the information on patents for patent classification. To be specific, we first present an IPC codes correlations learning module to derive their semantic representations via adaptively passing and aggregating messages within the same level and across different levels along the hierarchical taxonomy. Moreover, we design a historical application patterns learning component to incorporate the corresponding assignee's previous patents by a dual channel aggregation mechanism. Finally, we combine the contextual information of patent texts that contains the semantics of IPC codes, and assignees' sequential preferences to make predictions. Experiments on real-world datasets demonstrate the superiority of our approach over the existing methods. Besides, we present the model's ability to capture the temporal patterns of assignees and the semantic dependencies among IPC codes.
翻訳日:2024-06-22 08:50:40 公開日:2024-06-19
# 神経情報検索における連続的生涯学習の促進--定義・データセット・枠組み・経験的評価

Advancing continual lifelong learning in neural information retrieval: definition, dataset, framework, and empirical evaluation ( http://arxiv.org/abs/2308.08378v2 )

ライセンス: Link先を確認
Jingrui Hou, Georgina Cosma, Axel Finke, (参考訳) 連続学習とは、学習したタスクのパフォーマンスを損なうことなく、新しい情報を学び、適応する機械学習モデルの能力を指す。 情報検索タスクの連続的な学習手法について研究する研究はいくつかあるが、明確に定義されたタスクの定式化はいまだに欠けており、この文脈における典型的な学習戦略がどのように機能するかは定かではない。 この課題に対処するため、連続した情報検索をシミュレートするマルチトピックデータセットとともに、連続的な情報検索の体系的なタスク定式化が提示される。 そこで,典型的な検索モデルと連続学習戦略からなる包括的連続神経情報検索フレームワークを提案する。 経験的評価から,提案フレームワークは,ニューラルネットワーク検索における破滅的な忘れ込みを効果的に防止し,以前に学習したタスクの性能向上を図っている。 その結果,新たなタスクのトピックシフト距離とデータセット量の増加に伴い,組込み型検索モデルでは連続学習性能が低下することが示唆された。 対照的に、事前学習に基づくモデルはそのような相関は示さない。 適切な学習戦略を採用することで、トピックシフトとデータ拡張の影響を軽減することができる。

Continual learning refers to the capability of a machine learning model to learn and adapt to new information, without compromising its performance on previously learned tasks. Although several studies have investigated continual learning methods for information retrieval tasks, a well-defined task formulation is still lacking, and it is unclear how typical learning strategies perform in this context. To address this challenge, a systematic task formulation of continual neural information retrieval is presented, along with a multiple-topic dataset that simulates continuous information retrieval. A comprehensive continual neural information retrieval framework consisting of typical retrieval models and continual learning strategies is then proposed. Empirical evaluations illustrate that the proposed framework can successfully prevent catastrophic forgetting in neural information retrieval and enhance performance on previously learned tasks. The results indicate that embedding-based retrieval models experience a decline in their continual learning performance as the topic shift distance and dataset volume of new tasks increase. In contrast, pretraining-based models do not show any such correlation. Adopting suitable learning strategies can mitigate the effects of topic shift and data augmentation.
翻訳日:2024-06-22 06:47:03 公開日:2024-06-19
# 信頼と安全のための機械学習の課題 : 誤情報検出を事例として

The Challenges of Machine Learning for Trust and Safety: A Case Study on Misinformation Detection ( http://arxiv.org/abs/2308.12215v3 )

ライセンス: Link先を確認
Madelyne Xiao, Jonathan Mayer, (参考訳) 本研究では, 情報誤検出を事例として, 信頼と安全問題に機械学習を適用する際の学業と実践の切り離しについて検討する。 本研究は,現場における248件の有能な論文からなるコーパスにおける誤情報の自動検出に関する文献調査である。 次に、データとコードの可用性、設計ミスステップ、再現性、一般化可能性に関する論文のサブセットを調べます。 本稿は、セキュリティ、自然言語処理、計算社会科学に関する論文を含む。 これらの異なる分野にまたがって、データセットやメソッド設計における一般的なエラーを特定します。 一般的に、検出タスクは、オンラインサービスが実際に直面する課題と有意義に異なることが多い。 データセットとモデル評価は、しばしば現実世界の文脈に非表現的であり、しばしば評価はモデルトレーニングとは独立しない。 本稿では,3つの代表的な複製研究において,電流検出手法の限界を示す。 これらの分析と文献調査の結果から, 完全自動誤報検出における最先端技術は, 人為的誤報検出における有効性に限界があることが明らかとなった。 我々は、マシンラーニングの信頼性と安全性問題への適用を評価するための推奨事項を提供し、研究の今後の方向性を推奨する。

We examine the disconnect between scholarship and practice in applying machine learning to trust and safety problems, using misinformation detection as a case study. We survey literature on automated detection of misinformation across a corpus of 248 well-cited papers in the field. We then examine subsets of papers for data and code availability, design missteps, reproducibility, and generalizability. Our paper corpus includes published work in security, natural language processing, and computational social science. Across these disparate disciplines, we identify common errors in dataset and method design. In general, detection tasks are often meaningfully distinct from the challenges that online services actually face. Datasets and model evaluation are often non-representative of real-world contexts, and evaluation frequently is not independent of model training. We demonstrate the limitations of current detection methods in a series of three representative replication studies. Based on the results of these analyses and our literature survey, we conclude that the current state-of-the-art in fully-automated misinformation detection has limited efficacy in detecting human-generated misinformation. We offer recommendations for evaluating applications of machine learning to trust and safety problems and recommend future directions for research.
翻訳日:2024-06-22 06:47:03 公開日:2024-06-19
# LongBench: コンテキスト理解のためのバイリンガルなマルチタスクベンチマーク

LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding ( http://arxiv.org/abs/2308.14508v2 )

ライセンス: Link先を確認
Yushi Bai, Xin Lv, Jiajie Zhang, Hongchang Lyu, Jiankai Tang, Zhidian Huang, Zhengxiao Du, Xiao Liu, Aohan Zeng, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li, (参考訳) 大規模言語モデル(LLM)は多くの言語タスクにおいて素晴らしいパフォーマンスを示すが、ほとんどの言語は数千のトークンしか扱えないため、書籍、レポート、コードベースなどの長いシーケンスインプットにアプリケーションを制限している。 近年の研究では、コンテキストウィンドウの拡張とより洗練されたメモリ機構により、LLMの長期的コンテキスト能力を改善する方法が提案されている。 しかし、長期の文脈理解を評価するための包括的なベンチマークは欠落している。 本稿では,長期文脈理解のための二言語型マルチタスクベンチマークであるLongBenchを紹介し,より厳密な長期文脈理解の評価を可能にする。 LongBenchは英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均長は6,711語(英語)と13,386文字(中国語)である。 これらのタスクは、シングルdoc QA、マルチdoc QA、要約、数ショット学習、合成タスク、コード補完を含む主要な長文アプリケーション領域をカバーする。 LongBenchのすべてのデータセットは統一されたフォーマットに標準化されており、LLMの自動評価を可能にする。 1)商用モデル(GPT-3.5-Turbo-16k)は他のオープンソースモデルよりも優れているが、それでも長いコンテキストで苦戦している。 2) 大規模位置埋め込みと長いシーケンスの微調整により, 長期的文脈理解が大幅に向上した。 (3) 検索などのコンテキスト圧縮技術は,長いコンテキストの弱いモデルに改善をもたらすが,強いコンテキスト理解能力を持つモデルにはまだ性能が遅れている。 コードとデータセットはhttps://github.com/THUDM/LongBench.comで公開されている。

Although large language models (LLMs) demonstrate impressive performance for many language tasks, most of them can only handle texts a few thousand tokens long, limiting their applications on longer sequence inputs, such as books, reports, and codebases. Recent works have proposed methods to improve LLMs' long context capabilities by extending context windows and more sophisticated memory mechanisms. However, comprehensive benchmarks tailored for evaluating long context understanding are lacking. In this paper, we introduce LongBench, the first bilingual, multi-task benchmark for long context understanding, enabling a more rigorous evaluation of long context understanding. LongBench comprises 21 datasets across 6 task categories in both English and Chinese, with an average length of 6,711 words (English) and 13,386 characters (Chinese). These tasks cover key long-text application areas including single-doc QA, multi-doc QA, summarization, few-shot learning, synthetic tasks, and code completion. All datasets in LongBench are standardized into a unified format, allowing for effortless automatic evaluation of LLMs. Upon comprehensive evaluation of 8 LLMs on LongBench, we find that: (1) Commercial model (GPT-3.5-Turbo-16k) outperforms other open-sourced models, but still struggles on longer contexts. (2) Scaled position embedding and fine-tuning on longer sequences lead to substantial improvement on long context understanding. (3) Context compression technique such as retrieval brings improvement for model with weak ability on long contexts, but the performance still lags behind models that have strong long context understanding capability. The code and datasets are available at https://github.com/THUDM/LongBench.
翻訳日:2024-06-22 06:47:03 公開日:2024-06-19
# 1モデル多スコア:マルチバース解析を用いたフェアネスハックの防止とモデル設計決定の影響評価

One Model Many Scores: Using Multiverse Analysis to Prevent Fairness Hacking and Evaluate the Influence of Model Design Decisions ( http://arxiv.org/abs/2308.16681v3 )

ライセンス: Link先を確認
Jan Simson, Florian Pfisterer, Christoph Kern, (参考訳) 世界中の多くのシステムがアルゴリズムによる意思決定(ADM)を使用して、これまで人間が行ってきた決定を(部分的に)自動化しています。 ADMシステムの下流効果は、データ内のバイアスがモデリングパイプラインに沿って緩和または強化されるため、システムの設計、実装、評価の間の決定に大きく依存する。 これらの決定の多くは、最終的なシステムにどのように影響するかを正確に知ることなく、暗黙的に行われます。 この問題を考察するために,心理学の分野から洞察を導き,アルゴリズム的公正性に対する多元的分析手法を導入する。 提案手法では,設計と評価において暗黙的な決定を明示的な決定に転換し,その公正さを実証する。 決定を組み合わせることで、可能なすべての"一元的"な決定の組み合わせのグリッドを作ります。 これらの宇宙のそれぞれについて、フェアネスとパフォーマンスのメトリクスを計算します。 結果のデータセットを使用して、公正度スコアの変動性と堅牢性を調べ、公平性にどのように影響するか、どの決定が影響するかを確認することができる。 本研究は, 弱者に対する公衆医療保険のカバー範囲を推定する模範事例を用いて, 設計・評価決定の公平性への影響をよりよく理解するために多元的分析をいかに活用できるかを実証する。 結果から,システム評価に関する決定が,同じモデルに対して,極めて異なる公平度指標を導出する可能性を強調した。 これは、悪質な俳優がフェアネスメトリックを最適化したり、あるいは「ハック」したりして、その評価方法を変えるだけで差別モデルがフェアであると表現できるため、問題である。 マルチバース解析がこの問題にどう対処できるかを説明する。

A vast number of systems across the world use algorithmic decision making (ADM) to (partially) automate decisions that have previously been made by humans. The downstream effects of ADM systems critically depend on the decisions made during a systems' design, implementation, and evaluation, as biases in data can be mitigated or reinforced along the modeling pipeline. Many of these decisions are made implicitly, without knowing exactly how they will influence the final system. To study this issue, we draw on insights from the field of psychology and introduce the method of multiverse analysis for algorithmic fairness. In our proposed method, we turn implicit decisions during design and evaluation into explicit ones and demonstrate their fairness implications. By combining decisions, we create a grid of all possible "universes" of decision combinations. For each of these universes, we compute metrics of fairness and performance. Using the resulting dataset, one can investigate the variability and robustness of fairness scores and see how and which decisions impact fairness. We demonstrate how multiverse analyses can be used to better understand fairness implications of design and evaluation decisions using an exemplary case study of predicting public health care coverage for vulnerable populations. Our results highlight how decisions regarding the evaluation of a system can lead to vastly different fairness metrics for the same model. This is problematic, as a nefarious actor could optimise or "hack" a fairness metric to portray a discriminating model as fair merely by changing how it is evaluated. We illustrate how a multiverse analysis can help to address this issue.
翻訳日:2024-06-22 06:47:03 公開日:2024-06-19
# S-Adapter: 統計的トークンを用いた顔アンチスプーフィングのための一般化型視覚変換器

S-Adapter: Generalizing Vision Transformer for Face Anti-Spoofing with Statistical Tokens ( http://arxiv.org/abs/2309.04038v2 )

ライセンス: Link先を確認
Rizhao Cai, Zitong Yu, Chenqi Kong, Haoliang Li, Changsheng Chen, Yongjian Hu, Alex Kot, (参考訳) Face Anti-Spoofing (FAS) は、スプーフされた顔を表示することによって、顔認識システムに侵入しようとする悪意のある試みを検出することを目的としている。 最先端のFAS技術は、主にディープラーニングモデルに依存しているが、そのクロスドメインの一般化機能は、トレーニングデータとテストデータの間に異なる分布があるため、ドメインシフトの問題によってしばしば妨げられる。 本研究では、EPTL(Efficient Parameter Transfer Learning)パラダイムに基づく一般化されたFAS手法を開発し、FASタスクのための事前学習されたビジョントランスフォーマーモデルを適用する。 トレーニング中、アダプタモジュールはトレーニング済みのViTモデルに挿入され、アダプタは更新され、他のトレーニング済みのパラメータは固定される。 従来のバニラアダプタの制限は、スプーフィング対応誘導バイアスが欠如しており、したがってクロスドメインの一般化が制限されている線形層に基づいている点にある。 この制限に対処し、クロスドメイン一般化FASを実現するために、局所的なトークンヒストグラムから局所的な識別および統計情報を収集する新しい統計的適応器(S-Adapter)を提案する。 統計トークンの一般化をさらに進めるために,異なる領域にまたがるトークンから抽出したグラム行列を正規化することにより,ドメインスタイルの分散を低減することを目的とした,新しいトークンスタイル正規化(TSR)を提案する。 提案したS-AdapterとTSRは、ゼロショットと少数ショットのクロスドメインテストの両方において、いくつかのベンチマークテストにおいて、最先端の手法よりも優れた、大きなメリットをもたらすことを示した。 私たちは受け入れに応じてソースコードをリリースします。

Face Anti-Spoofing (FAS) aims to detect malicious attempts to invade a face recognition system by presenting spoofed faces. State-of-the-art FAS techniques predominantly rely on deep learning models but their cross-domain generalization capabilities are often hindered by the domain shift problem, which arises due to different distributions between training and testing data. In this study, we develop a generalized FAS method under the Efficient Parameter Transfer Learning (EPTL) paradigm, where we adapt the pre-trained Vision Transformer models for the FAS task. During training, the adapter modules are inserted into the pre-trained ViT model, and the adapters are updated while other pre-trained parameters remain fixed. We find the limitations of previous vanilla adapters in that they are based on linear layers, which lack a spoofing-aware inductive bias and thus restrict the cross-domain generalization. To address this limitation and achieve cross-domain generalized FAS, we propose a novel Statistical Adapter (S-Adapter) that gathers local discriminative and statistical information from localized token histograms. To further improve the generalization of the statistical tokens, we propose a novel Token Style Regularization (TSR), which aims to reduce domain style variance by regularizing Gram matrices extracted from tokens across different domains. Our experimental results demonstrate that our proposed S-Adapter and TSR provide significant benefits in both zero-shot and few-shot cross-domain testing, outperforming state-of-the-art methods on several benchmark tests. We will release the source code upon acceptance.
翻訳日:2024-06-22 06:47:03 公開日:2024-06-19
# 新型コロナウイルス検出システム:粗音信号の音響的特徴に基づくシステム性能の比較分析

COVID-19 Detection System: A Comparative Analysis of System Performance Based on Acoustic Features of Cough Audio Signals ( http://arxiv.org/abs/2309.04505v2 )

ライセンス: Link先を確認
Asmaa Shati, Ghulam Mubashar Hassan, Amitava Datta, (参考訳) 風邪やインフルエンザ、喘息、COVID-19など幅広い呼吸器疾患が世界中の人々の日常生活に影響を与えている。 医療分野では、様々な呼吸器疾患や肺疾患の診断に呼吸器音が広く用いられている。 このような音の従来の診断には専門的な知識が必要であり、費用がかかり、人間の専門知識に依存している。 それにもかかわらず、近年では、呼吸状態の検知を自動化する手段として、声帯録音などの最近の進歩が出現している。 そこで本研究では,新型コロナウイルス検出における機械学習(ML)モデルの性能向上を図ることを目的としている。 MFCC(Mel Frequency Cepstral Coefficients)、クロマ(Chroma)、スペクトルコントラスト(Spectral Contrast)の3つの特徴抽出手法の有効性について検討し,SVM(Support Vector Machine)とMLP(Multilayer Perceptron)の2つの機械学習アルゴリズムに適用することにより,効率的なCovCepNet検出システムを提案する。 提案システムでは,COUGHVIDデータセットのAUCは0.843,Virufyデータセットの0.953で,音声信号からのCOVID-19検出を行う。

A wide range of respiratory diseases, such as cold and flu, asthma, and COVID-19, affect people's daily lives worldwide. In medical practice, respiratory sounds are widely used in medical services to diagnose various respiratory illnesses and lung disorders. The traditional diagnosis of such sounds requires specialized knowledge, which can be costly and reliant on human expertise. Despite this, recent advancements, such as cough audio recordings, have emerged as a means to automate the detection of respiratory conditions. Therefore, this research aims to explore various acoustic features that enhance the performance of machine learning (ML) models in detecting COVID-19 from cough signals. It investigates the efficacy of three feature extraction techniques, including Mel Frequency Cepstral Coefficients (MFCC), Chroma, and Spectral Contrast features, when applied to two machine learning algorithms, Support Vector Machine (SVM) and Multilayer Perceptron (MLP), and therefore proposes an efficient CovCepNet detection system. The proposed system provides a practical solution and demonstrates state-of-the-art classification performance, with an AUC of 0.843 on the COUGHVID dataset and 0.953 on the Virufy dataset for COVID-19 detection from cough audio signals.
翻訳日:2024-06-22 06:47:03 公開日:2024-06-19
# グラフリンク予測を用いたライフスタイルVlogにおけるヒューマンアクション共起

Human Action Co-occurrence in Lifestyle Vlogs using Graph Link Prediction ( http://arxiv.org/abs/2309.06219v3 )

ライセンス: Link先を確認
Oana Ignat, Santiago Castro, Weiji Li, Rada Mihalcea, (参考訳) 我々は,2つの人間の行動が同じ時間間隔で共起可能かどうかを判断する,自動的人間の行動共起同定のタスクを導入する。 我々はACE(Action Co-occurrencE)データセットを公開し、約12kのビジュアルアクションとそれに対応するビデオクリップからなる巨大なグラフを作成し、公開する。 視覚情報とテキスト情報を利用して2つのアクションが共起しているかどうかを自動的に推測するグラフリンク予測モデルについて述べる。 グラフは人間の行動間の関係を捉えるのに特に適しており、学習されたグラフ表現は我々のタスクに有効であり、異なるデータ領域にまたがる斬新で関連する情報をキャプチャする。 この論文で導入されたACEデータセットとコードはhttps://github.com/MichiganNLP/vlog_action_co-occurrenceで公開されている。

We introduce the task of automatic human action co-occurrence identification, i.e., determine whether two human actions can co-occur in the same interval of time. We create and make publicly available the ACE (Action Co-occurrencE) dataset, consisting of a large graph of ~12k co-occurring pairs of visual actions and their corresponding video clips. We describe graph link prediction models that leverage visual and textual information to automatically infer if two actions are co-occurring. We show that graphs are particularly well suited to capture relations between human actions, and the learned graph representations are effective for our task and capture novel and relevant information across different data domains. The ACE dataset and the code introduced in this paper are publicly available at https://github.com/MichiganNLP/vlog_action_co-occurrence.
翻訳日:2024-06-22 06:47:03 公開日:2024-06-19
# Sync+Sync: ストレージ付きfsync上に構築されたCovert Channel

Sync+Sync: A Covert Channel Built on fsync with Storage ( http://arxiv.org/abs/2309.07657v2 )

ライセンス: Link先を確認
Qisheng Jiang, Chundong Wang, (参考訳) 科学者はCPUキャッシュとメインメモリを備えた秘密情報伝送のための様々な秘密チャンネルを構築した。 本稿では,メモリ階層の下位レベル,すなわち永続ストレージに目を向ける。 ほとんどのプログラムはファイルの形式で中間結果または最終的な結果を格納し、一部のプログラムはfsyncを呼び出して、整然とした永続化のためにストレージデバイスと同期的にファイルを永続化する。 我々の定量的研究は、他のプログラムがfsyncを同時に呼び出している場合、fsync呼び出しのレスポンス時間が大幅に長いことを示しています。 さらに、ソフトウェア構造(Ext4のジャーナルなど)とハードウェアリソース(ディスクのI/Oディスパッチキューなど)の共有によって、並列fsyncコールが複数のストレージスタックで競合していることも分かりました。 そこで私たちはSync+Syncという秘密チャンネルを構築しました。 Sync+Syncは、通常のソリッドステートドライブで約0.40%のエラーレートで、毎秒20,000ビットの伝送帯域を提供する。 Sync+Syncは、プログラム間でデータを共有することなく、クロスディスクパーティション、クロスファイルシステム、クロスコンテナ、クロス仮想マシン、さらにはクロスディスクドライブのスタイルで実行できる。 次に、Sync+Syncでサイドチャネルアタックを起動し、被害者データベース(例えば、挿入/更新、B-Treeノード分割)の操作を正確に検出します。 また、Sync+Syncを利用して、アプリケーションやWebサイトを高精度に識別する。 これらの攻撃は、よりきめ細かい情報漏洩をサポートするのに役立つ。

Scientists have built a variety of covert channels for secretive information transmission with CPU cache and main memory. In this paper, we turn to a lower level in the memory hierarchy, i.e., persistent storage. Most programs store intermediate or eventual results in the form of files and some of them call fsync to synchronously persist a file with storage device for orderly persistence. Our quantitative study shows that one program would undergo significantly longer response time for fsync call if the other program is concurrently calling fsync, although they do not share any data. We further find that, concurrent fsync calls contend at multiple levels of storage stack due to sharing software structures (e.g., Ext4's journal) and hardware resources (e.g., disk's I/O dispatch queue). We accordingly build a covert channel named Sync+Sync. Sync+Sync delivers a transmission bandwidth of 20,000 bits per second at an error rate of about 0.40% with an ordinary solid-state drive. Sync+Sync can be conducted in cross-disk partition, cross-file system, cross-container, cross-virtual machine, and even cross-disk drive fashions, without sharing data between programs. Next, we launch side-channel attacks with Sync+Sync and manage to precisely detect operations of a victim database (e.g., insert/update and B-Tree node split). We also leverage Sync+Sync to distinguish applications and websites with high accuracy by detecting and analyzing their fsync frequencies and flushed data volumes. These attacks are useful to support further fine-grained information leakage.
翻訳日:2024-06-22 06:47:03 公開日:2024-06-19
# ニュース分析におけるドットの接続:メディアバイアスとフレームにおける学際格差を橋渡しする

Connecting the Dots in News Analysis: Bridging the Cross-Disciplinary Disparities in Media Bias and Framing ( http://arxiv.org/abs/2309.08069v2 )

ライセンス: Link先を確認
Gisela Vallejo, Timothy Baldwin, Lea Frermann, (参考訳) ニュース報道における偏見の顕在化と効果は、社会科学の中心的な話題であり、近年NLPコミュニティで注目を集めている。 NLPは、社会における偏りのあるニュースの影響を調べるための分析のスケールアップや自動手順の貢献に役立てることができるが、理論メディア研究において、現在支配的な方法論は、複雑な問題や影響に対処できないと論じている。 本稿では,社会科学のアプローチを概観し,NLPにおけるメディアバイアスの分析に使用される典型的なタスクの定式化,方法,評価指標と比較する。 我々はオープンな質問を議論し、理論と予測モデルの間の特定されたギャップを埋めるための可能な方向を提案し、その評価を行う。 これには、文書外情報を考慮したモデル透過性、単一ラベル代入よりも文書間推論などが含まれる。

The manifestation and effect of bias in news reporting have been central topics in the social sciences for decades, and have received increasing attention in the NLP community recently. While NLP can help to scale up analyses or contribute automatic procedures to investigate the impact of biased news in society, we argue that methodologies that are currently dominant fall short of addressing the complex questions and effects addressed in theoretical media studies. In this survey paper, we review social science approaches and draw a comparison with typical task formulations, methods, and evaluation metrics used in the analysis of media bias in NLP. We discuss open questions and suggest possible directions to close identified gaps between theory and predictive models, and their evaluation. These include model transparency, considering document-external information, and cross-document reasoning rather than single-label assignment.
翻訳日:2024-06-22 06:47:03 公開日:2024-06-19
# 多体量子システムのための変分埋め込み

Variational Embeddings for Many Body Quantum Systems ( http://arxiv.org/abs/2309.08666v2 )

ライセンス: Link先を確認
Stefano Barison, Filippo Vicentini, Giuseppe Carleo, (参考訳) 本稿では,古典的および量子的ハードウェア上での様々な精度のパラメータ化関数を用いて,複合量子系を表現する変分スキームを提案する。 このアプローチはシステム全体の変動原理に従い、より小さな部分空間でのみ正確な記述が必要とされるシナリオに自然に適している。 量子デバイスをこれらの相関する自由度に高精度な解法として組み込む方法を示し、古典的なデバイスで残りのコントリビューションを扱う。 スピン鎖および小分子に対するプロトコルの有効性を実証し,その精度と計算コストに関する知見を提供する。

We propose a variational scheme to represent composite quantum systems using multiple parameterized functions of varying accuracies on both classical and quantum hardware. The approach follows the variational principle over the entire system, and is naturally suited for scenarios where an accurate description is only needed in a smaller subspace. We show how to include quantum devices as high-accuracy solvers on these correlated degrees of freedom, while handling the remaining contributions with a classical device. We demonstrate the effectiveness of the protocol on spin chains and small molecules and provide insights into its accuracy and computational cost.
翻訳日:2024-06-22 06:47:03 公開日:2024-06-19
# 病理組織学的近視認識のための効率的なピラミッドチャネル注意ネットワーク

Efficient Pyramid Channel Attention Network for Pathological Myopia Recognition ( http://arxiv.org/abs/2309.09196v3 )

ライセンス: Link先を確認
Xiaoqing Zhang, Jilu Zhao, Yan Li, Hao Wu, Xiangtian Zhou, Jiang Liu, (参考訳) 病理性近視(PM)は、世界中の視力障害の先進的な眼疾患である。 臨床では, PMの病態分布の特徴は, PMの診断において臨床医を支援する上で重要な役割を担っている。 しかし、既存のディープニューラルネットワークのほとんどは複雑なアーキテクチャの設計に重点を置いているが、PM以前の病理分布を探索することは稀である。 この課題に対処するために, ピラミッドプールと多スケールコンテキスト融合によるPM前臨床病理の可能性をフル活用した, 効率的なピラミッドチャネルアテンション (EPCA) モジュールを提案する。 そこで我々は,EPCAモジュールのシーケンスを積み重ねることで,基礎画像に基づく自動PM認識のためのEPCA-Netを構築した。 さらに,近年の事前学習・ファインタニングのパラダイムを背景として,PM認識のための学習済み自然画像モデルを冷凍し,EPCAや他の注意モジュールをアダプタとして扱うことを試みた。 また,PM-fundusと呼ばれるPM認識ベンチマークを構築し,PMのベースイメージを公開データセットから収集する。 PM認識タスクにおける最先端手法よりもEPCA-Netの方が優れていることを示す総合実験を行った。 また,本手法は,従来の微調整パラダイムをベースとした従来手法と比較することにより,従来手法と比較することで,より自然な画像基盤モデルを活用して,PM認識タスクを限定的な医療データシステムで実現する可能性が示唆された。

Pathological myopia (PM) is the leading ocular disease for impaired vision worldwide. Clinically, the characteristic of pathology distribution in PM is global-local on the fundus image, which plays a significant role in assisting clinicians in diagnosing PM. However, most existing deep neural networks focused on designing complex architectures but rarely explored the pathology distribution prior of PM. To tackle this issue, we propose an efficient pyramid channel attention (EPCA) module, which fully leverages the potential of the clinical pathology prior of PM with pyramid pooling and multi-scale context fusion. Then, we construct EPCA-Net for automatic PM recognition based on fundus images by stacking a sequence of EPCA modules. Moreover, motivated by the recent pretraining-and-finetuning paradigm, we attempt to adapt pre-trained natural image models for PM recognition by freezing them and treating the EPCA and other attention modules as adapters. In addition, we construct a PM recognition benchmark termed PM-fundus by collecting fundus images of PM from publicly available datasets. The comprehensive experiments demonstrate the superiority of our EPCA-Net over state-of-the-art methods in the PM recognition task. The results also show that our method based on the pretraining-and-finetuning paradigm achieves competitive performance through comparisons to part of previous methods based on traditional fine-tuning paradigm with fewer tunable parameters, which has the potential to leverage more natural image foundation models to address the PM recognition task in limited medical data regime.
翻訳日:2024-06-22 06:47:03 公開日:2024-06-19
# 気候変動に関する知識の移転

Transferring climate change knowledge ( http://arxiv.org/abs/2309.14780v4 )

ライセンス: Link先を確認
Francesco Immorlano, Veronika Eyring, Thomas le Monnier de Gouville, Gabriele Accarino, Donatello Elia, Giovanni Aloisio, Pierre Gentine, (参考訳) 気候適応と緩和には正確な正確な気候予測が必要であるが、地球系のモデルには大きな不確実性がある。 気候予測やフィードバックの拡散を減らすためにいくつかのアプローチが開発されているが、これらの手法は気候システムに固有の非線形の複雑さを捉えることはできない。 トランスファーラーニングアプローチを用いることで,21世紀における地球系モデルシミュレーションと歴史的観測から得られた知識を最適に活用し,マージし,地球表面温度場をより正確に予測できることが示される。 我々は最先端のアプローチに関して50%以上の不確実性削減に達している。 我々は,本手法が気候適応に緊急に必要な,より正確な平均的な気候予測とともに,より狭い予測の不確実性を提供することを示す。

Accurate and precise climate projections are required for climate adaptation and mitigation, but Earth system models still exhibit great uncertainties. Several approaches have been developed to reduce the spread of climate projections and feedbacks, yet those methods cannot capture the non-linear complexity inherent in the climate system. Using a Transfer Learning approach, we show that Machine Learning can be used to optimally leverage and merge the knowledge gained from Earth system models simulations and historical observations to more accurately project global surface air temperature fields in the 21st century. We reach an uncertainty reduction of more than 50% with respect to state-of-the-art approaches. We give evidence that our novel method provides narrower projection uncertainty together with more accurate mean climate projections, urgently required for climate adaptation.
翻訳日:2024-06-22 06:37:18 公開日:2024-06-19
# 画像テキストマルチモーダルモデルに関する調査

A Survey on Image-text Multimodal Models ( http://arxiv.org/abs/2309.15857v3 )

ライセンス: Link先を確認
Ruifeng Guo, Jingxuan Wei, Linzhuang Sun, Bihui Yu, Guiyong Chang, Dawei Liu, Sibo Zhang, Zhengbing Yao, Mingjun Xu, Liping Bu, (参考訳) 自然言語処理(NLP)分野におけるLarge Language Models(LLM)の大幅な進歩に伴い,画像テキストマルチモーダルモデルの開発が注目されている。 画像テキストマルチモーダルモデルに関する最近の調査は、主に代表モデルやアプリケーションドメインに焦点を当てているが、ドメイン研究者にとって重要なドメイン固有モデルの開発に、一般的な技術モデルがどのように影響するかについてのレビューは乏しい。 そこで本研究では,特徴空間の早期探索から視覚言語符号化構造,そして最新の大規模モデルアーキテクチャに至るまで,画像テキストマルチモーダルモデルの技術的進化について概説する。 次に, バイオメディカル分野におけるマルチモーダル技術の進展と, バイオメディカル領域における特定のデータセットの重要性と複雑さについて解説する。 そして,画像テキストマルチモーダルモデルのタスクを中心に,それらの共通成分と課題を分析した。 その後、一般的な画像テキスト・マルチモーダルモデルのアーキテクチャ、コンポーネント、データについて概説し、バイオメディカル分野における画像テキスト・マルチモーダルモデルの適用と改善について紹介する。 最後に、一般モデルの開発と適用における課題を、外部要因と内在要因に分類し、さらに2つの外的要因と5つの内在要因に分解し、対象とする解決策を提案し、今後の研究方向のガイダンスを提供する。 詳細とデータについては、GitHubのページを参照してほしい。

With the significant advancements of Large Language Models (LLMs) in the field of Natural Language Processing (NLP), the development of image-text multimodal models has garnered widespread attention. Current surveys on image-text multimodal models mainly focus on representative models or application domains, but lack a review on how general technical models influence the development of domain-specific models, which is crucial for domain researchers. Based on this, this paper first reviews the technological evolution of image-text multimodal models, from early explorations of feature space to visual language encoding structures, and then to the latest large model architectures. Next, from the perspective of technological evolution, we explain how the development of general image-text multimodal technologies promotes the progress of multimodal technologies in the biomedical field, as well as the importance and complexity of specific datasets in the biomedical domain. Then, centered on the tasks of image-text multimodal models, we analyze their common components and challenges. After that, we summarize the architecture, components, and data of general image-text multimodal models, and introduce the applications and improvements of image-text multimodal models in the biomedical field. Finally, we categorize the challenges faced in the development and application of general models into external factors and intrinsic factors, further refining them into 2 external factors and 5 intrinsic factors, and propose targeted solutions, providing guidance for future research directions. For more details and data, please visit our GitHub page: \url{https://github.com/i2vec/A-survey-on-image-text-multimodal-models}.
翻訳日:2024-06-22 06:37:18 公開日:2024-06-19
# GPT-4は経験的ソフトウェア工学研究を再現できるか?

Can GPT-4 Replicate Empirical Software Engineering Research? ( http://arxiv.org/abs/2310.01727v3 )

ライセンス: Link先を確認
Jenny T. Liang, Carmen Badea, Christian Bird, Robert DeLine, Denae Ford, Nicole Forsgren, Thomas Zimmermann, (参考訳) 実運用システムに関する実証的なソフトウェアエンジニアリング研究は、実践者や研究者にとっても、ソフトウェアエンジニアリングプロセスの理解を深めている。 しかし、生産システムのごく一部しか研究されておらず、この研究の影響を限定している。 ソフトウェアエンジニアリングの実践者は、自身のデータに関する研究を複製することの恩恵を受けることができるが、複製を行うには、ソフトウェアエンジニアリングデータに研究方法論と微妙なニュアンスを深く理解する必要があるため、独自の課題が生じる。 GPT-4のような大きな言語モデル(LLM)は、ソフトウェア工学と科学関連のタスクの両方に取り組むことを約束しているので、これらのモデルは経験的ソフトウェア工学の研究を複製し、民主化するのに役立ちます。 本稿では,GPT-4が新たなデータに対して経験的ソフトウェア工学研究の複製を行う能力について検討する。 本研究では,経験的ソフトウェア工学研究方法論における仮定の抽出能力と,経験的ソフトウェア工学の7つの論文に基づく分析パイプラインの計画と生成能力について検討する。 我々は,ソフトウェア工学研究の専門知識を持つ14人の参加者を対象に,GPT-4生成の仮定と分析計画(モジュール仕様のリスト)を論文から評価する。 GPT-4は正しい仮定を導出できるが、ソフトウェア工学データに関する共通知識を応用した仮説を生成するのに苦慮している。 生成したコードを手動で解析した結果,GPT-4生成コードは方法論のサブセットを前提として,正しい高レベル論理を含むことがわかった。 しかしながら、コードには小さな実装レベルのエラーが数多く含まれており、ソフトウェア工学の知識が不足していることを反映している。 我々の発見は、ソフトウェアエンジニアリング研究やソフトウェアチームの実践的データサイエンティストにLLMを活用することに意味がある。

Empirical software engineering research on production systems has brought forth a better understanding of the software engineering process for practitioners and researchers alike. However, only a small subset of production systems is studied, limiting the impact of this research. While software engineering practitioners could benefit from replicating research on their own data, this poses its own set of challenges, since performing replications requires a deep understanding of research methodologies and subtle nuances in software engineering data. Given that large language models (LLMs), such as GPT-4, show promise in tackling both software engineering- and science-related tasks, these models could help replicate and thus democratize empirical software engineering research. In this paper, we examine GPT-4's abilities to perform replications of empirical software engineering research on new data. We study their ability to surface assumptions made in empirical software engineering research methodologies, as well as their ability to plan and generate code for analysis pipelines on seven empirical software engineering papers. We perform a user study with 14 participants with software engineering research expertise, who evaluate GPT-4-generated assumptions and analysis plans (i.e., a list of module specifications) from the papers. We find that GPT-4 is able to surface correct assumptions, but struggles to generate ones that apply common knowledge about software engineering data. In a manual analysis of the generated code, we find that the GPT-4-generated code contains correct high-level logic, given a subset of the methodology. However, the code contains many small implementation-level errors, reflecting a lack of software engineering knowledge. Our findings have implications for leveraging LLMs for software engineering research as well as practitioner data scientists in software teams.
翻訳日:2024-06-22 06:37:18 公開日:2024-06-19
# オープンエンドテキスト生成評価のためのパーソナライズされたアライメントの学習

Learning Personalized Alignment for Evaluating Open-ended Text Generation ( http://arxiv.org/abs/2310.03304v4 )

ライセンス: Link先を確認
Danqing Wang, Kevin Yang, Hanlin Zhu, Xiaomeng Yang, Andrew Cohen, Lei Li, Yuandong Tian, (参考訳) 言語モデル(LLM)による言語質の向上や,言語モデル(LLM)による一貫性の向上などにより,多種多様な人間の嗜好との整合性を評価することへの関心が高まっている。 従来のメトリクスは、人間の記述した参照と語彙的類似性に大きく依存しており、人間の評価との相関が弱いことが観察されている。 さらに、ストーリー生成のようなオープンなタスクを評価する上で重要な側面である、人間の多様な好みを無視している。 これらの課題に触発されて、我々は、特定の人間の嗜好との整合性を評価するために、解釈可能なオープンエンド評価フレームワークPerSEを導入した。 所定の個人プロファイルから特定の嗜好を推定し、生成と個人の嗜好の整合性を評価するように調整される。 PerSEはまた、その評価を詳細なコメントやいくつかの細かいスコアで説明している。 これにより解釈性が向上し、パーソナライズされた世代をカスタマイズするのがより適している。 我々の13B LLaMA-2ベースのPerSEは、GPT-4と比較してケンドール相関が15.8%増加し、ゼロショットレビュアーの精度が13.7%上昇している。 また、新しいドメインでのケンドール相関ではGPT-4を46.01%上回り、転送可能性を示している。

With rapid progress made in language qualities such as fluency and consistency via large language models (LLMs), there has been increasing interest in assessing alignment with diverse human preferences. Traditional metrics heavily rely on lexical similarity with human-written references and have been observed to suffer from a poor correlation with human evaluation. Furthermore, they ignore the diverse preferences of humans, a key aspect in evaluating open-ended tasks like story generation. Inspired by these challenges, we introduce an interpretable open-ended evaluation framework PerSE to assess the alignment with a specific human preference. It is tuned to deduce the specific preference from a given personal profile and evaluate the alignment between the generation and the personal preference. PerSE also explains its assessment by a detailed comment or several fine-grained scores. This enhances its interpretability, making it more suitable to tailor a personalized generation. Our 13B LLaMA-2-based PerSE shows a 15.8% increase in Kendall correlation and a 13.7% rise in accuracy on zero-shot reviewers compared to GPT-4. It also outperforms GPT-4 by 46.01% in the Kendall correlation on new domains, indicating its transferability.
翻訳日:2024-06-22 06:37:18 公開日:2024-06-19
# 事例とラベル:階層型マルチラベルテキスト分類のための階層型共同教師付きコントラスト学習

Instances and Labels: Hierarchy-aware Joint Supervised Contrastive Learning for Hierarchical Multi-Label Text Classification ( http://arxiv.org/abs/2310.05128v3 )

ライセンス: Link先を確認
Simon Yu, Jie He, Víctor Gutiérrez-Basulto, Jeff Z. Pan, (参考訳) 階層型多ラベルテキスト分類(HMTC)は,多ラベル分類におけるラベル階層の活用を目的としている。 HMTCへの最近のアプローチは、テキストとラベルの埋め込みを近接させる半教師付き方法で生成されたサンプルのコントラスト学習を使用することにより、出力空間に過剰に制約された前提を課す問題に対処している。 しかし、サンプルの生成は、同じバッチ内の類似したサンプル間の相関を無視してノイズを発生させる傾向がある。 この問題の1つの解決策は、教師付きコントラスト学習であるが、複雑な構造化ラベルのため、HMTCでは未探索のトピックである。 この課題を解決するために、教師付きコントラスト学習とHMTCのギャップを埋める$\textbf{H}$ierarchy-aware $\textbf{J}$oint Supervised $\textbf{C}$ontrastive $\textbf{L}$earning法を提案する。 具体的には、ケースワイドおよびラベルワイドのコントラスト学習技術を用いて、コントラスト学習の目的を達成するためにバッチを慎重に構築する。 4つのマルチパスHMTCデータセットに対する実験により、HJCLが有望な結果とHMTCにおけるコントラスト学習の有効性を実証した。

Hierarchical multi-label text classification (HMTC) aims at utilizing a label hierarchy in multi-label classification. Recent approaches to HMTC deal with the problem of imposing an over-constrained premise on the output space by using contrastive learning on generated samples in a semi-supervised manner to bring text and label embeddings closer. However, the generation of samples tends to introduce noise as it ignores the correlation between similar samples in the same batch. One solution to this issue is supervised contrastive learning, but it remains an underexplored topic in HMTC due to its complex structured labels. To overcome this challenge, we propose $\textbf{HJCL}$, a $\textbf{H}$ierarchy-aware $\textbf{J}$oint Supervised $\textbf{C}$ontrastive $\textbf{L}$earning method that bridges the gap between supervised contrastive learning and HMTC. Specifically, we employ both instance-wise and label-wise contrastive learning techniques and carefully construct batches to fulfill the contrastive learning objective. Extensive experiments on four multi-path HMTC datasets demonstrate that HJCL achieves promising results and the effectiveness of Contrastive Learning on HMTC.
翻訳日:2024-06-22 06:37:18 公開日:2024-06-19
# DKEC:診断予測のためのドメイン知識強化マルチラベル分類

DKEC: Domain Knowledge Enhanced Multi-Label Classification for Diagnosis Prediction ( http://arxiv.org/abs/2310.07059v2 )

ライセンス: Link先を確認
Xueren Ge, Satpathy Abhishek, Ronald Dean Williams, John A. Stankovic, Homa Alemzadeh, (参考訳) 医療領域におけるマルチラベルテキスト分類(MLTC)タスクは、しばしばロングテールラベルの分散問題に直面する。 以前の研究は、数発の授業で関連する情報を見つけるために階層的なラベル構造を探索してきたが、ほとんどは医学ガイドラインから外部知識を取り入れることを無視した。 本稿では, 診断予測のためのドメイン知識強化分類であるDKECについて, 1) 異種知識グラフを外部から自動構築し, 多様な医療組織間の意味的関係を捉えること, (2) ラベルワイド・アテンション・メカニズムを用いて, 数点の分類に異種知識グラフを取り入れること, について述べる。 3つのオンライン医療知識源を用いてDKECを構築し,現実の救急医療サービス(EMS)データセットと電子健康記録(EHR)データセットで評価する。 その結果、DKECは、特に数発のクラスにおいて、最先端のラベルワイドアテンションネットワークや、異なるサイズのトランスフォーマーモデルよりも優れていることがわかった。 さらに重要なのは、小さな言語モデルが大きな言語モデルに匹敵するパフォーマンスを達成するのに役立ちます。

Multi-label text classification (MLTC) tasks in the medical domain often face the long-tail label distribution problem. Prior works have explored hierarchical label structures to find relevant information for few-shot classes, but mostly neglected to incorporate external knowledge from medical guidelines. This paper presents DKEC, Domain Knowledge Enhanced Classification for diagnosis prediction with two innovations: (1) automated construction of heterogeneous knowledge graphs from external sources to capture semantic relations among diverse medical entities, (2) incorporating the heterogeneous knowledge graphs in few-shot classification using a label-wise attention mechanism. We construct DKEC using three online medical knowledge sources and evaluate it on a real-world Emergency Medical Services (EMS) dataset and a public electronic health record (EHR) dataset. Results show that DKEC outperforms the state-of-the-art label-wise attention networks and transformer models of different sizes, particularly for the few-shot classes. More importantly, it helps the smaller language models achieve comparable performance to large language models.
翻訳日:2024-06-22 06:37:18 公開日:2024-06-19
# 反ファクトおよびツインフィールド量子デジタル署名のためのプロトコル

Protocols for counterfactual and twin-field quantum digital signature ( http://arxiv.org/abs/2310.11308v2 )

ライセンス: Link先を確認
Vinod N. Rao, Shrikant Utagi, Anirban Pathak, R. Srikanth, (参考訳) 量子デジタルシグネチャ(Quantum Digital signature, QDS)は、量子力学のノーゴー原理に基づいて、量子デジタルシグネチャ(英語版) (quantum digital signature, QDS) の量子バージョンであり、反証、シグネチャ鍛造、および外部の盗聴に対するセキュリティを提供する。 本稿では、相互作用のない測定の概念を活用する量子対実性に基づくQDSスキームを提案する。 ツインフィールド暗号の背景にあるアイデアを用いて、この双方向プロトコルが、より実用的で理論上も第一プロトコルの実験的実現可能性を評価するのに有用である、等価なノンカウンタリー・ワンウェイプロトコルにどのように変換されるかを示す。 提案したQDSプロトコルは、現在の量子技術で実験的に実装することができる。

Quantum digital signature (QDS) is the quantum version of its classical counterpart, and can offer security against attacks of repudiation, signature forging and external eavesdropping, on the basis of quantum mechanical no-go principles. Here we propose a QDS scheme based on quantum counterfactuality, which leverages the concept of interaction-free measurement. Employing the idea behind twin-field cryptography, we show how this two-way protocol can be turned into an equivalent non-counterfactual, one-way protocol, that is both more practical and also theoretically helpful in assessing the experimental feasibility of the first protocol. The proposed QDS protocol can be experimentally implemented with current quantum technology.
翻訳日:2024-06-22 06:27:34 公開日:2024-06-19
# RSAdapter:リモートセンシング型視覚質問応答に対するマルチモーダルモデルの適用

RSAdapter: Adapting Multimodal Models for Remote Sensing Visual Question Answering ( http://arxiv.org/abs/2310.13120v2 )

ライセンス: Link先を確認
Yuduo Wang, Pedram Ghamisi, (参考訳) 近年、トランスモデルの急速な進歩に伴い、トランスフォーマーベースのマルチモーダルアーキテクチャは、画像キャプチャ、視覚質問応答(VQA)、画像テキスト生成など、様々な下流タスクに広く応用されている。 しかしながら、RS(Remote Sensing) VQAの現代的アプローチは、大きなモデルの完全な微調整や、事前訓練されたマルチモーダルモデルからの画像テキスト特徴の抽出など、リソース集約的な手法を伴い、デコーダを用いたモダリティ融合を行うことが多い。 これらのアプローチは、かなりの計算資源と時間を必要とし、かなりの数のトレーニング可能なパラメータが導入された。 これらの課題に対処するため、我々はRSAdapterと呼ばれる新しい手法を導入し、実行時とパラメータの効率を優先する。 RSAdapterは、Parallel AdapterとAdapter内の各完全連結(FC)層に挿入された線形変換層という2つの重要なコンポーネントから構成される。 このアプローチは、事前訓練されたマルチモーダルモデルへの適応を改善するだけでなく、推論中に線形変換層のパラメータを前のFC層に統合し、推論コストを低減させる。 RSAdapterの有効性を示すため、3つの異なるRS-VQAデータセットを用いて大規模な実験を行い、3つのデータセットすべてに対して最先端の結果を得る。 RSAdapterのコードはhttps://github.com/Y-D-Wang/RSAdapter.comで公開されている。

In recent years, with the rapid advancement of transformer models, transformer-based multimodal architectures have found wide application in various downstream tasks, including but not limited to Image Captioning, Visual Question Answering (VQA), and Image-Text Generation. However, contemporary approaches to Remote Sensing (RS) VQA often involve resource-intensive techniques, such as full fine-tuning of large models or the extraction of image-text features from pre-trained multimodal models, followed by modality fusion using decoders. These approaches demand significant computational resources and time, and a considerable number of trainable parameters are introduced. To address these challenges, we introduce a novel method known as RSAdapter, which prioritizes runtime and parameter efficiency. RSAdapter comprises two key components: the Parallel Adapter and an additional linear transformation layer inserted after each fully connected (FC) layer within the Adapter. This approach not only improves adaptation to pre-trained multimodal models but also allows the parameters of the linear transformation layer to be integrated into the preceding FC layers during inference, reducing inference costs. To demonstrate the effectiveness of RSAdapter, we conduct an extensive series of experiments using three distinct RS-VQA datasets and achieve state-of-the-art results on all three datasets. The code for RSAdapter is available online at https://github.com/Y-D-Wang/RSAdapter.
翻訳日:2024-06-22 06:27:34 公開日:2024-06-19
# セグメンテッドシーケンスの学習による言語モデルの入力コンテキストの拡張

Extending Input Contexts of Language Models through Training on Segmented Sequences ( http://arxiv.org/abs/2310.14633v3 )

ライセンス: Link先を確認
Petros Karypis, Julian McAuley, George Karypis, (参考訳) 長い入力で言語モデルを効果的に訓練することは、多くの技術的な課題をもたらす。 コストを考慮すると、言語モデルはより長いシーケンスに適応する前に、一定のシーケンス長で事前訓練される。 そこで本研究では,セグメント化シーケンスをトレーニングすることで,より長い入力にモデルを適応させる様々な手法と,絶対的な位置埋め込みを拡張可能な補間法について検討する。 我々は,事前学習したモデルの入力コンテキストサイズを,アーキテクチャ上の変更やメモリコストを伴わずに拡張する訓練手法を開発した。 長い入力からセグメントをサブサンプリングすることで、モデルは元の位置を維持しながら新しい位置の相互作用を学ぶことができる。 提案手法は,入力コンテキストを拡張して絶対的な位置埋め込みを訓練したモデルと,トレーニング対象よりも長いシーケンスのパープレキシティの低下を示す一般的な相対的な位置埋め込み手法の両方に有効である。 提案手法は,パープレキシティを改善しつつ,入力コンテキストを4倍に拡張できることを実証する。

Effectively training language models on long inputs poses many technical challenges. As a cost consideration, languages models are pretrained on a fixed sequence length before being adapted to longer sequences. We explore various methods for adapting models to longer inputs by training on segmented sequences and an interpolation-based method for extending absolute positional embeddings. We develop a training procedure to extend the input context size of pretrained models with no architectural changes and no additional memory costs than training on the original input lengths. By sub-sampling segments from long inputs while maintaining their original position the model is able to learn new positional interactions. Our method benefits both models trained with absolute positional embeddings, by extending their input contexts, as well as popular relative positional embedding methods showing a reduced perplexity on sequences longer than they were trained on. We demonstrate our method can extend input contexts by a factor of 4x while improving perplexity.
翻訳日:2024-06-22 06:27:34 公開日:2024-06-19
# DEFN:Dual-Encoder Fourier Group Harmonics Network for Three-dimensional Indistinct-Boundary Object Segmentation

DEFN: Dual-Encoder Fourier Group Harmonics Network for Three-Dimensional Indistinct-Boundary Object Segmentation ( http://arxiv.org/abs/2311.00483v2 )

ライセンス: Link先を確認
Xiaohua Jiang, Yihao Guo, Jian Huang, Yuting Wu, Meiyi Luo, Zhaoyang Xu, Qianni Zhang, Xingru Huang, Hong He, Shaowei Jiang, Jing Ye, Mang Xiao, (参考訳) 診断プロトコルの正確性,外科的介入の有効性,術後評価の信頼性に最重要である。 その重要性にもかかわらず、有効セグメンテーションと瞬時3次元再構成は、利用可能なデータセットやノイズアーティファクトにおける代表サンプルの疎結合によって著しく阻害される。 これらの課題を克服するため,私たちはStochastic Defect Injection (SDi)を導入した。 そこで我々はDEFN(Dual-Encoder Fourier Group Harmonics Network)を提案する。 Dynamic Weight Composing (DWC) の損失をトレーニング進捗に基づいて動的にモデル焦点を調整することで、DEFN は OIMHS の公開データセット上での SOTA のパフォーマンスを達成し、不特定境界条件下での有効性を示す。 DEFNのソースコードは、https://github.com/IMOP-lab/DEFN-pytorchで入手できる。

The precise spatial and quantitative delineation of indistinct-boundary medical objects is paramount for the accuracy of diagnostic protocols, efficacy of surgical interventions, and reliability of postoperative assessments. Despite their significance, the effective segmentation and instantaneous three-dimensional reconstruction are significantly impeded by the paucity of representative samples in available datasets and noise artifacts. To surmount these challenges, we introduced Stochastic Defect Injection (SDi) to augment the representational diversity of challenging indistinct-boundary objects within training corpora. Consequently, we propose the Dual-Encoder Fourier Group Harmonics Network (DEFN) to tailor noise filtration, amplify detailed feature recognition, and bolster representation across diverse medical imaging scenarios. By incorporating Dynamic Weight Composing (DWC) loss dynamically adjusts model's focus based on training progression, DEFN achieves SOTA performance on the OIMHS public dataset, showcasing effectiveness in indistinct boundary contexts. Source code for DEFN is available at: https://github.com/IMOP-lab/DEFN-pytorch.
翻訳日:2024-06-22 06:27:34 公開日:2024-06-19
# プライバシーに敏感なレコメンダシステムのためのマルチリゾリューション拡散

Multi-Resolution Diffusion for Privacy-Sensitive Recommender Systems ( http://arxiv.org/abs/2311.03488v4 )

ライセンス: Link先を確認
Derek Lilienthal, Paul Mello, Magdalini Eirinaki, Stas Tiomkin, (参考訳) 推奨システムはWebエクスペリエンスの不可欠なコンポーネントになっているが、ユーザデータへの依存度が高いため、プライバシやセキュリティ上の懸念が高まる。 ユーザデータを合成データで置換することは、これらの懸念に対処できるが、これらの現実世界のデータセットを正確に複製することは、非常に難しい問題だった。 生成AIの最近の進歩は、様々な領域にわたる現実的なデータを生成するための拡散モデルの印象的な能力を示している。 本研究では,ScoreベースのDiffusion Recommendation Module (SDRM)を導入し,高精度なレコメンデータシステムのトレーニングに必要な実世界のデータセットの複雑なパターンをキャプチャする。 SDRMは、ユーザのプライバシを保護するために既存のデータセットを置き換える合成データを生成することができる。 提案手法は,Recall@kで平均4.30%,NDCG@kで平均4.65%向上した。

While recommender systems have become an integral component of the Web experience, their heavy reliance on user data raises privacy and security concerns. Substituting user data with synthetic data can address these concerns, but accurately replicating these real-world datasets has been a notoriously challenging problem. Recent advancements in generative AI have demonstrated the impressive capabilities of diffusion models in generating realistic data across various domains. In this work we introduce a Score-based Diffusion Recommendation Module (SDRM), which captures the intricate patterns of real-world datasets required for training highly accurate recommender systems. SDRM allows for the generation of synthetic data that can replace existing datasets to preserve user privacy, or augment existing datasets to address excessive data sparsity. Our method outperforms competing baselines such as generative adversarial networks, variational autoencoders, and recently proposed diffusion models in synthesizing various datasets to replace or augment the original data by an average improvement of 4.30% in Recall@k and 4.65% in NDCG@k.
翻訳日:2024-06-22 06:27:34 公開日:2024-06-19
# HEALPix Meshを用いた類似した深層学習天気予報の精度向上

Advancing Parsimonious Deep Learning Weather Prediction using the HEALPix Mesh ( http://arxiv.org/abs/2311.06253v2 )

ライセンス: Link先を確認
Matthias Karlbauer, Nathaniel Cresswell-Clay, Dale R. Durran, Raul A. Moreno, Thorsten Kurth, Boris Bonev, Noah Brenowitz, Martin V. Butz, (参考訳) 本研究では,階層的等温領域等緯線画像化(HEALPix)を用いて,110kmのグローバルメッシュ上で,最大3時間3倍の時間分解能を持つ7つの大気変数を最大1年間リードタイムで予測する,擬似的なディープラーニング天気予報モデルを提案する。 Pangu-WeatherやGraphCastのような最先端の機械学習(SOTA)天気予報モデルと比較して、我々のDLWP-HPXモデルは粗い分解能と予測変数がはるかに少ない。 しかし、1週間のリードタイムでは、そのスキルは、中距離気象予報センターのSOTA ML予測モデルとSOTA数値気象予報モデルの両方にわずか1日遅れている。 モデル設計におけるいくつかの改良点として、立方体球からHEALPixメッシュへの切り替え、U-Netのチャネル深さの反転、U-Net階層の各レベルにゲートリカレントユニット(GRU)を導入している。 HEALPixメッシュ上の全てのセルの東西方向に一貫した配向は、立方体球の極面と赤道面の別々のカーネルを必要とせず、世界中の気象パターンを伝播させるような位置不変の畳み込みカーネルの開発を促進する。 最初の2日後にスペクトルパワーが失われることなく、このモデルは将来数百ステップにわたって自己回帰的に展開され、1年間のシミュレーションで示されているように、季節的な傾向を反映した現実的な大気状態を生成することができる。

We present a parsimonious deep learning weather prediction model to forecast seven atmospheric variables with 3-h time resolution for up to one-year lead times on a 110-km global mesh using the Hierarchical Equal Area isoLatitude Pixelization (HEALPix). In comparison to state-of-the-art (SOTA) machine learning (ML) weather forecast models, such as Pangu-Weather and GraphCast, our DLWP-HPX model uses coarser resolution and far fewer prognostic variables. Yet, at one-week lead times, its skill is only about one day behind both SOTA ML forecast models and the SOTA numerical weather prediction model from the European Centre for Medium-Range Weather Forecasts. We report several improvements in model design, including switching from the cubed sphere to the HEALPix mesh, inverting the channel depth of the U-Net, and introducing gated recurrent units (GRU) on each level of the U-Net hierarchy. The consistent east-west orientation of all cells on the HEALPix mesh facilitates the development of location-invariant convolution kernels that successfully propagate weather patterns across the globe without requiring separate kernels for the polar and equatorial faces of the cube sphere. Without any loss of spectral power after the first two days, the model can be unrolled autoregressively for hundreds of steps into the future to generate realistic states of the atmosphere that respect seasonal trends, as showcased in one-year simulations.
翻訳日:2024-06-22 06:17:50 公開日:2024-06-19
# 言語横断の多段階推論を広める木

A Tree-of-Thoughts to Broaden Multi-step Reasoning across Languages ( http://arxiv.org/abs/2311.08097v3 )

ライセンス: Link先を確認
Leonardo Ranaldi, Giulia Pucci, Federico Ranaldi, Elena Sofia Ruzzetti, Fabio Massimo Zanzotto, (参考訳) 推論手法(Reasoning method)は、よく知られたChain-of-Thought (CoT) によって最もよく例示され、ステップバイステップで複雑なタスクを解くよう促すことで、Large Language Models (LLM) の推論能力を高める。 彼らは大きな成功を収めているが、事前学習データの分布の不均衡により、他の言語が障壁となるため、多段階推論を実現する能力は英語に限られている。 本稿では,言語間での言語間CoT推論を整合させる手法であるクロスランガルツリー・オブ・ソート(Cross-ToT)を提案する。 提案手法は、Tree-of-Thoughtsアプローチにインスパイアされた自己整合型言語間プロンプト機構を通じて、各言語における複数ステップの推論パスを提供する。 実験により,本手法はインタラクションの回数を減らし,最先端の性能を達成することにより,既存のプロンプト手法よりも大幅に優れていることが示された。

Reasoning methods, best exemplified by the well-known Chain-of-Thought (CoT), empower the reasoning abilities of Large Language Models (LLMs) by eliciting them to solve complex tasks in a step-by-step manner. Although they are achieving significant success, the ability to deliver multi-step reasoning remains limited to English because of the imbalance in the distribution of pre-training data, which makes other languages a barrier. In this paper, we propose Cross-lingual Tree-of-Thoughts (Cross-ToT), a method for aligning Cross-lingual CoT reasoning across languages. The proposed method, through a self-consistent cross-lingual prompting mechanism inspired by the Tree-of-Thoughts approach, provides multi-step reasoning paths in different languages that, during the steps, lead to the final solution. Experimental evaluations show that our method significantly outperforms existing prompting methods by reducing the number of interactions and achieving state-of-the-art performance.
翻訳日:2024-06-22 06:17:50 公開日:2024-06-19
# 時空間データ予測のための周波数正規化による低ランク半負行列分解

Supervised low-rank semi-nonnegative matrix factorization with frequency regularization for forecasting spatio-temporal data ( http://arxiv.org/abs/2311.08636v2 )

ライセンス: Link先を確認
Keunsu Kim, Hanbaek Lyu, Jinsu Kim, Jae-Hun Jung, (参考訳) 周波数正則化を用いた教師付き半負行列因数分解(SSNMF)を用いた時空間データの予測手法を提案する。 行列分解は時空間データを時空間成分と時空間成分に分解するために用いられる。 時間的パターンの明瞭さを向上させるため,周波数領域の正規化とともに時間領域に非負性制約を導入する。 具体的には、周波数領域における正規化は周波数領域における特徴の選択を伴い、周波数領域における解釈をより便利にする。 周波数領域では,ソフトとハードの正則化という2つの手法を提案し,対応する制約付き最適化問題の1次定常点に対する収束保証を提供する。 我々の主な動機は、GRACE(Gravity Recovery and Climate Experiment)データに基づく物理データ解析にあるが、我々の方法論はより広範な応用の可能性を持っている。 その結果,本手法をGRACEデータに適用した場合,提案手法による結果は,地球物理学の分野における従来の研究と同等であるが,より明瞭な解釈性を提供することがわかった。

We propose a novel methodology for forecasting spatio-temporal data using supervised semi-nonnegative matrix factorization (SSNMF) with frequency regularization. Matrix factorization is employed to decompose spatio-temporal data into spatial and temporal components. To improve clarity in the temporal patterns, we introduce a nonnegativity constraint on the time domain along with regularization in the frequency domain. Specifically, regularization in the frequency domain involves selecting features in the frequency space, making an interpretation in the frequency domain more convenient. We propose two methods in the frequency domain: soft and hard regularizations, and provide convergence guarantees to first-order stationary points of the corresponding constrained optimization problem. While our primary motivation stems from geophysical data analysis based on GRACE (Gravity Recovery and Climate Experiment) data, our methodology has the potential for wider application. Consequently, when applying our methodology to GRACE data, we find that the results with the proposed methodology are comparable to previous research in the field of geophysical sciences but offer clearer interpretability.
翻訳日:2024-06-22 06:17:50 公開日:2024-06-19
# Uli Dataset:oGBVの注釈付きエクスペリエンスのエクササイズ

The Uli Dataset: An Exercise in Experience Led Annotation of oGBV ( http://arxiv.org/abs/2311.09086v2 )

ライセンス: Link先を確認
Arnav Arora, Maha Jinadoss, Cheshta Arora, Denny George, Brindaalakshmi, Haseena Dawood Khan, Kirti Rawat, Div, Ritash, Seema Mathur, Shivani Yadav, Shehla Rashid Shora, Rie Raut, Sumit Pawar, Apurva Paithane, Sonia, Vivek, Dharini Priscilla, Khairunnisha, Grace Banu, Ambika Tandon, Rishav Thakker, Rahul Dev Korra, Aatman Vaidya, Tarunima Prabhakar, (参考訳) オンラインジェンダーベースの暴力は、インターネットやソーシャルメディアの採用と相まって成長している。 その影響は、多くのユーザーが英語以外の言語でソーシャルメディアを使っている世界の大多数で悪化している。 インターネット上での会話の規模と量によって、ヘイトスピーチの自動検出や、より具体的にはジェンダーによる虐待の必要性が高まっている。 しかし、そのような自動化ツールを構築するための言語固有のデータやコンテキストデータがない。 本稿では,ヒンディー語,タミル語,インド英語の3言語における性虐待に関するデータセットを提案する。 このデータセットは、女性や南アジアのLGBTQIAコミュニティのメンバーと同一視する専門家によって、性虐待の経験に関する3つの質問に沿って注釈付けされたツイートで構成されている。 このデータセットを通じて、AIシステムを駆動するデータセットを作成するための参加型アプローチを示します。

Online gender based violence has grown concomitantly with adoption of the internet and social media. Its effects are worse in the Global majority where many users use social media in languages other than English. The scale and volume of conversations on the internet has necessitated the need for automated detection of hate speech, and more specifically gendered abuse. There is, however, a lack of language specific and contextual data to build such automated tools. In this paper we present a dataset on gendered abuse in three languages- Hindi, Tamil and Indian English. The dataset comprises of tweets annotated along three questions pertaining to the experience of gender abuse, by experts who identify as women or a member of the LGBTQIA community in South Asia. Through this dataset we demonstrate a participatory approach to creating datasets that drive AI systems.
翻訳日:2024-06-22 06:17:50 公開日:2024-06-19
# RLHFPoison:大規模言語モデルにおける人間フィードバックによる強化学習のためのリワードポジショニング攻撃

RLHFPoison: Reward Poisoning Attack for Reinforcement Learning with Human Feedback in Large Language Models ( http://arxiv.org/abs/2311.09641v2 )

ライセンス: Link先を確認
Jiongxiao Wang, Junlin Wu, Muhao Chen, Yevgeniy Vorobeychik, Chaowei Xiao, (参考訳) 強化学習と人間フィードバック(Reinforcement Learning with Human Feedback, RLHF)は、LLMのアライメントにおいて重要な役割を果たす大規模言語モデル(LLM)と人間の嗜好を結びつけるために設計された方法論である。 その利点にもかかわらず、RLHFは人間のアノテータにテキストのランク付けを頼っており、敵のアノテータ(すなわち攻撃者)がLLMを敵に操るために悪意のあるテキストを上位に並べてランキングスコアを操作した場合、潜在的なセキュリティ上の脆弱性を導入することができる。 人間の嗜好データ中毒に対するRLHFのリピートを評価するために、ある悪意ある行動(例えば、より長いシーケンスを生成し、計算コストを増大させる)に到達するために、候補の選好ランクフリップの選択に対する中毒攻撃手法であるRランクポゾンを提案する。 RankPoisonが生成した有毒なデータセットにより、LLMに対する中毒攻撃を実行して、元の安全アライメントのパフォーマンスを損なうことなく、より長いトークンを生成することができる。 RankPoisonを適用することで,LLMがトリガー語による質問に対して長い回答を生成できるバックドアアタックの実装も成功している。 我々の研究は、LLHFにおける重要なセキュリティ上の課題を浮き彫りにして、LLMのより堅牢なアライメント手法の必要性を浮き彫りにした。

Reinforcement Learning with Human Feedback (RLHF) is a methodology designed to align Large Language Models (LLMs) with human preferences, playing an important role in LLMs alignment. Despite its advantages, RLHF relies on human annotators to rank the text, which can introduce potential security vulnerabilities if any adversarial annotator (i.e., attackers) manipulates the ranking score by up-ranking any malicious text to steer the LLM adversarially. To assess the red-teaming of RLHF against human preference data poisoning, we propose RankPoison, a poisoning attack method on candidates' selection of preference rank flipping to reach certain malicious behaviors (e.g., generating longer sequences, which can increase the computational cost). With poisoned dataset generated by RankPoison, we can perform poisoning attacks on LLMs to generate longer tokens without hurting the original safety alignment performance. Moreover, applying RankPoison, we also successfully implement a backdoor attack where LLMs can generate longer answers under questions with the trigger word. Our findings highlight critical security challenges in RLHF, underscoring the necessity for more robust alignment methods for LLMs.
翻訳日:2024-06-22 06:17:50 公開日:2024-06-19
# CV-Attention UNet: Antention-based UNet for 3D Cerebrovascular Segmentation of Enhanced TOF-MRA Images

CV-Attention UNet: Attention-based UNet for 3D Cerebrovascular Segmentation of Enhanced TOF-MRA Images ( http://arxiv.org/abs/2311.10224v3 )

ライセンス: Link先を確認
Syed Farhan Abbas, Nguyen Thanh Duc, Yoonguu Song, Kyungwon Kim, Ekta Srivastava, Boreom Lee, (参考訳) 自動的な方法がないため、脳血管疾患を診断するために、TOF-MRA(Time-of-light magnetic resonance angiography)が視覚的に評価され、時間を要する。 一般的に使用される脳血管のセグメンテーションのためのエンコーダ・デコーダアーキテクチャは冗長な特徴を利用しており、最終的には複数の低レベル特徴の抽出に繋がった。 さらに、畳み込みニューラルネットワーク(CNN)はバッチサイズが小さくなると性能劣化に悩まされ、より深いネットワークは消滅する勾配問題を経験する。 方法: 本論文では, 脳血管画像の正確な抽出のために, CV-AttentionUNetと呼ばれる3次元脳血管注意UNet法を提案する。 脳卒中につながる脳血管のセグメンテーションの精度を向上させるために,我々は一連の前処理手法の提案を行った。 低と高のセマンティクスを組み合わせるために,注意機構を適用した。 このメカニズムは関連する関連性に注目し、無関係な解剖情報を無視する。 さらに、ディープ・インテリジェンス(英語版)の導入は、ネットワークの収束に有益であることを示す様々なレベルの特徴を取り入れている。 結果: ラベルのないデータセットを相互検証することで, 提案手法の有効性を実証した。 このアルゴリズムの斬新さは、ラベル付きデータとラベルなしデータの両方で、画像処理による拡張をうまく行う能力に起因していると信じている。 以上の結果から,本手法は既存のTuneTKデータセットの最先端手法よりも優れた性能を示した。 結論】脳卒中に至る脳血管構造の正確なセグメンテーションを支援する手法の提案

Due to the lack of automated methods, to diagnose cerebrovascular disease, time-of-flight magnetic resonance angiography (TOF-MRA) is assessed visually, making it time-consuming. The commonly used encoder-decoder architectures for cerebrovascular segmentation utilize redundant features, eventually leading to the extraction of low-level features multiple times. Additionally, convolutional neural networks (CNNs) suffer from performance degradation when the batch size is small, and deeper networks experience the vanishing gradient problem. Methods: In this paper, we attempt to solve these limitations and propose the 3D cerebrovascular attention UNet method, named CV-AttentionUNet, for precise extraction of brain vessel images. We proposed a sequence of preprocessing techniques followed by deeply supervised UNet to improve the accuracy of segmentation of the brain vessels leading to a stroke. To combine the low and high semantics, we applied the attention mechanism. This mechanism focuses on relevant associations and neglects irrelevant anatomical information. Furthermore, the inclusion of deep supervision incorporates different levels of features that prove to be beneficial for network convergence. Results: We demonstrate the efficiency of the proposed method by cross-validating with an unlabeled dataset, which was further labeled by us. We believe that the novelty of this algorithm lies in its ability to perform well on both labeled and unlabeled data with image processing-based enhancement. The results indicate that our method performed better than the existing state-of-the-art methods on the TubeTK dataset. Conclusion: The proposed method will help in accurate segmentation of cerebrovascular structure leading to stroke
翻訳日:2024-06-22 06:17:50 公開日:2024-06-19
# 解釈可能な行動表現のための多意図逆Q-ラーニング

Multi-intention Inverse Q-learning for Interpretable Behavior Representation ( http://arxiv.org/abs/2311.13870v3 )

ライセンス: Link先を確認
Hao Zhu, Brice De La Crompe, Gabriel Kalweit, Artur Schneider, Maria Kalweit, Ilka Diester, Joschka Boedecker, (参考訳) 自然意思決定プロセスの理解を深める過程で、逆強化学習(IRL)法は、複雑な行動に基づく動物の意図の再構築に役立っていることが証明されている。 近年、連続的マルチインテンションIRLフレームワークが開発されていることから、IRLによる個別の時間変化報酬を推測する調査が続けられている。 この課題に対処するために、階層的逆Q-ラーニング(HIQL)アルゴリズムのクラスを導入する。 HIQLは教師なしの学習プロセスを通じて、専門家の軌跡を複数の意図セグメントに分割し、それぞれ独立してIRL問題を解決する。 実験のシミュレーションと実際の動物行動データセットにHIQLを適用することで、動作予測の現在のベンチマークを上回り、解釈可能な報酬関数を生成する。 この結果から, 複雑な意思決定行動に基づく意図遷移のダイナミクスは, 滑らかに変化する関数ではなく, ステップ関数によってモデル化されることが示唆された。 この進歩は神経科学と認知科学の約束を守り、意思決定の深い理解と基礎となる脳機構の解明に寄与する。

In advancing the understanding of natural decision-making processes, inverse reinforcement learning (IRL) methods have proven instrumental in reconstructing animal's intentions underlying complex behaviors. Given the recent development of a continuous-time multi-intention IRL framework, there has been persistent inquiry into inferring discrete time-varying rewards with IRL. To address this challenge, we introduce the class of hierarchical inverse Q-learning (HIQL) algorithms. Through an unsupervised learning process, HIQL divides expert trajectories into multiple intention segments, and solves the IRL problem independently for each. Applying HIQL to simulated experiments and several real animal behavior datasets, our approach outperforms current benchmarks in behavior prediction and produces interpretable reward functions. Our results suggest that the intention transition dynamics underlying complex decision-making behavior is better modeled by a step function instead of a smoothly varying function. This advancement holds promise for neuroscience and cognitive science, contributing to a deeper understanding of decision-making and uncovering underlying brain mechanisms.
翻訳日:2024-06-22 06:17:50 公開日:2024-06-19
# MI攻撃に必要なのは信頼だけ

Confidence Is All You Need for MI Attacks ( http://arxiv.org/abs/2311.15373v2 )

ライセンス: Link先を確認
Abhishek Sinha, Himanshi Tibrewal, Mansi Gupta, Nikhar Waghela, Shivank Garg, (参考訳) 機械学習のセキュリティの進化期において、機密データの機密性に対する強力な脅威としてメンバーシップ推論攻撃が出現した。 この攻撃では、敵はターゲットモデルのトレーニング中に特定のポイントが使用されたかどうかを判定することを目的としている。 本稿では,モデルのトレーニングセットにおけるデータポイントのメンバシップを計測する新しい手法を提案する。 伝統的に行われているように、メンバシップの損失と相関する代わりに、トレーニング例が実際のクラスに分類された場合、一般的に高い信頼度を示すという事実を活用している。 トレーニング中、モデルは基本的にトレーニングデータに'適合'しており、目に見えないデータへの一般化において特に困難に直面している可能性がある。 この非対称性は、トレーニングデータに存在する特定のパターンやノイズを利用するため、トレーニングデータに対する信頼性を高めるモデルにつながる。 提案手法は,機械学習モデルによって生成された信頼性値を利用する。 これらの信頼値は、その予測におけるモデルの確かさの確率的測度を提供し、与えられたデータポイントのメンバシップを推測するのにさらに使用できる。 さらに、与えられたデータポイントの基底的真理(真理クラス)を知らずにこの攻撃を実行できる方法の別の変種を導入し、既存のラベルに依存した攻撃方法に対するエッジを提供する。

In this evolving era of machine learning security, membership inference attacks have emerged as a potent threat to the confidentiality of sensitive data. In this attack, adversaries aim to determine whether a particular point was used during the training of a target model. This paper proposes a new method to gauge a data point's membership in a model's training set. Instead of correlating loss with membership, as is traditionally done, we have leveraged the fact that training examples generally exhibit higher confidence values when classified into their actual class. During training, the model is essentially being 'fit' to the training data and might face particular difficulties in generalization to unseen data. This asymmetry leads to the model achieving higher confidence on the training data as it exploits the specific patterns and noise present in the training data. Our proposed approach leverages the confidence values generated by the machine learning model. These confidence values provide a probabilistic measure of the model's certainty in its predictions and can further be used to infer the membership of a given data point. Additionally, we also introduce another variant of our method that allows us to carry out this attack without knowing the ground truth(true class) of a given data point, thus offering an edge over existing label-dependent attack methods.
翻訳日:2024-06-22 06:17:50 公開日:2024-06-19
# VLPrompt: パノラマシーングラフ生成のためのビジョン言語プロンプト

VLPrompt: Vision-Language Prompting for Panoptic Scene Graph Generation ( http://arxiv.org/abs/2311.16492v2 )

ライセンス: Link先を確認
Zijian Zhou, Miaojing Shi, Holger Caesar, (参考訳) Panoptic Scene Graph Generation (PSG) は、オブジェクトを同時に分割し、オブジェクト間の関係を予測することで、包括的な画像理解を実現することを目的としている。 しかし、関係性の長い問題は現実の応用において不満足な結果をもたらす。 従来の手法は、主に視覚情報に頼るか、オブジェクトや関係名などの限られた言語情報を利用するため、言語情報の有用性を見越す。 近年のLarge Language Models (LLMs) の進歩を生かして,言語情報を用いて関係予測,特に稀な関係の予測を支援することを提案する。 そこで本研究では,LLMから画像と言語情報から視覚情報を取得するビジョン・ランゲージ・プロンプト(VLPrompt)モデルを提案する。 そして、注意機構に基づくプロンプトネットワークを通じて、正確な関係予測を行う。 我々の広範な実験により、VLPromptはPSGデータセットの従来の最先端手法よりも優れており、言語情報の導入や関係の長期的問題を緩和する効果が証明されている。 コードは \url{https://github.com/franciszzj/TP-SIS} で入手できる。

Panoptic Scene Graph Generation (PSG) aims at achieving a comprehensive image understanding by simultaneously segmenting objects and predicting relations among objects. However, the long-tail problem among relations leads to unsatisfactory results in real-world applications. Prior methods predominantly rely on vision information or utilize limited language information, such as object or relation names, thereby overlooking the utility of language information. Leveraging the recent progress in Large Language Models (LLMs), we propose to use language information to assist relation prediction, particularly for rare relations. To this end, we propose the Vision-Language Prompting (VLPrompt) model, which acquires vision information from images and language information from LLMs. Then, through a prompter network based on attention mechanism, it achieves precise relation prediction. Our extensive experiments show that VLPrompt significantly outperforms previous state-of-the-art methods on the PSG dataset, proving the effectiveness of incorporating language information and alleviating the long-tail problem of relations. Code is available at \url{https://github.com/franciszzj/TP-SIS}.
翻訳日:2024-06-22 06:08:04 公開日:2024-06-19
# MM-SafetyBench:マルチモーダル大言語モデルの安全性評価ベンチマーク

MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models ( http://arxiv.org/abs/2311.17600v5 )

ライセンス: Link先を確認
Xin Liu, Yichen Zhu, Jindong Gu, Yunshi Lan, Chao Yang, Yu Qiao, (参考訳) LLM(Large Language Models)を取り巻くセキュリティの懸念が広く検討されているが、MLLM(Multimodal Large Language Models)の安全性はいまだ検討されていない。 本稿では,Multimodal Large Language Models (MLLMs) が,テキストクエリ自体が悪意のあるものであるかのように,クエリ関連画像によって容易に損なわれることを観察する。 そこで本稿では,MLLMの安全性評価を行うための総合的なフレームワークであるMM-SafetyBenchを紹介する。 13のシナリオからなるデータセットをコンパイルした結果,合計5,040のテキストイメージペアが得られた。 12種類の最先端モデルから分析したところ、MLLMは、装備されたLCMが安全に整合している場合でも、我々のアプローチによる侵害の影響を受けやすいことが判明した。 そこで本研究では,これらの攻撃に対するMLLMのレジリエンスを高めるための,単純かつ効果的なプロンプト戦略を提案する。 我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。 リソースはhttps://github.com/isXinLiu/MM-SafetyBenchで入手できる。

The security concerns surrounding Large Language Models (LLMs) have been extensively explored, yet the safety of Multimodal Large Language Models (MLLMs) remains understudied. In this paper, we observe that Multimodal Large Language Models (MLLMs) can be easily compromised by query-relevant images, as if the text query itself were malicious. To address this, we introduce MM-SafetyBench, a comprehensive framework designed for conducting safety-critical evaluations of MLLMs against such image-based manipulations. We have compiled a dataset comprising 13 scenarios, resulting in a total of 5,040 text-image pairs. Our analysis across 12 state-of-the-art models reveals that MLLMs are susceptible to breaches instigated by our approach, even when the equipped LLMs have been safety-aligned. In response, we propose a straightforward yet effective prompting strategy to enhance the resilience of MLLMs against these types of attacks. Our work underscores the need for a concerted effort to strengthen and enhance the safety measures of open-source MLLMs against potential malicious exploits. The resource is available at https://github.com/isXinLiu/MM-SafetyBench
翻訳日:2024-06-22 06:08:04 公開日:2024-06-19
# トカマク上のFPGA上に機械学習を配置した低レイテンシ光ベースモードトラッキング

Low latency optical-based mode tracking with machine learning deployed on FPGAs on a tokamak ( http://arxiv.org/abs/2312.00128v2 )

ライセンス: Link先を確認
Yumou Wei, Ryan F. Forelli, Chris Hansen, Jeffrey P. Levesque, Nhan Tran, Joshua C. Agar, Giuseppe Di Guglielmo, Michael E. Mauel, Gerald A. Navratil, (参考訳) 磁気閉じ込め融合装置のアクティブフィードバック制御は、プラズマ不安定性を緩和し、ロバストな動作を可能にするのが望ましい。 光高速カメラは強力で非侵襲的な診断を提供し、これらの用途に適している。 本研究では,100kfpsを超える速度で高速カメラデータを$\textit{in situ}$ Field Programmable Gate Array (FPGA)ハードウェア上で処理し,磁気流体力学(MHD)モードの進化を追跡し,リアルタイムに制御信号を生成する。 提案システムは畳み込みニューラルネットワーク(CNN)モデルを用いて,n$=1 MHDモードの振幅と位相を予測する。 このモデルを高速カメラ診断の標準FPGA読み出しハードウェアに直接実装することにより、モードトラッキングシステムは17.6$\mu$sのトリガー・ツー・アウトの待ち時間と最大120kfpsのスループットを実現する。 The High Beta Tokamak-Extended Pulse (HBT-EP) experimentでは、FPGAベースの高速カメラデータ取得・処理システムを実証し、リアルタイム機械学習に基づくトカマクの診断・制御と、他の科学領域における潜在的な応用を可能にする。

Active feedback control in magnetic confinement fusion devices is desirable to mitigate plasma instabilities and enable robust operation. Optical high-speed cameras provide a powerful, non-invasive diagnostic and can be suitable for these applications. In this study, we process fast camera data, at rates exceeding 100kfps, on $\textit{in situ}$ Field Programmable Gate Array (FPGA) hardware to track magnetohydrodynamic (MHD) mode evolution and generate control signals in real-time. Our system utilizes a convolutional neural network (CNN) model which predicts the $n$=1 MHD mode amplitude and phase using camera images with better accuracy than other tested non-deep-learning-based methods. By implementing this model directly within the standard FPGA readout hardware of the high-speed camera diagnostic, our mode tracking system achieves a total trigger-to-output latency of 17.6$\mu$s and a throughput of up to 120kfps. This study at the High Beta Tokamak-Extended Pulse (HBT-EP) experiment demonstrates an FPGA-based high-speed camera data acquisition and processing system, enabling application in real-time machine-learning-based tokamak diagnostic and control as well as potential applications in other scientific domains.
翻訳日:2024-06-22 06:08:04 公開日:2024-06-19
# 非マルコフ的フェアネスとシークエンシャル意思決定

Remembering to Be Fair: Non-Markovian Fairness in Sequential Decision Making ( http://arxiv.org/abs/2312.04772v4 )

ライセンス: Link先を確認
Parand A. Alamdari, Toryn Q. Klassen, Elliot Creager, Sheila A. McIlraith, (参考訳) 公正な意思決定は、主に単一の決定に関して研究されている。 本稿では、複数の利害関係者が意思決定の結果に影響を受け得る順序決定の文脈における公平性の概念について考察する。 公平性は、しばしばシーケンシャルな意思決定過程の歴史に依存し、この意味では本質的に非マルコフ的である。 さらに、プロセスの最後に限らず、プロセス内の時間ポイントで公平さを評価する必要があることも観察します。 このような公平性問題に対する理解を深めるために、連続的な意思決定の文脈における非マルコフ的公平性の概念を探求する。 非マルコフ的フェアネスの性質を同定し、長期的、時空的、周期的、有界公正の概念を含む。 我々は,非マルコフ的公正性と記憶の相互作用と,メモリが公正なポリシーの構築を支援する方法について検討する。 最後に、FairQCMアルゴリズムを導入し、トレーニングデータを自動的に拡張し、強化学習による公正なポリシーの合成におけるサンプル効率を向上させる。

Fair decision making has largely been studied with respect to a single decision. Here we investigate the notion of fairness in the context of sequential decision making where multiple stakeholders can be affected by the outcomes of decisions. We observe that fairness often depends on the history of the sequential decision-making process, and in this sense that it is inherently non-Markovian. We further observe that fairness often needs to be assessed at time points within the process, not just at the end of the process. To advance our understanding of this class of fairness problems, we explore the notion of non-Markovian fairness in the context of sequential decision making. We identify properties of non-Markovian fairness, including notions of long-term, anytime, periodic, and bounded fairness. We explore the interplay between non-Markovian fairness and memory and how memory can support construction of fair policies. Finally, we introduce the FairQCM algorithm, which can automatically augment its training data to improve sample efficiency in the synthesis of fair policies via reinforcement learning.
翻訳日:2024-06-22 06:08:04 公開日:2024-06-19
# 動的プログラミング - 軌道追従のためのベルマン方程式の一般化

Signatures Meet Dynamic Programming: Generalizing Bellman Equations for Trajectory Following ( http://arxiv.org/abs/2312.05547v2 )

ライセンス: Link先を確認
Motoya Ohnishi, Iretiayo Akinola, Jie Xu, Ajay Mandlekar, Fabio Ramos, (参考訳) 経路シグネチャは、テンソル積を通る経路の高速連結を含む有用な代数的性質を持つ、経路の解析的および幾何学的特性を効率的に捉えた経路の強力な表現として提案されている。 近年,時系列解析のための機械学習問題において,シグナチャが広く採用されている。 本研究では、経路シグネチャの最適制御や興味深い性質に典型的に使用される値関数間の接続を確立する。 これらの接続は、ベルマン方程式を軌道空間に効率的に一般化するシグネチャ変換によって、我々の新しい制御フレームワークを動機付けている。 我々は、シグネチャ制御と呼ばれるフレームワークの特性と利点を分析する。 特に、私たちは、 (i)自然に変化・適応的な時間段階を扱うことができる。 (ii)値関数更新よりも高レベルの情報を効率的に伝播する。 三 長期のロールアウトに対して力学系の不特定性に頑健であること。 本フレームワークの具体例として,経路追跡のためのモデル予測制御法を提案する。 この方法は積分制御を一般化し、未知の乱問題に適合する。 提案したアルゴリズムはシミュレーションにおいてテストされ、典型的な制御や点質量、アリモデルに対する曲線、ロボットマニピュレータなどのロボット工学のタスクを含む微分可能な物理モデルが試験される。

Path signatures have been proposed as a powerful representation of paths that efficiently captures the path's analytic and geometric characteristics, having useful algebraic properties including fast concatenation of paths through tensor products. Signatures have recently been widely adopted in machine learning problems for time series analysis. In this work we establish connections between value functions typically used in optimal control and intriguing properties of path signatures. These connections motivate our novel control framework with signature transforms that efficiently generalizes the Bellman equation to the space of trajectories. We analyze the properties and advantages of the framework, termed signature control. In particular, we demonstrate that (i) it can naturally deal with varying/adaptive time steps; (ii) it propagates higher-level information more efficiently than value function updates; (iii) it is robust to dynamical system misspecification over long rollouts. As a specific case of our framework, we devise a model predictive control method for path tracking. This method generalizes integral control, being suitable for problems with unknown disturbances. The proposed algorithms are tested in simulation, with differentiable physics models including typical control and robotics tasks such as point-mass, curve following for an ant model, and a robotic manipulator.
翻訳日:2024-06-22 06:08:04 公開日:2024-06-19
# ライドバーグ原子を用いたハバード物理-強いフェルミオン相関をシミュレートするための量子スピンシミュレータを用いた

Hubbard physics with Rydberg atoms: using a quantum spin simulator to simulate strong fermionic correlations ( http://arxiv.org/abs/2312.08065v3 )

ライセンス: Link先を確認
Antoine Michel, Loïc Henriet, Christophe Domain, Antoine Browaeys, Thomas Ayral, (参考訳) 本稿では,スピンベースの量子プロセッサを用いた強相関フェルミオンモデルの平衡物理学と力学を研究するために,ハイブリッド量子古典法を提案する。 この提案では、スレーブスピン法により、オリジナルのハミルトニアンを自己相関フリーフェルミオンとスピンハミルトニアンの和に近似することができるため、フェルミオン-スピンマッピングの通常の落とし穴を避ける。 Rydbergをベースとしたアナログ量子プロセッサの例として、相互作用するスピンモデルを解くことで、変動アルゴリズムやトロッタライズ手法の課題を回避することができる。 平衡内および外方格子上の半充填単一軌道ハバードモデルに適用することにより、実験的不完全化に対する手法の堅牢性について検討する。 我々は,現行のRydbergプロセッサの現実的な数値シミュレーションを通じて,不完全性が存在する場合でも定量的に実現可能な結果が得られることを示した。 この方法では、古典的なプロセッサで探索することが難しい物理状態(平衡外、ドープ、多軌道)の研究の道を開くことができる。

We propose a hybrid quantum-classical method to investigate the equilibrium physics and the dynamics of strongly correlated fermionic models with spin-based quantum processors. Our proposal avoids the usual pitfalls of fermion-to-spin mappings thanks to a slave-spin method which allows to approximate the original Hamiltonian into a sum of self-correlated free-fermions and spin Hamiltonians. Taking as an example a Rydberg-based analog quantum processor to solve the interacting spin model, we avoid the challenges of variational algorithms or Trotterization methods. We explore the robustness of the method to experimental imperfections by applying it to the half-filled, single-orbital Hubbard model on the square lattice in and out of equilibrium. We show, through realistic numerical simulations of current Rydberg processors, that the method yields quantitatively viable results even in the presence of imperfections: it allows to gain insights into equilibrium Mott physics as well as the dynamics under interaction quenches. This method thus paves the way to the investigation of physical regimes -- whether out-of-equilibrium, doped, or multiorbital -- that are difficult to explore with classical processors.
翻訳日:2024-06-22 05:58:16 公開日:2024-06-19
# ハミルトニアンシミュレーションによる対流方程式の量子アルゴリズム

Quantum Algorithm for Solving the Advection Equation using Hamiltonian Simulation ( http://arxiv.org/abs/2312.09784v3 )

ライセンス: Link先を確認
Peter Brearley, Sylvain Laizet, (参考訳) 離散時間マーチング演算子をハミルトニアンシミュレーションに埋め込み, 対流方程式を解く量子アルゴリズムを提案する。 一次元の対流は、一階微分の中央有限差分作用素が反エルミート的であるため、直接シミュレートすることができる。 ここで、これは工業的に関係のある、現実的な境界条件と任意の有限差分ステンシルを持つ多次元流れに拡張される。 初期量子状態の単一コピーが要求され、回路深さは時間ステップの数、時間マーチング演算子の間隔、許容誤差の逆数とともに線形に増大する。 2次元流路流と蓋駆動キャビティ構成で輸送されるスカラーの状態ベクトルシミュレーションを,提案手法の概念実証として提示する。

A quantum algorithm for solving the advection equation by embedding the discrete time-marching operator into Hamiltonian simulations is presented. One-dimensional advection can be simulated directly since the central finite difference operator for first-order derivatives is anti-Hermitian. Here, this is extended to industrially relevant, multi-dimensional flows with realistic boundary conditions and arbitrary finite difference stencils. A single copy of the initial quantum state is required and the circuit depth grows linearly with the required number of time steps, the sparsity of the time-marching operator and the inverse of the allowable error. Statevector simulations of a scalar transported in a two-dimensional channel flow and lid-driven cavity configuration are presented as a proof of concept of the proposed approach.
翻訳日:2024-06-22 05:58:16 公開日:2024-06-19
# LLM-SQL-Solver: LLMはSQL等価性を決定できるか?

LLM-SQL-Solver: Can LLMs Determine SQL Equivalence? ( http://arxiv.org/abs/2312.10321v3 )

ライセンス: Link先を確認
Fuheng Zhao, Lawrence Lim, Ishtiyaque Ahmad, Divyakant Agrawal, Amr El Abbadi, (参考訳) 2つのSQLクエリの等価性を判断することは、データ管理とSQL生成(つまり、テキストからSQLタスクで生成されたSQLクエリの品質を評価する)における多くの実践的なアプリケーションにとって、根本的な問題である。 研究コミュニティは何十年にもわたってSQLの等価性について論じてきたが、かなりの困難を伴い、完全な解決策は存在しない。 近年,Large Language Models (LLMs) は,会話や質問応答,数学の課題解決において,強力な推論能力を示している。 本稿では,LLMがSQL等価性(意味等価性と緩和等価性)の2つの概念の下で,SQLクエリ間の等価性を決定するために利用できるかどうかを検討する。 LLMの高品質な応答生成を支援するために,Miniature & Mull と Explain & Compare の2つのプロンプト技術を提案する。 前者の手法は、LCMに単純なデータベースインスタンス上でクエリを実行するように要求し、データベースを変更することで逆例が存在するかどうかを探索する意味的等価性を評価するために使用される。 後者の手法は、LLMにクエリの説明を依頼し、重要な論理的違いがあるかどうかを比較するという緩和された等価性を評価するために用いられる。 LLMsは、セマンティックに等価なSQLクエリを書くのに役立つ有望なツールですが、課題はまだ続きますし、一般的な実行精度よりもSQL生成を評価するための優れた指標です。

Judging the equivalence between two SQL queries is a fundamental problem with many practical applications in data management and SQL generation (i.e., evaluating the quality of generated SQL queries in text-to-SQL task). While the research community has reasoned about SQL equivalence for decades, it poses considerable difficulties and no complete solutions exist. Recently, Large Language Models (LLMs) have shown strong reasoning capability in conversation, question answering and solving mathematics challenges. In this paper, we study if LLMs can be used to determine the equivalence between SQL queries under two notions of SQL equivalence (semantic equivalence and relaxed equivalence). To assist LLMs in generating high quality responses, we present two prompting techniques: Miniature & Mull and Explain & Compare. The former technique is used to evaluate the semantic equivalence in which it asks LLMs to execute a query on a simple database instance and then explore if a counterexample exists by modifying the database. The latter technique is used to evaluate the relaxed equivalence in which it asks LLMs to explain the queries and then compare if they contain significant logical differences. Our experiments demonstrate using our techniques, LLMs is a promising tool to help data engineers in writing semantically equivalent SQL queries, however challenges still persist, and is a better metric for evaluating SQL generation than the popular execution accuracy.
翻訳日:2024-06-22 05:58:16 公開日:2024-06-19
# 創発から学ぶ:ニューラルネットワークのモノセマンティックニューロンを積極的に阻害する研究

Learning from Emergence: A Study on Proactively Inhibiting the Monosemantic Neurons of Artificial Neural Networks ( http://arxiv.org/abs/2312.11560v3 )

ライセンス: Link先を確認
Jiachuan Wang, Shimin Di, Lei Chen, Charles Wang Wai Ng, (参考訳) 近年,大規模モデルの成功とともに,研究コミュニティから注目が集まっている。 文献と異なり、我々は、特定の特徴と1対1の相関しか形成できない単意味ニューロンの減少という、スケールの増大におけるパフォーマンスを促進する重要な要因を仮説化している。 単意味ニューロンはスペーサーであり、大きなモデルの性能に悪影響を及ぼす傾向がある。 この知見に触発されて,単節性ニューロンを同定し,抑制する直感的なアイデアを提案する。 しかし、この目標を達成することは、統一的な定量的評価基準がなく、単節性ニューロンの禁止はニューラルネットワークの多節性を促進するものではないため、非自明な作業である。 そこで,我々はまず,オンライン計算の効率を保証してニューロンのモノセマンティック性を測定するための新しい指標を提案し,その上で,単セマンティックニューロンの抑制と,トレーニングニューラルネットワークにおける多セマンティックニューロンの比率を積極的に促進する理論的支援手法を提案する。 モノセマンティリティは、言語、画像、物理シミュレーションタスクを含むさまざまな分野のさまざまなニューラルネットワークやベンチマークデータセットにおいて、さまざまなモデルスケールのパフォーマンス変化をもたらすという予想を検証する。 さらなる実験は、モノセマンティティーの阻害に関する我々の分析と理論を検証する。

Recently, emergence has received widespread attention from the research community along with the success of large-scale models. Different from the literature, we hypothesize a key factor that promotes the performance during the increase of scale: the reduction of monosemantic neurons that can only form one-to-one correlations with specific features. Monosemantic neurons tend to be sparser and have negative impacts on the performance in large models. Inspired by this insight, we propose an intuitive idea to identify monosemantic neurons and inhibit them. However, achieving this goal is a non-trivial task as there is no unified quantitative evaluation metric and simply banning monosemantic neurons does not promote polysemanticity in neural networks. Therefore, we first propose a new metric to measure the monosemanticity of neurons with the guarantee of efficiency for online computation, then introduce a theoretically supported method to suppress monosemantic neurons and proactively promote the ratios of polysemantic neurons in training neural networks. We validate our conjecture that monosemanticity brings about performance change at different model scales on a variety of neural networks and benchmark datasets in different areas, including language, image, and physics simulation tasks. Further experiments validate our analysis and theory regarding the inhibition of monosemanticity.
翻訳日:2024-06-22 05:58:16 公開日:2024-06-19
# Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model

Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model ( http://arxiv.org/abs/2312.12423v2 )

ライセンス: Link先を確認
Shraman Pramanick, Guangxing Han, Rui Hou, Sayan Nag, Ser-Nam Lim, Nicolas Ballas, Qifan Wang, Rama Chellappa, Amjad Almahairi, (参考訳) 視覚入力を処理するための大規模言語モデル(LLM)の能力は、汎用的な視覚システムを生み出し、インストラクションチューニングによって様々な視覚言語(VL)タスクを統一した。 しかし、視覚領域における入力出力フォーマットの膨大な多様性のため、既存の汎用モデルはセグメント化とマルチイメージ入力を粗いタスクでひとつのフレームワークに統合することに成功した。 本研究では,統一されたフレームワークを用いて,単一および複数入力画像上の粗大かつきめ細かなVLタスクに対処する,強力なビジュアルシステムであるVistaLLMを紹介する。 VistaLLMは、タスク記述を用いてグローバルな埋め込みをフィルタリングし、多数の画像から圧縮および精細化された特徴を抽出する命令誘導型画像トークンーを使用する。 さらに、VistaLLMは2値分割マスクをシーケンスとして表現するために勾配対応適応サンプリング技術を採用しており、従来使用されていた一様サンプリングよりも大幅に改善されている。 所望のVistaLLM能力を強化するために,6.8Mサンプルを用いた包括的粗い命令チューニングデータセットであるCoinItをキュレートする。 また、新しいタスクであるAttCoSeg(Attribute-level Co-Segmentation)を導入することで、複数の入力イメージに対するモデルの推論とグラウンド化能力を高めることで、マルチイメージグラウンドデータセットの欠如にも対処する。 幅広いV-およびVLタスクに対する広範な実験は、すべての下流タスクにわたる強いベースライン上で一貫した最先端性能を達成することにより、VistaLLMの有効性を示す。 私たちのプロジェクトページはhttps://shramanpramanick.github.io/VistaLLM/.com/。

The ability of large language models (LLMs) to process visual inputs has given rise to general-purpose vision systems, unifying various vision-language (VL) tasks by instruction tuning. However, due to the enormous diversity in input-output formats in the vision domain, existing general-purpose models fail to successfully integrate segmentation and multi-image inputs with coarse-level tasks into a single framework. In this work, we introduce VistaLLM, a powerful visual system that addresses coarse- and fine-grained VL tasks over single and multiple input images using a unified framework. VistaLLM utilizes an instruction-guided image tokenizer that filters global embeddings using task descriptions to extract compressed and refined features from numerous images. Moreover, VistaLLM employs a gradient-aware adaptive sampling technique to represent binary segmentation masks as sequences, significantly improving over previously used uniform sampling. To bolster the desired capability of VistaLLM, we curate CoinIt, a comprehensive coarse-to-fine instruction tuning dataset with 6.8M samples. We also address the lack of multi-image grounding datasets by introducing a novel task, AttCoSeg (Attribute-level Co-Segmentation), which boosts the model's reasoning and grounding capability over multiple input images. Extensive experiments on a wide range of V- and VL tasks demonstrate the effectiveness of VistaLLM by achieving consistent state-of-the-art performance over strong baselines across all downstream tasks. Our project page can be found at https://shramanpramanick.github.io/VistaLLM/.
翻訳日:2024-06-22 05:58:16 公開日:2024-06-19
# 可変行動空間に対する文脈強化学習

In-Context Reinforcement Learning for Variable Action Spaces ( http://arxiv.org/abs/2312.13327v5 )

ライセンス: Link先を確認
Viacheslav Sinii, Alexander Nikulin, Vladislav Kurenkov, Ilya Zisman, Sergey Kolesnikov, (参考訳) 近年,マルチエピソードコンテキストを持つ多種多様なデータセット上で事前学習されたトランスフォーマーが,コンテキスト内で新しい強化学習タスクに一般化できることが示されている。 以前に提案されたモデルの鍵となる制限は、事前に定義されたアクション空間のサイズと構造に依存していることである。 新しいアクションスペースを導入するには、データ再コンパイルとモデル再トレーニングが必要になることが多い。 本研究は,1回しか訓練されていないものの,可変サイズ,セマンティック内容,順序の離散的な行動空間に一般化できるヘッドレスADモデルを提案することにより,この問題を軽減することができることを示す。 Bernoulli と文脈的包帯とグリッドワールド環境を実験することにより、Headless-AD は、これまで遭遇したことのないアクション空間に一般化する重要な能力を示し、また、いくつかの環境構成において特定のアクションセットのために訓練された特別なモデルよりも優れていることを示す。 実装は、https://github.com/corl-team/headless-ad.comで公開されている。

Recently, it has been shown that transformers pre-trained on diverse datasets with multi-episode contexts can generalize to new reinforcement learning tasks in-context. A key limitation of previously proposed models is their reliance on a predefined action space size and structure. The introduction of a new action space often requires data re-collection and model re-training, which can be costly for some applications. In our work, we show that it is possible to mitigate this issue by proposing the Headless-AD model that, despite being trained only once, is capable of generalizing to discrete action spaces of variable size, semantic content and order. By experimenting with Bernoulli and contextual bandits, as well as a gridworld environment, we show that Headless-AD exhibits significant capability to generalize to action spaces it has never encountered, even outperforming specialized models trained for a specific set of actions on several environment configurations. Implementation is available at: https://github.com/corl-team/headless-ad.
翻訳日:2024-06-22 05:58:16 公開日:2024-06-19
# Diffusion-EXR: 拡散モデルによる説明可能なレコメンデーションのための制御可能なレビュー生成

Diffusion-EXR: Controllable Review Generation for Explainable Recommendation via Diffusion Models ( http://arxiv.org/abs/2312.15490v2 )

ライセンス: Link先を確認
Ling Li, Shaohua Li, Winda Marantika, Alex C. Kot, Huijing Zhan, (参考訳) Denoising Diffusion Probabilistic Model (DDPM) は画像および音声生成タスクにおいて大きな能力を示している。 しかし、テキスト生成、特にレコメンデーションシステム下でのレビュー生成にDDPMを採用する試みはほとんどない。 推奨項目をよりよく理解し,レコメンデーションシステムの透明性を高める上で,レコメンデーションを正当化する予測されたレコメンデーション説明能力によって,ディフュージョン-EXR と呼ばれる説明可能なレコメンデーションに対するディフュージョンモデルに基づくレビュー生成を提案する。 Diffusion-EXRは、単語埋め込みのシーケンスに様々なレベルのガウスノイズを漸進的に導入することにより、レビュー埋め込みのシーケンスを破損させ、元の単語表現を逆のプロセスで再構築することを学ぶ。 DDPMの特性により、私たちの軽量トランスフォーマーバックボーンはレコメンデーションレビュー生成タスクにおいて優れた性能を発揮する。 大規模な実験結果から、Diffusion-EXRは2つの公開ベンチマークデータセットで推奨される最先端のレビュー生成を達成可能であることが示されている。

Denoising Diffusion Probabilistic Model (DDPM) has shown great competence in image and audio generation tasks. However, there exist few attempts to employ DDPM in the text generation, especially review generation under recommendation systems. Fueled by the predicted reviews explainability that justifies recommendations could assist users better understand the recommended items and increase the transparency of recommendation system, we propose a Diffusion Model-based Review Generation towards EXplainable Recommendation named Diffusion-EXR. Diffusion-EXR corrupts the sequence of review embeddings by incrementally introducing varied levels of Gaussian noise to the sequence of word embeddings and learns to reconstruct the original word representations in the reverse process. The nature of DDPM enables our lightweight Transformer backbone to perform excellently in the recommendation review generation task. Extensive experimental results have demonstrated that Diffusion-EXR can achieve state-of-the-art review generation for recommendation on two publicly available benchmark datasets.
翻訳日:2024-06-22 05:58:16 公開日:2024-06-19
# ChartBench: チャートの複雑なビジュアル推論のためのベンチマーク

ChartBench: A Benchmark for Complex Visual Reasoning in Charts ( http://arxiv.org/abs/2312.15915v3 )

ライセンス: Link先を確認
Zhengzhuo Xu, Sinan Du, Yiyan Qi, Chengjin Xu, Chun Yuan, Jian Guo, (参考訳) MLLM(Multimodal Large Language Models)は画像の理解と生成に優れた能力を示している。 しかし、現在のベンチマークでは、限られたチャートタイプと不適切なメトリクスのため、MLLMのチャート理解を正確に評価することができない。 そこで我々は,複雑な視覚的推論を通じて,チャートの理解とデータの信頼性を評価するための総合的なベンチマークであるChartBenchを提案する。 チャートベンチには42のカテゴリ、66.6kのチャート、600kの質問応答ペアが含まれる。 特に、多くのチャートはデータポイントアノテーションを欠いているため、MLLMは色、伝説、座標系といった固有のチャート要素を活用することで、人間の理解に似た価値を導き出す必要がある。 また,拡張評価指標であるAcc+を設計し,手作業やコストのかかるMLLMによる評価を行なわずにMLLMを評価する。 さらに、思考の連鎖に基づく2つのベースラインを提案し、無注釈チャートのモデル性能を改善するために微調整を指導する。 18のオープンソースと3つのプロプライエタリなMLLMの大規模な実験的評価は、チャート理解の限界を明らかにし、さらなる研究に有用な洞察を提供する。 コードとデータセットはhttps://chartbench.github.io.comで公開されている。

Multimodal Large Language Models (MLLMs) have shown impressive capabilities in image understanding and generation. However, current benchmarks fail to accurately evaluate the chart comprehension of MLLMs due to limited chart types and inappropriate metrics. To address this, we propose ChartBench, a comprehensive benchmark designed to assess chart comprehension and data reliability through complex visual reasoning. ChartBench includes 42 categories, 66.6k charts, and 600k question-answer pairs. Notably, many charts lack data point annotations, which requires MLLMs to derive values similar to human understanding by leveraging inherent chart elements such as color, legends, and coordinate systems. We also design an enhanced evaluation metric, Acc+, to evaluate MLLMs without extensive manual or costly LLM-based evaluations. Furthermore, we propose two baselines based on the chain of thought and supervised fine-tuning to improve model performance on unannotated charts. Extensive experimental evaluations of 18 open-sourced and 3 proprietary MLLMs reveal their limitations in chart comprehension and offer valuable insights for further research. Code and dataset are publicly available at https://chartbench.github.io.
翻訳日:2024-06-22 05:58:16 公開日:2024-06-19
# 検索型エゴセントリックビデオキャプション

Retrieval-Augmented Egocentric Video Captioning ( http://arxiv.org/abs/2401.00789v4 )

ライセンス: Link先を確認
Jilan Xu, Yifei Huang, Junlin Hou, Guo Chen, Yuejie Zhang, Rui Feng, Weidi Xie, (参考訳) 一人称視点のビデオから人間の行動を理解することは大きな課題となる。 従来のアプローチでは、エゴセントリックなビデオのみの表現学習を探求し、既存の大規模な3人称ビデオを利用するという潜在的な利点を見越している。 本稿では,エゴセントリックビデオの動画キャプションを強化するために,セマンティックな第三者指導ビデオを自動的に検索する検索拡張マルチモーダルキャプションモデルであるEgoInstructorを開発する。 2) クロスビュー検索モジュールをトレーニングするために,大規模なエゴセントリックなデータセットとエゴセントリックなデータセットから,エゴセントリックなビデオペアを見つけるための自動パイプラインを考案した。 (3) クロスビュー検索モジュールには,エゴセントリックでエゴセントリックな映像機能を引き出す新たなEgoExoNCE損失を伴い,類似した動作を記述した共有テキスト機能にアライメントすることで,クロスビュー検索モジュールを訓練する。 (4) 広範囲な実験により, クロスビュー検索モジュールは7つのベンチマークにおいて優れた性能を示した。 エゴセントリックなビデオキャプションに関しては、EgoInstructorは、第三者の動画を参照として活用することで、大幅に改善されている。 プロジェクトページは、https://jazzcharles.github.io/Egoinstructor/で公開されている。

Understanding human actions from videos of first-person view poses significant challenges. Most prior approaches explore representation learning on egocentric videos only, while overlooking the potential benefit of exploiting existing large-scale third-person videos. In this paper, (1) we develop EgoInstructor, a retrieval-augmented multimodal captioning model that automatically retrieves semantically relevant third-person instructional videos to enhance the video captioning of egocentric videos. (2) For training the cross-view retrieval module, we devise an automatic pipeline to discover ego-exo video pairs from distinct large-scale egocentric and exocentric datasets. (3) We train the cross-view retrieval module with a novel EgoExoNCE loss that pulls egocentric and exocentric video features closer by aligning them to shared text features that describe similar actions. (4) Through extensive experiments, our cross-view retrieval module demonstrates superior performance across seven benchmarks. Regarding egocentric video captioning, EgoInstructor exhibits significant improvements by leveraging third-person videos as references. Project page is available at: https://jazzcharles.github.io/Egoinstructor/
翻訳日:2024-06-22 05:48:32 公開日:2024-06-19
# De-Hallucinator:反復接地によるコード生成タスクにおけるLLM幻覚の緩和

De-Hallucinator: Mitigating LLM Hallucinations in Code Generation Tasks via Iterative Grounding ( http://arxiv.org/abs/2401.01701v3 )

ライセンス: Link先を確認
Aryaz Eghbali, Michael Pradel, (参考訳) 公開ソースコードのデータセットに基づいてトレーニングされた大規模言語モデル(LLM)は、コード生成タスクにおいて、新たな最先端技術を確立した。 しかし、これらのモデルは、主に特定のプロジェクトに存在するコードに気づいておらず、モデルが既存のAPIをうまく利用しない。 代わりに、LLMは、しばしば既存のAPIを発明したり、"幻滅"したり、既存のコードの変種を生成したりする。 本稿では、適切なAPI参照を検索し、プロンプト内でより適切なコンテキスト情報でモデルを反復的にクエリすることで、LCMの予測を基礎とするDe-Hallucinatorを提案する。 このアプローチでは、LLMによる予測が望ましいコードによく似ているが、既存のAPIを正しく参照することができない、という観察を活用する。 De-Hallucinatorは、モデルの初期予測に関連するプロジェクト固有のAPI参照を自動的に識別し、これらの参照をプロンプトに追加する。 検索拡張生成(RAG)とは異なり,本手法ではモデルによる初期予測を用いて,より適切なAPI参照を反復的に取得する。 評価では,PythonでのAPI使用率の予測とJavaScriptによるテスト生成という,2つのタスクにアプローチを適用した。 De-Hallucinator は 5 つの LLM にまたがって生成したコードを改善する。 特に、この手法は編集距離を23.3~50.6%改善し、コード補完のAPI使用率を23.9~61.0%リコールし、幻覚によって最初に失敗した固定テストの数を63.2%改善し、テスト生成のステートメントカバレッジが15.5%増加した。

Large language models (LLMs) trained on datasets of publicly available source code have established a new state of the art in code generation tasks. However, these models are mostly unaware of the code that exists within a specific project, preventing the models from making good use of existing APIs. Instead, LLMs often invent, or "hallucinate", non-existent APIs or produce variants of already existing code. This paper presents De-Hallucinator, a technique that grounds the predictions of an LLM through a novel combination of retrieving suitable API references and iteratively querying the model with increasingly suitable context information in the prompt. The approach exploits the observation that predictions by LLMs often resemble the desired code, but they fail to correctly refer to already existing APIs. De-Hallucinator automatically identifies project-specific API references related to the model's initial predictions and adds these references into the prompt. Unlike retrieval-augmented generation (RAG), our approach uses the initial prediction(s) by the model to iteratively retrieve increasingly suitable API references. Our evaluation applies the approach to two tasks: predicting API usages in Python and generating tests in JavaScript. We show that De-Hallucinator consistently improves the generated code across five LLMs. In particular, the approach improves the edit distance by 23.3-50.6% and the recall of correctly predicted API usages by 23.9-61.0% for code completion, and improves the number of fixed tests that initially failed because of hallucinations by 63.2%, resulting in a 15.5% increase in statement coverage for test generation.
翻訳日:2024-06-22 05:48:32 公開日:2024-06-19
# CaMML:大規模モデルのためのコンテキスト対応マルチモーダル学習システム

CaMML: Context-Aware Multimodal Learner for Large Models ( http://arxiv.org/abs/2401.03149v3 )

ライセンス: Link先を確認
Yixin Chen, Shuai Zhang, Boran Han, Tong He, Bo Li, (参考訳) 本研究では,大規模マルチモーダルモデル(LMM)をチューニングするためのコンテキスト認識型マルチモーダル学習器(CaMML)を提案する。 軽量モジュールであるCaMMLは、マルチモーダルなコンテキストサンプルを大きなモデルにシームレスに統合することにより、類似したドメイン固有の最新の情報から知識を導き出し、基盤となる推論を行うことができる。 重要なことは、CaMMLは高度にスケーラブルであり、階層設計のため、長いマルチモーダルコンテキストの例を効率的に扱うことができる。 CaMMLに基づく2つのマルチモーダルモデルであるCaMML-7BとCaMML-13Bを開発した。 注目すべきなのは、CaMML-13Bは、広く認識されている10以上のマルチモーダルベンチマークデータセット上で、外部リソースを統合することなく、顕著なマージンでLLaVA-1.5 (13B)を超える最先端のパフォーマンスを達成することだ。 さらに,CaMMLの内部動作を調べるための広範囲なアブレーション研究を行い,実世界の課題に対処する上での有効性を示す定性的な分析を行った。 コードとモデルは、https://github.com/amazon-science/camml.comで入手できる。

In this work, we introduce Context-Aware MultiModal Learner (CaMML), for tuning large multimodal models (LMMs). CaMML, a lightweight module, is crafted to seamlessly integrate multimodal contextual samples into large models, thereby empowering the model to derive knowledge from analogous, domain-specific, up-to-date information and make grounded inferences. Importantly, CaMML is highly scalable and can efficiently handle lengthy multimodal context examples owing to its hierarchical design. Based on CaMML, we have developed two multimodal models, CaMML-7B and CaMML-13B, that have shown exceptional performance across an array of benchmark datasets for multimodal tasks. Remarkably, CaMML-13B achieves the state-of-the-art performance on over ten widely recognized multimodal benchmark datasets, surpassing LLaVA-1.5 (13B) with a noticeable margin, without integration of any external resources. Moreover, we have conducted extensive ablative studies to inspect the inner workings of CaMML and performed qualitative analyses to showcase its effectiveness in handling real-world challenging cases. Code and models are available at: https://github.com/amazon-science/camml.
翻訳日:2024-06-22 05:48:32 公開日:2024-06-19
# MISS:Med-VQAのためのジェネレーティブプレトレーニングとファインタニングアプローチ

MISS: A Generative Pretraining and Finetuning Approach for Med-VQA ( http://arxiv.org/abs/2401.05163v3 )

ライセンス: Link先を確認
Jiawei Chen, Dingkang Yang, Yue Jiang, Yuxuan Lei, Lihua Zhang, (参考訳) 医用視覚質問応答(VQA)は、ビジョンランゲージ事前学習(VLP)モデルが一般化性能を効果的に向上する、困難なマルチモーダルタスクである。 しかし,医療分野のほとんどの手法は,VQAを現実的な応用シナリオへの移行が困難である回答分類タスクとして扱う。 さらに,医用画像のプライバシや高価なアノテーション処理により,事前トレーニング用の大規模医用画像テキストペアデータセットが著しく不足している。 本稿では,医療用VQAタスクのための大規模MultI-task Self-Supervised Learning based framework(MISS)を提案する。 既存の方法とは異なり、医療用VQAを生成タスクとして扱う。 我々は,テキストエンコーダとマルチモーダルエンコーダを統一し,マルチタスク学習を通じて画像テキスト機能を調整する。 さらに,Large Language Models (LLM) を用いた単一モーダル画像データセットの特徴空間を拡張可能なTransfer-and-Caption法を提案する。 実験により,本手法はより少ないマルチモーダルデータセットで優れた結果が得られることを示すとともに,生成VQAモデルの利点を示す。

Medical visual question answering (VQA) is a challenging multimodal task, where Vision-Language Pre-training (VLP) models can effectively improve the generalization performance. However, most methods in the medical field treat VQA as an answer classification task which is difficult to transfer to practical application scenarios. Additionally, due to the privacy of medical images and the expensive annotation process, large-scale medical image-text pairs datasets for pretraining are severely lacking. In this paper, we propose a large-scale MultI-task Self-Supervised learning based framework (MISS) for medical VQA tasks. Unlike existing methods, we treat medical VQA as a generative task. We unify the text encoder and multimodal encoder and align image-text features through multi-task learning. Furthermore, we propose a Transfer-and-Caption method that extends the feature space of single-modal image datasets using Large Language Models (LLMs), enabling those traditional medical vision field task data to be applied to VLP. Experiments show that our method achieves excellent results with fewer multimodal datasets and demonstrates the advantages of generative VQA models.
翻訳日:2024-06-22 05:48:32 公開日:2024-06-19
# 高速テキスト理解のための構造体生成

Structsum Generation for Faster Text Comprehension ( http://arxiv.org/abs/2401.06837v2 )

ライセンス: Link先を確認
Parag Jain, Andreea Marzoca, Francesco Piccinno, (参考訳) 大規模言語モデル(LLM)を用いてテキストの構造化表現を生成するタスクについて検討する。 表やマインドマップを代表的モダリティとして重視する。 テーブルはデータ表現の組織的な方法であり、マインドマップは視覚的にダイナミックで柔軟なアプローチを提供し、特にスパースコンテンツに適している。 異なるタスクにおけるLLMの有効性にもかかわらず、現在のモデルが構造化出力の生成に苦労していることが示される。 そこで本研究では,これら2つのタスクに対して効果的なプロンプト戦略を提案する。 本稿では, 事実性, グローバル構造, 局所構造に関わる問題の分類法を導入し, これらの問題に対処するための一連の批判を提案し, その結果, 心の地図では+37pp (79%) , 表では+15pp (78%) の精度が絶対的に向上した。 生成した構造化表現のセマンティックカバレッジを評価するためにAuto-QAを提案し,SQuADデータセットを用いてAuto-QAの妥当性を検証する。 テキスト理解ユーザスタディにより,構造化表現の有用性をさらに評価する。 その結果、テーブル(42.9%)とマインドマップ(31.9%)を使用すると、精度を損なうことなく、テキストに比べて理解時間が大幅に短縮された。

We consider the task of generating structured representations of text using large language models (LLMs). We focus on tables and mind maps as representative modalities. Tables are more organized way of representing data, while mind maps provide a visually dynamic and flexible approach, particularly suitable for sparse content. Despite the effectiveness of LLMs on different tasks, we show that current models struggle with generating structured outputs. In response, we present effective prompting strategies for both of these tasks. We introduce a taxonomy of problems around factuality, global and local structure, common to both modalities and propose a set of critiques to tackle these issues resulting in an absolute improvement in accuracy of +37pp (79%) for mind maps and +15pp (78%) for tables. To evaluate semantic coverage of generated structured representations we propose Auto-QA, and we verify the adequacy of Auto-QA using SQuAD dataset. We further evaluate the usefulness of structured representations via a text comprehension user study. The results show a significant reduction in comprehension time compared to text when using table (42.9%) and mind map (31.9%), without loss in accuracy.
翻訳日:2024-06-22 05:48:32 公開日:2024-06-19
# SemEval-2017 Task 4: BERTを使用したTwitterの感情分析

SemEval-2017 Task 4: Sentiment Analysis in Twitter using BERT ( http://arxiv.org/abs/2401.07944v2 )

ライセンス: Link先を確認
Rupak Kumar Das, Dr. Ted Pedersen, (参考訳) 本稿では,SemEval2017のTwitterでタスク4A,英語,感性分析を解くために,変換器ベースのアーキテクチャであるBERTモデルを用いる。 BERTは、トレーニングデータの量が少ない場合に、分類タスクのための非常に強力な大規模言語モデルである。 本実験では,12層を隠蔽するBERT(BASE)モデルを用いた。 このモデルはネイブベイズベースラインモデルよりも精度、精度、リコール、f1スコアが優れている。 バイナリ分類サブタスクでは、マルチクラス分類サブタスクよりも優れている。 この実験では、Twitterのデータには個人的かつ賢明な情報が含まれているため、あらゆる倫理的問題も検討した。 実験で使用されたデータセットとコードは、このGitHubリポジトリにある。

This paper uses the BERT model, which is a transformer-based architecture, to solve task 4A, English Language, Sentiment Analysis in Twitter of SemEval2017. BERT is a very powerful large language model for classification tasks when the amount of training data is small. For this experiment, we have used the BERT(BASE) model, which has 12 hidden layers. This model provides better accuracy, precision, recall, and f1 score than the Naive Bayes baseline model. It performs better in binary classification subtasks than the multi-class classification subtasks. We also considered all kinds of ethical issues during this experiment, as Twitter data contains personal and sensible information. The dataset and code used in our experiment can be found in this GitHub repository.
翻訳日:2024-06-22 05:48:32 公開日:2024-06-19
# DeepEdit: 制約付きデコードとしての知識編集

DeepEdit: Knowledge Editing as Decoding with Constraints ( http://arxiv.org/abs/2401.10471v4 )

ライセンス: Link先を確認
Yiwei Wang, Muhao Chen, Nanyun Peng, Kai-Wei Chang, (参考訳) 多段階推論における知識の編集は,大規模言語モデル(LLM)の知識編集(KE)において大きな課題となっている。 多段階推論におけるLLMの幻覚は、しばしば新しい知識と誤った答えの誤用につながるため、この困難が生じる。 この問題に対処するため,LLMの推論を"規制"するデコード制約を設計し,新たな知識を取り入れた論理的一貫性を向上する。 我々は、深度優先探索により新しい知識でコヒーレント推論連鎖を生成するLLMの能力を向上するDEEPEDIT(Deepth First Search-based Constrained Decoding for Knowledge Editing)という新しいKEフレームワークを提案する。 我々の探索は、推論深度を効率的に向上するための推論ステップとして、我々の制約を満たす最も重要な知識を選択する。 DEEPEDITに加えて, MQUAKE-2002 と MQUAKE-HARD という2つの新しい KE ベンチマークを提案する。 定性的には、DEEPEDITはLLMが新しい知識を含む簡潔でコヒーレントな推論連鎖を生成することを可能にする。 定量的には、複数のKEベンチマークで大幅に改善されている。

How to edit the knowledge in multi-step reasoning has become the major challenge in the knowledge editing (KE) of large language models (LLMs). The difficulty arises because the hallucinations of LLMs during multi-step reasoning often lead to incorrect use of new knowledge and incorrect answers. To address this issue, we design decoding constraints to "regulate" LLMs' reasoning, enhancing logical coherence when incorporating new knowledge. We propose a new KE framework: DEEPEDIT (Depth-first Search-based Constrained Decoding for Knowledge Editing), which enhances LLMs's ability to generate coherent reasoning chains with new knowledge through depth-first search. Our search selects the most important knowledge that satisfies our constraints as the reasoning step to efficiently increase the reasoning depth. In addition to DEEPEDIT, we propose two new KE benchmarks: MQUAKE-2002 and MQUAKE-HARD, which provide more precise and challenging assessments of KE approaches. Qualitatively, DEEPEDIT enables LLMs to produce succinct and coherent reasoning chains involving new knowledge. Quantitatively, it yields significant improvements on multiple KE benchmarks.
翻訳日:2024-06-22 05:48:32 公開日:2024-06-19
# モダリティの欠如を考慮したマルチモーダル感性分析:知識伝達アプローチ

Multimodal Sentiment Analysis with Missing Modality: A Knowledge-Transfer Approach ( http://arxiv.org/abs/2401.10747v2 )

ライセンス: Link先を確認
Weide Liu, Huijing Zhan, Hao Chen, Fengmao Lv, (参考訳) マルチモーダル感情分析は、視覚的、言語的、音響的手がかりを通じて、個人が表現する感情を特定することを目的としている。 しかし、既存の研究努力の多くは、全てのモダリティはトレーニングとテストの両方で利用可能であり、そのアルゴリズムが欠落したモダリティシナリオに影響を受けやすいと仮定している。 本稿では,欠落した音声のモーダルを再構築するために,異なるモーダル間の翻訳を行う新しいナレッジ・トランスファーネットワークを提案する。 さらに,再建および観察されたモダリティの最大情報を保持するために,モダリティ間注意機構を開発し,感情予測を行う。 公開されている3つのデータセットに対する大規模な実験は、ベースラインよりも大幅に改善され、完全なマルチモダリティ監視を備えた以前の方法に匹敵する結果が得られた。

Multimodal sentiment analysis aims to identify the emotions expressed by individuals through visual, language, and acoustic cues. However, most of the existing research efforts assume that all modalities are available during both training and testing, making their algorithms susceptible to the missing modality scenario. In this paper, we propose a novel knowledge-transfer network to translate between different modalities to reconstruct the missing audio modalities. Moreover, we develop a cross-modality attention mechanism to retain the maximal information of the reconstructed and observed modalities for sentiment prediction. Extensive experiments on three publicly available datasets demonstrate significant improvements over baselines and achieve comparable results to the previous methods with complete multi-modality supervision.
翻訳日:2024-06-22 05:48:32 公開日:2024-06-19
# 小市場での貿易から利益を最大化するための学習

Learning to Maximize Gains From Trade in Small Markets ( http://arxiv.org/abs/2401.11596v2 )

ライセンス: Link先を確認
Moshe Babaioff, Amitai Frey, Noam Nisan, (参考訳) 本研究では、貿易(社会福祉)の利益を(支配的・戦略的な)インセンティブの整合性と財政均衡の制約の下で最大化するために、両面市場(ダブルオークション)を設計する問題について検討する。 私たちのゴールは、未知の分布に対して、サンプルの多項式数を与えることである。 最初の結果は、1つの売り手と2つの買い手の間にさえ相関した価値分布が存在する場合の一般的な不可避性であり、これを可能にする1つの売り手と1つの買い手(双方向取引)の場合とは対照的である。 2つ目の結果は,独立分布の場合の1つの売り手と2つの買い手に対する効率的な学習アルゴリズムであり,有限支持および明示された独立分布に対する最適メカニズムを計算するための新しいアルゴリズムに基づいている。 どちらの結果も、予算バランスの強い(支配的-戦略的な)インセンティブ互換メカニズムの特性に大きく依存している。

We study the problem of designing a two-sided market (double auction) to maximize the gains from trade (social welfare) under the constraints of (dominant-strategy) incentive compatibility and budget-balance. Our goal is to do so for an unknown distribution from which we are given a polynomial number of samples. Our first result is a general impossibility for the case of correlated distributions of values even between just one seller and two buyers, in contrast to the case of one seller and one buyer (bilateral trade) where this is possible. Our second result is an efficient learning algorithm for one seller and two buyers in the case of independent distributions which is based on a novel algorithm for computing optimal mechanisms for finitely supported and explicitly given independent distributions. Both results rely heavily on characterizations of (dominant-strategy) incentive compatible mechanisms that are strongly budget-balanced.
翻訳日:2024-06-22 05:38:47 公開日:2024-06-19
# 効率的かつスケーラブルなモデル予測制御のためのニューロモルフィック二次計画法

Neuromorphic quadratic programming for efficient and scalable model predictive control ( http://arxiv.org/abs/2401.14885v3 )

ライセンス: Link先を確認
Ashish Rao Mangalore, Gabriel Andres Fonseca Guerra, Sumedh R. Risbud, Philipp Stratmann, Andreas Wild, (参考訳) ロボット工学や他のサイズ、重量、電力に制約のある自律システムのエッジでの応用は、大規模な最適化問題に対するリアルタイムおよび低エネルギーのソリューションを必要とすることが多い。 イベントベースおよびメモリ統合ニューロモルフィックアーキテクチャは、従来のフォン・ノイマンアーキテクチャと比較してエネルギー効率と性能に優れた最適化問題を解くことを約束する。 本稿では,Intelのスケーラブルなニューロモルフィック研究チップLoihi 2における2次コスト関数と線形制約を用いた凸連続最適化問題の解法を提案する。 四足歩行ロボットプラットフォームANYmalのモデル予測制御(MPC)問題に適用すると、様々な問題サイズに対して10ミリ秒未満の解時間を持つCPUとGPU上で、最先端のOSQPと比較して2桁以上のエネルギー遅延積の2桁の削減が達成される。 これらの結果は、ロボット制御アプリケーションにおける非ヴォン・ノイマンアーキテクチャの利点を示している。

Applications in robotics or other size-, weight- and power-constrained autonomous systems at the edge often require real-time and low-energy solutions to large optimization problems. Event-based and memory-integrated neuromorphic architectures promise to solve such optimization problems with superior energy efficiency and performance compared to conventional von Neumann architectures. Here, we present a method to solve convex continuous optimization problems with quadratic cost functions and linear constraints on Intel's scalable neuromorphic research chip Loihi 2. When applied to model predictive control (MPC) problems for the quadruped robotic platform ANYmal, this method achieves over two orders of magnitude reduction in combined energy-delay product compared to the state-of-the-art solver, OSQP, on (edge) CPUs and GPUs with solution times under ten milliseconds for various problem sizes. These results demonstrate the benefit of non-von-Neumann architectures for robotic control applications.
翻訳日:2024-06-22 05:38:47 公開日:2024-06-19
# M2CURL:ロボットマニピュレーションのための自己監督型表現学習によるマルチモーダル強化学習

M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation ( http://arxiv.org/abs/2401.17032v2 )

ライセンス: Link先を確認
Fotios Lygerakis, Vedant Dave, Elmar Rueckert, (参考訳) マルチモーダル強化学習(RL)の最も重要な側面の1つは、異なる観察モードの効果的な統合である。 これらのモダリティから導出されるロバストで正確な表現を持つことは、RLアルゴリズムの堅牢性とサンプル効率を高める鍵となる。 しかし、視覚的・触覚的な入力と動的環境やタスクの目的とを関連付けるために、特にデータの高次元性や複雑さが原因で、ビゾタクタクタブルデータに対するRL設定での学習表現は大きな課題を生んでいる。 これらの課題に対処するため、我々はM2CURL(Multimodal Contrastive Unsupervised Reinforcement Learning)を提案する。 提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。 提案手法はRLアルゴリズムに依存しないため,任意のRLアルゴリズムとの統合が可能となる。 Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。 これは、表現学習アプローチを使わずに標準のRLアルゴリズムと比較して、より高速な収束率とエピソード毎の累積報酬によって証明される。

One of the most critical aspects of multimodal Reinforcement Learning (RL) is the effective integration of different observation modalities. Having robust and accurate representations derived from these modalities is key to enhancing the robustness and sample efficiency of RL algorithms. However, learning representations in RL settings for visuotactile data poses significant challenges, particularly due to the high dimensionality of the data and the complexity involved in correlating visual and tactile inputs with the dynamic environment and task objectives. To address these challenges, we propose Multimodal Contrastive Unsupervised Reinforcement Learning (M2CURL). Our approach employs a novel multimodal self-supervised learning technique that learns efficient representations and contributes to faster convergence of RL algorithms. Our method is agnostic to the RL algorithm, thus enabling its integration with any available RL algorithm. We evaluate M2CURL on the Tactile Gym 2 simulator and we show that it significantly enhances the learning efficiency in different manipulation tasks. This is evidenced by faster convergence rates and higher cumulative rewards per episode, compared to standard RL algorithms without our representation learning approach.
翻訳日:2024-06-22 05:38:47 公開日:2024-06-19
# MLシステムのための独立系ブラックボックステストの概要

Outline of an Independent Systematic Blackbox Test for ML-based Systems ( http://arxiv.org/abs/2401.17062v2 )

ライセンス: Link先を確認
Hans-Werner Wiesbrock, Jürgen Großmann, (参考訳) 本稿では、実際のトレーニングプロセスとは無関係に、MLモデルとMLベースのシステムをテストするために使用できるテスト手順を提案する。 このようにして、これらのモデルとシステムの精度や精度などの典型的な品質ステートメントは、ブラックボックスのキャラクタと、MLモデルとそのトレーニングデータの重要な確率特性を考慮に入れ、独立して検証することができる。 本稿では,MLモデルとMLベースのシステムの確率的性質を反映したテスト手法の拡張を提案する。

This article proposes a test procedure that can be used to test ML models and ML-based systems independently of the actual training process. In this way, the typical quality statements such as accuracy and precision of these models and system can be verified independently, taking into account their black box character and the immanent stochastic properties of ML models and their training data. The article presents first results from a set of test experiments and suggest extensions to existing test methods reflecting the stochastic nature of ML models and ML-based systems.
翻訳日:2024-06-22 05:38:47 公開日:2024-06-19
# データ効率のよいグラフ学習に関する調査研究

A Survey of Data-Efficient Graph Learning ( http://arxiv.org/abs/2402.00447v4 )

ライセンス: Link先を確認
Wei Ju, Siyu Yi, Yifan Wang, Qingqing Long, Junyu Luo, Zhiping Xiao, Ming Zhang, (参考訳) グラフ構造化データは、ソーシャルネットワークから生化学分析まで、様々な現実世界のシステムの基盤となっている。 グラフニューラルネットワークはこの種のデータモデリングの習熟度を示しているが、その成功はしばしば大量のラベル付きデータに依存しており、アノテーションリソースが限られている現実的なシナリオでは課題となっている。 この問題に対処するため,低リソース環境下でのグラフ機械学習の性能向上に多大な努力が注がれている。 本稿では,研究フロンティアとしてData-Efficient Graph Learning(DEGL)という新しい概念を紹介し,DEGLの現在の進歩をまとめた最初の調査を紹介する。 私たちは、大きなラベル付きデータでトレーニングモデルに固有の課題を強調し、DEGLへの探索の道を開くことで開始します。 次に、このトピックに関する最近の進歩を、自己教師付きグラフ学習、半教師付きグラフ学習、少数ショットグラフ学習など、いくつかの重要な側面から体系的にレビューする。 また,今後の研究の方向性を述べるとともに,グラフ機械学習の進化に寄与する。

Graph-structured data, prevalent in domains ranging from social networks to biochemical analysis, serve as the foundation for diverse real-world systems. While graph neural networks demonstrate proficiency in modeling this type of data, their success is often reliant on significant amounts of labeled data, posing a challenge in practical scenarios with limited annotation resources. To tackle this problem, tremendous efforts have been devoted to enhancing graph machine learning performance under low-resource settings by exploring various approaches to minimal supervision. In this paper, we introduce a novel concept of Data-Efficient Graph Learning (DEGL) as a research frontier, and present the first survey that summarizes the current progress of DEGL. We initiate by highlighting the challenges inherent in training models with large labeled data, paving the way for our exploration into DEGL. Next, we systematically review recent advances on this topic from several key aspects, including self-supervised graph learning, semi-supervised graph learning, and few-shot graph learning. Also, we state promising directions for future research, contributing to the evolution of graph machine learning.
翻訳日:2024-06-22 05:38:47 公開日:2024-06-19
# 物理に着想を得た測地学補間による合成データ拡張による集団変数の学習

Learning Collective Variables with Synthetic Data Augmentation through Physics-inspired Geodesic Interpolation ( http://arxiv.org/abs/2402.01542v3 )

ライセンス: Link先を確認
Soojung Yang, Juno Nam, Johannes C. B. Dietschreit, Rafael Gómez-Bombarelli, (参考訳) 分子動力学シミュレーションでは、タンパク質の折り畳みのようなまれな事象は、通常、強化されたサンプリング技術を用いて研究され、その多くは加速が起こる集合変数(CV)の定義に基づいている。 表現力のあるCVを持つことは重要であるが、しばしば特定の事象に関する情報の欠如、例えば、展開された状態から折り畳みされたコンフォメーションへの遷移によって妨げられる。 本研究では,タンパク質の折りたたみ遷移に似た測地的補間を生成するため,物理に着想を得た指標を用いたシミュレーションフリーなデータ拡張戦略を提案し,真の遷移状態サンプルを使わずにサンプリング効率を向上させる。 この新しいデータは、分類器ベースの手法の精度を向上させるために使用できる。 あるいは、補間進行パラメータを活用することにより、CVモデルの回帰に基づく学習方式を採用することができる。

In molecular dynamics simulations, rare events, such as protein folding, are typically studied using enhanced sampling techniques, most of which are based on the definition of a collective variable (CV) along which acceleration occurs. Obtaining an expressive CV is crucial, but often hindered by the lack of information about the particular event, e.g., the transition from unfolded to folded conformation. We propose a simulation-free data augmentation strategy using physics-inspired metrics to generate geodesic interpolations resembling protein folding transitions, thereby improving sampling efficiency without true transition state samples. This new data can be used to improve the accuracy of classifier-based methods. Alternatively, a regression-based learning scheme for CV models can be adopted by leveraging the interpolation progress parameter.
翻訳日:2024-06-22 05:38:47 公開日:2024-06-19
# 無線ビデオキャッシングネットワークにおけるリソースを考慮した階層的フェデレーション学習

Resource-Aware Hierarchical Federated Learning in Wireless Video Caching Networks ( http://arxiv.org/abs/2402.04216v2 )

ライセンス: Link先を確認
Md Ferdous Pervej, Andreas F. Molisch, (参考訳) いくつかの人気ファイルの動画トラフィックによるバックホールトラフィックの混雑は、無線ビデオキャッシングネットワークにおいて、要求されるコンテンツを様々なレベルに格納することで軽減できる。 典型的には、コンテンツサービスプロバイダ(CSP)がコンテンツを所有し、ユーザは(無線)インターネットサービスプロバイダ(ISP)を使用して、CSPから好みのコンテンツを要求する。 これらの関係者はプライベート情報やビジネスシークレットを公開しないため、従来の手法はユーザの将来の要求の動的変化を予測できない可能性がある。 そこで本研究では,ユーザの今後のコンテンツ要求を予測するための,リソースを意識した階層型学習(RawHFL)ソリューションを提案する。 ユーザが要求されたコンテンツに基づいて、ローカルトレーニングデータセットを更新できる実用的なデータ取得技術が使用されている。 また,ネットワークなどの計算資源は限定的であり,モデルの学習には一部のユーザしか参加していないため,提案アルゴリズムの収束バウンダリを導出する。 この制約に基づいて、制御可能なパラメータを協調的に構成し、実用的な資源制約の下でRawHFLエネルギーを効率的に訓練するための重み付きユーティリティ関数を最小化する。 提案アルゴリズムは, 既存のベースラインよりも, 試験精度とエネルギーコストの面で, 優位性を検証した。

Backhaul traffic congestion caused by the video traffic of a few popular files can be alleviated by storing the to-be-requested content at various levels in wireless video caching networks. Typically, content service providers (CSPs) own the content, and the users request their preferred content from the CSPs using their (wireless) internet service providers (ISPs). As these parties do not reveal their private information and business secrets, traditional techniques may not be readily used to predict the dynamic changes in users' future demands. Motivated by this, we propose a novel resource-aware hierarchical federated learning (RawHFL) solution for predicting user's future content requests. A practical data acquisition technique is used that allows the user to update its local training dataset based on its requested content. Besides, since networking and other computational resources are limited, considering that only a subset of the users participate in the model training, we derive the convergence bound of the proposed algorithm. Based on this bound, we minimize a weighted utility function for jointly configuring the controllable parameters to train the RawHFL energy efficiently under practical resource constraints. Our extensive simulation results validate the proposed algorithm's superiority, in terms of test accuracy and energy cost, over existing baselines.
翻訳日:2024-06-22 05:29:03 公開日:2024-06-19
# モデル選択のための進化的演算子を用いたバンドアプローチ

A Bandit Approach with Evolutionary Operators for Model Selection ( http://arxiv.org/abs/2402.05144v2 )

ライセンス: Link先を確認
Margaux Brégère, Julie Keisler, (参考訳) この研究は、モデル選択を無限武装のバンディット問題として定式化し、すなわち、各選択のプロパティが割り当て時に部分的にしか知られておらず、報酬の獲得によって時間とともによりよく理解される場合、意思決定者が無限に固定された選択(つまり、アーム)の1つを反復的に選択する問題である。 報酬は部分訓練後の選択したモデルの精度であり、限られた資源割り当ての最後に最適なモデルを特定することを目的としており、したがって最適なアーム識別設定を検討する。 本稿では,進化的アルゴリズムからの演算子をUPB-E(Upper Confidence Bound Exploration)バンディットアルゴリズムに組み込んだMutant-UCBを提案する。

This work formulates model selection as an infinite-armed bandit problem, namely, a problem in which a decision maker iteratively selects one of an infinite number of fixed choices (i.e., arms) when the properties of each choice are only partially known at the time of allocation and may become better understood over time, via the attainment of rewards.Here, the arms are machine learning models to train and selecting an arm corresponds to a partial training of the model (resource allocation).The reward is the accuracy of the selected model after its partial training.We aim to identify the best model at the end of a finite number of resource allocations and thus consider the best arm identification setup. We propose the algorithm Mutant-UCB that incorporates operators from evolutionary algorithms into the UCB-E (Upper Confidence Bound Exploration) bandit algorithm introduced by Audiber et al.Tests carried out on three open source image classification data sets attest to the relevance of this novel combining approach, which outperforms the state-of-the-art for a fixed budget.
翻訳日:2024-06-22 05:29:03 公開日:2024-06-19
# 分割誘導拡散モデルを用いた解剖学的に制御可能な医用画像生成

Anatomically-Controllable Medical Image Generation with Segmentation-Guided Diffusion Models ( http://arxiv.org/abs/2402.05210v4 )

ライセンス: Link先を確認
Nicholas Konz, Yuwen Chen, Haoyu Dong, Maciej A. Mazurowski, (参考訳) 拡散モデルは極めて高品質な医用画像生成を可能にしているが、生成した画像に解剖学的制約を強制することは困難である。 そこで本研究では,解剖学的に制御可能な医用画像生成を支援する拡散モデルに基づく手法を提案する。 また,他の解剖学的領域の柔軟性を確保しつつ,選択した解剖学的制約の組み合わせを条件付けできるランダムマスクアブレーショントレーニングアルゴリズムを導入する。 胸部MRIと腹部・頸部・骨盤CTデータセットを解剖学的対象の広い範囲で比較検討し,SegGuidedDiff法について検討した。 以上の結果から,本手法は両データセットの解剖マスクを入力するために生成した画像の忠実さにおいて新たな最先端に到達し,一般的な解剖リアリズムと同等であることがわかった。 最後に,本モデルでは,潜在空間における補間により,生成した画像の解剖学的類似性を実際の画像に調整できるという付加的な利点も享受している。 SegGuidedDiffには、相互モダリティ変換やペアデータや対物データの生成など、多くのアプリケーションがある。 私たちのコードはhttps://github.com/mazurowski-lab/segmentation-guided-diffusionで公開しています。

Diffusion models have enabled remarkably high-quality medical image generation, yet it is challenging to enforce anatomical constraints in generated images. To this end, we propose a diffusion model-based method that supports anatomically-controllable medical image generation, by following a multi-class anatomical segmentation mask at each sampling step. We additionally introduce a random mask ablation training algorithm to enable conditioning on a selected combination of anatomical constraints while allowing flexibility in other anatomical areas. We compare our method ("SegGuidedDiff") to existing methods on breast MRI and abdominal/neck-to-pelvis CT datasets with a wide range of anatomical objects. Results show that our method reaches a new state-of-the-art in the faithfulness of generated images to input anatomical masks on both datasets, and is on par for general anatomical realism. Finally, our model also enjoys the extra benefit of being able to adjust the anatomical similarity of generated images to real images of choice through interpolation in its latent space. SegGuidedDiff has many applications, including cross-modality translation, and the generation of paired or counterfactual data. Our code is available at https://github.com/mazurowski-lab/segmentation-guided-diffusion.
翻訳日:2024-06-22 05:29:03 公開日:2024-06-19
# アライメントとしての特徴学習--非線形ニューラルネットワークにおける勾配降下の構造特性

Feature learning as alignment: a structural property of gradient descent in non-linear neural networks ( http://arxiv.org/abs/2402.05271v2 )

ライセンス: Link先を確認
Daniel Beaglehole, Ioannis Mitliagkas, Atish Agarwala, (参考訳) ニューラルネットワークが特徴学習を通じて入力-ラベルペアから統計を抽出するメカニズムを理解することは、教師あり学習において最も重要な未解決問題の1つである。 以前の研究では、重みのグラム行列(神経特徴行列、NFM)と平均勾配外積(AGOP)がトレーニング中に相関することを示した。 NFAを通じて、著者らは神経機能学習の一般的なメカニズムとしてAGOPとのマッピングを紹介した。 しかし、これらの研究は、この相関関係やその起源に関する理論的説明を与えていない。 本研究では,この相関の性質をさらに明らかにし,その出現を説明する。 この相関関係は, 重み行列の左特異構造と各層における新たに定義された事前活性化接点特徴との整合性に等価であることを示す。 さらに,SGDにより誘導される重み変化と事前活性化特徴との相互作用によって,アライメントが駆動されることを確認し,入力やラベルの単純な統計量の観点から,早期に解析的に結果のダイナミクスを分析する。 最後に、NFAが中心となる相関によって駆動されるという観察に動機付けられ、任意の層におけるNFA相関を劇的に増加させ、学習した特徴の質を向上させるための単純な最適化ルールを導入する。

Understanding the mechanisms through which neural networks extract statistics from input-label pairs through feature learning is one of the most important unsolved problems in supervised learning. Prior works demonstrated that the gram matrices of the weights (the neural feature matrices, NFM) and the average gradient outer products (AGOP) become correlated during training, in a statement known as the neural feature ansatz (NFA). Through the NFA, the authors introduce mapping with the AGOP as a general mechanism for neural feature learning. However, these works do not provide a theoretical explanation for this correlation or its origins. In this work, we further clarify the nature of this correlation, and explain its emergence. We show that this correlation is equivalent to alignment between the left singular structure of the weight matrices and the newly defined pre-activation tangent features at each layer. We further establish that the alignment is driven by the interaction of weight changes induced by SGD with the pre-activation features, and analyze the resulting dynamics analytically at early times in terms of simple statistics of the inputs and labels. Finally, motivated by the observation that the NFA is driven by this centered correlation, we introduce a simple optimization rule that dramatically increases the NFA correlations at any given layer and improves the quality of features learned.
翻訳日:2024-06-22 05:29:03 公開日:2024-06-19
# ブロックチェーン・ブリブリング・アタックとアンチインセンティブの有効性

Blockchain Bribing Attacks and the Efficacy of Counterincentives ( http://arxiv.org/abs/2402.06352v2 )

ライセンス: Link先を確認
Dimitris Karakostas, Aggelos Kiayias, Thomas Zacharias, (参考訳) ゲーム理論の観点から,プロオフ・オブ・ステーク分散台帳におけるブラビング攻撃を分析した。 ブルービング攻撃では、相手はプロトコルのプロパティを攻撃することを目標として、参加者に行動の仕方を指示する代わりに報酬を与える。 具体的には、ブロックチェーンの安全性を狙う敵に焦点を当てています。 贈賄方法によっては2種類の贈賄が検討される。 一 贈賄は、贈賄当事者が指示どおりに振る舞う限り、贈賄する。 ii) 効果的な贈賄(bribes)は、攻撃の成功を条件に、w.r.t. well-definedのメトリクスである。 ゲーム理論設定における各種類の攻撃を分析し、関連する平衡を同定する。 誘導的ブレンビングでは、このプロトコルは平衡ではなく、攻撃が失敗する良い均衡と、攻撃が成功するように全ての当事者が編み出される負の均衡を記述している。 効果的なブレンビングでは、プロトコルと"オールブリブ"の設定が平衡であることが示される。 同定された平衡を用いて、安定性とアナーキーの価格のバウンダリを計算する。 以上の結果から, 洗浄・希釈というインセンティブに基づく緩和技術が本研究の結論となる。 ここでは、プロトコルを均衡させ、すべての当事者に対して最大限の福祉を達成するという2つの肯定的な結果と、台帳の市場価格に悪影響を及ぼすと攻撃がより妥当になるという負の結果を示す。

We analyze bribing attacks in Proof-of-Stake distributed ledgers from a game theoretic perspective. In bribing attacks, an adversary offers participants a reward in exchange for instructing them how to behave, with the goal of attacking the protocol's properties. Specifically, our work focuses on adversaries that target blockchain safety. We consider two types of bribing, depending on how the bribes are awarded: i) guided bribing, where the bribe is given as long as the bribed party behaves as instructed; ii) effective bribing, where bribes are conditional on the attack's success, w.r.t. well-defined metrics. We analyze each type of attack in a game theoretic setting and identify relevant equilibria. In guided bribing, we show that the protocol is not an equilibrium and then describe good equilibria, where the attack is unsuccessful, and a negative one, where all parties are bribed such that the attack succeeds. In effective bribing, we show that both the protocol and the "all bribed" setting are equilibria. Using the identified equilibria, we then compute bounds on the Prices of Stability and Anarchy. Our results indicate that additional mitigations are needed for guided bribing, so our analysis concludes with incentive-based mitigation techniques, namely slashing and dilution. Here, we present two positive results, that both render the protocol an equilibrium and achieve maximal welfare for all parties, and a negative result, wherein an attack becomes more plausible if it severely affects the ledger's token's market price.
翻訳日:2024-06-22 05:29:03 公開日:2024-06-19
# カーネル手法としての物理インフォームド機械学習

Physics-informed machine learning as a kernel method ( http://arxiv.org/abs/2402.07514v2 )

ライセンス: Link先を確認
Nathan Doumèche, Francis Bach, Gérard Biau, Claire Boyer, (参考訳) 物理インフォームド機械学習は、データベースのアプローチの表現性と物理モデルの解釈可能性を組み合わせる。 この文脈では、物理の不整合を定量化する偏微分方程式により経験的リスクが正規化される一般的な回帰問題を考える。 線形微分先行問題に対して、この問題はカーネル回帰タスクとして定式化できることを示す。 カーネル理論の利点を生かして、正規化リスクの最小化に対する収束率を導出し、少なくともソボレフのミニマックスレートで収束することを示す。 しかし、物理誤差に応じて高速な速度が達成できる。 この原理は1次元の例で説明され、物理情報による経験的リスクの規則化は、推定器の統計的性能に有益である、という主張を支持する。

Physics-informed machine learning combines the expressiveness of data-based approaches with the interpretability of physical models. In this context, we consider a general regression problem where the empirical risk is regularized by a partial differential equation that quantifies the physical inconsistency. We prove that for linear differential priors, the problem can be formulated as a kernel regression task. Taking advantage of kernel theory, we derive convergence rates for the minimizer of the regularized risk and show that it converges at least at the Sobolev minimax rate. However, faster rates can be achieved, depending on the physical error. This principle is illustrated with a one-dimensional example, supporting the claim that regularizing the empirical risk with physical information can be beneficial to the statistical performance of estimators.
翻訳日:2024-06-22 05:29:03 公開日:2024-06-19
# 鏡による影響仮説:前向きパスのハーネスによる効率的なデータ影響推定

The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes ( http://arxiv.org/abs/2402.08922v2 )

ライセンス: Link先を確認
Myeongseob Ko, Feiyang Kang, Weiyan Shi, Ming Jin, Zhou Yu, Ruoxi Jia, (参考訳) 大規模なブラックボックスモデルは、多くのアプリケーションにまたがって広く普及している。 これらのモデルによる予測に対する個別のトレーニングデータソースの影響を理解することは、信頼性の向上に不可欠である。 現在の影響推定手法は、各トレーニングポイントの計算勾配や、異なるサブセットでの繰り返しトレーニングを含む。 これらのアプローチは、大規模なデータセットやモデルまでスケールする場合、明らかな計算上の課題に直面します。 本稿では,Mirrored Influence hypothesisを紹介し,学習データとテストデータ間の相互影響について考察する。 具体的には、トレーニングデータがテスト予測に与える影響を評価することは、同等だが逆の問題として、モデルが特定のテストサンプルでトレーニングされた場合、トレーニングサンプルの予測がどのように変更されるかを評価することができることを示唆している。 実証的および理論的検証を通じて、我々の仮説の広範な適用性を実証する。 そこで本研究では,各トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。 このアプローチは、同時試験におけるテストサンプルの数がトレーニングデータセットのスケールよりもはるかに小さいシナリオにおいて、一般的な非対称性を利用することができ、既存のアプローチと比較して、効率が大幅に向上する。 本稿では,拡散モデルにおけるデータ属性,データ漏洩検出,記憶解析,ラベルの誤検出,言語モデルにおけるトレース動作など,さまざまなシナリオに適用可能性を示す。 私たちのコードはhttps://github.com/ruoxi-jia-group/Forward-INFで公開されます。

Large-scale black-box models have become ubiquitous across numerous applications. Understanding the influence of individual training data sources on predictions made by these models is crucial for improving their trustworthiness. Current influence estimation techniques involve computing gradients for every training point or repeated training on different subsets. These approaches face obvious computational challenges when scaled up to large datasets and models. In this paper, we introduce and explore the Mirrored Influence Hypothesis, highlighting a reciprocal nature of influence between training and test data. Specifically, it suggests that evaluating the influence of training data on test predictions can be reformulated as an equivalent, yet inverse problem: assessing how the predictions for training samples would be altered if the model were trained on specific test samples. Through both empirical and theoretical validations, we demonstrate the wide applicability of our hypothesis. Inspired by this, we introduce a new method for estimating the influence of training data, which requires calculating gradients for specific test samples, paired with a forward pass for each training point. This approach can capitalize on the common asymmetry in scenarios where the number of test samples under concurrent examination is much smaller than the scale of the training dataset, thus gaining a significant improvement in efficiency compared to existing approaches. We demonstrate the applicability of our method across a range of scenarios, including data attribution in diffusion models, data leakage detection, analysis of memorization, mislabeled data detection, and tracing behavior in language models. Our code will be made available at https://github.com/ruoxi-jia-group/Forward-INF.
翻訳日:2024-06-22 05:19:10 公開日:2024-06-19
# テキスト・トゥ・SQLのためのヒューマンフリー・フュージングによるデモの多様性向上

Improving Demonstration Diversity by Human-Free Fusing for Text-to-SQL ( http://arxiv.org/abs/2402.10663v2 )

ライセンス: Link先を確認
Dingzirui Wang, Longxu Dou, Xuanliang Zhang, Qingfu Zhu, Wanxiang Che, (参考訳) 現在,大規模言語モデル(LLM)に基づく文脈内学習法が,テキスト・トゥ・SQL研究の主流となっている。 これまで,人間ラベルのデモプールからユーザ質問に関連するデモを選択する方法について議論されてきた。 しかしながら、人間のラベル付けは多様性の不足と高いラベル付けオーバーヘッドの限界に悩まされている。 そこで本稿では,テキストからSQLへのデモンストレーションの多様性を計測し,改善する方法について論じる。 実験により,実証実験の多様性を測定し,既存のラベル付きデータの不十分さを解析する指標を提案する。 上記の発見に基づいて,人為的マルチイテレーション合成,多様性の向上,ラベルコストの低減を通じて,高多様性の実証プールを構築するための実証実験(Fused)を反復的に行うことを提案する。 本手法は,複数の主流データセット上でのラベル付けによる平均3.2%と5.0%の改善を実現し,Fusedの有効性を実証する。

Currently, the in-context learning method based on large language models (LLMs) has become the mainstream of text-to-SQL research. Previous works have discussed how to select demonstrations related to the user question from a human-labeled demonstration pool. However, human labeling suffers from the limitations of insufficient diversity and high labeling overhead. Therefore, in this paper, we discuss how to measure and improve the diversity of the demonstrations for text-to-SQL. We present a metric to measure the diversity of the demonstrations and analyze the insufficient of the existing labeled data by experiments. Based on the above discovery, we propose fusing iteratively for demonstrations (Fused) to build a high-diversity demonstration pool through human-free multiple-iteration synthesis, improving diversity and lowering label cost. Our method achieves an average improvement of 3.2% and 5.0% with and without human labeling on several mainstream datasets, which proves the effectiveness of Fused.
翻訳日:2024-06-22 05:19:10 公開日:2024-06-19
# Open-Domain Text-to-SQLのためのマルチホップテーブル検索

Multi-Hop Table Retrieval for Open-Domain Text-to-SQL ( http://arxiv.org/abs/2402.10666v2 )

ライセンス: Link先を確認
Xuanliang Zhang, Dingzirui Wang, Longxu Dou, Qingfu Zhu, Wanxiang Che, (参考訳) オープンドメインのテキスト・トゥ・SQLは、巨大なデータベースから質問関連テーブルを検索し、SQLを生成する重要なタスクである。 しかし、単一のホップで検索する既存の検索方法は、テーブルエンティティと問題内のエンティティを整列させるスキーマリンクのテキストからSQLへの挑戦には注意を払わない。 そこで本研究では,リライトとビームサーチによるマルチホップテーブル検索(Murre)を提案する。 類似の非関連エンティティの効果を低減するため,本手法ではホップ毎の未検索エンティティに着目し,ビームサーチによる低ランクテーブルの検討を行う。 ドメインミスマッチエンティティの制限を軽減するため、Murre氏は複数のホップで取得したテーブルに基づいて質問を書き直し、関連するテーブルとのドメインギャップを減らした。 我々はSpiderUnionとBirdUnion+の実験を行い、6.38%の平均的な改善で新しい最先端の結果を得た。

Open-domain text-to-SQL is an important task that retrieves question-relevant tables from massive databases and then generates SQL. However, existing retrieval methods that retrieve in a single hop do not pay attention to the text-to-SQL challenge of schema linking, which is aligning the entities in the question with table entities, reflected in two aspects: similar irrelevant entity and domain mismatch entity. Therefore, we propose our method, the multi-hop table retrieval with rewrite and beam search (Murre). To reduce the effect of the similar irrelevant entity, our method focuses on unretrieved entities at each hop and considers the low-ranked tables by beam search. To alleviate the limitation of domain mismatch entity, Murre rewrites the question based on retrieved tables in multiple hops, decreasing the domain gap with relevant tables. We conduct experiments on SpiderUnion and BirdUnion+, reaching new state-of-the-art results with an average improvement of 6.38%.
翻訳日:2024-06-22 05:19:10 公開日:2024-06-19
# 男性CEOと女性アシスタント:2つの被験者のテキスト・画像生成におけるジェンダー・バイアーズ

The Male CEO and the Female Assistant: Gender Biases in Text-To-Image Generation of Dual Subjects ( http://arxiv.org/abs/2402.11089v2 )

ライセンス: Link先を確認
Yixin Wan, Kai-Wei Chang, (参考訳) DALLE-3のような最近の大規模T2Iモデルでは、単一オブジェクト生成における公平性、すなわち1人画像の生成が進歩している。 しかし、これらの改善されたモデルが、単に2人を生成する際には、かなりのバイアスを示します。 この難易度生成環境でT2Iモデルを体系的に評価するために、同一画像中の2人を生成するという2つのオブジェクト生成タスクとして確立されたPaired Stereotype Test (PST) フレームワークを提案する。 PSTの設定は、それぞれ男性ステレオタイプと女性ステレオタイプである社会的アイデンティティ、例えば「CEO」と「アシスタント」で説明されるため、特に困難である。 T2Iモデルは、この対照的な設定で男女ステレオタイプを不公平に追従することは容易である。 我々は、生成画像中の性別ステレオタイプへの付着度を定量的に測定するために、Stereotype Score (SS) というメトリクスを確立した。 PSTを用いて, DALLE-3におけるジェンダーバイアスの2つの側面 – 性的職業における広く特定されたバイアス – と,新たな側面 – 組織力におけるバイアス – を評価する。 DALLE-3は、一見公正な、あるいは反ステレオタイプの1人称画像を生成するが、PSTの下では依然として顕著なバイアスを示しており、例えば、性別に占めるステレオタイプの実験では、74%以上のモデル世代がバイアスを見せている。 さらに、単体設定と比較して、DALLE-3はPSTの下で男性関連ステレオタイプを持続する傾向が強い。 我々の研究は、二重オブジェクト生成におけるバイアスの研究の先駆者であり、提案したPSTフレームワークは、さらなる実験のために容易に拡張することができ、貴重な貢献を確立することができる。

Recent large-scale T2I models like DALLE-3 have made progress on improving fairness in single-subject generation, i.e. generating a one-person image. However, we reveal that these improved models still demonstrate considerable biases when simply generating two people. To systematically evaluate T2I models in this challenging generation setting, we propose the Paired Stereotype Test (PST) framework, established as a dual-subject generation task, i.e. generating two people in the same image. The setting in PST is especially challenging, as the two individuals are described with social identities that are male-stereotyped and female-stereotyped, respectively, e.g. "a CEO" and "an Assistant". It is easy for T2I models to unfairly follow gender stereotypes in this contrastive setting. We establish a metric, Stereotype Score (SS), to quantitatively measure the adherence to gender stereotypes in generated images. Using PST, we evaluate two aspects of gender biases in DALLE-3 -- the widely-identified bias in gendered occupation, as well as a novel aspect: bias in organizational power. Results show that despite generating seemingly fair or even anti-stereotype single-person images, DALLE-3 still shows notable biases under PST -- for instance, in experiments on gender-occupational stereotypes, over 74% model generations demonstrate biases. Moreover, compared to single-person settings, DALLE-3 is more likely to perpetuate male-associated stereotypes under PST. Our work pioneers the research on bias in dual-subject generation, and our proposed PST framework can be easily extended for further experiments, establishing a valuable contribution.
翻訳日:2024-06-22 05:19:10 公開日:2024-06-19
# 知識グラフを用いたマルチホップ推論におけるチェーン・オブ・ワットの直接評価

Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs ( http://arxiv.org/abs/2402.11199v2 )

ライセンス: Link先を確認
Minh-Vuong Nguyen, Linhao Luo, Fatemeh Shiri, Dinh Phung, Yuan-Fang Li, Thuy-Trang Vu, Gholamreza Haffari, (参考訳) 大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シント(CoT)の説明を生成するよう促されたときに、強い推論能力を示す。 しかし,従来のLCMの評価では,生成したCoTの正しさを無視し,解答精度にのみ焦点が当てられていた。 本稿では,知識グラフ(KGs)を用いて,多項目質問応答におけるLLMのCoT推論能力を深く研究する。 本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。 2つのマルチホップ問合せデータセットにまたがる5種類のLLMに対して行った実験により,LLMには推論を行うのに十分な知識があることが判明した。 しかし、LLMが生成したCoT推論の正解精度と忠実度の間には大きな相違があり、誤った推論によって正しい解に到達することがしばしばあることを示している。

Large language models (LLMs) demonstrate strong reasoning abilities when prompted to generate chain-of-thought (CoT) explanations alongside answers. However, previous research on evaluating LLMs has solely focused on answer accuracy, neglecting the correctness of the generated CoT. In this paper, we delve deeper into the CoT reasoning capabilities of LLMs in multi-hop question answering by utilizing knowledge graphs (KGs). We propose a novel discriminative and generative CoT evaluation paradigm to assess LLMs' knowledge of reasoning and the accuracy of the generated CoT. Through experiments conducted on 5 different families of LLMs across 2 multi-hop question-answering datasets, we find that LLMs possess sufficient knowledge to perform reasoning. However, there exists a significant disparity between answer accuracy and faithfulness of the CoT reasoning generated by LLMs, indicating that they often arrive at correct answers through incorrect reasoning.
翻訳日:2024-06-22 05:19:10 公開日:2024-06-19
# LLM as Prompter: 任意知識グラフに基づく低リソースインダクティブ推論

LLM as Prompter: Low-resource Inductive Reasoning on Arbitrary Knowledge Graphs ( http://arxiv.org/abs/2402.11804v3 )

ライセンス: Link先を確認
Kai Wang, Yuwei Xu, Zhiyong Wu, Siqiang Luo, (参考訳) 知識グラフ(KG)帰納的推論は、トレーニング中に見えない新しいKGから行方不明の事実を推測することを目的としており、様々なアプリケーションで広く採用されている。 KG帰納的推論における重要な課題の1つは、テキストと構造の両方面で不足した低リソースシナリオを扱うことである。 本稿では,Large Language Models (LLM) を用いてこの問題に対処する。 特に、最先端のLCMを用いて、事前学習されたグラフニューラルネットワーク(GNN)を強化するグラフ構造的プロンプトを生成し、KG帰納的推論手法に対する新たな方法論的洞察と、実際に高い一般化性をもたらす。 提案手法では,任意のKGに対する低リソース帰納的推論のための事前学習・促進フレームワークProLINKを導入する。 実用面では、36個の低リソースKGデータセットに対する我々のアプローチを実験的に評価し、ProLINKが従来の手法を3ショット、ワンショット、ゼロショットの推論タスクで上回り、平均性能を20%、45%、147%向上させることを示した。 さらに、ProLINKは様々なLLMプロンプトとフルショットシナリオに対して強い堅牢性を示している。

Knowledge Graph (KG) inductive reasoning, which aims to infer missing facts from new KGs that are not seen during training, has been widely adopted in various applications. One critical challenge of KG inductive reasoning is handling low-resource scenarios with scarcity in both textual and structural aspects. In this paper, we attempt to address this challenge with Large Language Models (LLMs). Particularly, we utilize the state-of-the-art LLMs to generate a graph-structural prompt to enhance the pre-trained Graph Neural Networks (GNNs), which brings us new methodological insights into the KG inductive reasoning methods, as well as high generalizability in practice. On the methodological side, we introduce a novel pretraining and prompting framework ProLINK, designed for low-resource inductive reasoning across arbitrary KGs without requiring additional training. On the practical side, we experimentally evaluate our approach on 36 low-resource KG datasets and find that ProLINK outperforms previous methods in three-shot, one-shot, and zero-shot reasoning tasks, exhibiting average performance improvements by 20%, 45%, and 147%, respectively. Furthermore, ProLINK demonstrates strong robustness for various LLM promptings as well as full-shot scenarios.
翻訳日:2024-06-22 05:19:10 公開日:2024-06-19
# 文脈情報エントロピー制約を用いた適応デコードによる知識紛争の識別と解決

Discerning and Resolving Knowledge Conflicts through Adaptive Decoding with Contextual Information-Entropy Constraint ( http://arxiv.org/abs/2402.11893v2 )

ライセンス: Link先を確認
Xiaowei Yuan, Zhao Yang, Yequan Wang, Shengping Liu, Jun Zhao, Kang Liu, (参考訳) 大規模言語モデルは、事前訓練中に膨大なパラメトリック知識を内部化する。 同時に、現実的なアプリケーションは、基礎となるタスクのモデルを支援するために外部のコンテキスト知識を必要とします。 これは知識紛争として知られる重要なジレンマを引き起こし、そこでは文脈的知識が衝突する。 しかし、既存の解読作業は知識紛争の解決に特化しており、紛争のないパフォーマンスを不注意に劣化させる可能性がある。 本稿では,文脈情報エントロピー制約デコーディング(COIECD)と呼ばれる適応的復号法を提案する。 これは、矛盾する文脈に対するモデルの忠実さを改善することができ、また、我々の実験では、実際のデータセットにおける知識衝突に対して、COIECDが強い性能と堅牢性を示すことを示す。 コードは利用可能。

Large language models internalize enormous parametric knowledge during pre-training. Concurrently, realistic applications necessitate external contextual knowledge to aid models on the underlying tasks. This raises a crucial dilemma known as knowledge conflicts, where the contextual knowledge clashes with the However, existing decoding works are specialized in resolving knowledge conflicts and could inadvertently deteriorate performance in absence of conflicts. In this paper, we propose an adaptive decoding method, termed as contextual information-entropy constraint decoding (COIECD), to discern whether the knowledge conflicts occur and resolve them. It can improve the model's faithfulness to conflicting context, and simultaneously maintain high performance among non- Our experiments show that COIECD exhibits strong performance and robustness over knowledge conflicts in realistic datasets. Code is available.
翻訳日:2024-06-22 05:19:10 公開日:2024-06-19
# DiLA: 差分論理層によるLLMツール学習の強化

DiLA: Enhancing LLM Tool Learning with Differential Logic Layer ( http://arxiv.org/abs/2402.11903v3 )

ライセンス: Link先を確認
Yu Zhang, Hui-Ling Zhen, Zehua Pei, Yingzhao Lian, Lihao Yin, Mingxuan Yuan, Bei Yu, (参考訳) 論理的推論と計画において大きな言語モデル(LLM)が直面する課題を考えると、従来の取り組みは、外部の解法にアクセスしてLLMを増強しようと試みてきた。 単純な推論問題については進歩が進んでいるが、ブール満足度問題(SAT)やグラフ色問題(GCP)のような古典的な制約満足度問題の解法は、複雑な表現や指数探索空間のため、既成の解法では難しいままである。 本稿では,ネットワークレイヤの前方・後方パスに論理的制約を組み込む新たなディファレンシャル・ロジック・レイヤ支援言語モデリング(DiLA)手法を提案する。 DiLAでは、LLMは言語記述を論理制約に変換し、最も高品質な初期解を識別することを目的としている。 論理層をブリッジとして活用することで、DiLAはブール変数によって符号化された様々な推論問題に対してLLMの論理的推論能力を高め、解法プロセスの効率性と正確性を保証する。 2つの古典的推論問題に対するDiLAの性能評価を行い、既存のプロンプトベースおよびソルバ支援アプローチに対する一貫した性能を実証した。

Considering the challenges faced by large language models (LLMs) in logical reasoning and planning, prior efforts have sought to augment LLMs with access to external solvers. While progress has been made on simple reasoning problems, solving classical constraint satisfaction problems, such as the Boolean Satisfiability Problem (SAT) and Graph Coloring Problem (GCP), remains difficult for off-the-shelf solvers due to their intricate expressions and exponential search spaces. In this paper, we propose a novel differential logic layer-aided language modeling (DiLA) approach, where logical constraints are integrated into the forward and backward passes of a network layer, to provide another option for LLM tool learning. In DiLA, LLM aims to transform the language description to logic constraints and identify initial solutions of the highest quality, while the differential logic layer focuses on iteratively refining the LLM-prompted solution. Leveraging the logic layer as a bridge, DiLA enhances the logical reasoning ability of LLMs on a range of reasoning problems encoded by Boolean variables, guaranteeing the efficiency and correctness of the solution process. We evaluate the performance of DiLA on two classic reasoning problems and empirically demonstrate its consistent outperformance against existing prompt-based and solver-aided approaches.
翻訳日:2024-06-22 05:19:10 公開日:2024-06-19
# FinBen: 大規模言語モデルのためのホロスティックなファイナンシャルベンチマーク

FinBen: A Holistic Financial Benchmark for Large Language Models ( http://arxiv.org/abs/2402.12659v2 )

ライセンス: Link先を確認
Qianqian Xie, Weiguang Han, Zhengyu Chen, Ruoyu Xiang, Xiao Zhang, Yueru He, Mengxi Xiao, Dong Li, Yongfu Dai, Duanyu Feng, Yijing Xu, Haoqiang Kang, Ziyan Kuang, Chenhan Yuan, Kailai Yang, Zheheng Luo, Tianlin Zhang, Zhiwei Liu, Guojun Xiong, Zhiyang Deng, Yuechen Jiang, Zhiyuan Yao, Haohang Li, Yangyang Yu, Gang Hu, Jiajia Huang, Xiao-Yang Liu, Alejandro Lopez-Lira, Benyou Wang, Yanzhao Lai, Hao Wang, Min Peng, Sophia Ananiadou, Jimin Huang, (参考訳) LLM は NLP を転換し,様々な分野での有望性を示したが,総合的な評価ベンチマークの欠如,LCM の急速な開発,財務タスクの複雑さなど,財務面でのポテンシャルは過小評価されている。 本稿では、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークであるFinBenを紹介し、情報抽出(IE)、テキスト分析、質問応答(QA)、テキスト生成、リスク管理、予測、意思決定の7つの重要な側面をカバーする。 FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。 GPT-4、ChatGPT、そして最新のGeminiを含む15の代表的なLCMの評価では、いくつかの重要な発見が示されている: LLMはIEとテキスト解析に優れていますが、高度な推論やテキスト生成や予測といった複雑なタスクに苦戦しています。 GPT-4はIEと株取引で優れており、Geminiはテキスト生成と予測が優れている。 命令調整 LLM はテキスト解析を改善するが、QA のような複雑なタスクには限定的な利点がある。 FinBenは、IJCAI-2024のFinNLP-AgentScenワークショップで、最初の財務的なLLM共有タスクの開催に使用されており、12チームが参加している。 彼らの新しいソリューションはGPT-4よりも優れており、フィンベンが金融LLMのイノベーションを推進している可能性を示している。 すべてのデータセット、結果、コードは研究コミュニティのためにリリースされている。

LLMs have transformed NLP and shown promise in various fields, yet their potential in finance is underexplored due to a lack of comprehensive evaluation benchmarks, the rapid development of LLMs, and the complexity of financial tasks. In this paper, we introduce FinBen, the first extensive open-source evaluation benchmark, including 36 datasets spanning 24 financial tasks, covering seven critical aspects: information extraction (IE), textual analysis, question answering (QA), text generation, risk management, forecasting, and decision-making. FinBen offers several key innovations: a broader range of tasks and datasets, the first evaluation of stock trading, novel agent and Retrieval-Augmented Generation (RAG) evaluation, and three novel open-source evaluation datasets for text summarization, question answering, and stock trading. Our evaluation of 15 representative LLMs, including GPT-4, ChatGPT, and the latest Gemini, reveals several key findings: While LLMs excel in IE and textual analysis, they struggle with advanced reasoning and complex tasks like text generation and forecasting. GPT-4 excels in IE and stock trading, while Gemini is better at text generation and forecasting. Instruction-tuned LLMs improve textual analysis but offer limited benefits for complex tasks such as QA. FinBen has been used to host the first financial LLMs shared task at the FinNLP-AgentScen workshop during IJCAI-2024, attracting 12 teams. Their novel solutions outperformed GPT-4, showcasing FinBen's potential to drive innovation in financial LLMs. All datasets, results, and codes are released for the research community: https://github.com/The-FinAI/PIXIU.
翻訳日:2024-06-22 05:19:10 公開日:2024-06-19
# 正しい時間 - 説明の制約による時系列モデルの改善

Right on Time: Revising Time Series Models by Constraining their Explanations ( http://arxiv.org/abs/2402.12921v3 )

ライセンス: Link先を確認
Maurice Kraus, David Steinmann, Antonia Wüst, Andre Kokozinski, Kristian Kersting, (参考訳) ディープ・時系列モデルの信頼性は、しばしば不正確な出力につながる要因に依存する傾向によって損なわれる。 実機械生産ラインからP2Sと名付けられた、新たに記録された、自然に構築されたデータセットが、これを強調している。 時系列における「クリーバー・ハンス」の瞬間を避けるため、共同ファウンダーを緩和するため、Right on Time (RioT) という手法を導入する。 RioTは、初めて、時間領域と周波数領域の両方にわたるモデル説明とのインタラクションを可能にする。 両方のドメインにおける説明に対するフィードバックはモデルを制約するために使用され、アノテーションを付した境界要素から遠ざかる。 二重ドメインインタラクション戦略は、時系列データセットで共同創設者に効果的に対処するために不可欠である。 私たちは、RioTがP2Sの間違った理由や一般的な時系列分類や予測データセットからモデルを効果的に誘導できることを実証的に実証した。

The reliability of deep time series models is often compromised by their tendency to rely on confounding factors, which may lead to incorrect outputs. Our newly recorded, naturally confounded dataset named P2S from a real mechanical production line emphasizes this. To avoid "Clever-Hans" moments in time series, i.e., to mitigate confounders, we introduce the method Right on Time (RioT). RioT enables, for the first time, interactions with model explanations across both the time and frequency domain. Feedback on explanations in both domains is then used to constrain the model, steering it away from the annotated confounding factors. The dual-domain interaction strategy is crucial for effectively addressing confounders in time series datasets. We empirically demonstrate that RioT can effectively guide models away from the wrong reasons in P2S as well as popular time series classification and forecasting datasets.
翻訳日:2024-06-22 05:09:24 公開日:2024-06-19
# 構文解析のための構造木アライメント

Structured Tree Alignment for Evaluation of (Speech) Constituency Parsing ( http://arxiv.org/abs/2402.13433v2 )

ライセンス: Link先を確認
Freda Shi, Kevin Gimpel, Karen Livescu, (参考訳) 本稿では, 音声解析の課題に起因した, 区切り木間の類似度尺度であるStructured average-over-union ratio(STRUCT-IOU)を提案する。 STRUCT-IOUは、選挙区構文木(自動認識された音声単語境界)と接頭辞木(書き言葉)の比較を可能にする。 パラメータを計算するために,音声領域に強制アライメントを施して接地構文解析木を投影し,予測された接地構造成分と予測された成分を一定の制約下で整列させ,すべての整列構成ペアの平均IOUスコアを算出する。 STRUCT-IOUは単語境界を考慮に入れ、予測された単語と地上の真実が完全な1対1対応を持たないという課題を克服する。 そこで本研究では,STRUCT-IOUがトークンミスマッチ問題に対処できることを示すとともに,PARSEVAL (Black et al , 1991) よりも構文的に妥当な構文解析への耐性を示す。

We present the structured average intersection-over-union ratio (STRUCT-IOU), a similarity metric between constituency parse trees motivated by the problem of evaluating speech parsers. STRUCT-IOU enables comparison between a constituency parse tree (over automatically recognized spoken word boundaries) with the ground-truth parse (over written words). To compute the metric, we project the ground-truth parse tree to the speech domain by forced alignment, align the projected ground-truth constituents with the predicted ones under certain structured constraints, and calculate the average IOU score across all aligned constituent pairs. STRUCT-IOU takes word boundaries into account and overcomes the challenge that the predicted words and ground truth may not have perfect one-to-one correspondence. Extending to the evaluation of text constituency parsing, we demonstrate that STRUCT-IOU can address token-mismatch issues, and shows higher tolerance to syntactically plausible parses than PARSEVAL (Black et al., 1991).
翻訳日:2024-06-22 05:09:24 公開日:2024-06-19
# MSynFD:マルチホップ構文認識フェイクニュース検出

MSynFD: Multi-hop Syntax aware Fake News Detection ( http://arxiv.org/abs/2402.14834v2 )

ライセンス: Link先を確認
Liang Xiao, Qi Zhang, Chongyang Shi, Shoujin Wang, Usman Naseem, Liang Hu, (参考訳) ソーシャルメディアプラットフォームの普及により、偽ニュースが急速に拡散し、われわれの現実社会に脅威をもたらしている。 既存の方法は、ニュースコンテンツやその社会的コンテキストを分析して、フェイクニュースの検出を強化するために、マルチモーダルデータまたはコンテキスト情報を使用する。 しかし、これらの手法は、しばしば本質的なテキストニュースコンテンツ(アーティクル)を見落とし、セマンティック情報を抽出するために、シーケンシャルなモデリングとグローバルな注意に強く依存している。 これらの既存の手法は、シンタックス・セマンティックのミスマッチや事前バイアスのようなニュース記事の複雑な微妙なひねりを扱うことができず、モダリティや社会的文脈が欠如している場合、パフォーマンスと潜在的な失敗につながる。 これらの大きなギャップを埋めるために,偽ニュースの微妙なねじれに対処する補完構文情報を含む,新しいマルチホップ構文認識型偽ニュース検出法を提案する。 具体的には、構文依存グラフを導入し、マルチホップ構文をキャプチャするマルチホップサブグラフアグリゲーション機構を設計する。 単語知覚の影響を拡大し、効果的なノイズフィルタリングと隣接関係強化をもたらす。 その後、シーケンシャルな相対的位置認識変換器が、先行バイアスを軽減するための精巧なキーワードデバイアスモジュールとともに、シーケンシャルな情報をキャプチャするように設計される。 2つの公開ベンチマークデータセットの大規模な実験結果から,提案したMSynFDの最先端検出モデルに対する有効性と優れた性能が検証された。

The proliferation of social media platforms has fueled the rapid dissemination of fake news, posing threats to our real-life society. Existing methods use multimodal data or contextual information to enhance the detection of fake news by analyzing news content and/or its social context. However, these methods often overlook essential textual news content (articles) and heavily rely on sequential modeling and global attention to extract semantic information. These existing methods fail to handle the complex, subtle twists in news articles, such as syntax-semantics mismatches and prior biases, leading to lower performance and potential failure when modalities or social context are missing. To bridge these significant gaps, we propose a novel multi-hop syntax aware fake news detection (MSynFD) method, which incorporates complementary syntax information to deal with subtle twists in fake news. Specifically, we introduce a syntactical dependency graph and design a multi-hop subgraph aggregation mechanism to capture multi-hop syntax. It extends the effect of word perception, leading to effective noise filtering and adjacent relation enhancement. Subsequently, a sequential relative position-aware Transformer is designed to capture the sequential information, together with an elaborate keyword debiasing module to mitigate the prior bias. Extensive experimental results on two public benchmark datasets verify the effectiveness and superior performance of our proposed MSynFD over state-of-the-art detection models.
翻訳日:2024-06-22 05:09:24 公開日:2024-06-19
# 曖昧な正確さとしての不信感の連鎖

Chain-of-Thought Unfaithfulness as Disguised Accuracy ( http://arxiv.org/abs/2402.14897v2 )

ライセンス: Link先を確認
Oliver Bentham, Nathan Stringham, Ana Marasović, (参考訳) CoT(Chain-of-Thought)世代が大きな言語モデル(LLM)の内部計算とどのように一致しているかを理解することは、LLMの出力を信頼するかを決定するために重要である。 CoT 忠実性の代用として、Lanham et al (2023) はモデルが CoT に依存しているかどうかを測定する指標を提案している。 プロプライエタリなモデルの1つのファミリの中で、LLMはモデルサイズと忠実度の間のスケーリングと逆スケーリングの関係を示し、13億のパラメータモデルは8億1000万から1750億のモデルと比較して忠実度を増大させる。 これらの結果が全てのLLMの特性として一般化されるかどうかを評価する。 実験装置を3種類のモデルで再現し、特定の条件下では、CoT忠実度に対するスケーリング傾向を再現することに成功した。 しかし、プロンプトで答えの選択順序を単に変更するだけで、メトリックを73パーセント削減できることがわかった。 忠実度測定基準(R^2$ = 0.91)も精度と高く相関しており、忠実度を評価するための妥当性について疑問を呈している。

Understanding the extent to which Chain-of-Thought (CoT) generations align with a large language model's (LLM) internal computations is critical for deciding whether to trust an LLM's output. As a proxy for CoT faithfulness, Lanham et al. (2023) propose a metric that measures a model's dependence on its CoT for producing an answer. Within a single family of proprietary models, they find that LLMs exhibit a scaling-then-inverse-scaling relationship between model size and their measure of faithfulness, and that a 13 billion parameter model exhibits increased faithfulness compared to models ranging from 810 million to 175 billion parameters in size. We evaluate whether these results generalize as a property of all LLMs. We replicate their experimental setup with three different families of models and, under specific conditions, successfully reproduce the scaling trends for CoT faithfulness they report. However, we discover that simply changing the order of answer choices in the prompt can reduce the metric by 73 percentage points. The faithfulness metric is also highly correlated ($R^2$ = 0.91) with accuracy, raising doubts about its validity for evaluating faithfulness.
翻訳日:2024-06-22 05:09:24 公開日:2024-06-19
# スパムメール検出におけるChatGPTの性能評価

Evaluating the Performance of ChatGPT for Spam Email Detection ( http://arxiv.org/abs/2402.15537v2 )

ライセンス: Link先を確認
Shijing Si, Yuwei Wu, Le Tang, Yugui Zhang, Jedrek Wosik, (参考訳) 電子メールは、プロフェッショナルドメインや商用ドメインにおいて、重要かつ広範囲に利用される通信媒体であり続けている。 それでもスパムメールの普及は、日々のルーチンを混乱させ、生産性を低下させ、ユーザーにとって大きな課題となる。 その結果、コンテンツに基づくスパムの正確な識別とフィルタリングがサイバーセキュリティにとって重要になっている。 自然言語処理の最近の進歩、特にChatGPTのような大規模言語モデルでは、質問応答やテキスト生成といったタスクにおいて顕著な性能を示している。 しかし、スパム識別のポテンシャルは未解明のままである。 このギャップを埋めるために、英語と中国語の両方の電子メールデータセットにおいてChatGPTのスパム識別能力を評価する。 In-context Learning を用いたスパムメール検出にはChatGPT を用いる。 また,実演回数がChatGPTの性能に与える影響についても検討した。 比較のために、ベイズ、サポートベクターマシン(SVM)、ロジスティック回帰(LR)、フィードフォワード高密度ニューラルネットワーク(DNN)、BERT分類器を含む5つの人気のあるベンチマーク手法を実装した。 大規模な実験を通じて、ChatGPTの性能は、大規模な英語データセットにおける深い教師付き学習方法よりも著しく悪いが、低リソースの中国語データセットでは優れた性能を示す。

Email continues to be a pivotal and extensively utilized communication medium within professional and commercial domains. Nonetheless, the prevalence of spam emails poses a significant challenge for users, disrupting their daily routines and diminishing productivity. Consequently, accurately identifying and filtering spam based on content has become crucial for cybersecurity. Recent advancements in natural language processing, particularly with large language models like ChatGPT, have shown remarkable performance in tasks such as question answering and text generation. However, its potential in spam identification remains underexplored. To fill in the gap, this study attempts to evaluate ChatGPT's capabilities for spam identification in both English and Chinese email datasets. We employ ChatGPT for spam email detection using in-context learning, which requires a prompt instruction and a few demonstrations. We also investigate how the number of demonstrations in the prompt affects the performance of ChatGPT. For comparison, we also implement five popular benchmark methods, including naive Bayes, support vector machines (SVM), logistic regression (LR), feedforward dense neural networks (DNN), and BERT classifiers. Through extensive experiments, the performance of ChatGPT is significantly worse than deep supervised learning methods in the large English dataset, while it presents superior performance on the low-resourced Chinese dataset.
翻訳日:2024-06-22 05:09:24 公開日:2024-06-19
# 生成的名前付きエンティティ認識のための負のインスタンスの再考

Rethinking Negative Instances for Generative Named Entity Recognition ( http://arxiv.org/abs/2402.16602v2 )

ライセンス: Link先を確認
Yuyang Ding, Juntao Li, Pinzheng Wang, Zecheng Tang, Bowen Yan, Min Zhang, (参考訳) 大きな言語モデル(LLM)は、目に見えないタスクを一般化する印象的な能力を示している。 Named Entity Recognition (NER) タスクでは、近年の進歩により、エンティティ中心スキーマを採用することで、命令チューニングによる幅広いエンティティドメインにおけるLLMの顕著な改善が見られた。 本研究では, 負のインスタンスをトレーニングに組み込むことにより, 既存の手法の潜在的な拡張について検討する。 実験の結果,(1)文脈情報の導入,(2)ラベル境界の明確化によって,負のインスタンスが顕著な改善に寄与していることが判明した。 さらに,非構造的予測を構造化エンティティに変換するように最適化したLCSマッチングアルゴリズムを導入する。 これらのコンポーネントを統合することで、未知のエンティティドメイン間でゼロショット性能が改善されたジェネレーティブNERシステムであるGNERを提案する。 総合評価では、ゼロショット評価において、最先端(SoTA)メソッドを9ドルF_1$スコアで上回り、システムの優位性を示している。

Large Language Models (LLMs) have demonstrated impressive capabilities for generalizing in unseen tasks. In the Named Entity Recognition (NER) task, recent advancements have seen the remarkable improvement of LLMs in a broad range of entity domains via instruction tuning, by adopting entity-centric schema. In this work, we explore the potential enhancement of the existing methods by incorporating negative instances into training. Our experiments reveal that negative instances contribute to remarkable improvements by (1) introducing contextual information, and (2) clearly delineating label boundaries. Furthermore, we introduce an efficient longest common subsequence (LCS) matching algorithm, which is tailored to transform unstructured predictions into structured entities. By integrating these components, we present GNER, a Generative NER system that shows improved zero-shot performance across unseen entity domains. Our comprehensive evaluation illustrates our system's superiority, surpassing state-of-the-art (SoTA) methods by 9 $F_1$ score in zero-shot evaluation.
翻訳日:2024-06-22 05:09:24 公開日:2024-06-19
# Twists、Humps、Pebbles:多言語音声認識モデル

Twists, Humps, and Pebbles: Multilingual Speech Recognition Models Exhibit Gender Performance Gaps ( http://arxiv.org/abs/2402.17954v2 )

ライセンス: Link先を確認
Giuseppe Attanasio, Beatrice Savoldi, Dennis Fucci, Dirk Hovy, (参考訳) 現在の自動音声認識(ASR)モデルは、多くの言語やタスクでかなりの変更を加えることなく使用できるように設計されている。 しかしながら、この広範な言語カバレッジは、例えば性別間での言語内のパフォーマンスギャップを隠蔽する。 本研究では,8つの言語族と2つの話し言葉条件から19の言語を包含する3つのデータセット上で,広く使用されている2つの多言語ASRモデルの性能を体系的に評価した。 以上の結果から,言語やモデルによって異なる傾向がみられた。 驚くべきことに、これらのギャップは音響的または語彙的特性によって説明されない。 しかし、内部モデル状態の探索は、性差と相関関係を示す。 すなわち、プローブを用いた言語における話者の性別の識別がより容易になるほど、ギャップが減り、女性話者が好まれる。 以上の結果から,最先端モデルにおいても男女格差は持続していることがわかった。 本研究は,学習データへのアクセシビリティの重要性と,性別格差の予測と緩和を目的としたニュアンス評価を,多言語ASRシステムの改善に寄与すると考えられる。 すべてのコードとアーティファクトをhttps://github.com/g8a9/multilingual-asr-gender-gapでリリースします。

Current automatic speech recognition (ASR) models are designed to be used across many languages and tasks without substantial changes. However, this broad language coverage hides performance gaps within languages, for example, across genders. Our study systematically evaluates the performance of two widely used multilingual ASR models on three datasets, encompassing 19 languages from eight language families and two speaking conditions. Our findings reveal clear gender disparities, with the advantaged group varying across languages and models. Surprisingly, those gaps are not explained by acoustic or lexical properties. However, probing internal model states reveals a correlation with gendered performance gap. I.e., the easier it is to distinguish speaker gender in a language using probes, the more the gap reduces, favoring female speakers. Our results show that gender disparities persist even in state-of-the-art models. Our findings have implications for the improvement of multilingual ASR systems, underscoring the importance of accessibility to training data and nuanced evaluation to predict and mitigate gender gaps. We release all code and artifacts at https://github.com/g8a9/multilingual-asr-gender-gap.
翻訳日:2024-06-22 04:59:27 公開日:2024-06-19
# 多目的微分可能なニューラルアーキテクチャ探索

Multi-objective Differentiable Neural Architecture Search ( http://arxiv.org/abs/2402.18213v2 )

ライセンス: Link先を確認
Rhea Sanjay Sukthanker, Arber Zela, Benedikt Staffler, Samuel Dooley, Josif Grabocka, Frank Hutter, (参考訳) 多目的最適化(MOO)におけるパレートフロントプロファイリング、すなわち多様なパレート最適解を見つけることは、特にニューラルネットワークトレーニングのような高価な目的において困難である。 通常、MOOニューラルアーキテクチャサーチ(NAS)では、デバイス間でパフォーマンスとハードウェアメトリクスのバランスをとることを目的としています。 従来のNASアプローチでは、ハードウェア制約を対象関数に組み込むことで、このタスクを単純化するが、Paretoフロントをプロファイリングするには、計算的に高価な各制約の探索が必要である。 本研究では,NASアルゴリズムを提案する。NASアルゴリズムは,性能とハードウェアのトレードオフを符号化し,複数のデバイスにまたがる代表的かつ多様なアーキテクチャを1回の検索で生成する。 この目的のために、ハードウェアの特徴や嗜好ベクトルに条件付け可能なハイパーネットワークを用いて、デバイス間の共同アーキテクチャ分布と複数の目的をパラメータ化し、新しいデバイスへのゼロショット転送を可能にする。 最大19個のハードウェアデバイスと3つの目標を用いた大規模な実験により,本手法の有効性とスケーラビリティが示された。 最後に,画像Net-1k上のMobileNetV3や,機械翻訳用エンコーダ・デコーダ変換空間,言語モデリング用デコーダのみのトランスフォーマ空間など,定性的に異なる検索空間やデータセットで既存のMOO NASメソッドよりも優れていることを示す。

Pareto front profiling in multi-objective optimization (MOO), i.e. finding a diverse set of Pareto optimal solutions, is challenging, especially with expensive objectives like neural network training. Typically, in MOO neural architecture search (NAS), we aim to balance performance and hardware metrics across devices. Prior NAS approaches simplify this task by incorporating hardware constraints into the objective function, but profiling the Pareto front necessitates a computationally expensive search for each constraint. In this work, we propose a novel NAS algorithm that encodes user preferences for the trade-off between performance and hardware metrics, and yields representative and diverse architectures across multiple devices in just one search run. To this end, we parameterize the joint architectural distribution across devices and multiple objectives via a hypernetwork that can be conditioned on hardware features and preference vectors, enabling zero-shot transferability to new devices. Extensive experiments with up to 19 hardware devices and 3 objectives showcase the effectiveness and scalability of our method. Finally, we show that, without extra costs, our method outperforms existing MOO NAS methods across a broad range of qualitatively different search spaces and datasets, including MobileNetV3 on ImageNet-1k, an encoder-decoder transformer space for machine translation and a decoder-only transformer space for language modelling.
翻訳日:2024-06-22 04:59:27 公開日:2024-06-19
# 自然言語を超えて: LLMは推論と通信の強化のための代替フォーマットを活用する

Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication ( http://arxiv.org/abs/2402.18439v3 )

ライセンス: Link先を確認
Weize Chen, Chenfei Yuan, Jiarui Yuan, Yusheng Su, Chen Qian, Cheng Yang, Ruobing Xie, Zhiyuan Liu, Maosong Sun, (参考訳) 自然言語(NL)は、人間の認知とコミュニケーションの主要なフォーマットであり、拡張によっても、Large Language Models(LLM)の開発と応用において同様に重要な役割を担っている。 しかし、NL以外にも、LLMはコードや論理式など、事前学習中に様々な非NLフォーマットを目にしている。 特に単一LLM推論やマルチエージェント通信において、LLMの最適フォーマットとしてのNLの地位は、十分に検討されていない。 本研究では,これらの文脈における非NLフォーマットの有用性を検討することで,NLのデフォルト利用に挑戦する。 LLMが推論や通信に先立って、最も適したフォーマットを自律的に選択できるようにすることで、異なるLLMの推論効率が3.3~5.7 %向上し、通信効率を維持しつつ、マルチエージェント通信におけるトークン使用率を72.7 %まで削減できることを示す。 我々の包括的分析により、LLMは限られたタスク命令からフォーマットを作成でき、考案されたフォーマットは異なるLLM間で効果的に転送可能であることが明らかとなった。 興味深いことに、LLMによって決定される構造化通信形式は、確立されたエージェント通信言語と顕著な類似性を示し、エージェント通信における効率的な構造化通信への自然な進化を示唆している。 私たちのコードは \url{https://github.com/thunlp/AutoForm} でリリースされています。

Natural language (NL) has long been the predominant format for human cognition and communication, and by extension, has been similarly pivotal in the development and application of Large Language Models (LLMs). Yet, besides NL, LLMs have seen various non-NL formats during pre-training, such as code and logical expression. NL's status as the optimal format for LLMs, particularly in single-LLM reasoning and multi-agent communication, has not been thoroughly examined. In this work, we challenge the default use of NL by exploring the utility of non-NL formats in these contexts. We show that allowing LLMs to autonomously select the most suitable format before reasoning or communicating leads to a 3.3 to 5.7\% improvement in reasoning efficiency for different LLMs, and up to a 72.7\% reduction in token usage in multi-agent communication, all while maintaining communicative effectiveness. Our comprehensive analysis further reveals that LLMs can devise a format from limited task instructions and that the devised format is effectively transferable across different LLMs. Intriguingly, the structured communication format decided by LLMs exhibits notable parallels with established agent communication languages, suggesting a natural evolution towards efficient, structured communication in agent communication. Our code is released at \url{https://github.com/thunlp/AutoForm}.
翻訳日:2024-06-22 04:59:27 公開日:2024-06-19
# アクタークリティカルにおける過大評価, 過大適合, 塑性 -強化学習の分岐授業-

Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning ( http://arxiv.org/abs/2403.00514v2 )

ライセンス: Link先を確認
Michal Nauman, Michał Bortkiewicz, Piotr Miłoś, Tomasz Trzciński, Mateusz Ostaszewski, Marek Cygan, (参考訳) オフ・ポリティクス強化学習(RL)の最近の進歩は、主に従来のエージェントよりも勾配更新のステップを増やせるような様々な形態の正規化の導入により、サンプル効率を著しく改善している。 しかし、これらの技法の多くは限定的な設定でテストされ、しばしばシングルシミュレーションベンチマークのタスクや、様々な正規化アプローチではなくよく知られたアルゴリズムに対してテストされている。 これにより、RLの改善を促進する特定のメカニズムの理解が制限されます。 これを解決するために60以上のオフポリシーエージェントを実装し、それぞれが最新の最先端アルゴリズムから確立された正規化技術を統合する。 これらのエージェントは、2つのシミュレーションベンチマークから、過大評価、過度な適合、可塑性損失に関連するトレーニングメトリクスを測定することで、調査された正規化テクニックを動機付ける14のタスクにわたってテストしました。 その結果、特定の正規化設定の有効性はタスクによって異なるが、特定の組み合わせは一貫して堅牢で優れた性能を示すことがわかった。 特に、ソフトアクター・クライブエージェントは、適切に正規化され、従来は主にモデルベースのアプローチによって達成されていたトレーニング体制の中で、より良いパフォーマンスのポリシーを確実に見つける。

Recent advancements in off-policy Reinforcement Learning (RL) have significantly improved sample efficiency, primarily due to the incorporation of various forms of regularization that enable more gradient update steps than traditional agents. However, many of these techniques have been tested in limited settings, often on tasks from single simulation benchmarks and against well-known algorithms rather than a range of regularization approaches. This limits our understanding of the specific mechanisms driving RL improvements. To address this, we implemented over 60 different off-policy agents, each integrating established regularization techniques from recent state-of-the-art algorithms. We tested these agents across 14 diverse tasks from 2 simulation benchmarks, measuring training metrics related to overestimation, overfitting, and plasticity loss -- issues that motivate the examined regularization techniques. Our findings reveal that while the effectiveness of a specific regularization setup varies with the task, certain combinations consistently demonstrate robust and superior performance. Notably, a simple Soft Actor-Critic agent, appropriately regularized, reliably finds a better-performing policy within the training regime, which previously was achieved mainly through model-based approaches.
翻訳日:2024-06-22 04:59:27 公開日:2024-06-19
# スピン1原子の一般化ディックモデルのダイナミクス

Dynamics of a Generalized Dicke Model for Spin-1 Atoms ( http://arxiv.org/abs/2403.01716v2 )

ライセンス: Link先を確認
Ofri Adiv, Scott Parkins, (参考訳) ディックモデルは理論空洞量子力学(キャビティQED)の基礎であり、原子のアンサンブルと光学空洞の単一放射モードの間の相互作用を記述する。 量子力学的および半古典的に2レベル原子について研究され、相転移、相乗法、カオスなどの様々な力学を実証している。 本研究では、独立な共回転結合項と反回転結合項を持つ開スピン1ディックモデルと、原子エネルギーレベル構造の制御を可能にする二次ゼーマンシフトについて検討する。 本研究では,2つの近似の下での演算子およびモーメント方程式の安定性について検討し,その系が相転移することを示す。 これらの結果を補完するため、上記の近似を緩和し、半古典的にシステムを調べる。 この半古典的モデルにおいて, 相転移が定常および振動性超放射光に遷移することを示すとともに, カオス力学の出現を示す。 モデルによって認識される多様で複雑な振る舞いは、そのダイナミクスをより厳密にマッピングする必要性を強調します。

The Dicke model is a staple of theoretical cavity Quantum Electrodynamics (cavity QED), describing the interaction between an ensemble of atoms and a single radiation mode of an optical cavity. It has been studied both quantum mechanically and semiclassically for two-level atoms, and demonstrates a rich variety of dynamics such as phase transitions, phase multistability, and chaos. In this work we explore an open, spin-1 Dicke model with independent co- and counter-rotating coupling terms as well as a quadratic Zeeman shift enabling control over the atomic energy-level structure. We investigate the stability of operator and moment equations under two approximations and show the system undergoes phase transitions. To compliment these results, we relax the aforementioned approximations and investigate the system semiclassically. We show evidence of phase transitions to steady-state and oscillatory superradiance in this semiclassical model, as well as the emergence of chaotic dynamics. The varied and complex behaviours admitted by the model highlights the need to more rigorously map its dynamics.
翻訳日:2024-06-22 04:59:27 公開日:2024-06-19
# データ類似性のないフェデレーション学習アルゴリズムの収束性について

On the Convergence of Federated Learning Algorithms without Data Similarity ( http://arxiv.org/abs/2403.02347v2 )

ライセンス: Link先を確認
Ali Beikmohammadi, Sarit Khirirat, Sindri Magnússon, (参考訳) データ類似性の仮定は、伝統的に、連合学習法の収束挙動を理解するために依存されてきた。 残念なことに、このアプローチはデータ類似度のレベルに基づいて、微調整のステップサイズを必要とすることが多い。 データの類似性が低い場合、これらの小さなステップサイズは、フェデレートされたメソッドに対して、許容できないほど遅い収束速度をもたらす。 本稿では、データ類似性条件を必要とせずに、フェデレーション学習アルゴリズムの収束を分析するための、新しい統一されたフレームワークを提案する。 我々の分析は、ステップサイズがアルゴリズム収束性能に与える影響を捉える不等式に焦点を当てている。 我々の定理をよく知られたフェデレーションアルゴリズムに適用することにより、データ類似性条件に依存しない3つの広く使われているステップサイズ(固定、縮小、ステップデカイステップサイズ)の正確な式を導出する。 最後に、これらのフェデレーション学習アルゴリズムの性能を総合的に評価し、提案したステップサイズ戦略を用いて、様々なデータ類似性条件下で、ベンチマークデータセット上でディープニューラルネットワークモデルをトレーニングする。 本研究は, 統合学習研究において, 収束速度と全体的な性能が著しく向上したことを示すものである。

Data similarity assumptions have traditionally been relied upon to understand the convergence behaviors of federated learning methods. Unfortunately, this approach often demands fine-tuning step sizes based on the level of data similarity. When data similarity is low, these small step sizes result in an unacceptably slow convergence speed for federated methods. In this paper, we present a novel and unified framework for analyzing the convergence of federated learning algorithms without the need for data similarity conditions. Our analysis centers on an inequality that captures the influence of step sizes on algorithmic convergence performance. By applying our theorems to well-known federated algorithms, we derive precise expressions for three widely used step size schedules: fixed, diminishing, and step-decay step sizes, which are independent of data similarity conditions. Finally, we conduct comprehensive evaluations of the performance of these federated learning algorithms, employing the proposed step size strategies to train deep neural network models on benchmark datasets under varying data similarity conditions. Our findings demonstrate significant improvements in convergence speed and overall performance, marking a substantial advancement in federated learning research.
翻訳日:2024-06-22 04:59:27 公開日:2024-06-19
# 知識付加型ゼロショット質問回答のためのエビデンスに基づくファクト要約

Evidence-Focused Fact Summarization for Knowledge-Augmented Zero-Shot Question Answering ( http://arxiv.org/abs/2403.02966v2 )

ライセンス: Link先を確認
Sungho Ko, Hyunjin Cho, Hyungjoo Chae, Jinyoung Yeo, Dongha Lee, (参考訳) 近年,Large Language Models (LLMs) のQA(Quesetion Answering) 性能を向上させるために知識グラフ (KGs) を利用することが研究されている。 三重形式や自由形式による三重形式事実のテキスト変換といった既存の手法は、いくつかの問題に直面している。 これには、重複した実体や関係による証拠密度の低下や、重要な証拠を強調することができないことによる証拠の明確さの低下が含まれる。 これらの課題に対処するために,知識付加型LLMを用いたQA向上のための,エビデンスに着目したFact SummarizationフレームワークであるEFSumを提案する。 我々は,蒸留と選好アライメントにより,オープンソースのLCMを事実要約器として最適化する。 EFSumはLLMのゼロショットQA性能を向上し,その有用性と忠実さを両立させることが可能であることを示す。

Recent studies have investigated utilizing Knowledge Graphs (KGs) to enhance Quesetion Answering (QA) performance of Large Language Models (LLMs), yet structured KG verbalization remains challengin. Existing methods, such as triple-form or free-form textual conversion of triple-form facts, encounter several issues. These include reduced evidence density due to duplicated entities or relationships, and reduced evidence clarity due to an inability to emphasize crucial evidence. To address these issues, we propose EFSum, an Evidence-focused Fact Summarization framework for enhanced QA with knowledge-augmented LLMs. We optimize an open-source LLM as a fact summarizer through distillation and preference alignment. Our extensive experiments show that EFSum improves LLM's zero-shot QA performance, and it is possible to ensure both the helpfulness and faithfulness of the summary.
翻訳日:2024-06-22 04:59:27 公開日:2024-06-19
# LLM4Decompile: 大きな言語モデルでバイナリコードを分解する

LLM4Decompile: Decompiling Binary Code with Large Language Models ( http://arxiv.org/abs/2403.05286v2 )

ライセンス: Link先を確認
Hanzhuo Tan, Qi Luo, Jing Li, Yuqun Zhang, (参考訳) Decompilationはバイナリコードを高レベルのソースコードに変換することを目的としているが、Ghidraのような従来のツールは読み書きが難しい結果を生み出すことが多い。 LLM(Large Language Models)の進歩に触発されて,バイナリコードをデコンパイルするために訓練された,最初の,かつ最大のLLMシリーズ(1.3Bから33B)であるLLM4Decompileを提案する。 LLMのトレーニングプロセスを最適化し、直接バイナリをデコンパイルするLLM4Decompile-Endモデルを導入する。 その結果、GPT-4oとGhidraをHumanEvalとExeBenchベンチマークで100%以上上回った。 さらに、LLM4Decompile-Refモデルを微調整する標準的な改良手法を改良し、Ghidraからのデコンパイルコードを効果的に洗練し、LLM4Decompile-Endよりも16.2%改善する。 LLM4Decompileは、LLMがバイナリコードのデコンパイルに革命をもたらす可能性を実証する。 私たちのコード、データセット、モデルはhttps://github.com/albertan017/LLM4Decompileでリリースされます。

Decompilation aims to convert binary code to high-level source code, but traditional tools like Ghidra often produce results that are difficult to read and execute. Motivated by the advancements in Large Language Models (LLMs), we propose LLM4Decompile, the first and largest open-source LLM series (1.3B to 33B) trained to decompile binary code. We optimize the LLM training process and introduce the LLM4Decompile-End models to decompile binary directly. The resulting models significantly outperform GPT-4o and Ghidra on the HumanEval and ExeBench benchmarks by over 100%. Additionally, we improve the standard refinement approach to fine-tune the LLM4Decompile-Ref models, enabling them to effectively refine the decompiled code from Ghidra and achieve a further 16.2% improvement over the LLM4Decompile-End. LLM4Decompile demonstrates the potential of LLMs to revolutionize binary code decompilation, delivering remarkable improvements in readability and executability while complementing conventional tools for optimal results. Our code, dataset, and models are released at https://github.com/albertan017/LLM4Decompile
翻訳日:2024-06-22 04:59:27 公開日:2024-06-19
# 電子量子シミュレータにおけるサイス格子の実装と評価

Implementation and characterization of the dice lattice in the electron quantum simulator ( http://arxiv.org/abs/2403.06040v3 )

ライセンス: Link先を確認
Camillo Tassi, Dario Bercioux, (参考訳) 接点、局所状態、平らなバンドを特徴とする材料は、トポロジー、量子幾何学、超伝導、相互作用に影響を及ぼすため、凝縮物質や人工システムに大きな関心を持っている。 本研究では, 111)銅表面の二次元電子系上に一酸化炭素分子を配置することにより, 調整可能なパラメータによるダイス格子の実験的実現を提案する。 まず、ほぼ自由な電子近似の中でスペクトル特性を得るための理論的枠組みを開発し、それらを強結合計算と比較する。 本研究は, ショックレー状態電子の高モビリティにより, 局所密度における接触点, 準平ら帯, 局所格子部位の挙動の出現により, 隣り合う強結合モデルを用いて, 人工格子の正確な理論的記述が可能であることを明らかにした。 さらに,次のアレスト近傍ホッピング項を考慮した長波長低エネルギーモデルに関する理論的結果を示す。 さらに、理論的には、格子モデルに磁場を組み込む理論物理学において一般的に用いられるピエル置換法を用いて、外部磁場下でのモデルの挙動を理論的に検討する。 実験結果から,アハロノフ-ボームケージ機構にともなう高縮退エネルギーは,電子移動性に起因している可能性が示唆された。

Materials featuring touching points, localized states, and flat bands are of great interest in condensed matter and artificial systems due to their implications in topology, quantum geometry, superconductivity, and interactions. In this theoretical study, we propose the experimental realization of the dice lattice with adjustable parameters by arranging carbon monoxide molecules on a two-dimensional electron system at a (111) copper surface. First, we develop a theoretical framework to obtain the spectral properties within a nearly free electron approximation and then compare them with tight-binding calculations. Our investigation reveals that the high mobility of Shockley state electrons enables an accurate theoretical description of the artificial lattice using a next-nearest-neighbor tight-binding model, resulting in the emergence of a touching point, a quasi-flat band, and localized lattice site behavior in the local density of states. Additionally, we present theoretical results for a long-wavelength low-energy model that accounts for next-nearest-neighbor hopping terms. Furthermore, we theoretically examine the model's behavior under an external magnetic field by employing Peierl's substitution, a commonly used technique in theoretical physics to incorporate magnetic fields into lattice models. Our theoretical findings suggest that, owing to the exceptional electron mobility, the highly degenerate eigenenergy associated with the Aharonov-Bohm caging mechanism may not manifest in the proposed experiment.
翻訳日:2024-06-22 04:49:43 公開日:2024-06-19
# 調波発振器から反転発振器への断熱と瞬時遷移

Adiabatic versus instantaneous transitions from a harmonic oscillator to an inverted oscillator ( http://arxiv.org/abs/2403.06377v2 )

ライセンス: Link先を確認
Viktor V. Dodonov, Alexandre V. Dodonov, (参考訳) 我々は、平均エネルギーとその分散(エネルギー変動のキャラクタリゼーション)について、周波数が0を通過した後のアディバティックな状態において時間依存性の周波数を持つ量子調和振動子の明確な解析式を得た。 エネルギーの振舞いは、2つのケースで大きく異なることが判明した。 第1のケースでは、周波数が初期値に戻ると平均エネルギーは常に増加し、インクリメント係数は周波数交差ゼロのパワー則の指数によって決定される。 一方、周波数が虚数になった場合、平均エネルギーの絶対値は、ハミルトニアンが時間に依存しない限り、断続的な状態でも指数関数的に増加する。 単純な断熱近似式(英語版)の先行項に対する小さな補正は、運動の不安定な性質のため、この場合非常に重要である。

We have obtained explicit analytical formulas for the mean energy and its variance (characterizing the energy fluctuations) of a quantum harmonic oscillator with time-dependent frequency in the adiabatic regimes after the frequency passes through zero. The behavior of energy turns out to be quite different in two cases: when the frequency remains real and when it becomes imaginary. In the first case, the mean energy always increases when the frequency returns to its initial value, and the increment coefficient is determined by the exponent in the power law of the frequency crossing zero. On the other hand, if the frequency becomes imaginary, the absolute value of mean energy increases exponentially, even in the adiabatic regime, unless the Hamiltonian becomes time independent. Small corrections to the leading terms of simple adiabatic approximate formulas are crucial in this case, due to the unstable nature of the motion.
翻訳日:2024-06-22 04:49:43 公開日:2024-06-19
# クリロフ複雑性の検証に向けて

Towards verifications of Krylov complexity ( http://arxiv.org/abs/2403.06391v2 )

ライセンス: Link先を確認
Ryu Sasaki, (参考訳) クリロフ複雑性は、ハミルトン力学の下で進化する作用素の成長の尺度であると考えられている。 主な戦略は、クリロフ部分空間 $\mathcal{K}_M(\mathcal{H},\eta)$ の構造解析であり、リウヴィル作用素 $\mathcal{L}$, $\mathcal{L}:=[\mathcal{H},\cdot]$ 演算子 $\eta$, $\mathcal{K}_M(\mathcal{H},\eta)=\text{span}\{\eta,\mathcal{L}\eta,\ldots,\mathcal{L}^{M-1}\eta\eta$ で定義される可換作用素 $\mathcal{L}$ の複数の応用によって構成される。 作用素の与えられた内部積 $(\cdot,\cdot)$ に対して、正規直交基底 $\{\mathcal{O}_n\}$ はランツォスアルゴリズムにより $\mathcal{O}_0=\eta/\sqrt{(\eta,\eta)}$ から構成される。 モーメント $\mu_m=(\mathcal{O}_0,\mathcal{L}^m\mathcal{O}_0)$ は重要なデータ $\{b_n\}$ と密接に関連している。 私は16の量子力学系のモーメントの完全かつ明示的な表現をSchr\odinger と Heisenberg の両方で正確に解けるように提示する。 演算子 $\eta$ は固有ポリノミアルの変数である。 そのうち6つの系は「非複素性」の明確な兆候を示し、より高次のランツォスの係数は、$b_m=0$, $m\ge3$である。

Krylov complexity is considered to provide a measure of the growth of operators evolving under Hamiltonian dynamics. The main strategy is the analysis of the structure of Krylov subspace $\mathcal{K}_M(\mathcal{H},\eta)$ spanned by the multiple applications of the Liouville operator $\mathcal{L}$ defined by the commutator in terms of a Hamiltonian $\mathcal{H}$, $\mathcal{L}:=[\mathcal{H},\cdot]$ acting on an operator $\eta$, $\mathcal{K}_M(\mathcal{H},\eta)=\text{span}\{\eta,\mathcal{L}\eta,\ldots,\mathcal{L}^{M-1}\eta\}$. For a given inner product $(\cdot,\cdot)$ of the operators, the orthonormal basis $\{\mathcal{O}_n\}$ is constructed from $\mathcal{O}_0=\eta/\sqrt{(\eta,\eta)}$ by Lanczos algorithm. The moments $\mu_m=(\mathcal{O}_0,\mathcal{L}^m\mathcal{O}_0)$ are closely related to the important data $\{b_n\}$ called Lanczos coefficients. I present the exact and explicit expressions of the moments $\{\mu_m\}$ for 16 quantum mechanical systems which are {\em exactly solvable both in the Schr\"odinger and Heisenberg pictures}. The operator $\eta$ is the variable of the eigenpolynomials. Among them six systems show a clear sign of `non-complexity' as vanishing higher Lanczos coefficients $b_m=0$, $m\ge3$.
翻訳日:2024-06-22 04:49:43 公開日:2024-06-19
# 連続学習シナリオに対する適応型ハイパーパラメータ最適化

Adaptive Hyperparameter Optimization for Continual Learning Scenarios ( http://arxiv.org/abs/2403.07015v2 )

ライセンス: Link先を確認
Rudy Semola, Julio Hurtado, Vincenzo Lomonaco, Davide Bacciu, (参考訳) 連続的な学習シナリオにおけるハイパーパラメータの選択は、特に実践的な非定常環境において、困難で未探索な側面である。 すべてのタスクから保持された検証データを持つグリッド検索のような従来のアプローチは、正確な生涯学習システムを構築するには非現実的です。 本稿では,連続学習におけるハイパーパラメータ選択の役割と,課題の複雑度に応じて連続的かつ自動的な調整の必要性について検討する。 そこで本研究では,シーケンスタスク学習の特性を活用し,ハイパーパラメータ最適化効率を向上させることを提案する。 分散に基づく手法の機能解析を用いて、性能に影響を及ぼす最も重要なハイパーパラメータを同定する。 提案手法は,連続的なシナリオや戦略に依存しない手法で,タスク間のハイパーパラメータ最適化を継続的に高速化し,逐次的なタスク順序に直面する場合においても堅牢性を示すことを実証的に実証する。 我々は,本研究の成果が,より効率的で堅牢で適応可能な実世界の応用モデルへの継続的な学習手法の進歩に寄与すると考えている。

Hyperparameter selection in continual learning scenarios is a challenging and underexplored aspect, especially in practical non-stationary environments. Traditional approaches, such as grid searches with held-out validation data from all tasks, are unrealistic for building accurate lifelong learning systems. This paper aims to explore the role of hyperparameter selection in continual learning and the necessity of continually and automatically tuning them according to the complexity of the task at hand. Hence, we propose leveraging the nature of sequence task learning to improve Hyperparameter Optimization efficiency. By using the functional analysis of variance-based techniques, we identify the most crucial hyperparameters that have an impact on performance. We demonstrate empirically that this approach, agnostic to continual scenarios and strategies, allows us to speed up hyperparameters optimization continually across tasks and exhibit robustness even in the face of varying sequential task orders. We believe that our findings can contribute to the advancement of continual learning methodologies towards more efficient, robust and adaptable models for real-world applications.
翻訳日:2024-06-22 04:49:43 公開日:2024-06-19
# FSC:Few-point Shape Completion

FSC: Few-point Shape Completion ( http://arxiv.org/abs/2403.07359v5 )

ライセンス: Link先を確認
Xianzu Wu, Xianfeng Wu, Tianyu Luan, Yajing Bai, Zhongyuan Lai, Junsong Yuan, (参考訳) これまでの研究では、十分な数の点で3次元オブジェクトの形状を完遂することに成功したが、数点(例えば数十点)が観測された場合、しばしば失敗する。 驚くべきことに、エントロピー解析により、いくつかの点、例えば64点でさえ、物体の3次元形状を復元するのに十分な情報を保持できることが判明した。 極めてスパースな点雲による形状完備化の課題に対処するため, 極めてスパースな入力を処理するための新しいデュアルブランチ特徴抽出器と, 動的に重要な割り当てを行うためのサリエンシブランチを併用したFew-point Shape Completion (FSC)モデルを提案する。 このモデルは、抽出された特徴とデコーダ出力の両方を洗練し、完了した点雲の詳細と信頼性を高める2段階のリビジョンネットワークによってさらに強化されている。 実験では,数点から3次元形状を復元できる可能性を示した。 提案したFew-point Shape Completion (FSC) モデルは、小点入力と多点入力の両方において従来の手法よりも優れ、異なる対象カテゴリに対して優れた一般化性を示す。

While previous studies have demonstrated successful 3D object shape completion with a sufficient number of points, they often fail in scenarios when a few points, e.g. tens of points, are observed. Surprisingly, via entropy analysis, we find that even a few points, e.g. 64 points, could retain substantial information to help recover the 3D shape of the object. To address the challenge of shape completion with very sparse point clouds, we then propose Few-point Shape Completion (FSC) model, which contains a novel dual-branch feature extractor for handling extremely sparse inputs, coupled with an extensive branch for maximal point utilization with a saliency branch for dynamic importance assignment. This model is further bolstered by a two-stage revision network that refines both the extracted features and the decoder output, enhancing the detail and authenticity of the completed point cloud. Our experiments demonstrate the feasibility of recovering 3D shapes from a few points. The proposed Few-point Shape Completion (FSC) model outperforms previous methods on both few-point inputs and many-point inputs, and shows good generalizability to different object categories.
翻訳日:2024-06-22 04:49:43 公開日:2024-06-19
# StableToolBench: 大規模言語モデルのツール学習における安定的な大規模ベンチマークを目指して

StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models ( http://arxiv.org/abs/2403.07714v4 )

ライセンス: Link先を確認
Zhicheng Guo, Sijie Cheng, Hao Wang, Shihao Liang, Yujia Qin, Peng Li, Zhiyuan Liu, Maosong Sun, Yang Liu, (参考訳) 大規模言語モデル(LLM)は近年、目覚ましい進歩を目の当たりにしており、LLMと外部ツールを統合して様々な現実世界の課題に対処するツール学習の探求を促している。 LLMのツール活用能力を評価するには、大規模で安定したベンチマークが必要である。 しかし、以前の作業は、手作りのオンラインツールに限られているか、APIステータスの不安定さに悩まされている大規模な実際のオンラインAPIに依存していた。 この問題に対処するため、ToolBenchから進化したベンチマークであるStableToolBenchを導入し、仮想APIサーバと安定した評価システムを提案する。 仮想APIサーバには、キャッシングシステムとAPIシミュレータが含まれており、APIステータスの変更を緩和するための補完となる。 一方、安定評価システムは、GPT-4を自動評価器として使用し、評価中のランダム性を排除し、解決可能なパスと勝利率を設計する。 実験により,StableToolBenchの安定性を実証し,APIシミュレータ,キャッシングシステム,評価システムの有効性について検討した。

Large Language Models (LLMs) have witnessed remarkable advancements in recent years, prompting the exploration of tool learning, which integrates LLMs with external tools to address diverse real-world challenges. Assessing the capability of LLMs to utilise tools necessitates large-scale and stable benchmarks. However, previous works relied on either hand-crafted online tools with limited scale, or large-scale real online APIs suffering from instability of API status. To address this problem, we introduce StableToolBench, a benchmark evolving from ToolBench, proposing a virtual API server and stable evaluation system. The virtual API server contains a caching system and API simulators which are complementary to alleviate the change in API status. Meanwhile, the stable evaluation system designs solvable pass and win rates using GPT-4 as the automatic evaluator to eliminate the randomness during evaluation. Experimental results demonstrate the stability of StableToolBench, and further discuss the effectiveness of API simulators, the caching system, and the evaluator system.
翻訳日:2024-06-22 04:49:43 公開日:2024-06-19
# Debatrix: LLMに基づく反復時間解析による多次元議論判断

Debatrix: Multi-dimensional Debate Judge with Iterative Chronological Analysis Based on LLM ( http://arxiv.org/abs/2403.08010v3 )

ライセンス: Link先を確認
Jingcong Liang, Rong Ye, Meng Han, Ruofei Lai, Xinyu Zhang, Xuanjing Huang, Zhongyu Wei, (参考訳) 広範囲で活気あるマルチターンの議論を評価するために、自動討論審査をどうやって構築できるのか? この課題は、長いテキスト、複雑な議論関係、多次元アセスメントなどで議論されるので、難しい。 同時に、現在の研究は主に短い対話に焦点を当てており、議論全体を評価することはめったにない。 本稿では,Large Language Models (LLMs) を利用して,マルチターン討論の分析と評価を行うDebatrixを提案する。 具体的には、Debatrixは垂直かつ反復的な時系列分析と水平多次元評価コラボレーションを備えている。 実世界の議論シナリオに合わせるため、私たちはPanelBenchベンチマークを導入し、システムの性能と実際の議論結果を比較した。 以上の結果から,LSMを直接使用して議論評価を行うことによる顕著な改善が示唆された。 ソースコードとベンチマークデータはhttps://github.com/ljcleo/debatrix.comで公開されている。

How can we construct an automated debate judge to evaluate an extensive, vibrant, multi-turn debate? This task is challenging, as judging a debate involves grappling with lengthy texts, intricate argument relationships, and multi-dimensional assessments. At the same time, current research mainly focuses on short dialogues, rarely touching upon the evaluation of an entire debate. In this paper, by leveraging Large Language Models (LLMs), we propose Debatrix, which makes the analysis and assessment of multi-turn debates more aligned with majority preferences. Specifically, Debatrix features a vertical, iterative chronological analysis and a horizontal, multi-dimensional evaluation collaboration. To align with real-world debate scenarios, we introduced the PanelBench benchmark, comparing our system's performance to actual debate outcomes. The findings indicate a notable enhancement over directly using LLMs for debate evaluation. Source code and benchmark data are available online at https://github.com/ljcleo/debatrix .
翻訳日:2024-06-22 04:49:43 公開日:2024-06-19
# リンドブラッド進化における古典的量子対応

Classical-Quantum correspondence in Lindblad evolution ( http://arxiv.org/abs/2403.09345v4 )

ライセンス: Link先を確認
Jeffrey Galkowski, Zhen Huang, Maciej Zworski, (参考訳) 古典的ハミルトニアンと(多くは)線型に成長する古典的ジャンプ関数(ある楕円性条件を満たすと仮定されるジャンプ作用素に量子化され、より大きなシステムとのモデリング相互作用)を用いて定義されるリンドブラッドの進化について、量子可観測関数の進化はエルベルト-シュミットノルムにおける古典的フォッカー-プランクの進化に近く、エレンフェスト時(ジャンプ作用素とのそのような合意の限界)をはるかに超えていることを示す。 時間スケールは、Hern\'andez--Ranard--Riedelによる最近の論文と同じであるが、ステートメントとメソッドが異なる。 この付録は、リンドブラッド進化における古典的/量子対応を描写し、数学的結果と比較する数値実験を提示する。

We show that for the Lindblad evolution defined using (at most) quadratically growing classical Hamiltonians and (at most) linearly growing classical jump functions (quantized into jump operators assumed to satisfy certain ellipticity conditions and modeling interaction with a larger system), the evolution of a quantum observable remains close to the classical Fokker--Planck evolution in the Hilbert--Schmidt norm for times vastly exceeding the Ehrenfest time (the limit of such agreement with no jump operators). The time scale is the same as in the recent papers by Hern\'andez--Ranard--Riedel but the statement and methods are different. The appendix presents numerical experiments illustrating the classical/quantum correspondence in Lindblad evolution and comparing it to the mathematical results.
翻訳日:2024-06-22 04:49:43 公開日:2024-06-19
# LLM-Augmented autonomous agentは協力できるか? -メルティングポットによる協調能力の評価-

Can LLM-Augmented autonomous agents cooperate?, An evaluation of their cooperative capabilities through Melting Pot ( http://arxiv.org/abs/2403.11381v2 )

ライセンス: Link先を確認
Manuel Mosquera, Juan Sebastian Pinzon, Manuel Rios, Yesid Fonseca, Luis Felipe Giraldo, Nicanor Quijano, Ruben Manrique, (参考訳) AIの分野が発展を続けるにつれて、この進歩の重要な側面は、大規模言語モデルの開発と、マルチエージェント人工知能システムを強化する可能性である。 本稿では,GPT4 や GPT3.5 などの参照モデルとともに,よく知られた Meltin Pot 環境を用いた大規模言語モデル拡張自律エージェント (LAA) の協調機能について検討する。 予備的な結果は、これらのエージェントが協調性を示す一方で、より堅牢なアーキテクチャの必要性を強調しながら、与えられた環境で効果的なコラボレーションに苦戦していることを示唆している。 研究のコントリビューションには、LLMのメルティングポットゲームシナリオに適応するための抽象化レイヤ、LLMを介するエージェント開発のための再利用可能なアーキテクチャの実装、短期記憶と異なる認知モジュールを含むこと、メルティングポットの"Commons Harvest"ゲームに関連する一連のメトリクスを使用した協調能力の評価が含まれている。 論文は、現在のアーキテクチャフレームワークの限界と、LAA間のより良い協力を促進する新しいモジュールセットの可能性について議論することで、締めくくっている。

As the field of AI continues to evolve, a significant dimension of this progression is the development of Large Language Models and their potential to enhance multi-agent artificial intelligence systems. This paper explores the cooperative capabilities of Large Language Model-augmented Autonomous Agents (LAAs) using the well-known Meltin Pot environments along with reference models such as GPT4 and GPT3.5. Preliminary results suggest that while these agents demonstrate a propensity for cooperation, they still struggle with effective collaboration in given environments, emphasizing the need for more robust architectures. The study's contributions include an abstraction layer to adapt Melting Pot game scenarios for LLMs, the implementation of a reusable architecture for LLM-mediated agent development - which includes short and long-term memories and different cognitive modules, and the evaluation of cooperation capabilities using a set of metrics tied to the Melting Pot's "Commons Harvest" game. The paper closes, by discussing the limitations of the current architectural framework and the potential of a new set of modules that fosters better cooperation among LAAs.
翻訳日:2024-06-22 04:39:52 公開日:2024-06-19
# ERASE:Deep Recommenderシステムのためのベンチマーク機能選択手法

ERASE: Benchmarking Feature Selection Methods for Deep Recommender Systems ( http://arxiv.org/abs/2403.12660v3 )

ライセンス: Link先を確認
Pengyue Jia, Yejing Wang, Zhaocheng Du, Xiangyu Zhao, Yichao Wang, Bo Chen, Wanyu Wang, Huifeng Guo, Ruiming Tang, (参考訳) Deep Recommender Systems(DRS)は、より正確なレコメンデーションのために、多くの機能フィールドに依存している。 その結果, 効率的な特徴選択手法は, 精度をさらに向上し, 配置要求に合うように, ストレージ効率を最適化するために重要になっている。 この研究領域は、特にDSSの文脈において、生まれてから3つの課題に直面している。 第一に、研究論文にまたがる様々な実験装置は、しばしば不公平な比較をもたらし、実践的な洞察を妨げている。 第二に、既存の文献では、大規模なデータセットに基づく選択属性の詳細な分析が欠如しており、選択手法とDSSのバックボーンの徹底的な比較が、発見の一般化性を制限し、DSSへの展開を妨げている。 最後に、しばしば特徴選択法によって達成可能なピーク性能の比較に焦点をあてるが、これは典型的には最適なハイパーパラメータを識別できないアプローチであり、これらの手法の堅牢性と安定性を評価するために見落としている。 これらのギャップを埋めるために,本論文では,DRSのためのフェースセレクションのための包括的bEnchmaRkであるERASEについて述べる。 ERASEは、従来のとディープラーニングの両方のアプローチをカバーし、4つのパブリックデータセット、プライベート産業データセット、および現実世界の商用プラットフォームを通じて、11のフィーチャーセレクションメソッドを徹底的に評価し、大幅な拡張を実現している。 私たちのコードは簡単に再現できる。

Deep Recommender Systems (DRS) are increasingly dependent on a large number of feature fields for more precise recommendations. Effective feature selection methods are consequently becoming critical for further enhancing the accuracy and optimizing storage efficiencies to align with the deployment demands. This research area, particularly in the context of DRS, is nascent and faces three core challenges. Firstly, variant experimental setups across research papers often yield unfair comparisons, obscuring practical insights. Secondly, the existing literature's lack of detailed analysis on selection attributes, based on large-scale datasets and a thorough comparison among selection techniques and DRS backbones, restricts the generalizability of findings and impedes deployment on DRS. Lastly, research often focuses on comparing the peak performance achievable by feature selection methods, an approach that is typically computationally infeasible for identifying the optimal hyperparameters and overlooks evaluating the robustness and stability of these methods. To bridge these gaps, this paper presents ERASE, a comprehensive bEnchmaRk for feAture SElection for DRS. ERASE comprises a thorough evaluation of eleven feature selection methods, covering both traditional and deep learning approaches, across four public datasets, private industrial datasets, and a real-world commercial platform, achieving significant enhancement. Our code is available online for ease of reproduction.
翻訳日:2024-06-22 04:39:52 公開日:2024-06-19
# 音声分類のための可聴マップ

Listenable Maps for Audio Classifiers ( http://arxiv.org/abs/2403.13086v3 )

ライセンス: Link先を確認
Francesco Paissan, Mirco Ravanelli, Cem Subakan, (参考訳) さまざまなタスクにわたるディープラーニングモデルの素晴らしいパフォーマンスにもかかわらず、その複雑さは解釈に挑戦する。 この課題は、音声信号の伝達が本質的に困難になる場合に特に顕著である。 この問題に対処するために,音声分類のためのリスナブルマップ (L-MAC) を導入し,忠実で聞きやすい解釈を生成するポストホック解釈法を提案する。 L-MACは、事前訓練された分類器の上のデコーダを使用して、入力オーディオの関連部分をハイライトするバイナリマスクを生成する。 我々は、マスクアウト部分のモデル出力の確率を最小化しつつ、音声のマスクイン部分における分類器決定の信頼性を最大化する損失関数でデコーダを訓練する。 領域内および領域外データの定量的評価は、L-MACが複数の勾配およびマスキングに基づく手法よりも一貫して忠実な解釈を生成することを示す。 さらに,ユーザスタディでは,提案手法が生成した解釈を平均的に好んでいることを確認した。

Despite the impressive performance of deep learning models across diverse tasks, their complexity poses challenges for interpretation. This challenge is particularly evident for audio signals, where conveying interpretations becomes inherently difficult. To address this issue, we introduce Listenable Maps for Audio Classifiers (L-MAC), a posthoc interpretation method that generates faithful and listenable interpretations. L-MAC utilizes a decoder on top of a pretrained classifier to generate binary masks that highlight relevant portions of the input audio. We train the decoder with a loss function that maximizes the confidence of the classifier decision on the masked-in portion of the audio while minimizing the probability of model output for the masked-out portion. Quantitative evaluations on both in-domain and out-of-domain data demonstrate that L-MAC consistently produces more faithful interpretations than several gradient and masking-based methodologies. Furthermore, a user study confirms that, on average, users prefer the interpretations generated by the proposed technique.
翻訳日:2024-06-22 04:39:52 公開日:2024-06-19
# LLMにおける「培養」の測定とモデル化に向けて

Towards Measuring and Modeling "Culture" in LLMs: A Survey ( http://arxiv.org/abs/2403.15412v4 )

ライセンス: Link先を確認
Muhammad Farid Adilazuarda, Sagnik Mukherjee, Pradhyumna Lavania, Siddhant Singh, Alham Fikri Aji, Jacki O'Neill, Ashutosh Modi, Monojit Choudhury, (参考訳) 本稿では,大言語モデル(LLM)における文化的表現と包摂性の研究を目的とした,90以上の最近の論文について調査する。 いずれの研究も「文化」を明示的に定義せず、複雑な多面的概念であり、代わりに「文化」の特定の側面を表す特別に設計されたデータセット上でモデルを探索している。 これらの側面を文化のプロキシと呼び、人口統計学と意味論的プロキシの2つの側面にまたがってそれらを整理します。 また、使用する探索方法も分類する。 分析の結果,「文化」の「価値」や目的」といった特定の側面のみが研究されており,特にセマンティックドメインの多様さ (Thompson et al , 2020) や,非探索的な話題 (Hershcovich et al , 2022) が残されている。 その他の2つの重要なギャップは、探索技術の堅牢性の欠如と、LLMベースの応用における文化的誤表現と低表現の影響に関する位置研究である。

We present a survey of more than 90 recent papers that aim to study cultural representation and inclusion in large language models (LLMs). We observe that none of the studies explicitly define "culture, which is a complex, multifaceted concept; instead, they probe the models on some specially designed datasets which represent certain aspects of "culture". We call these aspects the proxies of culture, and organize them across two dimensions of demographic and semantic proxies. We also categorize the probing methods employed. Our analysis indicates that only certain aspects of ``culture,'' such as values and objectives, have been studied, leaving several other interesting and important facets, especially the multitude of semantic domains (Thompson et al., 2020) and aboutness (Hershcovich et al., 2022), unexplored. Two other crucial gaps are the lack of robustness of probing techniques and situated studies on the impact of cultural mis- and under-representation in LLM-based applications.
翻訳日:2024-06-22 04:39:52 公開日:2024-06-19
# MatchSeg: 参照画像マッチングによるセグメンテーションの改善を目指す

MatchSeg: Towards Better Segmentation via Reference Image Matching ( http://arxiv.org/abs/2403.15901v2 )

ライセンス: Link先を確認
Ruiqiang Xiao, Jiayu Huo, Haotian Zheng, Yang Liu, Sebastien Ourselin, Rachel Sparks, (参考訳) 近年,深層学習に基づく医用画像の自動分割法は大きな成功を収めている。 しかし、彼らは大きな注釈付きデータセットに大きく依存しており、取得にはコストと時間を要する。 Few-shot Learningは、サポートセットとして知られる小さなラベル付きデータセットを使用して、クエリセットとして知られる新しいラベル付きイメージの予測ラベルをガイドすることで、注釈付きデータの必要性を克服することを目的としている。 このパラダイムに着想を得たMatchSegは,戦略的基準画像マッチングによる医用画像のセグメンテーションを強化する新しいフレームワークである。 我々は,言語画像事前学習(CLIP)を利用して,サポートセットを定義する際に,関連性の高いサンプルを選択する。 さらに,サポート機能とクエリ機能とのインタラクションを強化し,サポート機能とクエリセット間のより効果的な知識伝達を容易にするために,共同注目モジュールを設計する。 提案手法を4つの公開データセットで検証した。 実験の結果,MatchSegの領域分割性能とドメイン一般化能力は,ドメイン固有およびクロスドメインセグメンテーションタスクの既存手法と比較して優れていることが示された。 私たちのコードはhttps://github.com/keeplearning-again/MatchSegで利用可能です。

Recently, automated medical image segmentation methods based on deep learning have achieved great success. However, they heavily rely on large annotated datasets, which are costly and time-consuming to acquire. Few-shot learning aims to overcome the need for annotated data by using a small labeled dataset, known as a support set, to guide predicting labels for new, unlabeled images, known as the query set. Inspired by this paradigm, we introduce MatchSeg, a novel framework that enhances medical image segmentation through strategic reference image matching. We leverage contrastive language-image pre-training (CLIP) to select highly relevant samples when defining the support set. Additionally, we design a joint attention module to strengthen the interaction between support and query features, facilitating a more effective knowledge transfer between support and query sets. We validated our method across four public datasets. Experimental results demonstrate superior segmentation performance and powerful domain generalization ability of MatchSeg against existing methods for domain-specific and cross-domain segmentation tasks. Our code is made available at https://github.com/keeplearning-again/MatchSeg
翻訳日:2024-06-22 04:39:52 公開日:2024-06-19
# 大規模言語モデルエージェントを用いたアセット管理シェルの生成:産業4.0におけるデジタル双生児のセマンティック相互運用に向けて

Generation of Asset Administration Shell with Large Language Model Agents: Towards Semantic Interoperability in Digital Twins in the Context of Industry 4.0 ( http://arxiv.org/abs/2403.17209v3 )

ライセンス: Link先を確認
Yuchen Xia, Zhewen Xiao, Nasser Jazdi, Michael Weyrich, (参考訳) 本研究では,デジタル双生児におけるセマンティック・インターオペラビリティの実現と,産業4.0におけるデジタル双生児モデルとしてのアセット・アドミニストレーション・シェル(AAS)の作成を支援する新しいアプローチを提案する。 本研究の基本的な考え方は,意味論に基づくコミュニケーションと有意義なテキストデータ生成が直接リンクされていることである。 そこで本研究では,テキストデータのセマンティックな意味を捉えた「意味ノード」データ構造を構築した。 次に,大規模言語モデルを用いたシステムの設計と実装を行い,技術資産を記述したデータシートから収集した原文データから「意味ノード」を処理し,標準化されたデジタルツインモデルを生成する。 評価の結果,62~79%の有効生成率を示し,大言語モデルの生成能力を有するディジタルツインインスタンスモデルに対して,ソーステキストからの情報のかなりの割合を誤りなく翻訳できることが示唆された。 この結果は、Industrial 4.0の文脈で直接適用され、AASモデルを作成する際の手作業を減らすためのデータモデル生成ツールとして実装される。 本評価では、異なるLLMの比較分析と、レトリーバル拡張生成(RAG)機構の詳細なアブレーション研究により、LLMシステムの技術的概念の解釈とデータ翻訳における有効性について考察する。 本研究は,ALSインスタンスの自動生成能力を強調し,産業アプリケーションにおけるデジタル双生児のセマンティック相互運用性の幅広い分野に寄与する。 プロトタイプの実装と評価結果はGitHub Repositoryで発表されています。

This research introduces a novel approach for achieving semantic interoperability in digital twins and assisting the creation of Asset Administration Shell (AAS) as digital twin model within the context of Industry 4.0. The foundational idea of our research is that the communication based on semantics and the generation of meaningful textual data are directly linked, and we posit that these processes are equivalent if the exchanged information can be serialized in text form. Based on this, we construct a "semantic node" data structure in our research to capture the semantic essence of textual data. Then, a system powered by large language models is designed and implemented to process the "semantic node" and generate standardized digital twin models from raw textual data collected from datasheets describing technical assets. Our evaluation demonstrates an effective generation rate of 62-79%, indicating a substantial proportion of the information from the source text can be translated error-free to the target digital twin instance model with the generative capability of large language models. This result has a direct application in the context of Industry 4.0, and the designed system is implemented as a data model generation tool for reducing the manual effort in creating AAS model. In our evaluation, a comparative analysis of different LLMs and an in-depth ablation study of Retrieval-Augmented Generation (RAG) mechanisms provide insights into the effectiveness of LLM systems for interpreting technical concepts and translating data. Our findings emphasize LLMs' capability to automate AAS instance creation and contribute to the broader field of semantic interoperability for digital twins in industrial applications. The prototype implementation and evaluation results are presented on our GitHub Repository: https://github.com/YuchenXia/AASbyLLM.
翻訳日:2024-06-22 04:39:52 公開日:2024-06-19
# マスクオートエンコーダのオーバーフィットによる生成的パロイングの検出

Detecting Generative Parroting through Overfitting Masked Autoencoders ( http://arxiv.org/abs/2403.19050v3 )

ライセンス: Link先を確認
Saeid Asgari Taghanaki, Joseph Lambourne, (参考訳) 生成型AIモデルの出現は、デジタルコンテンツ作成に革命をもたらしたが、生成型パロットによる著作権の完全性を維持する上での課題を導入している。 本研究は, 過度に適合したMasked Autoencoder (MAE) を用いて, この課題に対処する新しい手法を提案する。 トレーニングデータセットの平均損失に基づいて検出しきい値を確立し、修正データセットにおけるオウム内容の正確な識別を可能にする。 予備評価の結果は有望な結果を示し,提案手法が倫理的利用を確実にし,生成モデルの法的遵守を強化する可能性を示唆している。

The advent of generative AI models has revolutionized digital content creation, yet it introduces challenges in maintaining copyright integrity due to generative parroting, where models mimic their training data too closely. Our research presents a novel approach to tackle this issue by employing an overfitted Masked Autoencoder (MAE) to detect such parroted samples effectively. We establish a detection threshold based on the mean loss across the training dataset, allowing for the precise identification of parroted content in modified datasets. Preliminary evaluations demonstrate promising results, suggesting our method's potential to ensure ethical use and enhance the legal compliance of generative models.
翻訳日:2024-06-22 04:39:52 公開日:2024-06-19
# TFB:時系列予測手法の総合的・公正なベンチマークに向けて

TFB: Towards Comprehensive and Fair Benchmarking of Time Series Forecasting Methods ( http://arxiv.org/abs/2403.20150v3 )

ライセンス: Link先を確認
Xiangfei Qiu, Jilin Hu, Lekui Zhou, Xingjian Wu, Junyang Du, Buang Zhang, Chenjuan Guo, Aoying Zhou, Christian S. Jensen, Zhenli Sheng, Bin Yang, (参考訳) 時系列は、経済、交通、健康、エネルギーといった様々な領域で生成され、将来の価値の予測には多くの重要な応用がある。 驚くことではないが、多くの予測方法が提案されている。 進展を確実にするためには、このような手法を包括的で信頼性の高い方法で実証的に研究・比較できることが不可欠である。 そこで本研究では,時系列予測(TSF)手法の自動ベンチマークであるTFBを提案する。 TFBは、データセット、比較方法、評価パイプラインに関連する欠点に対処することで、最先端の技術を進化させる。 1) データドメインのカバー不足。 2伝統的な方法に対するステレオタイプバイアス及び 3)無矛盾で柔軟性のないパイプライン。 よりよいドメインカバレッジを達成するために、トラフィック、電気、エネルギー、環境、自然、経済、株式市場、銀行、健康、ウェブの10の異なるドメインからのデータセットを含めます。 また、選択したデータセットが包括的であることを確実にするための時系列のキャラクタリゼーションも提供します。 いくつかの手法に対するバイアスを取り除くために,統計的学習,機械学習,深層学習など,さまざまな手法を含めるとともに,さまざまな評価戦略やメトリクスをサポートし,さまざまな手法のより包括的な評価を確実にする。 ベンチマークへのさまざまなメソッドの統合をサポートし、公正な比較を可能にするため、TFBは、バイアスを排除したフレキシブルでスケーラブルなパイプラインを備えている。 次に,21種類の一変量時系列予測(UTSF)法を8,068個の一変量時系列に対して,14個の多変量時系列予測(MTSF)法を25個のデータセット上で徹底的に評価するためにTFBを用いる。 ベンチマークコードとデータはhttps://github.com/decisionintelligence/TFBで公開されている。

Time series are generated in diverse domains such as economic, traffic, health, and energy, where forecasting of future values has numerous important applications. Not surprisingly, many forecasting methods are being proposed. To ensure progress, it is essential to be able to study and compare such methods empirically in a comprehensive and reliable manner. To achieve this, we propose TFB, an automated benchmark for Time Series Forecasting (TSF) methods. TFB advances the state-of-the-art by addressing shortcomings related to datasets, comparison methods, and evaluation pipelines: 1) insufficient coverage of data domains, 2) stereotype bias against traditional methods, and 3) inconsistent and inflexible pipelines. To achieve better domain coverage, we include datasets from 10 different domains: traffic, electricity, energy, the environment, nature, economic, stock markets, banking, health, and the web. We also provide a time series characterization to ensure that the selected datasets are comprehensive. To remove biases against some methods, we include a diverse range of methods, including statistical learning, machine learning, and deep learning methods, and we also support a variety of evaluation strategies and metrics to ensure a more comprehensive evaluations of different methods. To support the integration of different methods into the benchmark and enable fair comparisons, TFB features a flexible and scalable pipeline that eliminates biases. Next, we employ TFB to perform a thorough evaluation of 21 Univariate Time Series Forecasting (UTSF) methods on 8,068 univariate time series and 14 Multivariate Time Series Forecasting (MTSF) methods on 25 datasets. The benchmark code and data are available at https://github.com/decisionintelligence/TFB.
翻訳日:2024-06-22 04:30:07 公開日:2024-06-19
# MedCLIP-SAM:Universal Medical Image Segmentationに向けたテキストと画像のブリッジ

MedCLIP-SAM: Bridging Text and Image Towards Universal Medical Image Segmentation ( http://arxiv.org/abs/2403.20253v2 )

ライセンス: Link先を確認
Taha Koleilat, Hojat Asgariandehkordi, Hassan Rivaz, Yiming Xiao, (参考訳) 解剖学的構造と病理の医学的イメージセグメンテーションは、現代の臨床診断、疾患研究、治療計画において重要である。 これまで、ディープラーニングベースのセグメンテーション技術は大きな進歩を遂げてきたが、ほとんどの手法はデータ効率、一般化可能性、相互作用性に欠けていた。 したがって、ラベル付きデータセットの少ない新しい正確なセグメンテーション手法の開発は、医療画像解析において非常に重要である。 近年、CLIPやSAM(Segment-Anything-Model)などの基盤モデルが出現し、包括的なクロスドメイン表現が登場し、インタラクティブで普遍的なイメージセグメンテーションの扉が開かれた。 しかし、これらのデータ効率の良い医用画像分割のためのモデル探索は依然として限られているが、非常に必要である。 本稿では,CLIPモデルとSAMモデルを組み合わせて,ゼロショットと弱教師付き設定の両方でテキストプロンプトを用いて臨床スキャンのセグメンテーションを生成する,MedCLIP-SAMという新しいフレームワークを提案する。 そこで我々は,BiomedCLIPモデルと最新のgScoreCAMを微調整するためにDHN-NCE(Decoupled Hard Negative Noise Contrastive Estimation)を新たに導入し,ゼロショット設定でSAMからセグメンテーションマスクを得るプロンプトを生成する。 さらに,ゼロショットセグメンテーションラベルを弱教師付きパラダイムで使用して,セグメンテーションの品質をさらに向上する方法について検討した。 胸部超音波検査,脳腫瘍MRI検査,肺X線検査の3つのタスクと医用画像モダリティを広範囲にテストすることにより,提案手法の精度が向上した。 コードはhttps://github.com/HealthX-Lab/MedCLIP-SAMで入手できる。

Medical image segmentation of anatomical structures and pathology is crucial in modern clinical diagnosis, disease study, and treatment planning. To date, great progress has been made in deep learning-based segmentation techniques, but most methods still lack data efficiency, generalizability, and interactability. Consequently, the development of new, precise segmentation methods that demand fewer labeled datasets is of utmost importance in medical image analysis. Recently, the emergence of foundation models, such as CLIP and Segment-Anything-Model (SAM), with comprehensive cross-domain representation opened the door for interactive and universal image segmentation. However, exploration of these models for data-efficient medical image segmentation is still limited, but is highly necessary. In this paper, we propose a novel framework, called MedCLIP-SAM that combines CLIP and SAM models to generate segmentation of clinical scans using text prompts in both zero-shot and weakly supervised settings. To achieve this, we employed a new Decoupled Hard Negative Noise Contrastive Estimation (DHN-NCE) loss to fine-tune the BiomedCLIP model and the recent gScoreCAM to generate prompts to obtain segmentation masks from SAM in a zero-shot setting. Additionally, we explored the use of zero-shot segmentation labels in a weakly supervised paradigm to improve the segmentation quality further. By extensively testing three diverse segmentation tasks and medical image modalities (breast tumor ultrasound, brain tumor MRI, and lung X-ray), our proposed framework has demonstrated excellent accuracy. Code is available at https://github.com/HealthX-Lab/MedCLIP-SAM.
翻訳日:2024-06-22 04:30:07 公開日:2024-06-19
# 画像は千語を話すが、誰もが聴けるか? 文化的関連性のためのイメージトランスクリエーションについて

An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance ( http://arxiv.org/abs/2404.01247v3 )

ライセンス: Link先を確認
Simran Khanuja, Sathyanarayanan Ramamoorthy, Yueqi Song, Graham Neubig, (参考訳) マルチメディアコンテンツが盛んになると、人間の翻訳者は言葉だけでなく、同じ意味を伝えるために画像のような他のモダリティも文化的に適応することに集中するようになった。 この利点を享受するアプリケーションはいくつかあるが、機械翻訳システムは音声やテキストでの言語処理に限られている。 本研究では、画像の翻訳を文化的に意味のあるものにするための第一歩を踏み出す。 まず、そのタスクを行うために最先端の生成モデルからなる3つのパイプラインを構築します。 次に、2部評価データセットを構築します。 一 イメージごとに一つの概念に焦点をあてて、文化的に整合性のある600のイメージからなる概念 二 応用:現実世界の応用から算出した百枚の画像を含むもの 我々は,翻訳画像の多面的評価を行い,その文化的意義と保存性を評価する。 現在、画像編集モデルは、このタスクでは失敗するが、ループ内のLLMとレトリバーを活用することで改善できる。 ベストパイプラインは、より簡単なコンセプトデータセットで画像の5%しか変換できないため、アプリケーションデータセットのいくつかの国では翻訳が成功せず、タスクの難易度を強調している。 私たちのコードとデータはここでリリースされています。

Given the rise of multimedia content, human translators increasingly focus on culturally adapting not only words but also other modalities such as images to convey the same meaning. While several applications stand to benefit from this, machine translation systems remain confined to dealing with language in speech and text. In this work, we take a first step towards translating images to make them culturally relevant. First, we build three pipelines comprising state-of-the-art generative models to do the task. Next, we build a two-part evaluation dataset: i) concept: comprising 600 images that are cross-culturally coherent, focusing on a single concept per image, and ii) application: comprising 100 images curated from real-world applications. We conduct a multi-faceted human evaluation of translated images to assess for cultural relevance and meaning preservation. We find that as of today, image-editing models fail at this task, but can be improved by leveraging LLMs and retrievers in the loop. Best pipelines can only translate 5% of images for some countries in the easier concept dataset and no translation is successful for some countries in the application dataset, highlighting the challenging nature of the task. Our code and data is released here: https://github.com/simran-khanuja/image-transcreation.
翻訳日:2024-06-22 04:30:07 公開日:2024-06-19
# 持続可能な土壌管理慣行に対応する土壌呼吸信号は土壌有機炭素ストックを増強する

Soil respiration signals in response to sustainable soil management practices enhance soil organic carbon stocks ( http://arxiv.org/abs/2404.05737v2 )

ライセンス: Link先を確認
Mario Guevara, (参考訳) 土壌温度, 年次土壌水分, 土壌有機炭素(C)推定に基づく地球規模における土壌呼吸の時空間およびデータ駆動モデルの開発 比較的高精度な土壌呼吸予測(1991-2018) (NSE 0.69, CCC 0.82)。 土壌呼吸の傾向は, 土壌呼吸の傾向が低く, 土壌呼吸の規模が大きくなるとともに, 持続的な土壌管理の実践を経験する地域全体の土壌有機物在庫が増加した。

Development of a spatial-temporal and data-driven model of soil respiration at the global scale based on soil temperature, yearly soil moisture, and soil organic carbon (C) estimates. Prediction of soil respiration on an annual basis (1991-2018) with relatively high accuracy (NSE 0.69, CCC 0.82). Lower soil respiration trends, higher soil respiration magnitudes, and higher soil organic C stocks across areas experiencing the presence of sustainable soil management practices.
翻訳日:2024-06-22 04:30:07 公開日:2024-06-19
# 対称ハミルトニアンの学習

Learning Symmetric Hamiltonian ( http://arxiv.org/abs/2404.05936v2 )

ライセンス: Link先を確認
Jing Zhou, D. L. Zhou, (参考訳) ハミルトニアン・ラーニング(英: Hamiltonian Learning)は、量子情報処理における基本的な問題である計測からハミルトニアンを復元する過程である。 本研究では,対称ハミルトニアンを固有状態から学習する問題について検討する。 ブロック対角的世俗決定における群論の適用に着想を得て、固有状態から得られるハミルトン未知数に関する線形独立方程式の数を決定する方法を導出した。 この数は、ハミルトニアン対称性群の関連する既約表現の退化に対応する。 我々のアプローチを説明するために、XXXハミルトニアンおよびXXZハミルトニアンについて検討する。 まずハミルトニアン対称性群を決定し、それから既約表現の分解を解く。 我々の数値的な結果は、我々の理論的分析と一貫して一致している。

Hamiltonian Learning is a process of recovering system Hamiltonian from measurements, which is a fundamental problem in quantum information processing. In this study, we investigate the problem of learning the symmetric Hamiltonian from its eigenstate. Inspired by the application of group theory in block diagonal secular determination, we have derived a method to determine the number of linearly independent equations about the Hamiltonian unknowns obtained from an eigenstate. This number corresponds to the degeneracy of the associated irreducible representation of the Hamiltonian symmetry group. To illustrate our approach, we examine the XXX Hamiltonian and the XXZ Hamiltonian. We first determine the Hamiltonian symmetry group, then work out the decomposition of irreducible representation, which serves as foundation for analyzing the uniqueness of recovered Hamiltonian. Our numerical findings consistently align with our theoretical analysis.
翻訳日:2024-06-22 04:30:07 公開日:2024-06-19
# 生存分析のための確率論的ニューラルネットワークの効率的な訓練

Efficient Training of Probabilistic Neural Networks for Survival Analysis ( http://arxiv.org/abs/2404.06421v3 )

ライセンス: Link先を確認
Christian Marius Lillelund, Martin Magris, Christian Fischer Pedersen, (参考訳) 変分推論(VI)は、ディープラーニングモデルにおけるベイズ推定と不確実性推定を近似するために一般的に用いられる手法であるが、不確実性を表すためにトレーニング可能なパラメータの数を2倍にするため、計算コストがかかる。 これは高次元設定において急速に困難となり、モンテカルロ・ドロップアウト (MCD) やスペクトル正規化ニューラルガウス過程 (SNGP) などの代替手法の使用を動機付けている。 しかし、このような手法は生存分析にはほとんど採用されておらず、VIは確率的ニューラルネットワークをトレーニングするための一般的なアプローチである。 本稿では,大規模データセットの深層確率的生存モデルをモデル複雑性の付加的オーバーヘッドを伴わずにトレーニングする方法を検討する。 そこで我々は,VI,MCD,SNGPという3つの確率的アプローチを採用し,それらの予測性能,キャリブレーション性能,モデル複雑性の観点から評価する。 確率的生存分析の文脈において、非VI技術は、VIと比較して予測性能と不確実性校正を同等または改善できるかどうかを検討する。 MIMIC-IVデータセットでは、MCDは一致指数 (0.748 vs. 0.743) と、ヒンジ損失を用いた平均絶対誤差 (254.9 vs. 254.7) でVIと一致し、C校正された不確実性推定を提供する。 さらに、SNGP実装は、VI(4/4対2/4)と比較して、すべてのデータセットでD校正サバイバル機能を提供する。 我々の研究は、計算効率とオーバーヘッドが懸念される高次元データセットの生存分析にVIに代わる手法を使うことを奨励している。

Variational Inference (VI) is a commonly used technique for approximate Bayesian inference and uncertainty estimation in deep learning models, yet it comes at a computational cost, as it doubles the number of trainable parameters to represent uncertainty. This rapidly becomes challenging in high-dimensional settings and motivates the use of alternative techniques for inference, such as Monte Carlo Dropout (MCD) or Spectral-normalized Neural Gaussian Process (SNGP). However, such methods have seen little adoption in survival analysis, and VI remains the prevalent approach for training probabilistic neural networks. In this paper, we investigate how to train deep probabilistic survival models in large datasets without introducing additional overhead in model complexity. To achieve this, we adopt three probabilistic approaches, namely VI, MCD, and SNGP, and evaluate them in terms of their prediction performance, calibration performance, and model complexity. In the context of probabilistic survival analysis, we investigate whether non-VI techniques can offer comparable or possibly improved prediction performance and uncertainty calibration compared to VI. In the MIMIC-IV dataset, we find that MCD aligns with VI in terms of the concordance index (0.748 vs. 0.743) and mean absolute error (254.9 vs. 254.7) using hinge loss, while providing C-calibrated uncertainty estimates. Moreover, our SNGP implementation provides D-calibrated survival functions in all datasets compared to VI (4/4 vs. 2/4, respectively). Our work encourages the use of techniques alternative to VI for survival analysis in high-dimensional datasets, where computational efficiency and overhead are of concern.
翻訳日:2024-06-22 04:30:07 公開日:2024-06-19
# 執行のステートフル証明によるフェデレーション学習と差別化の防止

Poisoning Prevention in Federated Learning and Differential Privacy via Stateful Proofs of Execution ( http://arxiv.org/abs/2404.06721v3 )

ライセンス: Link先を確認
Norrathep Rattanavipanon, Ivan De Oliveira Nunes, (参考訳) IoT駆動の分散データ分析の台頭と、プライバシー上の懸念の高まりにより、効果的なプライバシ保護とフェデレーション付きデータ収集/モデルトレーニングメカニズムの需要が高まっている。 これに対し、フェデレートラーニング(FL)やローカルディファレンシャルプライバシ(LDP)といったアプローチが提案され、ここ数年で多くの注目を集めている。 しかし、敵の敵が敵のエッジデバイスに偽造された(毒を盛った)データをバックエンドに供給し、FL/LDP結果の整合性を損なうような、毒攻撃に弱いという共通の制限を共有している。 本研究では,IoT/組み込みデバイスのソフトウェアに対する,新しいセキュリティ概念PoSX(Proofs of Stateful Execution)に基づくシステムレベルのアプローチを提案する。 PoSX の概念を実現するため,私たちは SLAPP: System-Level Approach for Poisoning Prevention を設計した。 SLAPPは組み込みデバイス(特にARM TrustZoneMセキュリティ拡張)のコモディティセキュリティ機能を活用して、FL/LDPエッジデバイスルーチンの一部として、生の知覚データを正しい使用法に確実に結合する。 その結果、毒殺に対する堅牢なセキュリティ保証が提供される。 複数の暗号プリミティブとデータ収集スキームを備えた実世界のプロトタイプに基づいて評価を行ったところ,SLAPPのセキュリティとオーバーヘッドの低さが示された。

The rise in IoT-driven distributed data analytics, coupled with increasing privacy concerns, has led to a demand for effective privacy-preserving and federated data collection/model training mechanisms. In response, approaches such as Federated Learning (FL) and Local Differential Privacy (LDP) have been proposed and attracted much attention over the past few years. However, they still share the common limitation of being vulnerable to poisoning attacks wherein adversaries compromising edge devices feed forged (a.k.a. poisoned) data to aggregation back-ends, undermining the integrity of FL/LDP results. In this work, we propose a system-level approach to remedy this issue based on a novel security notion of Proofs of Stateful Execution (PoSX) for IoT/embedded devices' software. To realize the PoSX concept, we design SLAPP: a System-Level Approach for Poisoning Prevention. SLAPP leverages commodity security features of embedded devices - in particular ARM TrustZoneM security extensions - to verifiably bind raw sensed data to their correct usage as part of FL/LDP edge device routines. As a consequence, it offers robust security guarantees against poisoning. Our evaluation, based on real-world prototypes featuring multiple cryptographic primitives and data collection schemes, showcases SLAPP's security and low overhead.
翻訳日:2024-06-22 04:30:07 公開日:2024-06-19
# ハイパースペクトル画像のサブスペースクラスタリングのための展開ADMM

Unfolding ADMM for Enhanced Subspace Clustering of Hyperspectral Images ( http://arxiv.org/abs/2404.07112v2 )

ライセンス: Link先を確認
Xianlu Li, Nicolas Nadisic, Shaoguang Huang, Aleksandra Pižurica, (参考訳) ディープサブスペースクラスタリング法はクラスタリングにおいて注目され、一般的には完全に接続されたネットワークと自己表現損失関数を使用する。 しかし、これらの手法は過度に適合し、解釈性に欠けることが多い。 本稿では,深部展開に基づくクラスタリング手法を提案する。 ニューラルネットワークに反復最適化手法を展開することにより、データ駆動型ディープラーニング手法と比較して解釈可能性と信頼性が向上し、モデルベースアプローチよりも適応性と一般化が向上する。 したがって、展開は画像復元、再構成、超解像などの逆画像問題で広く用いられるようになったが、クラスタリングの文脈では十分に研究されていない。 本研究では,部分空間クラスタリングのためのマルチプライヤの交互方向法(ADMM)に基づく反復解法を展開させることにより,ハイパースペクトル画像(HSI)のための革新的なクラスタリングアーキテクチャを提案する。 我々の知る限り、これはサブスペースクラスタリングにおける自己表現行列の計算に展開ADMMを適用する最初の試みである。 さらに,本手法では,構造保存モジュールの一部として,K近傍近傍のアルゴリズムを用いて,HSIデータの構造特性をよく把握する。 3つの確立されたHSIデータセットの実験的評価は、HSIクラスタリングにおける展開アプローチの可能性を明確に示し、最先端技術よりも優れた性能を示している。

Deep subspace clustering methods are now prominent in clustering, typically using fully connected networks and a self-representation loss function. However, these methods often struggle with overfitting and lack interpretability. In this paper, we explore an alternative clustering approach based on deep unfolding. By unfolding iterative optimization methods into neural networks, this approach offers enhanced interpretability and reliability compared to data-driven deep learning methods, and greater adaptability and generalization than model-based approaches. Hence, unfolding has become widely used in inverse imaging problems, such as image restoration, reconstruction, and super-resolution, but has not been sufficiently explored yet in the context of clustering. In this work, we introduce an innovative clustering architecture for hyperspectral images (HSI) by unfolding an iterative solver based on the Alternating Direction Method of Multipliers (ADMM) for sparse subspace clustering. To our knowledge, this is the first attempt to apply unfolding ADMM for computing the self-representation matrix in subspace clustering. Moreover, our approach captures well the structural characteristics of HSI data by employing the K nearest neighbors algorithm as part of a structure preservation module. Experimental evaluation of three established HSI datasets shows clearly the potential of the unfolding approach in HSI clustering and even demonstrates superior performance compared to state-of-the-art techniques.
翻訳日:2024-06-22 04:30:07 公開日:2024-06-19
# 機械学習に頼ったリソースの割り当てはランダムにすべき

Scarce Resource Allocations That Rely On Machine Learning Should Be Randomized ( http://arxiv.org/abs/2404.08592v3 )

ライセンス: Link先を確認
Shomik Jain, Kathleen Creel, Ashia Wilson, (参考訳) アルゴリズムフェアネスの伝統的な決定論的概念とは対照的に、機械学習を用いて不足資源を割当するにはランダム性を必要とすることが多い、と本論文は主張する。 個人がソーシャルグッズや機会を割り当てなければならないという主張を、より適切に考慮する確率的手続きを提案することによって、なぜ、いつ、どのようにランダム化するかに対処する。

Contrary to traditional deterministic notions of algorithmic fairness, this paper argues that fairly allocating scarce resources using machine learning often requires randomness. We address why, when, and how to randomize by proposing stochastic procedures that more adequately account for all of the claims that individuals have to allocations of social goods or opportunities.
翻訳日:2024-06-22 04:18:42 公開日:2024-06-19
# ヒッチハイカーのSOへのガイドである3次元回転による学習(3)

Learning with 3D rotations, a hitchhiker's guide to SO(3) ( http://arxiv.org/abs/2404.11735v2 )

ライセンス: Link先を確認
A. René Geist, Jonas Frey, Mikel Zobro, Anna Levina, Georg Martius, (参考訳) 機械学習における多くの設定は回転表現の選択を必要とする。 しかし、利用可能な多くの選択肢から適切な表現を選択することは難しい。 本論文は、回転表現によるサーベイおよびガイドとして機能する。 勾配ベースの最適化でディープラーニングを損なう、あるいは利益をもたらす、彼らの特性を調べます。 回転に基づく学習からの洞察を集約することにより、回転表現を用いた学習機能の包括的概要を提供する。 モデルの入力や出力に回転があるか、データに主に小さな角度があるかに基づいて表現を選択するためのガイダンスを提供する。

Many settings in machine learning require the selection of a rotation representation. However, choosing a suitable representation from the many available options is challenging. This paper acts as a survey and guide through rotation representations. We walk through their properties that harm or benefit deep learning with gradient-based optimization. By consolidating insights from rotation-based learning, we provide a comprehensive overview of learning functions with rotation representations. We provide guidance on selecting representations based on whether rotations are in the model's input or output and whether the data primarily comprises small angles.
翻訳日:2024-06-22 04:18:42 公開日:2024-06-19
# 実・LLM生成ソーシャルメディアデータにおける異文化間呼吸検出と分析

Cross-cultural Inspiration Detection and Analysis in Real and LLM-generated Social Media Data ( http://arxiv.org/abs/2404.12933v2 )

ライセンス: Link先を確認
Oana Ignat, Gayathri Ganesh Lakshmy, Rada Mihalcea, (参考訳) 吸気は、創造性、生産性、幸福など、様々なポジティブな結果に結びついている。 インスピレーションは大きな可能性を秘めているが、単にエンゲージメントやポジティブではなく、インスピレーションを与えるコンテンツを特定する努力は限られている。 さらに、ほとんどの研究は西洋のデータに集中しており、他の文化にはほとんど注意を払わない。 この研究は、機械学習を通じて異文化間のインスピレーションを初めて研究した。 我々は、実物とAIが生み出す異文化の刺激的なポストを特定し、分析することを目指している。 InspAIredデータセットは、2000のリアルインスパイアされたポスト、2000のリアルインスパイアされたポスト、2000の生成されたインスパイアされたポストがインドとイギリスに均等に分散している。 実際の投稿はRedditからソースされ、生成された投稿はGPT-4モデルを使って作成される。 このデータセットを用いて,(1)文化間でのインスピレーションコンテンツの比較,(2)AI生成したインスピレーションポストと実際のインスピレーションポストを比較し,(3)検出モデルが文化やデータソース間でインスピレーションコンテンツと正確に区別できるかどうかを判断する。

Inspiration is linked to various positive outcomes, such as increased creativity, productivity, and happiness. Although inspiration has great potential, there has been limited effort toward identifying content that is inspiring, as opposed to just engaging or positive. Additionally, most research has concentrated on Western data, with little attention paid to other cultures. This work is the first to study cross-cultural inspiration through machine learning methods. We aim to identify and analyze real and AI-generated cross-cultural inspiring posts. To this end, we compile and make publicly available the InspAIred dataset, which consists of 2,000 real inspiring posts, 2,000 real non-inspiring posts, and 2,000 generated inspiring posts evenly distributed across India and the UK. The real posts are sourced from Reddit, while the generated posts are created using the GPT-4 model. Using this dataset, we conduct extensive computational linguistic analyses to (1) compare inspiring content across cultures, (2) compare AI-generated inspiring posts to real inspiring posts, and (3) determine if detection models can accurately distinguish between inspiring content across cultures and data sources.
翻訳日:2024-06-22 04:18:42 公開日:2024-06-19
# MAiDE-up:GPT生成ホテルレビューの多言語誤り検出

MAiDE-up: Multilingual Deception Detection of GPT-generated Hotel Reviews ( http://arxiv.org/abs/2404.12938v2 )

ライセンス: Link先を確認
Oana Ignat, Xiaomeng Xu, Rada Mihalcea, (参考訳) 認知的レビューは、特にLLMのパフォーマンス向上と普及により、ますます一般的になっている。 これまでの研究は、真実と偽りの人間レビューを区別するモデルの開発に取り組んできたが、実際のレビューとAIが作成した偽レビューの区別についてはあまり知られていない。 さらに、これまでの研究のほとんどは英語に重点を置いており、他の言語にはほとんど注力していない。 本稿では,10言語間でバランスの取れた1万のAI生成ホテルレビューと1万のAI生成ホテルレビューからなるMAiDE-upデータセットをコンパイルし,公開する。 本データセットを用いて,(1)AI偽ホテルレビューと実際のホテルレビューを比較し,(2)偽造検出モデルの性能に影響を与える要因を特定する。 ホテルレビューにおいて, 感情, 場所, 言語という3つの主要な側面にまたがって, 虚偽検出のための複数のモデルの有効性について検討した。 これらの次元は、AIが生成した偽レビューをいかに検出できるかに影響を及ぼす。

Deceptive reviews are becoming increasingly common, especially given the increase in performance and the prevalence of LLMs. While work to date has addressed the development of models to differentiate between truthful and deceptive human reviews, much less is known about the distinction between real reviews and AI-authored fake reviews. Moreover, most of the research so far has focused primarily on English, with very little work dedicated to other languages. In this paper, we compile and make publicly available the MAiDE-up dataset, consisting of 10,000 real and 10,000 AI-generated fake hotel reviews, balanced across ten languages. Using this dataset, we conduct extensive linguistic analyses to (1) compare the AI fake hotel reviews to real hotel reviews, and (2) identify the factors that influence the deception detection model performance. We explore the effectiveness of several models for deception detection in hotel reviews across three main dimensions: sentiment, location, and language. We find that these dimensions influence how well we can detect AI-generated fake reviews.
翻訳日:2024-06-22 04:18:42 公開日:2024-06-19
# DG-RePlace: 機械学習アクセラレータのためのデータフロー駆動型GPU駆動型解析的グローバルプレースメントフレームワーク

DG-RePlAce: A Dataflow-Driven GPU-Accelerated Analytical Global Placement Framework for Machine Learning Accelerators ( http://arxiv.org/abs/2404.13049v2 )

ライセンス: Link先を確認
Andrew B. Kahng, Zhiang Wang, (参考訳) グローバル配置はVLSI物理設計の基本的なステップである。 機械学習アクセラレーターにおける2Dプロセッシングエレメント(PE)アレイの広範な使用は、最先端の学術的グローバルプレーサーにとって、スケーラビリティとQoR(Quality of Results)という新たな課題をもたらす。 本研究では,OpenROADインフラストラクチャ上に構築されたGPUを高速化する新しいグローバル配置フレームワークであるDG-RePlAceを開発し,機械学習アクセラレータの固有のデータフローとデータパス構造を利用する。 市販の12nmイネーブメントを用いた各種機械学習アクセラレータによる実験結果から,RePlAce(DREAMPlace)と比較して,経路線長を10%(7%),全負スラック(TNS)を31%削減し,より高速なグローバル配置とDREAMPlaceに対する全実行時間を実現した。 TILOS MacroPlacement Benchmarksに関する実証研究は、RePlAceとDREAMPlaceに対する時間後改善が、機械学習アクセラレーターへのモチベーション以上のものとなることをさらに証明している。

Global placement is a fundamental step in VLSI physical design. The wide use of 2D processing element (PE) arrays in machine learning accelerators poses new challenges of scalability and Quality of Results (QoR) for state-of-the-art academic global placers. In this work, we develop DG-RePlAce, a new and fast GPU-accelerated global placement framework built on top of the OpenROAD infrastructure, which exploits the inherent dataflow and datapath structures of machine learning accelerators. Experimental results with a variety of machine learning accelerators using a commercial 12nm enablement show that, compared with RePlAce (DREAMPlace), our approach achieves an average reduction in routed wirelength by 10% (7%) and total negative slack (TNS) by 31% (34%), with faster global placement and on-par total runtimes relative to DREAMPlace. Empirical studies on the TILOS MacroPlacement Benchmarks further demonstrate that post-route improvements over RePlAce and DREAMPlace may reach beyond the motivating application to machine learning accelerators.
翻訳日:2024-06-22 04:18:42 公開日:2024-06-19
# 主観的NLP課題に対するアノテータ中心能動学習

Annotator-Centric Active Learning for Subjective NLP Tasks ( http://arxiv.org/abs/2404.15720v2 )

ライセンス: Link先を確認
Michiel van der Meer, Neele Falk, Pradeep K. Murukannaiah, Enrico Liscio, (参考訳) アクティブラーニング(AL)は、最も有益なサンプルを戦略的に注釈付けすることで、人間のアノテーションを収集するコストに対処する。 しかし、主観的NLPタスクでは、アノテーションプロセスに幅広い視点を取り入れることが人間の判断の多様性を捉える上で重要である。 本稿では,データサンプリングに続き,アノテーション選択戦略を取り入れたACAL(Annotator-Centric Active Learning)を提案する。 本研究の目的は,(1)人間の判断の多様性を効果的に近似すること,(2)アノテータ中心の指標を用いてモデル性能を評価すること,である。 従来の評価指標と人間中心評価指標の両方を用いて、7つの主観的NLPタスクにまたがる複数のアノテータ選択戦略を実験した。 以上の結果から,ACALはデータ効率を向上し,アノテータ中心の性能評価に優れることが示唆された。 しかし、その成功は、十分に大きく多様なアノテータのプールがサンプルとして利用できることに依存している。

Active Learning (AL) addresses the high costs of collecting human annotations by strategically annotating the most informative samples. However, for subjective NLP tasks, incorporating a wide range of perspectives in the annotation process is crucial to capture the variability in human judgments. We introduce Annotator-Centric Active Learning (ACAL), which incorporates an annotator selection strategy following data sampling. Our objective is two-fold: (1) to efficiently approximate the full diversity of human judgments, and (2) to assess model performance using annotator-centric metrics, which emphasize minority perspectives over a majority. We experiment with multiple annotator selection strategies across seven subjective NLP tasks, employing both traditional and novel, human-centered evaluation metrics. Our findings indicate that ACAL improves data efficiency and excels in annotator-centric performance evaluations. However, its success depends on the availability of a sufficiently large and diverse pool of annotators to sample from.
翻訳日:2024-06-22 04:18:42 公開日:2024-06-19
# 遠隔推論のためのタイムリーコミュニケーション

Timely Communications for Remote Inference ( http://arxiv.org/abs/2404.16281v2 )

ライセンス: Link先を確認
Md Kamran Chowdhury Shisher, Yin Sun, I-Hong Hou, (参考訳) 本稿では,センサノード(例えばカメラ)で観測された特徴(例えば,ビデオフレーム)に基づいて,トレーニング済みニューラルネットワークブルーが時間変化目標(例えば,車両や歩行者の位置)を推定する遠隔推論システムにおけるデータの鮮度の影響を分析する。 リモート推論システムの性能は、機能が不安定になると単調に低下すると予想されるかもしれない。 情報理論解析を用いて、特徴量と対象データ列がマルコフ連鎖と密接に近似できるならば、これは事実であることを示すが、データ列がマルコフ連鎖から遠く離れている場合はそうではない。 したがって、推測誤差は情報時代(AoI)の関数であり、その関数は非単調である可能性がある。 実時間での推論誤差を最小限に抑えるために,従来の研究で用いた「ジェネレート・アット・ウィル」モデルよりも一般的である特徴を送出するための新しい「選択・ゼロ・バッファ」モデルを提案する。 さらに、推論性能を向上させるために、低複雑さスケジューリングポリシーを設計する。 シングルソースのシングルチャネルシステムでは、最適なスケジューリングポリシーを提供する。 マルチソースマルチチャネルシステムでは、スケジューリング問題はマルチアクションレスマルチアームバンディット問題となる。 この設定のために,Whittleインデックスに基づくソース選択と二元性に基づく特徴選択をバッファから選択することで,新しいスケジューリングポリシーを設計する。 この新しいスケジューリングポリシーは漸近的に最適であることが証明されている。 これらのスケジューリング結果は、一般的なAoI関数(単調あるいは非単調)を最小化する。 データ駆動型評価は、提案したスケジューリングポリシーの重要な利点を示す。

In this paper, we analyze the impact of data freshness on remote inference systems, where a pre-trained neural network blue infers a time-varying target (e.g., the locations of vehicles and pedestrians) based on features (e.g., video frames) observed at a sensing node (e.g., a camera). One might expect that the performance of a remote inference system degrades monotonically as the feature becomes stale. Using an information-theoretic analysis, we show that this is true if the feature and target data sequence can be closely approximated as a Markov chain, whereas it is not true if the data sequence is far from being Markovian. Hence, the inference error is a function of Age of Information (AoI), where the function could be non-monotonic. To minimize the inference error in real-time, we propose a new "selection-from-buffer" model for sending the features, which is more general than the "generate-at-will" model used in earlier studies. In addition, we design low-complexity scheduling policies to improve inference performance. For single-source, single-channel systems, we provide an optimal scheduling policy. In multi-source, multi-channel systems, the scheduling problem becomes a multi-action restless multi-armed bandit problem. For this setting, we design a new scheduling policy by integrating Whittle index-based source selection and duality-based feature selection-from-buffer algorithms. This new scheduling policy is proven to be asymptotically optimal. These scheduling results hold for minimizing general AoI functions (monotonic or non-monotonic). Data-driven evaluations demonstrate the significant advantages of our proposed scheduling policies.
翻訳日:2024-06-22 04:18:42 公開日:2024-06-19
# Lazy Data Practices Harm Fairness Research

Lazy Data Practices Harm Fairness Research ( http://arxiv.org/abs/2404.17293v2 )

ライセンス: Link先を確認
Jan Simson, Alessandro Fabris, Christoph Kern, (参考訳) データプラクティスは、機械学習(フェアML)における公正性の研究と実践を形作る。 批判的データ研究は、欠点を強調し、改善のための推奨を提案することによって、フィールドの責任ある進歩に重要なリフレクションと批判を与える。 本研究は,機械学習の公正なデータセットを包括的に分析し,予測できないが一般的なプラクティスが,アルゴリズム的公正な発見の到達と信頼性を妨げていることを実証する。 グラフデータセットに符号化された保護情報とその使用法を,142の出版物にわたる280の実験で体系的に研究した。 分析では,(1)データと評価の両方において,保護された属性の表現の「textbf{lack」,(2)データ前処理時の「マイノリティの排除」,(3)フェアネス研究の一般化を脅かす「textbf{opaque data processing"」の3つの主要な領域を抽出した。 顕著なデータセットの利用に関する模範的な分析を行うことで、不適切なデータ決定が少数派グループ、公正度指標、結果のモデル比較にどのように不均衡に影響を及ぼすかを実証する。 さらに、公開データの制限、プライバシーの考慮、認識の全般的欠如など、これらの課題を悪化させる補足的要因を同定する。 これらの課題に対処するために、透明性と責任ある包摂性を中心とした公正な研究において、データ使用に関する一連の勧告を提案する。 この研究は、公正なMLにおけるデータプラクティスの批判的な再評価の必要性を強調し、データセットのソーシングと使用の両方を改善するための指針を提供する。

Data practices shape research and practice on fairness in machine learning (fair ML). Critical data studies offer important reflections and critiques for the responsible advancement of the field by highlighting shortcomings and proposing recommendations for improvement. In this work, we present a comprehensive analysis of fair ML datasets, demonstrating how unreflective yet common practices hinder the reach and reliability of algorithmic fairness findings. We systematically study protected information encoded in tabular datasets and their usage in 280 experiments across 142 publications. Our analyses identify three main areas of concern: (1) a \textbf{lack of representation for certain protected attributes} in both data and evaluations; (2) the widespread \textbf{exclusion of minorities} during data preprocessing; and (3) \textbf{opaque data processing} threatening the generalization of fairness research. By conducting exemplary analyses on the utilization of prominent datasets, we demonstrate how unreflective data decisions disproportionately affect minority groups, fairness metrics, and resultant model comparisons. Additionally, we identify supplementary factors such as limitations in publicly available data, privacy considerations, and a general lack of awareness, which exacerbate these challenges. To address these issues, we propose a set of recommendations for data usage in fairness research centered on transparency and responsible inclusion. This study underscores the need for a critical reevaluation of data practices in fair ML and offers directions to improve both the sourcing and usage of datasets.
翻訳日:2024-06-22 04:18:42 公開日:2024-06-19
# CoSD:コントラストな異種トピックグラフ学習による協調的スタンス検出

CoSD: Collaborative Stance Detection with Contrastive Heterogeneous Topic Graph Learning ( http://arxiv.org/abs/2404.17609v2 )

ライセンス: Link先を確認
Yinghan Cheng, Qi Zhang, Chongyang Shi, Liang Xiao, Shufeng Hao, Liang Hu, (参考訳) スタンス検出は、特定の目標や議論の的となるトピックに対して、個人の視点を特定しようとする。 姿勢検出のための現在の高度なニューラルネットワークは、通常完全にパラメトリックなソフトマックス分類器を使用する。 しかし、これらの手法には、説明可能性の欠如、潜伏データ構造への敏感さ、一様性など、いくつかの制限がある。 このような課題に対処するために,コントラストのある異種トピックグラフ学習を活用して,テキスト,トピック,スタンスラベル間のトピック認識や協調的な信号の学習を行う,新しい協調的スタンス検出フレームワーク(CoSD)を提案する。 トレーニング中、潜在ディリクレアロケーションを用いて、暗黙のトピックを通してテキストやスタンスを構造的に整理する異種グラフを構築した。 次に、異種ノード表現を学習し、詳細なコラボレーション伝搬集約(CPA)モジュールを介して情報的な複数ホップ協調信号を集約するコントラストグラフ学習を行う。 推論において,トピック認識のセマンティクスと協調信号の包括的組み込みを可能にするハイブリッド類似度スコアリングモジュールを導入し,姿勢検出を行う。 2つのベンチマークデータセットに対する大規模な実験は、CoSDの最先端検出性能を示し、協調フレームワークの有効性と説明可能性を検証する。

Stance detection seeks to identify the viewpoints of individuals either in favor or against a given target or a controversial topic. Current advanced neural models for stance detection typically employ fully parametric softmax classifiers. However, these methods suffer from several limitations, including lack of explainability, insensitivity to the latent data structure, and unimodality, which greatly restrict their performance and applications. To address these challenges, we present a novel collaborative stance detection framework called (CoSD) which leverages contrastive heterogeneous topic graph learning to learn topic-aware semantics and collaborative signals among texts, topics, and stance labels for enhancing stance detection. During training, we construct a heterogeneous graph to structurally organize texts and stances through implicit topics via employing latent Dirichlet allocation. We then perform contrastive graph learning to learn heterogeneous node representations, aggregating informative multi-hop collaborative signals via an elaborate Collaboration Propagation Aggregation (CPA) module. During inference, we introduce a hybrid similarity scoring module to enable the comprehensive incorporation of topic-aware semantics and collaborative signals for stance detection. Extensive experiments on two benchmark datasets demonstrate the state-of-the-art detection performance of CoSD, verifying the effectiveness and explainability of our collaborative framework.
翻訳日:2024-06-22 04:08:57 公開日:2024-06-19
# CLFT:自律運転におけるセマンティックセグメンテーションのためのカメラ-LiDARフュージョントランス

CLFT: Camera-LiDAR Fusion Transformer for Semantic Segmentation in Autonomous Driving ( http://arxiv.org/abs/2404.17793v2 )

ライセンス: Link先を確認
Junyi Gu, Mauro Bellone, Tomáš Pivoňka, Raivo Sell, (参考訳) 自律走行のためのカメラとLiDARに基づくセマンティックオブジェクトセグメンテーションに関する批判的研究は、近年のディープラーニングの発展に大きく寄与した。 具体的には、視覚変換器は、コンピュータビジョンアプリケーションにマルチヘッドアテンション機構をうまく導入した新しいグラウンドブレーカーである。 そこで本稿では,自律運転に適用したセマンティックセグメンテーションのためのカメラ-LiDAR融合を実現するビジョントランスフォーマーネットワークを提案する。 提案手法は、2方向ネットワーク上での視覚変換器のプログレッシブ・アセンブル・ストラテジーを用いており、その結果をトランスフォーマ・デコーダ層上でのクロスフュージョン・ストラテジーに統合する。 他の文献とは異なり、我々のカメラ-LiDAR融合変換器は雨や低照度といった困難な条件下で評価され、堅牢な性能を示している。 本稿は、カメラオンリー、LiDARオンリー、カメラ-LiDARフュージョンという、車種と人間のクラスに対するセグメンテーション結果について報告する。 セマンティックセグメンテーション用に設計された他のネットワークに対して,CLFTのコヒーレントなベンチマーク実験を行う。 この実験は,マルチモーダルセンサフュージョンとバックボーンアーキテクチャの2つの観点から,CLFTの性能を独立に評価することを目的としている。 CLFTネットワークは,FCN(Fully-Convolutional-Neural-Network-based)カメラ-LiDAR融合ニューラルネットワークと比較して,ダークウェット条件の挑戦に対して最大10%改善したことを示す。 トランスバックボーンによるネットワークとは対照的に、単一のモダリティ入力を使用すると、全アラウンド改善は5-10%である。

Critical research about camera-and-LiDAR-based semantic object segmentation for autonomous driving significantly benefited from the recent development of deep learning. Specifically, the vision transformer is the novel ground-breaker that successfully brought the multi-head-attention mechanism to computer vision applications. Therefore, we propose a vision-transformer-based network to carry out camera-LiDAR fusion for semantic segmentation applied to autonomous driving. Our proposal uses the novel progressive-assemble strategy of vision transformers on a double-direction network and then integrates the results in a cross-fusion strategy over the transformer decoder layers. Unlike other works in the literature, our camera-LiDAR fusion transformers have been evaluated in challenging conditions like rain and low illumination, showing robust performance. The paper reports the segmentation results over the vehicle and human classes in different modalities: camera-only, LiDAR-only, and camera-LiDAR fusion. We perform coherent controlled benchmark experiments of CLFT against other networks that are also designed for semantic segmentation. The experiments aim to evaluate the performance of CLFT independently from two perspectives: multimodal sensor fusion and backbone architectures. The quantitative assessments show our CLFT networks yield an improvement of up to 10% for challenging dark-wet conditions when comparing with Fully-Convolutional-Neural-Network-based (FCN) camera-LiDAR fusion neural network. Contrasting to the network with transformer backbone but using single modality input, the all-around improvement is 5-10%.
翻訳日:2024-06-22 04:08:57 公開日:2024-06-19
# AI危機の時代におけるパブリックコンピューティングの知性

Public Computing Intellectuals in the Age of AI Crisis ( http://arxiv.org/abs/2405.00860v2 )

ライセンス: Link先を確認
Randy Connolly, (参考訳) AI技術が一般的な社会危機を引き起こしているという信念は、2023年に人気になった。 これらのアカウントの一部に誇張と誇張の要素は間違いなくあったが、この技術スタックには厄介な影響があるという事実を反映している。 人工知能の現在の発展によって引き継がれた社会的、政治的、個人的未来に関する共通の関心が組み合わさって、コンピュータの学問的な規律が、自己検査と再設定の新たな機会として提示される。 この位置紙は4つのセクションで行うための努力である。 第一に、AI危機の物語の中で、コンピューティングに何が必要なのかを探求する。 第2部は、この危機に対する教育的対応の可能性を明記し、権力関係に対するより広範な分析的焦点を提唱している。 第3部では、学問コンピューティングの実践分野の新たな特徴を提示する。 この反射的次元は、この分野の批判的機能と公的な機能の両方を同等の知的パートナーとして統合し、現代の学術分野の必要な構成要素である。 最終節では、概念的アーキタイプ、すなわち、公立コンピュータ知能とそのあまり目立たないが、いとこである、(ほとんど)公立コンピュータ知能は、我々の分野における学術的実践の拡張可能性を現実的に想像する手段であり、それは、自己批判と公益に対する外向的指向の両方を提供するものである、と主張する。 コンピュータ教育研究コミュニティはこの点において重要な役割を担っていると論じる。 より反射的な能力を開発するための、コンピューティングにおける教育的変化の勧告も提供される。

The belief that AI technology is on the cusp of causing a generalized social crisis became a popular one in 2023. While there was no doubt an element of hype and exaggeration to some of these accounts, they do reflect the fact that there are troubling ramifications to this technology stack. This conjunction of shared concerns about social, political, and personal futures presaged by current developments in artificial intelligence presents the academic discipline of computing with a renewed opportunity for self-examination and reconfiguration. This position paper endeavors to do so in four sections. The first explores what is at stake for computing in the narrative of an AI crisis. The second articulates possible educational responses to this crisis and advocates for a broader analytic focus on power relations. The third section presents a novel characterization of academic computing's field of practice, one which includes not only the discipline's usual instrumental forms of practice but reflexive practice as well. This reflexive dimension integrates both the critical and public functions of the discipline as equal intellectual partners and a necessary component of any contemporary academic field. The final section will advocate for a conceptual archetype--the Public Computer Intellectual and its less conspicuous but still essential cousin, the (Almost) Public Computer Intellectual--as a way of practically imagining the expanded possibilities of academic practice in our discipline, one that provides both self-critique and an outward-facing orientation towards the public good. It will argue that the computer education research community can play a vital role in this regard. Recommendations for pedagogical change within computing to develop more reflexive capabilities are also provided.
翻訳日:2024-06-22 04:08:57 公開日:2024-06-19
# ペアワイズ比較クエリによる線形ユーティリティ関数の学習

Learning Linear Utility Functions From Pairwise Comparison Queries ( http://arxiv.org/abs/2405.02612v3 )

ライセンス: Link先を確認
Luise Ge, Brendan Juba, Yevgeniy Vorobeychik, (参考訳) 線形効用関数のペア比較クエリによる学習可能性について検討する。 特に,2つの学習目標について考察する。 第1の目的はペア比較に対するサンプル外応答を予測することであり、第2の目的はユーティリティ関数の真のパラメータを概ね回復することである。 受動的学習環境では, クエリ応答がノイズによって損なわれない場合と, 分布が十分に「ニッチ」である場合のツィバコフ雑音の下で, 線形ユーティリティが第一目的に対して効率的に学習可能であることを示す。 これとは対照的に,クエリ応答がノイズフリーであっても,強力なモデリング仮定を伴わない大規模なデータ分布に対して,ユーティリティパラメータが学習できないことを示す。 次に,能動的学習環境での学習問題を解析する。 この場合、第2の目的であっても効率よく学習できることを示し、ノイズフリーおよびノイズの多いクエリ応答設定のためのアルゴリズムを提示する。 この結果から,受動的学習と能動的学習の相互選好クエリ間の質的学習性差が示され,ユーティリティ学習のためのペアワイズクエリを選択する能力の価値が示された。

We study learnability of linear utility functions from pairwise comparison queries. In particular, we consider two learning objectives. The first objective is to predict out-of-sample responses to pairwise comparisons, whereas the second is to approximately recover the true parameters of the utility function. We show that in the passive learning setting, linear utilities are efficiently learnable with respect to the first objective, both when query responses are uncorrupted by noise, and under Tsybakov noise when the distributions are sufficiently "nice". In contrast, we show that utility parameters are not learnable for a large set of data distributions without strong modeling assumptions, even when query responses are noise-free. Next, we proceed to analyze the learning problem in an active learning setting. In this case, we show that even the second objective is efficiently learnable, and present algorithms for both the noise-free and noisy query response settings. Our results thus exhibit a qualitative learnability gap between passive and active learning from pairwise preference queries, demonstrating the value of the ability to select pairwise queries for utility learning.
翻訳日:2024-06-22 04:08:57 公開日:2024-06-19
# 動的投機的ルックアヘッドは大規模言語モデルの投機的復号を高速化する

Dynamic Speculation Lookahead Accelerates Speculative Decoding of Large Language Models ( http://arxiv.org/abs/2405.04304v3 )

ライセンス: Link先を確認
Jonathan Mamou, Oren Pereg, Daniel Korat, Moshe Berchansky, Nadav Timor, Moshe Wasserblat, Roy Schwartz, (参考訳) 投機的復号化は、大きな言語モデルの推論遅延を低減するために一般的に用いられる。 その有効性は、投機的なルックアヘッド(SL)、すなわち各イテレーションでドラフトモデルによって生成されるトークンの数に大きく依存します。 この研究において、全てのイテレーションで同じSLを使用するという一般的な実践は、静的SLが最適以下であることを示す。 DISCO(DynamIc SpeCulation lookahead Optimization, DynamIc SpeCulation lookahead Optimization)は,SLを動的に選択する新しい手法である。 4つのデータセットによる実験の結果,disCO は最高の静的 SL ベースラインに比べて平均 10% の高速化を実現し,全く同じテキストを生成することがわかった。

Speculative decoding is commonly used for reducing the inference latency of large language models. Its effectiveness depends highly on the speculation lookahead (SL)-the number of tokens generated by the draft model at each iteration. In this work we show that the common practice of using the same SL for all iterations static SL is suboptimal. We introduce DISCO (DynamIc SpeCulation lookahead Optimization), a novel method for dynamically selecting the SL. Our experiments with four datasets show that DISCO reaches an average speedup of 10% compared to the best static SL baseline, while generating the exact same text.
翻訳日:2024-06-22 04:08:57 公開日:2024-06-19
# DeepSeek-V2: 強力な、経済的、効率的混合型言語モデル

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model ( http://arxiv.org/abs/2405.04434v5 )

ライセンス: Link先を確認
DeepSeek-AI, Aixin Liu, Bei Feng, Bin Wang, Bingxuan Wang, Bo Liu, Chenggang Zhao, Chengqi Dengr, Chong Ruan, Damai Dai, Daya Guo, Dejian Yang, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Hanwei Xu, Hao Yang, Haowei Zhang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Li, Hui Qu, J. L. Cai, Jian Liang, Jianzhong Guo, Jiaqi Ni, Jiashi Li, Jin Chen, Jingyang Yuan, Junjie Qiu, Junxiao Song, Kai Dong, Kaige Gao, Kang Guan, Lean Wang, Lecong Zhang, Lei Xu, Leyi Xia, Liang Zhao, Liyue Zhang, Meng Li, Miaojun Wang, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Mingming Li, Ning Tian, Panpan Huang, Peiyi Wang, Peng Zhang, Qihao Zhu, Qinyu Chen, Qiushi Du, R. J. Chen, R. L. Jin, Ruiqi Ge, Ruizhe Pan, Runxin Xu, Ruyi Chen, S. S. Li, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shaoqing Wu, Shengfeng Ye, Shirong Ma, Shiyu Wang, Shuang Zhou, Shuiping Yu, Shunfeng Zhou, Size Zheng, T. Wang, Tian Pei, Tian Yuan, Tianyu Sun, W. L. Xiao, Wangding Zeng, Wei An, Wen Liu, Wenfeng Liang, Wenjun Gao, Wentao Zhang, X. Q. Li, Xiangyue Jin, Xianzu Wang, Xiao Bi, Xiaodong Liu, Xiaohan Wang, Xiaojin Shen, Xiaokang Chen, Xiaosha Chen, Xiaotao Nie, Xiaowen Sun, Xiaoxiang Wang, Xin Liu, Xin Xie, Xingkai Yu, Xinnan Song, Xinyi Zhou, Xinyu Yang, Xuan Lu, Xuecheng Su, Y. Wu, Y. K. Li, Y. X. Wei, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Li, Yaohui Wang, Yi Zheng, Yichao Zhang, Yiliang Xiong, Yilong Zhao, Ying He, Ying Tang, Yishi Piao, Yixin Dong, Yixuan Tan, Yiyuan Liu, Yongji Wang, Yongqiang Guo, Yuchen Zhu, Yuduan Wang, Yuheng Zou, Yukun Zha, Yunxian Ma, Yuting Yan, Yuxiang You, Yuxuan Liu, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhen Huang, Zhen Zhang, Zhenda Xie, Zhewen Hao, Zhihong Shao, Zhiniu Wen, Zhipeng Xu, Zhongyu Zhang, Zhuoshu Li, Zihan Wang, Zihui Gu, Zilin Li, Ziwei Xie, (参考訳) We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference。 合計パラメータは236Bで、そのうち21Bはトークンごとに活性化され、128Kトークンのコンテキスト長をサポートする。 DeepSeek-V2は、MLA(Multi-head Latent Attention)やDeepSeekMoEといった革新的なアーキテクチャを採用している。 MLAはキーバリュー(KV)キャッシュを潜在ベクトルに大幅に圧縮することで効率的な推論を保証する一方、DeepSeekMoEはスパース計算によって経済的コストで強力なモデルをトレーニングすることができる。 DeepSeek-V2はDeepSeek 67Bと比較して大幅にパフォーマンスが向上し、トレーニングコストの42.5%を削減し、KVキャッシュを93.3%削減し、最大生成スループットを5.76倍に向上させた。 我々は8.1Tトークンからなる高品質でマルチソースなコーパスでDeepSeek-V2を事前訓練し、その可能性を完全に解放するために、Supervised Fine-Tuning (SFT)とReinforcement Learning (RL)を実行した。 評価結果によると、21Bのアクティベートパラメータしか持たないDeepSeek-V2とそのチャットバージョンは、オープンソースモデルの中でも最高レベルのパフォーマンスを実現している。

We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference. It comprises 236B total parameters, of which 21B are activated for each token, and supports a context length of 128K tokens. DeepSeek-V2 adopts innovative architectures including Multi-head Latent Attention (MLA) and DeepSeekMoE. MLA guarantees efficient inference through significantly compressing the Key-Value (KV) cache into a latent vector, while DeepSeekMoE enables training strong models at an economical cost through sparse computation. Compared with DeepSeek 67B, DeepSeek-V2 achieves significantly stronger performance, and meanwhile saves 42.5% of training costs, reduces the KV cache by 93.3%, and boosts the maximum generation throughput to 5.76 times. We pretrain DeepSeek-V2 on a high-quality and multi-source corpus consisting of 8.1T tokens, and further perform Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) to fully unlock its potential. Evaluation results show that, even with only 21B activated parameters, DeepSeek-V2 and its chat versions still achieve top-tier performance among open-source models.
翻訳日:2024-06-22 04:08:57 公開日:2024-06-19
# 変分シュレーディンガー拡散モデル

Variational Schrödinger Diffusion Models ( http://arxiv.org/abs/2405.04795v3 )

ライセンス: Link先を確認
Wei Deng, Weijian Luo, Yixin Tan, Marin Biloš, Yu Chen, Yuriy Nevmyvaka, Ricky T. Q. Chen, (参考訳) Schr\"odinger Bridge (SB) は拡散モデルにおける輸送計画の最適化手法として登場した。 しかし、SBは難解なフォワードスコア関数を推定する必要があるため、必然的にシミュレートされた軌道に基づいて、暗黙のトレーニング損失を発生させる。 効率的な輸送計画を維持しながらスケーラビリティを向上させるため,SBの前方スコア関数(変分スコア)を線形化し,後方スコアのトレーニングにおいてシミュレーション不要な特性を復元するために変分推論を利用する。 本稿では,多変量拡散過程と変分スコアを適応的に最適化し,効率的な輸送を実現するための変分Schr\"odinger拡散モデル(VSDM)を提案する。 理論的には、確率近似を用いて変動スコアの収束を証明し、最適な変動スコアに基づいて適応的に生成されたサンプルの収束を示す。 実験により, このアルゴリズムを模擬例で検証し, 異方性形状の世代でVSDMが有効であること, 単変量拡散よりもストレートな試料軌道が得られることを観察した。 また、実世界のデータにおけるアルゴリズムのスケーラビリティを検証するとともに、CIFAR10における競合的非条件生成性能と時系列モデリングにおける条件生成を実現する。 特に、VSDMはもはやウォームアップ初期化に依存しておらず、大規模な実験のトレーニングにおいてチューニングに親しみやすいものになっている。

Schr\"odinger bridge (SB) has emerged as the go-to method for optimizing transportation plans in diffusion models. However, SB requires estimating the intractable forward score functions, inevitably resulting in the costly implicit training loss based on simulated trajectories. To improve the scalability while preserving efficient transportation plans, we leverage variational inference to linearize the forward score functions (variational scores) of SB and restore simulation-free properties in training backward scores. We propose the variational Schr\"odinger diffusion model (VSDM), where the forward process is a multivariate diffusion and the variational scores are adaptively optimized for efficient transport. Theoretically, we use stochastic approximation to prove the convergence of the variational scores and show the convergence of the adaptively generated samples based on the optimal variational scores. Empirically, we test the algorithm in simulated examples and observe that VSDM is efficient in generations of anisotropic shapes and yields straighter sample trajectories compared to the single-variate diffusion. We also verify the scalability of the algorithm in real-world data and achieve competitive unconditional generation performance in CIFAR10 and conditional generation in time series modeling. Notably, VSDM no longer depends on warm-up initializations and has become tuning-friendly in training large-scale experiments.
翻訳日:2024-06-22 03:59:12 公開日:2024-06-19
# Smurfs: ツールプランニングにコンテキスト効率で複数の熟練エージェントを活用する

Smurfs: Leveraging Multiple Proficiency Agents with Context-Efficiency for Tool Planning ( http://arxiv.org/abs/2405.05955v2 )

ライセンス: Link先を確認
Junzhi Chen, Juhao Liang, Benyou Wang, (参考訳) 大規模言語モデル(LLM)の出現は、人間のパフォーマンスに匹敵する複雑なタスクを自動化するという前例のない可能性を開いた。 それらの能力にもかかわらず、LLMはシングルハンドで多面的問題を扱うのに固有の制限があるため、高いレベルの精度と複雑さを必要とするタスクを完了させるのに依然として困難に直面している。 本稿では,LDMの応用に革命をもたらすために設計された最先端のマルチエージェントフレームワークであるSmurfsを紹介する。 従来のLLMを相乗的なマルチエージェントアンサンブルにシームレスに変換することで、Smurfsは複雑なタスクを余分なコストで解く能力を高めることができる。 これは、モデル内の異なる役割を割り当て、特殊エージェント間のコラボレーションを促進し、インテリジェントなマルチエージェントシステムを形成する革新的なプロンプト戦略によって達成される。 StableToolBenchのオープンエンドタスクとHotpotQAのクローズドエンドタスクの両方に関する実証的研究は、複雑なツール利用シナリオにおけるSmurfsの優れた能力を示している。 特に、Smurfsは両方の実験ですべてのベースラインメソッドに匹敵し、新しい最先端のパフォーマンスを設定できる。 さらに、包括的アブレーション研究を通じて、マルチエージェントフレームワークのコアコンポーネントの全体的な有効性への貢献を識別する。 これは、フレームワークの有効性を検証するだけでなく、将来のマルチエージェントLLMシステムの探索ルートも設定する。

The emergence of large language models (LLMs) has opened up unprecedented possibilities for automating complex tasks that are often comparable to human performance. Despite their capabilities, LLMs still encounter difficulties in completing tasks that require high levels of accuracy and complexity due to their inherent limitations in handling multifaceted problems single-handedly. This paper introduces `Smurfs', a cutting-edge multi-agent framework designed to revolutionize the application of LLMs. By seamlessly transforming a conventional LLM into a synergistic multi-agent ensemble, Smurfs can enhance the model's ability to solve complex tasks at no additional cost. This is achieved through innovative prompting strategies that allocate distinct roles within the model, thereby facilitating collaboration among specialized agents and forming an intelligent multi-agent system. Our empirical investigation on both open-ended task of StableToolBench and closed-ended task on HotpotQA showcases Smurfs' superior capability in intricate tool utilization scenarios. Notably, Smurfs outmatches all the baseline methods in both experiments, setting new state-of-the-art performance. Furthermore, through comprehensive ablation studies, we dissect the contribution of the core components of the multi-agent framework to its overall efficacy. This not only verifies the effectiveness of the framework, but also sets a route for future exploration of multi-agent LLM systems.
翻訳日:2024-06-22 03:59:12 公開日:2024-06-19
# モデルとデータカードの自動生成 - 責任あるAIへの一歩-

Automatic Generation of Model and Data Cards: A Step Towards Responsible AI ( http://arxiv.org/abs/2405.06258v2 )

ライセンス: Link先を確認
Jiarui Liu, Wenkai Li, Zhijing Jin, Mona Diab, (参考訳) 機械学習/AIにおけるモデルとデータ拡散の時代、特にオープンソース技術の急速な進歩によって、標準化された一貫したドキュメントにとって重要な必要性が生じている。 我々の研究は、現在の人間生成モデルとデータカードにおける情報不完全性に対処する。 本稿では,Large Language Models (LLM) を用いた自動生成手法を提案する。 主なコントリビューションとしては,4.8kモデルカードと1.4kデータカードから集約した総合的なデータセットであるCardBenchの確立と,2ステップの検索プロセスを含むCardGenパイプラインの開発がある。 当社のアプローチでは、生成されたモデルとデータカードにおける完全性、客観性、忠実性の向上が示されています。

In an era of model and data proliferation in machine learning/AI especially marked by the rapid advancement of open-sourced technologies, there arises a critical need for standardized consistent documentation. Our work addresses the information incompleteness in current human-generated model and data cards. We propose an automated generation approach using Large Language Models (LLMs). Our key contributions include the establishment of CardBench, a comprehensive dataset aggregated from over 4.8k model cards and 1.4k data cards, coupled with the development of the CardGen pipeline comprising a two-step retrieval process. Our approach exhibits enhanced completeness, objectivity, and faithfulness in generated model and data cards, a significant step in responsible AI documentation practices ensuring better accountability and traceability.
翻訳日:2024-06-22 03:59:12 公開日:2024-06-19
# ローマ法王はカトリックか? ローマ法王はカトリックである。 LLMにおける非リテラル・インテント・レゾリューションの創成的評価

Is the Pope Catholic? Yes, the Pope is Catholic. Generative Evaluation of Non-Literal Intent Resolution in LLMs ( http://arxiv.org/abs/2405.08760v2 )

ライセンス: Link先を確認
Akhila Yerukola, Saujas Vaduguru, Daniel Fried, Maarten Sap, (参考訳) 人間はしばしば、言葉の文字通りの意味を超えて理解するために、間接的または非形式的なコミュニケーション意図を表現する。 既存の研究の多くは差別的評価に重点を置いているが,非文節発話に対する反応を調べることによって,大規模言語モデル(LLM)の意図的理解を生成的に評価する新たなアプローチを提案する。 理想的には、LLMはリテラル解釈ではなく、非リテラル発話の真の意図に従って応答すべきである。 以上の結果から,LLMは非リテラル言語への実用的対応に苦慮し,平均で50~55%の精度しか達成できていないことが示唆された。 オラクルの意図を明示的に提供することはパフォーマンスを著しく向上させる(Mistral-Instructでは75%)が、それでも適切な応答を生成するために与えられた意図を活用する上での課題を示している。 意図を綴り出すためにチェーン・オブ・シンク(英語版)を使用することで、より少ない利得が得られる(Mistral-Instructの60%)。 これらの結果から, LLMはまだ実用的な実用的インターロケータではないことが示唆され, モデリング意図のより良いアプローチの必要性と実用的生成にそれらを活用する必要性が浮き彫りになった。

Humans often express their communicative intents indirectly or non-literally, which requires their interlocutors -- human or AI -- to understand beyond the literal meaning of words. While most existing work has focused on discriminative evaluations, we present a new approach to generatively evaluate large language models' (LLMs') intention understanding by examining their responses to non-literal utterances. Ideally, an LLM should respond in line with the true intention of a non-literal utterance, not its literal interpretation. Our findings show that LLMs struggle to generate pragmatically relevant responses to non-literal language, achieving only 50-55% accuracy on average. While explicitly providing oracle intentions significantly improves performance (e.g., 75% for Mistral-Instruct), this still indicates challenges in leveraging given intentions to produce appropriate responses. Using chain-of-thought to make models spell out intentions yields much smaller gains (60% for Mistral-Instruct). These findings suggest that LLMs are not yet effective pragmatic interlocutors, highlighting the need for better approaches for modeling intentions and utilizing them for pragmatic generation.
翻訳日:2024-06-22 03:59:12 公開日:2024-06-19
# Qiskitによる量子コンピューティング

Quantum computing with Qiskit ( http://arxiv.org/abs/2405.08810v3 )

ライセンス: Link先を確認
Ali Javadi-Abhari, Matthew Treinish, Kevin Krsulich, Christopher J. Wood, Jake Lishman, Julien Gacon, Simon Martiel, Paul D. Nation, Lev S. Bishop, Andrew W. Cross, Blake R. Johnson, Jay M. Gambetta, (参考訳) 量子情報科学のためのソフトウェア開発キットであるQiskitについて説明する。 我々は、その開発を形作る重要な設計決定について論じ、ソフトウェアアーキテクチャとその中核コンポーネントについて検討する。 量子コンピュータ上での凝縮物質物理学の問題を解くためのエンドツーエンドのワークフローを実証し、例えば、様々な抽象化レベルでの回路の表現と最適化、新しいゲートへのスケーラビリティと再ターゲット性、動的回路による量子古典計算の使用など、ケイスキットのいくつかの機能を強調した。 最後に、Qiskitを様々なタスクに拡張するツールとプラグインのエコシステムと将来について論じる。

We describe Qiskit, a software development kit for quantum information science. We discuss the key design decisions that have shaped its development, and examine the software architecture and its core components. We demonstrate an end-to-end workflow for solving a problem in condensed matter physics on a quantum computer that serves to highlight some of Qiskit's capabilities, for example the representation and optimization of circuits at various abstraction levels, its scalability and retargetability to new gates, and the use of quantum-classical computations via dynamic circuits. Lastly, we discuss some of the ecosystem of tools and plugins that extend Qiskit for various tasks, and the future ahead.
翻訳日:2024-06-22 03:59:12 公開日:2024-06-19
# マルチクラス分類における帯域情報の真価

The Real Price of Bandit Information in Multiclass Classification ( http://arxiv.org/abs/2405.10027v2 )

ライセンス: Link先を確認
Liad Erez, Alon Cohen, Tomer Koren, Yishay Mansour, Shay Moran, (参考訳) 我々は,帯域幅フィードバック(Kakade,Shalev-Shwartz,Tewari,2008)によるマルチクラス分類の古典的問題を再検討し,各入力がK$可能なラベルの1つに分類し,予測されたラベルが正しいか否かに限定する。 我々の第一の質問は、ラベルの数への依存についてであり、既存のアルゴリズムが示す$\smash{\sqrt{KT}}$依存を超えて、この設定における$T$-stepの後悔境界を改善することができるかどうかである。 我々の主な貢献は、バンディット・マルチクラスのミニマックス後悔は、実際にはよりニュアンスなものであり、$\smash{\widetilde{\Theta}\left(\min \left\{|H| + \sqrt{T}, \sqrt{KT \log |H|} \right\} \right) }$の形のものであることを示すことである。 特に、後悔の$\smash{\widetilde{O}(|H|+\sqrt{T})}$を保証し、中等度な仮説クラスに対する古典的アルゴリズムを改良し、全てのパラメータ体系における上限(対数要素まで)の整合性に一致する下界を与える新しいバンド分類アルゴリズムを提案する。

We revisit the classical problem of multiclass classification with bandit feedback (Kakade, Shalev-Shwartz and Tewari, 2008), where each input classifies to one of $K$ possible labels and feedback is restricted to whether the predicted label is correct or not. Our primary inquiry is with regard to the dependency on the number of labels $K$, and whether $T$-step regret bounds in this setting can be improved beyond the $\smash{\sqrt{KT}}$ dependence exhibited by existing algorithms. Our main contribution is in showing that the minimax regret of bandit multiclass is in fact more nuanced, and is of the form $\smash{\widetilde{\Theta}\left(\min \left\{|H| + \sqrt{T}, \sqrt{KT \log |H|} \right\} \right) }$, where $H$ is the underlying (finite) hypothesis class. In particular, we present a new bandit classification algorithm that guarantees regret $\smash{\widetilde{O}(|H|+\sqrt{T})}$, improving over classical algorithms for moderately-sized hypothesis classes, and give a matching lower bound establishing tightness of the upper bounds (up to log-factors) in all parameter regimes.
翻訳日:2024-06-22 03:59:12 公開日:2024-06-19
# 拡張Su-Schrieffer-Heeger-Hubbardモデルの位相位相

Topological phases of extended Su-Schrieffer-Heeger-Hubbard model ( http://arxiv.org/abs/2405.10351v2 )

ライセンス: Link先を確認
Pei-Jie Chang, Jinghui Pi, Muxi Zheng, Yu-Ting Lei, Dong Ruan, Gui-Lu Long, (参考訳) 1次元のSu-Schrieffer-Heeger-Hubbard(SSHH)モデルに関する広範な研究にもかかわらず、隣り合う隣りのホッピングを組み込んだ変種はほとんど探索されていない。 本稿では,この拡張SSHHモデルの基底状態特性について,CP-AFQMC法を用いて検討する。 本モデルでは, 相互作用に対する強靭な境界状態によって特徴付けられる, 豊富な位相相を示す。 スピン相関とR'enyi絡み合いエントロピーを解析することにより、これらのエッジ状態の性質を定量化する。 この系は、半充填時に長距離スピン相関とほぼゼロのR\enyiエントロピーを示す。 さらに、クォーターフィリングには長距離の反強磁性秩序がある。 興味深いことに、外磁場はこの長距離反強磁性秩序を乱し、長距離スピン相関とほぼゼロのR'enyiエントロピーを復元する。 さらに,本研究はCP-AFQMCアルゴリズムを用いて大規模相互作用系におけるトポロジ特性を研究するパラダイムを提供する。

Despite extensive studies on the one-dimensional Su-Schrieffer-Heeger-Hubbard (SSHH) model, the variant incorporating next-nearest neighbour hopping remains largely unexplored. Here, we investigate the ground-state properties of this extended SSHH model using the constrained-path auxiliary-field quantum Monte Carlo (CP-AFQMC) method. We show that this model exhibits rich topological phases, characterized by robust edge states against interaction. We quantify the properties of these edge states by analyzing spin correlation and second-order R\'enyi entanglement entropy. The system exhibits long-range spin correlation and near-zero R\'enyi entropy at half-filling. Besides, there is a long-range anti-ferromagnetic order at quarter-filling. Interestingly, an external magnetic field disrupts this long-range anti-ferromagnetic order, restoring long-range spin correlation and near-zero R\'enyi entropy. Furthermore, our work provides a paradigm studying topological properties in large interacting systems via the CP-AFQMC algorithm.
翻訳日:2024-06-22 03:59:12 公開日:2024-06-19
# SPOR:データ・テキスト・ジェネレーションにおける構成一般化のための総合的・実践的評価手法

SPOR: A Comprehensive and Practical Evaluation Method for Compositional Generalization in Data-to-Text Generation ( http://arxiv.org/abs/2405.10650v7 )

ライセンス: Link先を確認
Ziyao Xu, Houfeng Wang, (参考訳) 構成一般化は言語モデルの重要な能力であり、多くの異なる表現を持つ。 データ・トゥ・テキスト生成では、この能力に関するこれまでの研究は、Systematicityと呼ばれる単一のマニフェストに限られており、実用的なアプリケーションシナリオを完全にカバーできない大規模言語モデル(LLM)の考慮が欠如している。 本研究では,データ・テキスト生成における合成一般化のための総合的・実践的な評価手法であるSPORを提案する。 SPORには、宣言の4つの側面(体系性、生産性、秩序不変性、規則学習性)が含まれており、既存のデータセットに基づいた追加のマニュアルアノテーションなしで高品質な評価を可能にする。 2つの異なるデータセット上でSPORを実証し、LLMを含む既存の言語モデルを評価する。 評価の様々な面においてモデルが不足していることが分かり、さらなる改善が必要である。 本研究は、データ・テキスト・ジェネレーションにおける合成一般化の異なる表現に関する総合的な研究の必要性を示し、評価のための枠組みを提供する。

Compositional generalization is an important ability of language models and has many different manifestations. For data-to-text generation, previous research on this ability is limited to a single manifestation called Systematicity and lacks consideration of large language models (LLMs), which cannot fully cover practical application scenarios. In this work, we propose SPOR, a comprehensive and practical evaluation method for compositional generalization in data-to-text generation. SPOR includes four aspects of manifestations (Systematicity, Productivity, Order invariance, and Rule learnability) and allows high-quality evaluation without additional manual annotations based on existing datasets. We demonstrate SPOR on two different datasets and evaluate some existing language models including LLMs. We find that the models are deficient in various aspects of the evaluation and need further improvement. Our work shows the necessity for comprehensive research on different manifestations of compositional generalization in data-to-text generation and provides a framework for evaluation.
翻訳日:2024-06-22 03:59:12 公開日:2024-06-19
# 大言語モデルによる単語の文字構成の理解の欠如

Large Language Models Lack Understanding of Character Composition of Words ( http://arxiv.org/abs/2405.11357v2 )

ライセンス: Link先を確認
Andrew Shin, Kunitake Kaneko, (参考訳) 大規模言語モデル(LLM)は、幅広い自然言語処理において顕著な性能を示した。 しかし、LLMの成功は、言葉、文、文書に関するタスクに大きく制限されており、文字の最小単位、すなわち文字がどの程度理解されているかは疑問視されている。 本稿では,文章の文字構成を理解する能力について,現代LLMについて検討し,そのほとんどが完璧に人間が扱える簡単なタスクであっても確実に実行できないことを示す。 トークンレベルのパフォーマンスと比較して,それらの挙動を分析し,今後の研究の方向性について考察する。

Large language models (LLMs) have demonstrated remarkable performances on a wide range of natural language tasks. Yet, LLMs' successes have been largely restricted to tasks concerning words, sentences, or documents, and it remains questionable how much they understand the minimal units of text, namely characters. In this paper, we examine contemporary LLMs regarding their ability to understand character composition of words, and show that most of them fail to reliably carry out even the simple tasks that can be handled by humans with perfection. We analyze their behaviors with comparison to token level performances, and discuss the potential directions for future research.
翻訳日:2024-06-22 03:49:28 公開日:2024-06-19
# Lockpicking LLM: トークンレベルの操作を用いたロジトベースのジェイルブレイク

Lockpicking LLMs: A Logit-Based Jailbreak Using Token-level Manipulation ( http://arxiv.org/abs/2405.13068v2 )

ライセンス: Link先を確認
Yuxi Li, Yi Liu, Yuekang Li, Ling Shi, Gelei Deng, Shengquan Chen, Kailong Wang, (参考訳) 大規模言語モデル(LLM)は、自然言語処理の分野を変えてきたが、意図しない、潜在的に有害なコンテンツを生成する能力を利用するジェイルブレイク攻撃の影響を受け続けている。 既存のトークンレベルのジェイルブレイクテクニックは有効だが、特にモデルが頻繁な更新を行い、高度な防御措置を取り入れているため、スケーラビリティと効率の課題に直面している。 本稿では,これらの制約に効果的に対応する革新的なトークンレベルの操作手法であるJailMineを紹介する。 JailMineは、肯定的なアウトプットを戦略的に選択し、拒否の可能性を反復的に低減することで、LSMから悪意ある応答を抽出する自動化された"マイニング"プロセスを採用している。 複数の有名なLCMとデータセットの厳密なテストを通じて、JailMineの有効性と効率を実証し、進化する防衛戦略に直面した場合でも、平均95%の成功率を維持しながら、使用時間の86%の大幅な削減を実現した。 我々の研究は、LLMの脆弱性をジェイルブレイク攻撃に対して評価し緩和するための継続的な努力に寄与し、これらの強力な言語モデルのセキュリティと信頼性を高めるための継続的な警戒と積極的な対策の重要性を強調している。

Large language models (LLMs) have transformed the field of natural language processing, but they remain susceptible to jailbreaking attacks that exploit their capabilities to generate unintended and potentially harmful content. Existing token-level jailbreaking techniques, while effective, face scalability and efficiency challenges, especially as models undergo frequent updates and incorporate advanced defensive measures. In this paper, we introduce JailMine, an innovative token-level manipulation approach that addresses these limitations effectively. JailMine employs an automated "mining" process to elicit malicious responses from LLMs by strategically selecting affirmative outputs and iteratively reducing the likelihood of rejection. Through rigorous testing across multiple well-known LLMs and datasets, we demonstrate JailMine's effectiveness and efficiency, achieving a significant average reduction of 86% in time consumed while maintaining high success rates averaging 95%, even in the face of evolving defensive strategies. Our work contributes to the ongoing effort to assess and mitigate the vulnerability of LLMs to jailbreaking attacks, underscoring the importance of continued vigilance and proactive measures to enhance the security and reliability of these powerful language models.
翻訳日:2024-06-22 03:49:28 公開日:2024-06-19
# カーネル学習FBSDEフィルタの収束解析

Convergence analysis of kernel learning FBSDE filter ( http://arxiv.org/abs/2405.13390v2 )

ライセンス: Link先を確認
Yunzheng Lyu, Feng Bao, (参考訳) カーネル学習 後方SDEフィルタは、非線形フィルタリング問題を解決するための反復的かつ適応的なメッシュフリーアプローチである。 状態変数の進化密度を定義するフォッカー・プランカー方程式の前方後方SDEから構築され、KDEを用いて密度を近似する。 このアルゴリズムは、高次元問題の収束速度と効率の両方において、主流粒子フィルタ法よりも優れた性能を示している。 しかし、この方法は経験的にのみ収束することが示されている。 本稿では,その局所的および大域的収束を示す厳密な解析を行い,実験結果に対する理論的支援を提供する。

Kernel learning forward backward SDE filter is an iterative and adaptive meshfree approach to solve the nonlinear filtering problem. It builds from forward backward SDE for Fokker-Planker equation, which defines evolving density for the state variable, and employs KDE to approximate density. This algorithm has shown more superior performance than mainstream particle filter method, in both convergence speed and efficiency of solving high dimension problems. However, this method has only been shown to converge empirically. In this paper, we present a rigorous analysis to demonstrate its local and global convergence, and provide theoretical support for its empirical results.
翻訳日:2024-06-22 03:49:28 公開日:2024-06-19
# Vikhr: ロシアのオープンソースのインストラクションチューニング型大規模言語モデル

Vikhr: The Family of Open-Source Instruction-Tuned Large Language Models for Russian ( http://arxiv.org/abs/2405.13929v2 )

ライセンス: Link先を確認
Aleksandr Nikolich, Konstantin Korolev, Artem Shelmanov, Igor Kiselev, (参考訳) 様々な大規模言語モデル(LLM)の開発が急増している。 しかし、英語以外の言語のテキスト生成は、しばしば、生成品質の低下や、モデルの語彙におけるトークンの不均等な表現による計算性能の低下など、重大な課題に直面している。 本研究では,これらの問題に対処し,ロシア語に特化して設計された,最先端のオープンソース命令付きLLMであるVikhrを紹介する。 算術的に安価なLoRAアダプタを英語指向のモデルで使用するロシアの従来の取り組みとは異なり、Vikhrは適応されたトークン化子語彙を特徴とし、全ての重みの事前訓練と命令チューニングを継続している。 このアプローチはモデルの性能を高めるだけでなく、計算と文脈の効率を大幅に改善する。 さまざまなロシア語のベンチマークにおけるVikhrの顕著なパフォーマンスは、継続した事前トレーニングのための命令データセットとコーパスの拡大への取り組みにも影響します。 Vikhrは、ロシアのオープンソースLLMの中で、新しい最先端の技術を設定しているだけでなく、特定のベンチマークでプロプライエタリなクローズドソースモデルよりも優れています。 モデルウェイト、命令セット、コードは公開されています

There has been a surge in the development of various Large Language Models (LLMs). However, text generation for languages other than English often faces significant challenges, including poor generation quality and the reduced computational performance due to the disproportionate representation of tokens in model's vocabulary. In this work, we address these issues and introduce Vikhr, a new state-of-the-art open-source instruction-tuned LLM designed specifically for the Russian language. Unlike previous efforts for Russian that utilize computationally inexpensive LoRA adapters on top of English-oriented models, Vikhr features an adapted tokenizer vocabulary and undergoes the continued pre-training and instruction tuning of all weights. This approach not only enhances the model's performance but also significantly improves its computational and contextual efficiency. The remarkable performance of Vikhr across various Russian-language benchmarks can also be attributed to our efforts in expanding instruction datasets and corpora for continued pre-training. Vikhr not only sets the new state of the art among open-source LLMs for Russian, but even outperforms some proprietary closed-source models on certain benchmarks. The model weights, instruction sets, and code are publicly available
翻訳日:2024-06-22 03:49:28 公開日:2024-06-19
# アンテナの目を通して世界を見る:不完全な技術信号情報を用いた受容品質の可視化

Seeing the World through an Antenna's Eye: Reception Quality Visualization Using Incomplete Technical Signal Information ( http://arxiv.org/abs/2405.15253v2 )

ライセンス: Link先を確認
Leif Bergerhoff, (参考訳) そこで我々は,方向依存信号特性の文脈における画像解析手法の新しい応用を考案した。 この目的のために,地上局運用における監視・制御目的にのみ使用される技術信号情報に便益を付加する塗装手法について述べる。 提案手法の理論的特性と適切なモデリングをリコールすることで,衛星データ受信品質評価におけるアプローチの有用性を実証することができる。 本アプリケーションでは, 生データよりも製品にペンキを塗ることの利点と, 技術信号情報の可視化の豊かな可能性を示す。

We come up with a novel application for image analysis methods in the context of direction dependent signal characteristics. For this purpose, we describe an inpainting approach adding benefit to technical signal information which are typically only used for monitoring and control purposes in ground station operations. Recalling the theoretical properties of the employed inpainting technique and appropriate modeling allow us to demonstrate the usefulness of our approach for satellite data reception quality assessment. In our application, we show the advantages of inpainting products over raw data as well as the rich potential of the visualization of technical signal information.
翻訳日:2024-06-22 03:49:28 公開日:2024-06-19
# DefSent+:無限辞書エントリの準等方的あるいは等方的ベクトル空間に定義文を投影することで言語モデルの文埋め込みを改善する

DefSent+: Improving sentence embeddings of language models by projecting definition sentences into a quasi-isotropic or isotropic vector space of unlimited dictionary entries ( http://arxiv.org/abs/2405.16153v3 )

ライセンス: Link先を確認
Xiaodong Liu, (参考訳) 本論文は,DefSent として知られる以前の会議報告において,大幅な改善を示すものである。 前回の研究では、定義文を辞書エントリのベクトル空間に投影することで、言語モデルの文埋め込みを改善することを目的としている。 言語モデルの単語埋め込みによる辞書エントリ表現の方法論的制限により,本手法は十分に検討されていないことが判明した。 これは2つの障害に繋がる。 まず、辞書のエントリは単一の単語の語彙によって制約されるため、完全には利用できない。 第二に、言語モデルのセマンティック表現は異方性であることが知られているが、トレーニング中にその重みが凍結され、予測層に結びついているため、DefSentの事前処理ワード埋め込みは許されない。 本稿では,制約を満たさない進入埋め込みを段階的に構築する手法を提案する。 その結果、定義文を無限辞書エントリの準等方的あるいは等方的ベクトル空間に投影することができ、顕著に優れた品質の文埋め込みを実現することができる。 私たちはアプローチをDefSent+(DefSentのプラスバージョン)と略しています。 1) 文類似度の測定におけるタスク性能は、DefSentよりも大幅に向上する。 2) SIMCSE、SNCSE、SynCSEなどのデータ拡張モデルのトレーニングにDefSent+を使用する場合、手動でラベル付けされたデータセットを使わずに、文の類似性の測定における最先端のパフォーマンスを実現することができる。 3)DefSent+はNLPダウンストリームタスクの機能ベースの転送でも競合する。

This paper presents a significant improvement on the previous conference paper known as DefSent. The prior study seeks to improve sentence embeddings of language models by projecting definition sentences into the vector space of dictionary entries. We discover that this approach is not fully explored due to the methodological limitation of using word embeddings of language models to represent dictionary entries. This leads to two hindrances. First, dictionary entries are constrained by the single-word vocabulary, and thus cannot be fully exploited. Second, semantic representations of language models are known to be anisotropic, but pre-processing word embeddings for DefSent is not allowed because its weight is frozen during training and tied to the prediction layer. In this paper, we propose a novel method to progressively build entry embeddings not subject to the limitations. As a result, definition sentences can be projected into a quasi-isotropic or isotropic vector space of unlimited dictionary entries, so that sentence embeddings of noticeably better quality are attainable. We abbreviate our approach as DefSent+ (a plus version of DefSent), involving the following strengths: 1) the task performance on measuring sentence similarities is significantly improved compared to DefSent; 2) when DefSent+ is used to further train data-augmented models like SIMCSE, SNCSE, and SynCSE, state-of-the-art performance on measuring sentence similarities can be achieved among the approaches without using manually labeled datasets; 3) DefSent+ is also competitive in feature-based transfer for NLP downstream tasks.
翻訳日:2024-06-22 03:49:28 公開日:2024-06-19
# 異なる視点から予測する:帰納的知識グラフ補完のための再分類モデル

Predicting from a Different Perspective: A Re-ranking Model for Inductive Knowledge Graph Completion ( http://arxiv.org/abs/2405.16902v2 )

ライセンス: Link先を確認
Yuki Iwamoto, Ken Kaneiwa, (参考訳) ルール推論モデルは知識グラフ補完の帰納的設定において大きな力を発揮している。 この設定では、モデルは完全に目に見えないエンティティで構成された知識グラフでテストされる。 これらのモデルは、部分グラフを利用して関係パターンを規則として学習する。 同じ入力を異なるルールで提供すると、モデルの予測に違いが生じる。 本稿では,そのようなモデルの振る舞いに着目した。 本稿では,ReDistLP (Re-level with a Distinct Model for Link Prediction) という再ランクモデルを提案する。 このモデルは、初期検索者と再ランカとの予測の差を利用して、再ランク付けの有効性を高める。 ReDistLPは3つのベンチマークのうち2つで最先端のメソッドより優れている。

Rule-induction models have demonstrated great power in the inductive setting of knowledge graph completion. In this setting, the models are tested on a knowledge graph entirely composed of unseen entities. These models learn relation patterns as rules by utilizing subgraphs. Providing the same inputs with different rules leads to differences in the model's predictions. In this paper, we focus on the behavior of such models. We propose a re-ranking-based model called ReDistLP (Re-ranking with a Distinct Model for Link Prediction). This model enhances the effectiveness of re-ranking by leveraging the difference in the predictions between the initial retriever and the re-ranker. ReDistLP outperforms the state-of-the-art methods in 2 out of 3 benchmarks.
翻訳日:2024-06-22 03:39:39 公開日:2024-06-19
# CoSLight: 交通信号制御を支援する共同作業者選択と意思決定

CoSLight: Co-optimizing Collaborator Selection and Decision-making to Enhance Traffic Signal Control ( http://arxiv.org/abs/2405.17152v3 )

ライセンス: Link先を確認
Jingqing Ruan, Ziyue Li, Hua Wei, Haoyuan Jiang, Jiaming Lu, Xuantang Xiong, Hangyu Mao, Rui Zhao, (参考訳) 強化学習に基づく交通信号制御において,効果的な多区間協調が重要である。 既存の作業は主に近隣の交差点を協力者として選択している。 しかし、非常に多くの混雑、あるいはある程度の広範囲の混雑は、非隣人が協力し合わなかったために引き起こされる。 これらの問題に対処するために、我々は、協力者選択を学習すべき第2のポリシーとして分離し、元の信号制御ポリシーを同時に更新することを提案する。 具体的には、リアルタイムで選択ポリシーは、フェーズレベルと交差点レベルの特徴に応じて、最適なチームメイトを適応的に選択する。 合成と実世界の両方のデータセットに対する実証的な結果は、我々のアプローチの優位性に対する堅牢な検証を提供し、既存の最先端手法よりも大幅に改善されている。 コードはhttps://github.com/bonaldli/CoSLightで入手できる。

Effective multi-intersection collaboration is pivotal for reinforcement-learning-based traffic signal control to alleviate congestion. Existing work mainly chooses neighboring intersections as collaborators. However, quite an amount of congestion, even some wide-range congestion, is caused by non-neighbors failing to collaborate. To address these issues, we propose to separate the collaborator selection as a second policy to be learned, concurrently being updated with the original signal-controlling policy. Specifically, the selection policy in real-time adaptively selects the best teammates according to phase- and intersection-level features. Empirical results on both synthetic and real-world datasets provide robust validation for the superiority of our approach, offering significant improvements over existing state-of-the-art methods. The code is available at https://github.com/bonaldli/CoSLight.
翻訳日:2024-06-22 03:39:39 公開日:2024-06-19
# 創造性とオープンエンデドネスについて

On Creativity and Open-Endedness ( http://arxiv.org/abs/2405.18016v3 )

ライセンス: Link先を確認
L. B. Soros, Alyssa Adams, Stefano Kalonaris, Olaf Witkowski, Christian Guckelsberger, (参考訳) 学際的な分野としての人工生命(ALife)は、様々な視点からインスピレーションと影響を引き出す。 科学の進歩は、学際的な対話を招こうとする共同努力に大きく依存する。 本研究の目的は、オープンエンデドネス(OE)の概念に特化して、計算創造性(CC)とALifeの潜在的な関連性に関する議論を活性化することであり、CCの主な目的は、人工システムに創造性を持たせることであり、ALifeはOEと人工イノベーションの研究・合成に多くの研究努力を注いでいる。 しかし、これらの概念が近接しているにも関わらず、それらの使用はそれぞれのコミュニティに限られており、その関係は概ね不明である。 両領域の研究に歴史的文脈を提供し、創造性研究とOEを明示的に結びつける限定的な研究を概観する。 次に、検討すべき特定の質問と、最終的な目標を強調します。 (i)OEと創造性の概念の類似点と相違点を強調することにより概念の曖昧さを減少させる。 二 両概念を包含する研究課題の相乗効果の特定及び 3ALifeとCC研究の対話を確立すること。

Artificial Life (ALife) as an interdisciplinary field draws inspiration and influence from a variety of perspectives. Scientific progress crucially depends, then, on concerted efforts to invite cross-disciplinary dialogue. The goal of this paper is to revitalize discussions of potential connections between the fields of Computational Creativity (CC) and ALife, focusing specifically on the concept of Open-Endedness (OE); the primary goal of CC is to endow artificial systems with creativity, and ALife has dedicated much research effort into studying and synthesizing OE and artificial innovation. However, despite the close proximity of these concepts, their use so far remains confined to their respective communities, and their relationship is largely unclear. We provide historical context for research in both domains, and review the limited work connecting research on creativity and OE explicitly. We then highlight specific questions to be considered, with the eventual goals of (i) decreasing conceptual ambiguity by highlighting similarities and differences between the concepts of OE and creativity, (ii) identifying synergy effects of a research agenda that encompasses both concepts, and (iii) establishing a dialogue between ALife and CC research.
翻訳日:2024-06-22 03:39:39 公開日:2024-06-19
# 対数回帰に束縛された次元自由一様濃度

Dimension-free uniform concentration bound for logistic regression ( http://arxiv.org/abs/2405.18055v3 )

ライセンス: Link先を確認
Shogo Nakakita, (参考訳) 制約付きロジスティック回帰の経験的リスク関数に拘束された新しい次元自由一様濃度を与える。 我々の境界は、ラデマッハ複雑性論とマクダイアルメイドの不等式によって導かれる条件よりも大きな数の一様法則に対して、より穏やかな条件をもたらす。 この導出は、2階展開を持つPAC-ベイズ法と、拡張の残余項に対するラデマッハ複素性に基づく境界に基づくものである。

We provide a novel dimension-free uniform concentration bound for the empirical risk function of constrained logistic regression. Our bound yields a milder sufficient condition for a uniform law of large numbers than conditions derived by the Rademacher complexity argument and McDiarmid's inequality. The derivation is based on the PAC-Bayes approach with second-order expansion and Rademacher-complexity-based bounds for the residual term of the expansion.
翻訳日:2024-06-22 03:39:39 公開日:2024-06-19
# KU-DMIS at EHRSQL 2024:Generating SQL query via question templatization in EHR

KU-DMIS at EHRSQL 2024:Generating SQL query via question templatization in EHR ( http://arxiv.org/abs/2406.00014v2 )

ライセンス: Link先を確認
Hajung Kim, Chanhwi Kim, Hoonick Lee, Kyochul Jang, Jiwoo Lee, Kyungjae Lee, Gangwoo Kim, Jaewoo Kang, (参考訳) 自然言語の質問をSQLクエリに変換することは、EHR(Electronic Health Record)データベースからの正確なデータ検索に不可欠である。 このプロセスにおける重要な課題は、データベースの範囲を超えて情報を要求したり、システムの能力を超過するような、解決不可能な質問を検出し、拒否することである。 本稿では、ドメイン外質問を頑健に処理し、クエリ実行で生成されたクエリを検証する新しいテキスト間SQLフレームワークについて紹介する。 我々は強力な大規模言語モデル(LLM)を用いており、細調整されたGPT-3.5で、EHRデータベースシステムのテーブルスキーマを含む詳細なプロンプトを処理している。 EHRSQL-2024ベンチマークでは,臨床NLPワークショップで共有タスクであるEHRSQL-2024ベンチマークの有効性が実証された。 GPTの直感的な微調整は、開発セットで有望な結果を示すが、テストセットのドメイン外の問題に苦労した。 われわれのフレームワークでは、EHRSQL-2024チャレンジの公式リーダーボードにおいて、システムの適応性を改善し、競争性能を達成する。

Transforming natural language questions into SQL queries is crucial for precise data retrieval from electronic health record (EHR) databases. A significant challenge in this process is detecting and rejecting unanswerable questions that request information beyond the database's scope or exceed the system's capabilities. In this paper, we introduce a novel text-to-SQL framework that robustly handles out-of-domain questions and verifies the generated queries with query execution.Our framework begins by standardizing the structure of questions into a templated format. We use a powerful large language model (LLM), fine-tuned GPT-3.5 with detailed prompts involving the table schemas of the EHR database system. Our experimental results demonstrate the effectiveness of our framework on the EHRSQL-2024 benchmark benchmark, a shared task in the ClinicalNLP workshop. Although a straightforward fine-tuning of GPT shows promising results on the development set, it struggled with the out-of-domain questions in the test set. With our framework, we improve our system's adaptability and achieve competitive performances in the official leaderboard of the EHRSQL-2024 challenge.
翻訳日:2024-06-22 03:39:39 公開日:2024-06-19
# テキスト埋め込みの最近の進歩:MTEBベンチマークにおけるトップパフォーマンス手法の概観

Recent advances in text embedding: A Comprehensive Review of Top-Performing Methods on the MTEB Benchmark ( http://arxiv.org/abs/2406.01607v2 )

ライセンス: Link先を確認
Hongliu Cao, (参考訳) テキストの埋め込み手法は、様々な自然言語処理タスクにおいて重要な役割を担っているため、産業分野と学術分野の両方で人気が高まっている。 ユニバーサルテキスト埋め込みの重要性はさらに強調され、Retrieval-Augmented Systems (RAGs) のようなLarge Language Models (LLMs) アプリケーションが台頭した。 以前のモデルは汎用化を試みてきたが、タスクやドメインをまたいだ一般化に苦慮することが多い。 しかし、近年の学習データ量、品質、多様性の進歩、LLMからの合成データ生成、およびLLMをバックボーンとして使用することは、普遍的なテキスト埋め込みの追求に大きな改善をもたらす。 本稿では, MTEB(Massive Text Embedding Benchmark)上でのテキスト埋め込みの最高性能に着目した, ユニバーサルテキスト埋め込みモデルの最近の進歩について概説する。 詳細な比較と分析を通じて、この分野における重要な貢献と限界を強調し、将来的な研究の方向性を示唆する。

Text embedding methods have become increasingly popular in both industrial and academic fields due to their critical role in a variety of natural language processing tasks. The significance of universal text embeddings has been further highlighted with the rise of Large Language Models (LLMs) applications such as Retrieval-Augmented Systems (RAGs). While previous models have attempted to be general-purpose, they often struggle to generalize across tasks and domains. However, recent advancements in training data quantity, quality and diversity; synthetic data generation from LLMs as well as using LLMs as backbones encourage great improvements in pursuing universal text embeddings. In this paper, we provide an overview of the recent advances in universal text embedding models with a focus on the top performing text embeddings on Massive Text Embedding Benchmark (MTEB). Through detailed comparison and analysis, we highlight the key contributions and limitations in this area, and propose potentially inspiring future research directions.
翻訳日:2024-06-22 01:36:36 公開日:2024-06-19
# PowerPeeler:PowerShellスクリプトの正確で一般的な動的難読化方法

PowerPeeler: A Precise and General Dynamic Deobfuscation Method for PowerShell Scripts ( http://arxiv.org/abs/2406.04027v2 )

ライセンス: Link先を確認
Ruijie Li, Chenyang Zhang, Huajun Chai, Lingyun Ying, Haixin Duan, Jun Tao, (参考訳) PowerShellは強力で汎用的なタスク自動化ツールです。 残念ながら、サイバー攻撃者には広く虐待されている。 マルウェアの検出を回避し、脅威分析を妨げるため、攻撃者は悪意のあるPowerShellスクリプトを難読化するために様々なテクニックを使うことが多い。 既存の難読化ツールは静的解析の限界に悩まされ、実際の難読化プロセスを正確にシミュレートすることができない。 本稿では,PowerPeelerを提案する。 私たちの知る限りでは、命令レベルでのPowerShellスクリプトの難読化アプローチとしては初めてのものです。 AST(Expression-related Abstract Syntax Tree)ノードを使用して、潜在的に難読化されたスクリプトを識別する。 そして、PowerPeelerは対応する命令とASTノードを関連付け、スクリプトの実行プロセス全体を監視する。 その後、PowerPeelerはこれらの命令の実行を動的に追跡し、実行結果を記録します。 最後に、PowerPeelerはこれらの結果を文字列化して、対応する難読化スクリプトを置き換え、難読化スクリプトを再構築する。 PowerPeelerの有効性を評価するために,多様性難読化手法を用いて実世界の1,736,669個のPowerShellサンプルを収集した。 我々はPowerPeelerを5つの最先端の難読化ツールとGPT-4と比較した。 評価結果は,PowerPeelerがよく知られた難読化手法を効果的に扱えることを示す。 さらに、PowerPeelerの難読化精度は95%に達し、他のツールをはるかに上回っている。 PowerPeelerは、最高の機密データを回復するだけでなく、セマンティック一貫性を97%以上維持する。 さらに、PowerPeelerは、有効な難読化結果の最大値を制限時間枠内で効果的に取得する。 さらに、PowerPeelerは拡張可能で、他のサイバーセキュリティソリューションの有用なツールとして使用できる。

PowerShell is a powerful and versatile task automation tool. Unfortunately, it is also widely abused by cyber attackers. To bypass malware detection and hinder threat analysis, attackers often employ diverse techniques to obfuscate malicious PowerShell scripts. Existing deobfuscation tools suffer from the limitation of static analysis, which fails to simulate the real deobfuscation process accurately. In this paper, we propose PowerPeeler. To the best of our knowledge, it is the first dynamic PowerShell script deobfuscation approach at the instruction level. It utilizes expression-related Abstract Syntax Tree (AST) nodes to identify potential obfuscated script pieces. Then, PowerPeeler correlates the AST nodes with their corresponding instructions and monitors the script's entire execution process. Subsequently, PowerPeeler dynamically tracks the execution of these instructions and records their execution results. Finally, PowerPeeler stringifies these results to replace the corresponding obfuscated script pieces and reconstruct the deobfuscated script. To evaluate the effectiveness of PowerPeeler, we collect 1,736,669 real-world malicious PowerShell samples with diversity obfuscation methods. We compare PowerPeeler with five state-of-the-art deobfuscation tools and GPT-4. The evaluation results demonstrate that PowerPeeler can effectively handle all well-known obfuscation methods. Additionally, the deobfuscation correctness rate of PowerPeeler reaches 95%, significantly surpassing that of other tools. PowerPeeler not only recovers the highest amount of sensitive data but also maintains a semantic consistency over 97%, which is also the best. Moreover, PowerPeeler effectively obtains the largest quantity of valid deobfuscated results within a limited time frame. Furthermore, PowerPeeler is extendable and can be used as a helpful tool for other cyber security solutions.
翻訳日:2024-06-22 01:36:36 公開日:2024-06-19
# MLVU:マルチタスク長ビデオ理解のための総合ベンチマーク

MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding ( http://arxiv.org/abs/2406.04264v2 )

ライセンス: Link先を確認
Junjie Zhou, Yan Shu, Bo Zhao, Boya Wu, Shitao Xiao, Xi Yang, Yongping Xiong, Bo Zhang, Tiejun Huang, Zheng Liu, (参考訳) ロングビデオ理解(Long Video Understanding, LVU)の性能評価は重要な研究課題である。 これまでの努力にもかかわらず、既存のビデオ理解ベンチマークはいくつかの問題、特にビデオの長さの不足、ビデオの種類や評価タスクの多様性の欠如、LVUのパフォーマンスを評価するための不適切さなどによって厳しい制約を受けている。 上記の問題に対処するため,我々はMLVU (Multi-task Long Video Understanding Benchmark) と呼ばれる新しいベンチマークを提案し,LVUの包括的かつ詳細な評価を行う。 MLVUは以下の臨界値を示します。 1) ビデオ長の実質的かつ柔軟な拡張により, 幅広い期間にわたってLVU性能を評価することが可能となった。 2) 様々なビデオジャンル,例えば映画,監視映像,エゴセントリックなビデオ,漫画,ゲームビデオなどが含まれており,異なるシナリオにおけるモデルのLVUパフォーマンスを反映している。 3)長期映像理解におけるMLLMの重要能力の総合的な検証を可能にする多種多様な評価タスクの開発。 20の最新のMLLMによる実証的研究は、既存のすべてのメソッドがほとんどの評価タスクに苦労し、より長いビデオを扱う際に深刻なパフォーマンス劣化を示すため、今日のテクニックにおいて、大きな改善の余地があることを明らかにしている。 さらに, 文脈長, 画質, LLMバックボーンの選択などの要因が, 今後の進歩において重要な役割を担っていることを示唆している。 我々はMLVUが、MLLMの包括的かつ詳細な分析を提供することで、長いビデオ理解の研究を進めることを期待する。

The evaluation of Long Video Understanding (LVU) performance poses an important but challenging research problem. Despite previous efforts, the existing video understanding benchmarks are severely constrained by several issues, especially the insufficient lengths of videos, a lack of diversity in video types and evaluation tasks, and the inappropriateness for evaluating LVU performances. To address the above problems, we propose a new benchmark, called MLVU (Multi-task Long Video Understanding Benchmark), for the comprehensive and in-depth evaluation of LVU. MLVU presents the following critical values: 1) The substantial and flexible extension of video lengths, which enables the benchmark to evaluate LVU performance across a wide range of durations. 2) The inclusion of various video genres, e.g., movies, surveillance footage, egocentric videos, cartoons, game videos, etc., which reflects the models' LVU performances in different scenarios. 3) The development of diversified evaluation tasks, which enables a comprehensive examination of MLLMs' key abilities in long-video understanding. The empirical study with 20 latest MLLMs reveals significant room for improvement in today's technique, as all existing methods struggle with most of the evaluation tasks and exhibit severe performance degradation when handling longer videos. Additionally, it suggests that factors such as context length, image-understanding quality, and the choice of LLM backbone can play critical roles in future advancements. We anticipate that MLVU will advance the research of long video understanding by providing a comprehensive and in-depth analysis of MLLMs.
翻訳日:2024-06-22 01:36:36 公開日:2024-06-19
# 量子摂動理論を用いた楕円型ブラックホール溶液中の臨界成分のベイズ推定のためのニューラルネットワーク支援メトロポリス・ハスティング

Neural Networks Assisted Metropolis-Hastings for Bayesian Estimation of Critical Exponent on Elliptic Black Hole Solution in 4D Using Quantum Perturbation Theory ( http://arxiv.org/abs/2406.04310v2 )

ライセンス: Link先を確認
Armin Hatefi, Ehsan Hatefi, Roberto J. Lopez-Sastre, (参考訳) 臨界重力崩壊は、チョプティック臨界指数である$\gamma$を特徴とする連続自己相似解を生成することはよく知られている。 数値測定誤差を考慮した線形摂動方程式の領域における解について検討する。 具体的には、楕円型$\text{SL}(2,\mathbb{R})$変換の4次元アインシュタイン-アキション-ディラトン系の量子摂動論を研究する。 本研究では,量子摂動理論に基づく新しいニューラルネットワーク支援メトロポリス・ハスティングスアルゴリズムを開発し,ベイズフレームワークにおける臨界指数の分布を求める。 従来の手法とは異なり、この新しい確率論的手法は利用可能な決定論的解を識別し、数値的な測定誤差によって生じる可能性のある物理的に区別可能な臨界指数の範囲を探索する。

It is well-known that the critical gravitational collapse produces continuous self-similar solutions characterized by the Choptuik critical exponent, $\gamma$. We examine the solutions in the domains of the linear perturbation equations, considering the numerical measurement errors. Specifically, we study quantum perturbation theory for the four-dimensional Einstein-axion-dilaton system of the elliptic class of $\text{SL}(2,\mathbb{R})$ transformations. We develop a novel artificial neural network-assisted Metropolis-Hastings algorithm based on quantum perturbation theory to find the distribution of the critical exponent in a Bayesian framework. Unlike existing methods, this new probabilistic approach identifies the available deterministic solution and explores the range of physically distinguishable critical exponents that may arise due to numerical measurement errors.
翻訳日:2024-06-22 01:36:36 公開日:2024-06-19
# LLMによる効率的なアナログレイアウト制約生成のためのベイズ最適化

LLM-Enhanced Bayesian Optimization for Efficient Analog Layout Constraint Generation ( http://arxiv.org/abs/2406.05250v2 )

ライセンス: Link先を確認
Guojin Chen, Keren Zhu, Seunggeun Kim, Hanqing Zhu, Yao Lai, Bei Yu, David Z. Pan, (参考訳) アナログレイアウトの合成は、手作業のプロセスへの依存、かなりの時間要件、パフォーマンスの不安定さなど、重大な課題に直面している。 現在のベイズ最適化(BO)に基づくアナログレイアウト合成技術は、自動化の可能性を秘めているが、収束の遅さと広範なデータ要求に悩まされ、実用的利用が制限されている。 本稿では,LLMの数発の学習能力を活かして,Large Language Models (LLMs) を利用した新しいアプローチである \texttt{LLANA} フレームワークを提案する。 実験結果から, <texttt{LLANA} は最新技術 (SOTA) BO法に匹敵する性能を達成するだけでなく, LLM のより優れた文脈理解と学習効率により, アナログ回路設計空間のより効率的な探索を可能にした。 コードはhttps://github.com/dekura/LLANA.comで公開されている。

Analog layout synthesis faces significant challenges due to its dependence on manual processes, considerable time requirements, and performance instability. Current Bayesian Optimization (BO)-based techniques for analog layout synthesis, despite their potential for automation, suffer from slow convergence and extensive data needs, limiting their practical application. This paper presents the \texttt{LLANA} framework, a novel approach that leverages Large Language Models (LLMs) to enhance BO by exploiting the few-shot learning abilities of LLMs for more efficient generation of analog design-dependent parameter constraints. Experimental results demonstrate that \texttt{LLANA} not only achieves performance comparable to state-of-the-art (SOTA) BO methods but also enables a more effective exploration of the analog circuit design space, thanks to LLM's superior contextual understanding and learning efficiency. The code is available at https://github.com/dekura/LLANA.
翻訳日:2024-06-22 01:36:36 公開日:2024-06-19
# ProG: グラフプロンプト学習ベンチマーク

ProG: A Graph Prompt Learning Benchmark ( http://arxiv.org/abs/2406.05346v2 )

ライセンス: Link先を確認
Chenyi Zi, Haihong Zhao, Xiangguo Sun, Yiqing Lin, Hong Cheng, Jia Li, (参考訳) グラフ上の人工知能は、様々なアプリケーションで顕著な進歩を見せているが、従来の'Pre-train & Fine-Tune'パラダイムは、特に複雑で少数のショット設定において、非効率性と負の転送問題に直面している。 グラフプロンプト学習は、データを操作する軽量なプロンプトを活用し、下流のタスクをプリテキストに書き換えることでタスクギャップを埋める、有望な代替手段として浮上する。 しかし、グラフプロンプトモデルを統一する方法、グラフプロンプトの品質を評価する方法、実用的な比較と選択のためのユーザビリティの改善など、いくつかの重要な課題が残っている。 これらの課題に応えて、グラフプロンプト学習のための最初の総合的なベンチマークを導入する。 本ベンチマークでは,SIX事前学習手法とFIVE最先端グラフプロンプト技術を統合し,FIFTEEN多種多様なデータセットを用いて評価を行い,性能,柔軟性,効率を評価する。 また,さまざまなグラフプロンプトモデルの実行を合理化し,客観的評価を容易にするオープンソースライブラリであるProGについても紹介する。 さらに,既存のグラフプロンプトメソッドを,グラフとしてのプロンプトとトークンとしてのプロンプトの2つの主要なアプローチに分類する統合フレームワークを提案する。 このフレームワークは、グラフプロンプト技術の適用性と比較を強化する。 コードは、https://github.com/sheldonresearch/ProG.comで入手できる。

Artificial general intelligence on graphs has shown significant advancements across various applications, yet the traditional 'Pre-train & Fine-tune' paradigm faces inefficiencies and negative transfer issues, particularly in complex and few-shot settings. Graph prompt learning emerges as a promising alternative, leveraging lightweight prompts to manipulate data and fill the task gap by reformulating downstream tasks to the pretext. However, several critical challenges still remain: how to unify diverse graph prompt models, how to evaluate the quality of graph prompts, and to improve their usability for practical comparisons and selection. In response to these challenges, we introduce the first comprehensive benchmark for graph prompt learning. Our benchmark integrates SIX pre-training methods and FIVE state-of-the-art graph prompt techniques, evaluated across FIFTEEN diverse datasets to assess performance, flexibility, and efficiency. We also present 'ProG', an easy-to-use open-source library that streamlines the execution of various graph prompt models, facilitating objective evaluations. Additionally, we propose a unified framework that categorizes existing graph prompt methods into two main approaches: prompts as graphs and prompts as tokens. This framework enhances the applicability and comparison of graph prompt techniques. The code is available at: https://github.com/sheldonresearch/ProG.
翻訳日:2024-06-22 01:36:36 公開日:2024-06-19
# レプリカフリーケルディシュ形式におけるスピングラスのレプリカ対称性の破れ

Replica symmetry breaking in spin glasses in the replica-free Keldysh formalism ( http://arxiv.org/abs/2406.05842v2 )

ライセンス: Link先を確認
Johannes Lang, Subir Sachdev, Sebastian Diehl, (参考訳) 漸近的に遅くなると、ガラス相の持続的な緩やかな老化ダイナミクスから超測度が現れる。 平均場スピングラスにおけるレプリカ対称性の破れをケルディシュ経路積分を用いた時間発展の遅延限界から回復するのに十分であることを示す。 これは、動的定式化と厳密に結合することで、レプリカ対称性の破れに対する代替のアプローチを提供する。 これにより、定常スピングラスは自然に熱対称性を破ることや、大域的な熱平衡状態のKubo-Martin-Schwinger関係が理解される。 球面量子$p$-スピンモデルと、横方向場と縦方向場の存在下での量子シェリントン・カークパトリックモデルに対する一般的なステートメントを実証する。 その際、微視的な量子モデルから始まるギンズバーグ・ランダウ効果のケルディシュ作用も導出する。

At asymptotically late times ultrametricity can emerge from the persistent slow aging dynamics of the glass phase. We show that this suffices to recover the breaking of replica symmetry in mean-field spin glasses from the late time limit of the time evolution using the Keldysh path integral. This provides an alternative approach to replica symmetry breaking by connecting it rigorously to the dynamic formulation. Stationary spin glasses are thereby understood to spontaneously break thermal symmetry, or the Kubo-Martin-Schwinger relation of a state in global thermal equilibrium. We demonstrate our general statements for the spherical quantum $p$-spin model and the quantum Sherrington-Kirkpatrick model in the presence of transverse and longitudinal fields. In doing so, we also derive their dynamical Ginzburg-Landau effective Keldysh actions starting from microscopic quantum models.
翻訳日:2024-06-22 01:26:51 公開日:2024-06-19
# 量子コンピュータにおける大規模・高精度流体シミュレーションの実現

Enabling Large-Scale and High-Precision Fluid Simulations on Near-Term Quantum Computers ( http://arxiv.org/abs/2406.06063v3 )

ライセンス: Link先を確認
Zhao-Yun Chen, Teng-Yang Ma, Chuang-Chao Ye, Liang Xu, Ming-Yang Tan, Xi-Ning Zhuang, Xiao-Fan Xu, Yun-Jie Wang, Tai-Ping Sun, Yong Chen, Lei Du, Liang-Liang Guo, Hai-Feng Zhang, Hao-Ran Tao, Tian-Le Wang, Xiao-Yan Yang, Ze-An Zhao, Peng Wang, Sheng Zhang, Chi Zhang, Ren-Ze Zhao, Zhi-Long Jia, Wei-Cheng Kong, Meng-Han Dou, Jun-Chao Wang, Huan-Yu Liu, Cheng Xue, Peng-Jun-Yi Zhang, Sheng-Hong Huang, Peng Duan, Yu-Chun Wu, Guo-Ping Guo, (参考訳) 量子計算流体力学(QCFD)は、量子アルゴリズムを高効率に活用することにより、古典計算流体力学(CFD)に代わる有望な代替手段を提供する。 本稿では,量子線形解法における誤差を抑える反復的手法"Iterative-QLS"と,その解を大規模化するための部分空間法を含む,包括的QCFD手法を提案する。 本手法を超伝導量子コンピュータに実装し,定常ポアゼイユ流と非定常音波伝搬のシミュレーションに成功した。 ポワゼイユ流シミュレーションは相対誤差が0.2 %以下で、非定常音響波シミュレーションは5043次元の行列を解いた。 我々は,短期量子コンピュータの応用における量子古典ハイブリッドアプローチの活用を強調した。 量子ハードウェアの制約に適応し、大規模CFD問題に対するスケーラブルなソリューションを提供することにより、計算科学における短期量子コンピュータの実用化の道を開く。

Quantum computational fluid dynamics (QCFD) offers a promising alternative to classical computational fluid dynamics (CFD) by leveraging quantum algorithms for higher efficiency. This paper introduces a comprehensive QCFD method, including an iterative method "Iterative-QLS" that suppresses error in quantum linear solver, and a subspace method to scale the solution to a larger size. We implement our method on a superconducting quantum computer, demonstrating successful simulations of steady Poiseuille flow and unsteady acoustic wave propagation. The Poiseuille flow simulation achieved a relative error of less than $0.2\%$, and the unsteady acoustic wave simulation solved a 5043-dimensional matrix. We emphasize the utilization of the quantum-classical hybrid approach in applications of near-term quantum computers. By adapting to quantum hardware constraints and offering scalable solutions for large-scale CFD problems, our method paves the way for practical applications of near-term quantum computers in computational science.
翻訳日:2024-06-22 01:26:51 公開日:2024-06-19
# BERT言語モデルの効率的な学習のための対称Dot-Product Attention

Symmetric Dot-Product Attention for Efficient Training of BERT Language Models ( http://arxiv.org/abs/2406.06366v2 )

ライセンス: Link先を確認
Martin Courtois, Malte Ostendorff, Leonhard Hennig, Georg Rehm, (参考訳) 当初、機械翻訳モデルとして導入されたTransformerアーキテクチャは、コンピュータビジョンから自然言語処理まで幅広い分野の応用で、現代のディープラーニングアーキテクチャの基礎となっている。 今日では、ますます複雑なタスクに取り組むために、Transformerベースのモデルは巨大なサイズに拡張され、トレーニングデータセットがますます大きくなり、持続不可能な量の計算リソースが必要になる。 トランスフォーマーのユビキタスな性質と、そのコアコンポーネントであるアテンション機構は、効率研究の主要なターゲットである。 本研究では,Transformer アーキテクチャによって導入された自己注意機構の代替互換性関数を提案する。 この整合関数は、伝統的なスケールされたドット積の注意の学習された表現の重なりを生かし、左右の係数のドット積の注意が対称となる。 BERTライクなモデルの事前トレーニングに適用すると、この新しい対称アテンション機構はGLUEベンチマークのスコア79.36に到達し、従来の実装では78.74に到達し、トレーニング可能なパラメータの6%が減少し、収束前に必要となるトレーニングステップの数を半分に減らす。

Initially introduced as a machine translation model, the Transformer architecture has now become the foundation for modern deep learning architecture, with applications in a wide range of fields, from computer vision to natural language processing. Nowadays, to tackle increasingly more complex tasks, Transformer-based models are stretched to enormous sizes, requiring increasingly larger training datasets, and unsustainable amount of compute resources. The ubiquitous nature of the Transformer and its core component, the attention mechanism, are thus prime targets for efficiency research. In this work, we propose an alternative compatibility function for the self-attention mechanism introduced by the Transformer architecture. This compatibility function exploits an overlap in the learned representation of the traditional scaled dot-product attention, leading to a symmetric with pairwise coefficient dot-product attention. When applied to the pre-training of BERT-like models, this new symmetric attention mechanism reaches a score of 79.36 on the GLUE benchmark against 78.74 for the traditional implementation, leads to a reduction of 6% in the number of trainable parameters, and reduces the number of training steps required before convergence by half.
翻訳日:2024-06-22 01:26:51 公開日:2024-06-19
# クラス不均衡分子データに対するグラフベース双方向トランスフォーマー決定閾値調整アルゴリズム

Graph-Based Bidirectional Transformer Decision Threshold Adjustment Algorithm for Class-Imbalanced Molecular Data ( http://arxiv.org/abs/2406.06479v2 )

ライセンス: Link先を確認
Nicole Hayes, Ekaterina Merkurjev, Guo-Wei Wei, (参考訳) 不均衡なクラスサイズを持つデータセットは、1つのクラスサイズが他のクラスよりもはるかに小さい場合が多く、薬物発見や疾患診断などの生物学的基盤を持つデータセットを含む様々な用途で非常に頻繁に発生する。 したがって、様々なサイズのクラスのデータ要素を識別することは極めて重要である。 しかし、多くのデータ分類アルゴリズムは、未表現のクラスに属する要素をしばしば検出できないため、不均衡なデータセットではうまく機能しない。 本稿では,Merriman-Bence-Osher(MBO)技術と双方向トランスフォーマーを併用したBTDT-MBOアルゴリズムを提案する。 提案手法は,クラス不均衡に対処するために,MBOアルゴリズムの分類しきい値に調整を組み込むだけでなく,自己教師あり学習のための注意機構に基づく双方向トランスフォーマーモデルを用いる。 さらに、調整されたMBOアルゴリズムが動作する類似性グラフベースのフレームワークの重み関数として距離相関を実装した。 提案モデルは6つの分子データセットを用いて検証し、他の競合するアルゴリズムと比較する。 計算実験により,クラス不均衡比が非常に高い場合でも,提案手法は競合技術よりも優れた性能を示した。

Data sets with imbalanced class sizes, often where one class size is much smaller than that of others, occur extremely often in various applications, including those with biological foundations, such as drug discovery and disease diagnosis. Thus, it is extremely important to be able to identify data elements of classes of various sizes, as a failure to detect can result in heavy costs. However, many data classification algorithms do not perform well on imbalanced data sets as they often fail to detect elements belonging to underrepresented classes. In this paper, we propose the BTDT-MBO algorithm, incorporating Merriman-Bence-Osher (MBO) techniques and a bidirectional transformer, as well as distance correlation and decision threshold adjustments, for data classification problems on highly imbalanced molecular data sets, where the sizes of the classes vary greatly. The proposed method not only integrates adjustments in the classification threshold for the MBO algorithm in order to help deal with the class imbalance, but also uses a bidirectional transformer model based on an attention mechanism for self-supervised learning. Additionally, the method implements distance correlation as a weight function for the similarity graph-based framework on which the adjusted MBO algorithm operates. The proposed model is validated using six molecular data sets, and we also provide a thorough comparison to other competing algorithms. The computational experiments show that the proposed method performs better than competing techniques even when the class imbalance ratio is very high.
翻訳日:2024-06-22 01:26:51 公開日:2024-06-19
# ヒューマンフィードバックによる政策整合性向上のための共同実証と選好学習

Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback ( http://arxiv.org/abs/2406.06874v2 )

ライセンス: Link先を確認
Chenliang Li, Siliang Zeng, Zeyi Liao, Jiaxiang Li, Dongyeop Kang, Alfredo Garcia, Mingyi Hong, (参考訳) 人間の好みと価値を調整することは、現代の基礎モデルの構築とAIの具体化にとって重要な要件である。 しかし、人間フィードバックによる強化学習(RLHF)のような一般的なアプローチでは、教師付き微調整(SFT)、報酬モデリング(RM)、強化学習(RL)のように、タスクを連続的に分割し、1つの特定の学習タスクを実行する。 このようなシーケンシャルなアプローチは、データの利用不足や学習された報酬モデルと生成されたポリシーの間の分散ミスマッチといった深刻な問題を引き起こし、最終的にはアライメント性能が低下する。 そこで我々は,AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一段階のアプローチを開発し,人間の嗜好と実演を統合し,報酬モデルとポリシーを訓練する。 提案手法では,RLHF や Directly Policy Optimization (DPO) などの一般的なアライメントアルゴリズムの削減と活用が容易であり,既存のアライメントパイプラインに小さな変更を加えるだけでよい。 本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。 提案手法はRLHFやDPOといった既存のアライメントアルゴリズムを,特に高品質な嗜好データが比較的限定されている場合,大きなマージンで上回っている。

Aligning human preference and value is an important requirement for building contemporary foundation models and embodied AI. However, popular approaches such as reinforcement learning with human feedback (RLHF) break down the task into successive stages, such as supervised fine-tuning (SFT), reward modeling (RM), and reinforcement learning (RL), each performing one specific learning task. Such a sequential approach results in serious issues such as significant under-utilization of data and distribution mismatch between the learned reward model and generated policy, which eventually lead to poor alignment performance. We develop a single stage approach named Alignment with Integrated Human Feedback (AIHF), capable of integrating both human preference and demonstration to train reward models and the policy. The proposed approach admits a suite of efficient algorithms, which can easily reduce to, and leverage, popular alignment algorithms such as RLHF and Directly Policy Optimization (DPO), and only requires minor changes to the existing alignment pipelines. We demonstrate the efficiency of the proposed solutions with extensive experiments involving alignment problems in LLMs and robotic control problems in MuJoCo. We observe that the proposed solutions outperform the existing alignment algorithms such as RLHF and DPO by large margins, especially when the amount of high-quality preference data is relatively limited.
翻訳日:2024-06-22 01:26:51 公開日:2024-06-19
# Hydra-MDP:マルチターゲットハイドラ蒸留によるエンドツーエンドマルチモーダルプランニング

Hydra-MDP: End-to-end Multimodal Planning with Multi-target Hydra-Distillation ( http://arxiv.org/abs/2406.06978v3 )

ライセンス: Link先を確認
Zhenxin Li, Kailin Li, Shihao Wang, Shiyi Lan, Zhiding Yu, Yishen Ji, Zhiqi Li, Ziyue Zhu, Jan Kautz, Zuxuan Wu, Yu-Gang Jiang, Jose M. Alvarez, (参考訳) 教師-学生モデルに複数の教師を取り入れた新しいパラダイムであるHydra-MDPを提案する。 このアプローチでは、人間とルールベースの教師の両方から知識を蒸留して学生モデルを訓練し、様々な評価指標に合わせて様々な軌道候補を学習するマルチヘッドデコーダを特徴とする。 ルールベースの教師の知識により、Hydra-MDPは、非微分不可能なポストプロセッシングに頼るのではなく、エンド・ツー・エンドの方法で環境がプランニングにどのように影響するかを学ぶ。 この手法はナブシム問題において1^{st}$の精度を達成し、様々な運転環境や条件における一般化の大幅な改善を示す。 コードは \url{https://github.com/NVlabs/Hydra-MDP} で入手できる。

We propose Hydra-MDP, a novel paradigm employing multiple teachers in a teacher-student model. This approach uses knowledge distillation from both human and rule-based teachers to train the student model, which features a multi-head decoder to learn diverse trajectory candidates tailored to various evaluation metrics. With the knowledge of rule-based teachers, Hydra-MDP learns how the environment influences the planning in an end-to-end manner instead of resorting to non-differentiable post-processing. This method achieves the $1^{st}$ place in the Navsim challenge, demonstrating significant improvements in generalization across diverse driving environments and conditions. Code will be available at \url{https://github.com/NVlabs/Hydra-MDP}.
翻訳日:2024-06-22 01:26:51 公開日:2024-06-19
# MINERS:セマンティックレトリバーとしての多言語言語モデル

MINERS: Multilingual Language Models as Semantic Retrievers ( http://arxiv.org/abs/2406.07424v2 )

ライセンス: Link先を確認
Genta Indra Winata, Ruochen Zhang, David Ifeoluwa Adelani, (参考訳) 単語は、それらの意味的類似性を符号化した高次元ベクトル空間で表現され、同義語、アントロニム、関連する文脈を検索するといった下流のアプリケーションを可能にする。 しかし、近年の多言語言語モデル(LM)の発展にもかかわらず、意味論的文脈におけるこれらのモデルの表現の有効性は包括的に調べられていない。 このギャップを埋めるために,本研究では,bitextマイニングや検索拡張コンテキストによる分類を含むセマンティック検索タスクにおける多言語LMの能力を評価するためのベンチマークであるMINERSを紹介する。 我々は,200以上の多言語にまたがるサンプルを検索する際のLMの堅牢性を評価する,包括的なフレームワークを構築した。 以上の結果から,意味論的に類似した埋め込みを検索するだけで,微調整を必要とせず,最先端のアプローチと競合する性能が得られることが示された。

Words have been represented in a high-dimensional vector space that encodes their semantic similarities, enabling downstream applications such as retrieving synonyms, antonyms, and relevant contexts. However, despite recent advances in multilingual language models (LMs), the effectiveness of these models' representations in semantic retrieval contexts has not been comprehensively explored. To fill this gap, this paper introduces the MINERS, a benchmark designed to evaluate the ability of multilingual LMs in semantic retrieval tasks, including bitext mining and classification via retrieval-augmented contexts. We create a comprehensive framework to assess the robustness of LMs in retrieving samples across over 200 diverse languages, including extremely low-resource languages in challenging cross-lingual and code-switching settings. Our results demonstrate that by solely retrieving semantically similar embeddings yields performance competitive with state-of-the-art approaches, without requiring any fine-tuning.
翻訳日:2024-06-22 01:26:51 公開日:2024-06-19
# Fredformer: 時系列予測のための周波数デバイアス変換器

Fredformer: Frequency Debiased Transformer for Time Series Forecasting ( http://arxiv.org/abs/2406.09009v3 )

ライセンス: Link先を確認
Xihao Piao, Zheng Chen, Taichi Murayama, Yasuko Matsubara, Yasushi Sakurai, (参考訳) Transformerモデルは時系列予測において主要なパフォーマンスを示している。 それでも複雑なシナリオでは、データ内の低周波の特徴を学習し、高周波の特徴を見落とし、周波数バイアスを示す傾向にある。 このバイアスは、モデルが重要な高周波データ特徴を正確にキャプチャすることを防ぐ。 本稿では,このバイアスを理解するための実験的な分析を行い,高エネルギーの周波数特性に着目したモデルによる周波数バイアスが不均等に発生することを発見した。 我々は,このバイアスを定式化し,周波数帯域の異なる特徴を均等に学習することで周波数バイアスを緩和するトランスフォーマーベースのフレームワークであるFredformerを提案する。 このアプローチは、モデルが正確な予測に重要な低振幅の特徴を見落としないようにする。 大規模な実験により,提案手法の有効性が示され,実世界の時系列データセットにおいて,他のベースラインよりも優れていることがわかった。 さらに,注目行列近似を用いたFredformerの軽量版を導入し,より少ないパラメータと少ない計算コストで同等の性能を実現する。 コードは、https://github.com/chenzRG/Fredformer.comで入手できる。

The Transformer model has shown leading performance in time series forecasting. Nevertheless, in some complex scenarios, it tends to learn low-frequency features in the data and overlook high-frequency features, showing a frequency bias. This bias prevents the model from accurately capturing important high-frequency data features. In this paper, we undertook empirical analyses to understand this bias and discovered that frequency bias results from the model disproportionately focusing on frequency features with higher energy. Based on our analysis, we formulate this bias and propose Fredformer, a Transformer-based framework designed to mitigate frequency bias by learning features equally across different frequency bands. This approach prevents the model from overlooking lower amplitude features important for accurate forecasting. Extensive experiments show the effectiveness of our proposed approach, which can outperform other baselines in different real-world time-series datasets. Furthermore, we introduce a lightweight variant of the Fredformer with an attention matrix approximation, which achieves comparable performance but with much fewer parameters and lower computation costs. The code is available at: https://github.com/chenzRG/Fredformer
翻訳日:2024-06-22 01:17:00 公開日:2024-06-19
# オブジェクト検出の強化:V3Det Challenge 2024におけるVast Vocabulary Object Detection Trackの検討

Enhanced Object Detection: A Study on Vast Vocabulary Object Detection Track for V3Det Challenge 2024 ( http://arxiv.org/abs/2406.09201v2 )

ライセンス: Link先を確認
Peixi Wu, Bosong Chai, Xuan Nie, Longquan Yan, Zeyu Wang, Qifan Zhou, Boning Wang, (参考訳) 本稿では,Vast Vocabulary Visual Detection (V3Det) データセットを用いて,教師付きVast Vocabulary Visual Detectionタスクについて検討した。 このトラックでは、複雑なカテゴリや検出ボックスの扱いが困難になっている。 オリジナルの管制検出器は、この作業には適していない。 ネットワーク構造の調整、損失関数の変更、トレーニング戦略の設計など、一連の改善を設計しました。 我々のモデルは,V3Det Challenge 2024のVast Vocabulary Object Detection(Supervised)トラックとOpen Vocabulary Object Detection(OVD)トラックの両方において,ベースラインを改良し,Leadboardの優れたランキングを達成した。

In this technical report, we present our findings from the research conducted on the Vast Vocabulary Visual Detection (V3Det) dataset for Supervised Vast Vocabulary Visual Detection task. How to deal with complex categories and detection boxes has become a difficulty in this track. The original supervised detector is not suitable for this task. We have designed a series of improvements, including adjustments to the network structure, changes to the loss function, and design of training strategies. Our model has shown improvement over the baseline and achieved excellent rankings on the Leaderboard for both the Vast Vocabulary Object Detection (Supervised) track and the Open Vocabulary Object Detection (OVD) track of the V3Det Challenge 2024.
翻訳日:2024-06-22 01:17:00 公開日:2024-06-19
# 引用GPT:言語モデルによるテキストの引用機構

ElicitationGPT: Text Elicitation Mechanisms via Language Models ( http://arxiv.org/abs/2406.09363v2 )

ライセンス: Link先を確認
Yifan Wu, Jason Hartline, (参考訳) スコーリングルールは、未知の状態の確率的予測を実状態に対して評価し、情報の導入と機械学習モデルのトレーニングにおける基本的なビルディングブロックである。 本稿では,大規模言語モデル(特にChatGPT)に対するドメイン知識のない問合せを用いた提案文の真理テキストに対するスコアリング機構を開発し,人間の嗜好との整合性を実証的に評価する。 評価は、ピアグレーディングデータセットからのピアレビューと、ピアレビューのマニュアルインストラクタースコアと比較して行われる。

Scoring rules evaluate probabilistic forecasts of an unknown state against the realized state and are a fundamental building block in the incentivized elicitation of information and the training of machine learning models. This paper develops mechanisms for scoring elicited text against ground truth text using domain-knowledge-free queries to a large language model (specifically ChatGPT) and empirically evaluates their alignment with human preferences. The empirical evaluation is conducted on peer reviews from a peer-grading dataset and in comparison to manual instructor scores for the peer reviews.
翻訳日:2024-06-22 01:17:00 公開日:2024-06-19
# IGL-Bench:不均衡グラフ学習のための総合ベンチマークを確立する

IGL-Bench: Establishing the Comprehensive Benchmark for Imbalanced Graph Learning ( http://arxiv.org/abs/2406.09870v2 )

ライセンス: Link先を確認
Jiawen Qin, Haonan Yuan, Qingyun Sun, Lyujin Xu, Jiaqi Yuan, Pengfeng Huang, Zhaonan Wang, Xingcheng Fu, Hao Peng, Jianxin Li, Philip S. Yu, (参考訳) ディープグラフ学習は、その汎用性と、広範囲にわたるグラフデータの表現の成功により、ここ数年で大きな人気を集めている。 しかし、不均衡なグラフデータ分布の広汎な問題は、一部の部分が不均等に豊富なデータを示す一方で、他の部分は疎いままであり、従来のグラフ学習アルゴリズムの有効性を損なうものであり、偏りのある結果をもたらす。 この課題に対処するため、Im Balanced Graph Learning (IGL)は、よりバランスの取れたデータ分散とタスクパフォーマンスの向上を実現し、大きな注目を集めている。 IGLアルゴリズムの普及にもかかわらず、一貫した実験プロトコルや公正な性能比較が欠如していることは、この分野の進歩を理解する上で重要な障壁となっている。 このギャップを埋めるため、不均衡グラフ学習のための基本的な総合的なベンチマークであるIGL-Benchを導入し、16の多様なグラフデータセットと24の異なるIGLアルゴリズムを均一なデータ処理と分割戦略で導入する。 具体的には、IGL-Benchは、クラス不均衡とトポロジ不均衡の範囲で、ノードレベルおよびグラフレベルのタスクにおける有効性、堅牢性、効率の観点から、最先端のIGLアルゴリズムを体系的に研究する。 広範囲にわたる実験は、様々な不均衡な条件下でのIGLアルゴリズムの潜在的な利点を示し、IGL分野における洞察と機会を提供する。 さらに,再現性評価を容易にし,さらに革新的な研究を促すために,オープンソースで統一されたパッケージを開発し,https://github.com/RingBDStack/IGL-Benchで公開している。

Deep graph learning has gained grand popularity over the past years due to its versatility and success in representing graph data across a wide range of domains. However, the pervasive issue of imbalanced graph data distributions, where certain parts exhibit disproportionally abundant data while others remain sparse, undermines the efficacy of conventional graph learning algorithms, leading to biased outcomes. To address this challenge, Imbalanced Graph Learning (IGL) has garnered substantial attention, enabling more balanced data distributions and better task performance. Despite the proliferation of IGL algorithms, the absence of consistent experimental protocols and fair performance comparisons pose a significant barrier to comprehending advancements in this field. To bridge this gap, we introduce IGL-Bench, a foundational comprehensive benchmark for imbalanced graph learning, embarking on 16 diverse graph datasets and 24 distinct IGL algorithms with uniform data processing and splitting strategies. Specifically, IGL-Bench systematically investigates state-of-the-art IGL algorithms in terms of effectiveness, robustness, and efficiency on node-level and graph-level tasks, with the scope of class-imbalance and topology-imbalance. Extensive experiments demonstrate the potential benefits of IGL algorithms on various imbalanced conditions, offering insights and opportunities in the IGL field. Further, we have developed an open-sourced and unified package to facilitate reproducible evaluation and inspire further innovative research, which is available at https://github.com/RingBDStack/IGL-Bench.
翻訳日:2024-06-22 01:17:00 公開日:2024-06-19
# 医薬品安全データ分析におけるギャップのブリッジ:SQLクエリ生成のための大規模言語モデル

Bridging the Gap in Drug Safety Data Analysis: Large Language Models for SQL Query Generation ( http://arxiv.org/abs/2406.10690v2 )

ライセンス: Link先を確認
Jeffery L. Painter, Venkateswara Rao Chalamalasetti, Raymond Kassekert, Andrew Bate, (参考訳) 薬剤の安全性にはPV(Pharmacovigilance)が不可欠であり、主に有害事象のモニタリングに重点を置いている。 伝統的に、安全データにアクセスするにはデータベースの専門知識が必要であり、より広範な使用を制限する。 本稿では,非技術的ユーザを対象としたデータベースアクセスの民主化に,LLM(Large Language Models)の新たな応用を提案する。 OpenAIのGPT-4を利用して、自然言語から構造化クエリ言語(SQL)クエリを生成し、ドメイン知識と技術的要件のギャップを埋めるチャットボットを開発した。 提案アプリケーションは、より包括的で効率的なデータアクセスを目標とし、医薬品の安全性における意思決定を強化する。 専門知識の平易な言語要約をLLMに提供することにより,データベーススキーマのみに依存する手法よりも,クエリの精度が大幅に向上する。 この文脈におけるLSMの応用は、PVデータ分析を最適化し、タイムリーかつ正確な薬物安全報告を確実にするだけでなく、より安全な薬理学の実践と様々なデータ集約的な分野における情報決定を促進する。

Pharmacovigilance (PV) is essential for drug safety, primarily focusing on adverse event monitoring. Traditionally, accessing safety data required database expertise, limiting broader use. This paper introduces a novel application of Large Language Models (LLMs) to democratize database access for non-technical users. Utilizing OpenAI's GPT-4, we developed a chatbot that generates structured query language (SQL) queries from natural language, bridging the gap between domain knowledge and technical requirements. The proposed application aims for more inclusive and efficient data access, enhancing decision making in drug safety. By providing LLMs with plain language summaries of expert knowledge, our approach significantly improves query accuracy over methods relying solely on database schemas. The application of LLMs in this context not only optimizes PV data analysis, ensuring timely and precise drug safety reporting -- a crucial component in adverse drug reaction monitoring -- but also promotes safer pharmacological practices and informed decision making across various data intensive fields.
翻訳日:2024-06-22 01:17:00 公開日:2024-06-19
# 予測問題における最適縮約によるニューラルネットワークのパラメータの校正

Calibrating Neural Networks' parameters through Optimal Contraction in a Prediction Problem ( http://arxiv.org/abs/2406.10703v2 )

ライセンス: Link先を確認
Valdes Gonzalo, (参考訳) 本研究では,ニューラルネットワークにおける最適パラメータの存在と特異性を保証する新しいアプローチを提案する。 論文では、リカレントニューラルネットワーク(RNN)を、パラメータが線形な領域の収縮に変換する方法について詳述する。 次に、損失関数の特定の正規化項を持つRNNによってモデル化された予測問題は、その一階条件を解析的に表現できることを示した。 この方程式体系は、部分的に解けるシルベスター方程式を含む2つの行列方程式に還元される。 一定の条件が満たされた場合、最適なパラメータが存在し、一意であり、任意の所望の精度で簡単なアルゴリズムで見つけることができる。 また、ニューロンの数が増えるにつれて、収束の条件が満たされやすくなる。 フィードフォワードニューラルネットワーク(FNN)もパラメータに線形制約を加えることで検討されている。 我々のモデルによれば、ループ(固定あるいは可変重み付き)を組み込むことで、反復法が収束する領域の存在を保証するため、訓練を容易にする損失関数が生成される。

This study introduces a novel approach to ensure the existence and uniqueness of optimal parameters in neural networks. The paper details how a recurrent neural networks (RNN) can be transformed into a contraction in a domain where its parameters are linear. It then demonstrates that a prediction problem modeled through an RNN, with a specific regularization term in the loss function, can have its first-order conditions expressed analytically. This system of equations is reduced to two matrix equations involving Sylvester equations, which can be partially solved. We establish that, if certain conditions are met, optimal parameters exist, are unique, and can be found through a straightforward algorithm to any desired precision. Also, as the number of neurons grows the conditions of convergence become easier to fulfill. Feedforward neural networks (FNNs) are also explored by including linear constraints on parameters. According to our model, incorporating loops (with fixed or variable weights) will produce loss functions that train easier, because it assures the existence of a region where an iterative method converges.
翻訳日:2024-06-22 01:07:15 公開日:2024-06-19
# Rideshare Transparency: AIプラットフォーム設計に関するGig Worker Insightsをポリシに翻訳する

Rideshare Transparency: Translating Gig Worker Insights on AI Platform Design to Policy ( http://arxiv.org/abs/2406.10768v2 )

ライセンス: Link先を確認
Varun Nagaraj Rao, Samantha Dalal, Eesha Agarwal, Dana Calacci, Andrés Monroy-Hernández, (参考訳) ライドシェアプラットフォームは、経済的、感情的、身体的損害をもたらすアルゴリズムシステムを通じて、労働者を著しく制御する。 プラットフォーム、デザイナ、実践者は、これらのネガティブな影響を緩和し、労働者のニーズを満たすために、どのようなステップをとれるだろうか? 本稿では,LLMによるオンライン・プラットフォーム・ワーカーコミュニティに投稿された100万件以上のコメントと,労働者の半構造化インタビューを併用した新たな混合手法について述べる。 本研究は,既存のプラットフォーム設計とドライバが必要とする情報,特にプロモーション,運賃,経路,タスク割り当ての透明性のギャップを明らかにするものである。 我々の分析は、ライドシェア労働者は、インフォメーションと呼ばれる重要な情報を必要とし、情報的な仕事の決定を行うことを示唆している。 これらの指標には、乗車、ドライバー統計、アルゴリズムの実装の詳細、プラットフォームポリシー情報などが含まれる。 我々は、そのような情報をデザインに含めるプラットフォームに頼る代わりに、公共の透明性レポートを公開することを要求する新しい規制が、労働者の幸福を改善するためのより効果的なソリューションになるかもしれないと論じている。 我々はそのような政策を実施するための勧告を提示する。

Rideshare platforms exert significant control over workers through algorithmic systems that can result in financial, emotional, and physical harm. What steps can platforms, designers, and practitioners take to mitigate these negative impacts and meet worker needs? In this paper, through a novel mixed methods study combining a LLM-based analysis of over 1 million comments posted to online platform worker communities with semi-structured interviews of workers, we thickly characterize transparency-related harms, mitigation strategies, and worker needs while validating and contextualizing our findings within the broader worker community. Our findings expose a transparency gap between existing platform designs and the information drivers need, particularly concerning promotions, fares, routes, and task allocation. Our analysis suggests that rideshare workers need key pieces of information, which we refer to as indicators, to make informed work decisions. These indicators include details about rides, driver statistics, algorithmic implementation details, and platform policy information. We argue that instead of relying on platforms to include such information in their designs, new regulations that require platforms to publish public transparency reports may be a more effective solution to improve worker well-being. We offer recommendations for implementing such a policy.
翻訳日:2024-06-22 01:07:15 公開日:2024-06-19
# 理解を理解する: 大規模言語モデルによって動機付けられた実践的なフレームワーク

Understanding Understanding: A Pragmatic Framework Motivated by Large Language Models ( http://arxiv.org/abs/2406.10937v2 )

ライセンス: Link先を確認
Kevin Leyton-Brown, Yoav Shoham, (参考訳) 大規模言語モデル(LLM)の急激な上昇と、それらが人間レベルの品質をどの程度持っているかについての議論により、エージェント(機械か人間か)が対象物を理解するかどうかをテストするための枠組みを提案する。 チューリングテストの手法では、このフレームワークはエージェントのパフォーマンスのみをベースとしており、特にその答えの正確さに基づいている。 フレームワークの要素には、一連の質問(「理解のスコープ」)を取り巻くこと、一般的な能力("passing grade")を必要とすること、"厳格な答え"を避けること、そしてまだ間違った答えを許すこと、いくつかの質問に対する"私は知らない"答えを許容することなどが含まれる。 これらの条件に対する確実性を確保するには、非自明なスコープでは不可能な質問を徹底的に検証する必要があるが、ランダムサンプリングと確率的信頼境界の適用により、いかに高い信頼が得られるかを示す。 また、説明を伴う回答が許容範囲を達成するのに必要なサンプルの複雑さを改善することも示している。 私たちのフレームワークによれば、現在のLLMは非自明なドメインを理解するとは言えませんが、このフレームワークは理解をテストするための実践的なレシピを提供するので、理解するAIエージェントを構築するためのツールを構成します。

Motivated by the rapid ascent of Large Language Models (LLMs) and debates about the extent to which they possess human-level qualities, we propose a framework for testing whether any agent (be it a machine or a human) understands a subject matter. In Turing-test fashion, the framework is based solely on the agent's performance, and specifically on how well it answers questions. Elements of the framework include circumscribing the set of questions (the "scope of understanding"), requiring general competence ("passing grade"), avoiding "ridiculous answers", but still allowing wrong and "I don't know" answers to some questions. Reaching certainty about these conditions requires exhaustive testing of the questions which is impossible for nontrivial scopes, but we show how high confidence can be achieved via random sampling and the application of probabilistic confidence bounds. We also show that accompanying answers with explanations can improve the sample complexity required to achieve acceptable bounds, because an explanation of an answer implies the ability to answer many similar questions. According to our framework, current LLMs cannot be said to understand nontrivial domains, but as the framework provides a practical recipe for testing understanding, it thus also constitutes a tool for building AI agents that do understand.
翻訳日:2024-06-22 01:07:15 公開日:2024-06-19
# Vul-RAG:知識レベルRAGによるLCMに基づく脆弱性検出の強化

Vul-RAG: Enhancing LLM-based Vulnerability Detection via Knowledge-level RAG ( http://arxiv.org/abs/2406.11147v2 )

ライセンス: Link先を確認
Xueying Du, Geng Zheng, Kaixin Wang, Jiayi Feng, Wentai Deng, Mingwei Liu, Bihuan Chen, Xin Peng, Tao Ma, Yiling Lou, (参考訳) 脆弱性検出はソフトウェアの品質保証に不可欠である。 近年,ディープラーニングモデル(特に大規模言語モデル)は,脆弱性検出の可能性を示唆している。 本研究では,LLMに基づく脆弱性検出手法であるVul-RAGを提案する。 まず、Vul-RAGは、既存のCVEインスタンスからLLMを介して多次元知識を抽出し、脆弱性知識ベースを構築する。次に、与えられたコードスニペットに対して、Vul-RAGは、機能的セマンティクスに基づいて構築された知識ベースから関連する脆弱性知識を検索する。 PairVul を用いた Vul-RAG の評価は,Vul-RAG が精度/ペアワイズ精度の相対的向上率を 12.96 %/110 % で大幅に向上していることを示す。 さらに,Vul-RAGによる脆弱性知識は,手動検出精度を0.60から0.77に向上させる,高品質な説明として機能することを示す。

Vulnerability detection is essential for software quality assurance. In recent years, deep learning models (especially large language models) have shown promise in vulnerability detection. In this work, we propose a novel LLM-based vulnerability detection technique Vul-RAG, which leverages knowledge-level retrieval-augmented generation (RAG) framework to detect vulnerability for the given code in three phases. First, Vul-RAG constructs a vulnerability knowledge base by extracting multi-dimension knowledge via LLMs from existing CVE instances; second, for a given code snippet, Vul-RAG} retrieves the relevant vulnerability knowledge from the constructed knowledge base based on functional semantics; third, Vul-RAG leverages LLMs to check the vulnerability of the given code snippet by reasoning the presence of vulnerability causes and fixing solutions of the retrieved vulnerability knowledge. Our evaluation of Vul-RAG on our constructed benchmark PairVul shows that Vul-RAG substantially outperforms all baselines by 12.96\%/110\% relative improvement in accuracy/pairwise-accuracy. In addition, our user study shows that the vulnerability knowledge generated by Vul-RAG can serve as high-quality explanations which can improve the manual detection accuracy from 0.60 to 0.77.
翻訳日:2024-06-22 01:07:15 公開日:2024-06-19
# 機械学習のためのランダム化数値線形代数の最近の動向と今後の展開

Recent and Upcoming Developments in Randomized Numerical Linear Algebra for Machine Learning ( http://arxiv.org/abs/2406.11151v2 )

ライセンス: Link先を確認
Michał Dereziński, Michael W. Mahoney, (参考訳) 大規模な行列は、データセット、グラフ、モデルウェイト、第1および第2階微分の表現など、多くの機械学習およびデータ分析アプリケーションで発生する。 RandNLA (Randomized Numerical Linear Algebra) は、ランダムネスを用いてユビキタス行列問題に対する改良アルゴリズムを開発する分野である。 この領域は一定の成熟度に達しているが、最近のハードウェアのトレンド、RandNLAアルゴリズムを核となる数値ライブラリに組み込む取り組み、機械学習、統計学、ランダム行列理論の進歩は、新たな理論的および実践的な課題をもたらしている。 この記事では、これらの開発状況を踏まえた自己完結したRandNLAの概要を紹介する。

Large matrices arise in many machine learning and data analysis applications, including as representations of datasets, graphs, model weights, and first and second-order derivatives. Randomized Numerical Linear Algebra (RandNLA) is an area which uses randomness to develop improved algorithms for ubiquitous matrix problems. The area has reached a certain level of maturity; but recent hardware trends, efforts to incorporate RandNLA algorithms into core numerical libraries, and advances in machine learning, statistics, and random matrix theory, have lead to new theoretical and practical challenges. This article provides a self-contained overview of RandNLA, in light of these developments.
翻訳日:2024-06-22 01:07:15 公開日:2024-06-19
# SUGARCREPE++データセット:意味的および語彙的変化に対する視覚言語モデル感度

SUGARCREPE++ Dataset: Vision-Language Model Sensitivity to Semantic and Lexical Alterations ( http://arxiv.org/abs/2406.11171v2 )

ライセンス: Link先を確認
Sri Harsha Dumpala, Aman Jaiswal, Chandramouli Sastry, Evangelos Milios, Sageev Oore, Hassan Sajjad, (参考訳) 彼らの顕著な成功にもかかわらず、ビジョン・アンド・ランゲージモデル(VLM)やユニモーダル言語モデル(ULM)を含む最先端の大規模言語モデル(LLM)は、正確な意味論を理解できない。 例えば、意味的に等価な文は、異なる語彙合成を用いて表現され、発散する表現が引き起こされる。 この分岐の程度と、そのエンコードされた意味論への影響は、あまりよく理解されていない。 本稿では,語彙や意味の変化に対する VLM と ULM の感度を解析するためのSUGARCREPE++ データセットを提案する。 SUGARCREPE++データセットの各サンプルは、画像と対応する3つの字幕で構成されている。 これは言語モデルに3方向のセマンティックな(同値な)問題を引き起こす。 我々は,SUGARCREPE++データセットの性能をベンチマークするために,アーキテクチャ,事前学習対象,データセットが異なるVLMとULMを総合的に評価する。 実験結果は,特に対象属性と空間的関係において,語彙と意味の差異を区別する上で,VLMの難しさを浮き彫りにした。 より大規模な事前トレーニングデータセット、モデルサイズ、複数の事前トレーニング目標を持つVLMは、SUGARCREPE++のパフォーマンスが向上するが、改善の余地は大きい。 構成性データセットの性能を向上するすべてのモデルがSUGARCREPE++上で同等に機能する必要はないことを示し、構成性だけでは意味論と語彙的変化を理解するには不十分であることを示す。 SUGARCREPE++データセットがターゲットとするプロパティの重要性を考えると、これはビジョンと言語コミュニティにとって新たな課題となる。

Despite their remarkable successes, state-of-the-art large language models (LLMs), including vision-and-language models (VLMs) and unimodal language models (ULMs), fail to understand precise semantics. For example, semantically equivalent sentences expressed using different lexical compositions elicit diverging representations. The degree of this divergence and its impact on encoded semantics is not very well understood. In this paper, we introduce the SUGARCREPE++ dataset to analyze the sensitivity of VLMs and ULMs to lexical and semantic alterations. Each sample in SUGARCREPE++ dataset consists of an image and a corresponding triplet of captions: a pair of semantically equivalent but lexically different positive captions and one hard negative caption. This poses a 3-way semantic (in)equivalence problem to the language models. We comprehensively evaluate VLMs and ULMs that differ in architecture, pre-training objectives and datasets to benchmark the performance of SUGARCREPE++ dataset. Experimental results highlight the difficulties of VLMs in distinguishing between lexical and semantic variations, particularly in object attributes and spatial relations. Although VLMs with larger pre-training datasets, model sizes, and multiple pre-training objectives achieve better performance on SUGARCREPE++, there is a significant opportunity for improvement. We show that all the models which achieve better performance on compositionality datasets need not perform equally well on SUGARCREPE++, signifying that compositionality alone may not be sufficient for understanding semantic and lexical alterations. Given the importance of the property that the SUGARCREPE++ dataset targets, it serves as a new challenge to the vision-and-language community.
翻訳日:2024-06-22 01:07:15 公開日:2024-06-19
# BSRBF-KAN:コルモゴロフ・アルノルドネットワークにおけるB-スプラインと放射基本関数の組み合わせ

BSRBF-KAN: A combination of B-splines and Radial Basic Functions in Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2406.11173v2 )

ライセンス: Link先を確認
Hoang-Thang Ta, (参考訳) 本稿では,Bsplines と radial basis function (RBFs) を組み合わせたコルモゴロフ・アーノルドネットワーク (KAN) である BSRBF-KAN を紹介する。 我々は、MNISTおよびFashion-MNISTデータセット上で、BSRBF-KAN、MLP、およびEfficientKAN、FastKan、FasterKan、GottliebKANなどの人気のあるkansを用いて実験を行った。 BSRBF-KANは、MNISTで97.55%、FashionMNISTで89.33%の競争平均精度を持つ5つのトレーニングセッションで安定性を示し、他のネットワークよりもコンバージェンスを得る。 我々は,BSRBF-KANが数理関数の組み合わせを多数開き,kanを設計することを期待している。 私たちのリポジトリは、https://github.com/hoangthangta/BSRBF-KAN.comで公開されています。

In this paper, we introduce BSRBF-KAN, a Kolmogorov Arnold Network (KAN) that combines Bsplines and radial basis functions (RBFs) to fit input vectors in data training. We perform experiments with BSRBF-KAN, MLP, and other popular KANs, including EfficientKAN, FastKAN, FasterKAN, and GottliebKAN over the MNIST and Fashion-MNIST datasets. BSRBF-KAN shows stability in 5 training sessions with a competitive average accuracy of 97.55% on MNIST and 89.33% on FashionMNIST and obtains convergence better than other networks. We expect BSRBF-KAN to open many combinations of mathematical functions to design KANs. Our repo is publicly available at: https://github.com/hoangthangta/BSRBF-KAN.
翻訳日:2024-06-22 01:07:15 公開日:2024-06-19
# モデルに依存しない自己圧縮を伴う大規模言語モデルにおける知識の保存

Preserving Knowledge in Large Language Model with Model-Agnostic Self-Decompression ( http://arxiv.org/abs/2406.11354v2 )

ライセンス: Link先を確認
Zilun Zhang, Yutao Sun, Tiancheng Zhao, Leigang Sha, Ruochen Xu, Kyusong Lee, Jianwei Yin, (参考訳) 人間は新しい情報を学習しながら古い知識を保持することができるが、Large Language Models(LLM)は、ドメイン固有のデータに基づいて、事前訓練後または監督された微調整後(SFT)を忘れることに悩むことが多い。 さらに,LLMベースとビジュアルプロジェクタ(例えばLLaVA)から構成されるMLLMに対して,言語ベンチマークの性能は,単一のモダリティモデルと比較して著しく低下した。 これらの課題に対処するために,LLM内の知識をトレーニングコーパスに圧縮するモデルに依存しない自己圧縮手法であるツリー生成(TG)を導入する。 本稿では,TG-SFTに着目し,SFTデータを合成的に生成する。 MLLMのSFT中に捨てたコーパスを組み込むことで, 忘れる問題を大幅に軽減する。

Humans can retain old knowledge while learning new information, but Large Language Models (LLMs) often suffer from catastrophic forgetting when post-pretrained or supervised fine-tuned (SFT) on domain-specific data. Moreover, for Multimodal Large Language Models (MLLMs) which are composed of the LLM base and visual projector (e.g. LLaVA), a significant decline in performance on language benchmarks was observed compared to their single-modality counterparts. To address these challenges, we introduce a novel model-agnostic self-decompression method, Tree Generation (TG), that decompresses knowledge within LLMs into the training corpus. This paper focuses on TG-SFT, which can synthetically generate SFT data for the instruction tuning steps. By incorporating the dumped corpus during SFT for MLLMs, we significantly reduce the forgetting problem.
翻訳日:2024-06-22 01:07:15 公開日:2024-06-19
# CodeGemma:Gemmaに基づいたオープンコードモデル

CodeGemma: Open Code Models Based on Gemma ( http://arxiv.org/abs/2406.11409v2 )

ライセンス: Link先を確認
CodeGemma Team, Heri Zhao, Jeffrey Hui, Joshua Howland, Nam Nguyen, Siqi Zuo, Andrea Hu, Christopher A. Choquette-Choo, Jingyue Shen, Joe Kelley, Kshitij Bansal, Luke Vilnis, Mateo Wirth, Paul Michel, Peter Choy, Pratik Joshi, Ravin Kumar, Sarmad Hashmi, Shubham Agrawal, Zhitao Gong, Jane Fine, Tris Warkentin, Ale Jakse Hartman, Bin Ni, Kathy Korevec, Kelly Schaefer, Scott Huffman, (参考訳) 本稿では,Gemma上に構築された特殊なオープンコードモデルのコレクションであるCodeGemmaを紹介する。 3つのモデル版をリリースします。 CodeGemma 7B pretrained (PT) と instruction-tuned (IT) の変種は、非常に回復力のある自然言語理解を持ち、数学的推論に優れ、他のオープンモデルのコード機能にマッチする。 CodeGemma 2Bは、レイテンシに敏感な設定で高速なコード入力とオープンな生成のために設計された、最先端のコード補完モデルである。

This paper introduces CodeGemma, a collection of specialized open code models built on top of Gemma, capable of a variety of code and natural language generation tasks. We release three model variants. CodeGemma 7B pretrained (PT) and instruction-tuned (IT) variants have remarkably resilient natural language understanding, excel in mathematical reasoning, and match code capabilities of other open models. CodeGemma 2B is a state-of-the-art code completion model designed for fast code infilling and open-ended generation in latency-sensitive settings.
翻訳日:2024-06-22 01:07:15 公開日:2024-06-19
# 形式的に認証された近似モデルカウント

Formally Certified Approximate Model Counting ( http://arxiv.org/abs/2406.11414v2 )

ライセンス: Link先を確認
Yong Kiam Tan, Jiong Yang, Mate Soos, Magnus O. Myreen, Kuldeep S. Meel, (参考訳) 近似モデルカウント(英: Approximate model counting)は、入力ブール式に対する解の数を近似するタスクである。 共役正規形(CNF)の公式に対する最先端の近似モデルカウンタであるApproxMCは、ほぼ正しい(PAC)スタイルの保証でモデルカウントを得るスケーラブルな手段を提供する。 それでも、ApproxMCの近似の妥当性は、そのランダム化アルゴリズムの慎重な理論的解析と高度に最適化された実装の正しさ、特に、パリティ(XOR)制約をネイティブに処理できる漸進的なCNF満足度解決器とのステートフルな相互作用に依存している。 本稿では、その出力近似の品質に関する保証を正式に保証した、近似モデルカウントのための最初の認証フレームワークを提案する。 私たちのアプローチは次の2つを組み合わせています。 i)Isabelle/HOL証明アシスタントにおけるアルゴリズムのPAC保証の静的で1回限りの形式的証明。 (ii) 証明証明書を用いた外部CNF-XORソルバに対するApproxMCの呼び出しの動的かつ実行単位の検証。 検証の2つの部分間の厳密な接続を確立するための我々の一般的なアプローチについて詳述し、形式化されたランダム化アルゴリズムを証明チェッカーに変換する青写真と、ApproxMCとその内部CNF-XOR解決ステップの証明証明書の設計について述べる。 実験により,証明書生成は近似カウンタの実装にオーバーヘッドをほとんど与えず,また,カウンタと同じ時間とメモリ制限が与えられた場合,証明書チェッカーが生成した証明書に対して,84.7\%のインスタンスを完全認証できることがわかった。

Approximate model counting is the task of approximating the number of solutions to an input Boolean formula. The state-of-the-art approximate model counter for formulas in conjunctive normal form (CNF), ApproxMC, provides a scalable means of obtaining model counts with probably approximately correct (PAC)-style guarantees. Nevertheless, the validity of ApproxMC's approximation relies on a careful theoretical analysis of its randomized algorithm and the correctness of its highly optimized implementation, especially the latter's stateful interactions with an incremental CNF satisfiability solver capable of natively handling parity (XOR) constraints. We present the first certification framework for approximate model counting with formally verified guarantees on the quality of its output approximation. Our approach combines: (i) a static, once-off, formal proof of the algorithm's PAC guarantee in the Isabelle/HOL proof assistant; and (ii) dynamic, per-run, verification of ApproxMC's calls to an external CNF-XOR solver using proof certificates. We detail our general approach to establish a rigorous connection between these two parts of the verification, including our blueprint for turning the formalized, randomized algorithm into a verified proof checker, and our design of proof certificates for both ApproxMC and its internal CNF-XOR solving steps. Experimentally, we show that certificate generation adds little overhead to an approximate counter implementation, and that our certificate checker is able to fully certify $84.7\%$ of instances with generated certificates when given the same time and memory limits as the counter.
翻訳日:2024-06-22 00:57:29 公開日:2024-06-19
# 大規模言語モデルにおける文化能力の極端評価

Extrinsic Evaluation of Cultural Competence in Large Language Models ( http://arxiv.org/abs/2406.11565v2 )

ライセンス: Link先を確認
Shaily Bhatt, Fernando Diaz, (参考訳) 多様なユーザと言語技術の間の生産的な相互作用は、文化的に関連性があり、センシティブな出力を必要とする。 先行研究は、この知識が下流のアプリケーションにどのように現れるかを考えることなく、モデルによる文化的規範、価値観、アーティファクトに関する知識を評価してきた。 本研究では,2つのテキスト生成タスク,オープンエンド質問応答とストーリー生成における文化能力の非本質的な評価に焦点をあてる。 我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合に,モデル出力を定量的に質的に評価する。 諸民族の多様さや文化的に関係のある言葉が特徴的である場合, モデル出力は異なるが, 異なる国におけるアウトプットのテキスト類似性と, それらの国の文化的価値との間には弱い相関関係があることが判明した。 最後に,ユーザ向けタスクにおける文化的能力の包括的評価を設計する上で重要な課題について論じる。

Productive interactions between diverse users and language technologies require outputs from the latter to be culturally relevant and sensitive. Prior works have evaluated models' knowledge of cultural norms, values, and artifacts, without considering how this knowledge manifests in downstream applications. In this work, we focus on extrinsic evaluation of cultural competence in two text generation tasks, open-ended question answering and story generation. We quantitatively and qualitatively evaluate model outputs when an explicit cue of culture, specifically nationality, is perturbed in the prompts. Although we find that model outputs do vary when varying nationalities and feature culturally relevant words, we also find weak correlations between text similarity of outputs for different countries and the cultural values of these countries. Finally, we discuss important considerations in designing comprehensive evaluation of cultural competence in user-facing tasks.
翻訳日:2024-06-22 00:57:29 公開日:2024-06-19
# ChatGPTは、禁止されている国では科学にもっと使われる

Where there's a will there's a way: ChatGPT is used more for science in countries where it is prohibited ( http://arxiv.org/abs/2406.11583v2 )

ライセンス: Link先を確認
Honglin Bao, Mengyi Sun, Misha Teplitskiy, (参考訳) AIの規制は社会的な重要な課題として浮上しているが、どの規制方法が効果的かは不明だ。 ここでは、ChatGPTと科学の事例を用いて、地理的にAIサービスを制限する効果を測定する。 OpenAIは中国やロシアなどいくつかの国からのChatGPTへのアクセスを禁止している。 制限が有効であれば、禁止されている国ではChatGPTを最小限に使用すべきである。 先行研究に基づいて,ChatGPTの初期バージョンが「elve」のような特徴的単語を過剰に表現していたことを示す分類器の開発により,使用量を測定した。 筆者らはChatGPTの「ポリシング」前後の抽象概念に基づいて分類器を訓練し、保持された抽象概念と、著者がAIを使用したと自称したものを検証し、既製のLCM検出器であるGPTZeroとZeroGPTを著しく上回った。 Arxiv、BioRxiv、MedRxivのプリプリントに分類器を適用すると、ChatGPTは2023年8月までに約12.6%のプレプリントで使われ、法的なアクセスのない国では7.7%高い。 重要なことに、これらのパターンは、中国最大の制限付き国産プリプリント生産会社である中国において、最初の主要な法的LLMが普及する前に現れた。 ChatGPTの使用は、より高いビューとダウンロードに関連していたが、引用やジャーナルの配置は行わなかった。 全体として、ChatGPTを地理的に制限することは、おそらく広範囲にわたる回避策のために、科学や他の分野では効果がないことが証明されている。

Regulating AI has emerged as a key societal challenge, but which methods of regulation are effective is unclear. Here, we measure the effectiveness of restricting AI services geographically using the case of ChatGPT and science. OpenAI prohibits access to ChatGPT from several countries including China and Russia. If the restrictions are effective, there should be minimal use of ChatGPT in prohibited countries. We measured use by developing a classifier based on prior work showing that early versions of ChatGPT overrepresented distinctive words like "delve." We trained the classifier on abstracts before and after ChatGPT "polishing" and validated it on held-out abstracts and those where authors self-declared to have used AI, where it substantially outperformed off-the-shelf LLM detectors GPTZero and ZeroGPT. Applying the classifier to preprints from Arxiv, BioRxiv, and MedRxiv reveals that ChatGPT was used in approximately 12.6% of preprints by August 2023 and use was 7.7% higher in countries without legal access. Crucially, these patterns appeared before the first major legal LLM became widely available in China, the largest restricted-country preprint producer. ChatGPT use was associated with higher views and downloads, but not citations or journal placement. Overall, restricting ChatGPT geographically has proven ineffective in science and possibly other domains, likely due to widespread workarounds.
翻訳日:2024-06-22 00:57:29 公開日:2024-06-19
# 機械的解釈可能性によるモデル性能の保証

Provable Guarantees for Model Performance via Mechanistic Interpretability ( http://arxiv.org/abs/2406.11779v3 )

ライセンス: Link先を確認
Jason Gross, Rajashree Agrawal, Thomas Kwa, Euan Ong, Chun Hei Yip, Alex Gibson, Soufiane Noubir, Lawrence Chan, (参考訳) 本研究では,モデル性能の形式的保証を導出し,コンパクトに証明するために,機械的解釈可能性 (リバースエンジニアリングモデルウェイトを人間解釈可能なアルゴリズムに変換する技術) を用いることを提案する。 提案手法は, 最大K$タスクで訓練した151個の小型変圧器の精度について, 下限を正式に証明して試作する。 我々は,コンピュータ支援型証明戦略を102種類作成し,それぞれのモデルに対して,その長さと厳密さを評価する。 定量的な測定値を用いることで、より短い証明が必要になり、より機械的な理解が得られます。 さらに、より忠実なメカニスティックな理解が、パフォーマンス境界の厳密化につながることが分かっています。 これらの関係は、証明のサブセットを質的に検証することで確認する。 最後に, モデル性能に関するコンパクトな証明を生成するために, 機械的解釈可能性を利用する上で重要な課題として, 合成構造のないノイズを同定する。

In this work, we propose using mechanistic interpretability -- techniques for reverse engineering model weights into human-interpretable algorithms -- to derive and compactly prove formal guarantees on model performance. We prototype this approach by formally proving lower bounds on the accuracy of 151 small transformers trained on a Max-of-$K$ task. We create 102 different computer-assisted proof strategies and assess their length and tightness of bound on each of our models. Using quantitative metrics, we find that shorter proofs seem to require and provide more mechanistic understanding. Moreover, we find that more faithful mechanistic understanding leads to tighter performance bounds. We confirm these connections by qualitatively examining a subset of our proofs. Finally, we identify compounding structureless noise as a key challenge for using mechanistic interpretability to generate compact proofs on model performance.
翻訳日:2024-06-22 00:57:29 公開日:2024-06-19
# Decoding the Digital Fine Print: Navigating the potholes in Terms of Service/use of GenAI tools against emerging need of Transparent and Trustworthy Tech Futures

Decoding the Digital Fine Print: Navigating the potholes in Terms of service/ use of GenAI tools against the emerging need for Transparent and Trustworthy Tech Futures ( http://arxiv.org/abs/2406.11845v2 )

ライセンス: Link先を確認
Sundaraparipurnan Narayanan, (参考訳) この研究は、特定のGenAIにおいて、ユーザの信頼を育み、AIの文脈における情報的意思決定を促進するために、明確で理解不能なサービス用語が果たす重要な役割について調査する。 複雑な法用語と詳細な細かな印刷によって提示される障害を強調しており、特にアルゴリズム上の不具合、危険、損害、不平等の事例において、真のユーザの同意と会話を妨げる一方で、効果的なサービスライセンシングのために機械可読な用語を採用する必要性を強調している。 汎用人工知能(GenAI)ツールへの依存度の増加は、ステークホルダ間の信頼を育みながら、情報的な意思決定を促進するために、透明性、理解しやすく、標準化された使用規約を必要とする。 近年のシステムとモデルカードによる透明性向上努力にもかかわらず、既存のドキュメントは適切な開示を提供するには足りず、潜在的なリスクや損害を評価するには不適当である。 このギャップに対処するために、ジェネレーティブAIツールの使用や利用規約について重要な考察を行い、複数の研究から洞察を得た。 その後、本研究では、特定された考慮事項に対して、著名な生成型AIツールの使用条件や使用条件を評価する。 発見は文書品質の矛盾と変動を示し、開示の慣行における統一性の要求が押し寄せていることを示している。 そこで本研究では,GenAIツールのリリースに先立って,完全かつ無知な開示を確保するための堅牢で強制力のある基準を提唱し,エンドユーザーによる適切な情報提供の促進と,現場における全体的な説明責任の向上を図った。

The research investigates the crucial role of clear and intelligible terms of service in cultivating user trust and facilitating informed decision-making in the context of AI, in specific GenAI. It highlights the obstacles presented by complex legal terminology and detailed fine print, which impede genuine user consent and recourse, particularly during instances of algorithmic malfunctions, hazards, damages, or inequities, while stressing the necessity of employing machine-readable terms for effective service licensing. The increasing reliance on General Artificial Intelligence (GenAI) tools necessitates transparent, comprehensible, and standardized terms of use, which facilitate informed decision-making while fostering trust among stakeholders. Despite recent efforts promoting transparency via system and model cards, existing documentation frequently falls short of providing adequate disclosures, leaving users ill-equipped to evaluate potential risks and harms. To address this gap, this research examines key considerations necessary in terms of use or terms of service for Generative AI tools, drawing insights from multiple studies. Subsequently, this research evaluates whether the terms of use or terms of service of prominent Generative AI tools against the identified considerations. Findings indicate inconsistencies and variability in document quality, signaling a pressing demand for uniformity in disclosure practices. Consequently, this study advocates for robust, enforceable standards ensuring complete and intelligible disclosures prior to the release of GenAI tools, thereby empowering end-users to make well-informed choices and enhancing overall accountability in the field.
翻訳日:2024-06-22 00:57:29 公開日:2024-06-19
# Job-SDF: ジョブスキル需要予測とベンチマークのためのマルチグラニュラリティデータセット

Job-SDF: A Multi-Granularity Dataset for Job Skill Demand Forecasting and Benchmarking ( http://arxiv.org/abs/2406.11920v2 )

ライセンス: Link先を確認
Xi Chen, Chuan Qin, Chuyu Fang, Chao Wang, Chen Zhu, Fuzhen Zhuang, Hengshu Zhu, Hui Xiong, (参考訳) 急速に発展する雇用市場では、政策立案者や企業が変化を予測し、適応し、労働力のスキルが市場のニーズに合致することを保証し、生産性と競争力を高めるため、スキル需要予測が不可欠である。 さらに、新たなスキル要件を特定することで、個人を関連するトレーニングや教育機会に誘導し、継続的な自己学習と開発を促進する。 しかし、包括的なデータセットが存在しないことは、研究とこの分野の進歩を妨げる重要な課題である。 このギャップを埋めるため、ジョブスキル需要予測モデルをトレーニングし、ベンチマークするためのデータセットであるJob-SDFを提示する。 2021年から2023年の間に中国の大手オンライン求人プラットフォームから収集された1035万件の求人広告に基づいて、このデータセットは521社にまたがる2324種類のスキルの月次求人需要を含んでいる。 本データセットは,職業,企業,地域レベルなど,さまざまな粒度でのスキル需要予測モデルの評価を可能にする。 我々は、このデータセット上のさまざまなモデルをベンチマークし、標準シナリオにおけるそれらのパフォーマンスの評価、低い値範囲に焦点をあてた予測、構造的なブレークの存在下で、さらなる研究のための新たな洞察を提供する。 私たちのコードとデータセットはhttps://github.com/Job-SDF/benchmark.comから公開されています。

In a rapidly evolving job market, skill demand forecasting is crucial as it enables policymakers and businesses to anticipate and adapt to changes, ensuring that workforce skills align with market needs, thereby enhancing productivity and competitiveness. Additionally, by identifying emerging skill requirements, it directs individuals towards relevant training and education opportunities, promoting continuous self-learning and development. However, the absence of comprehensive datasets presents a significant challenge, impeding research and the advancement of this field. To bridge this gap, we present Job-SDF, a dataset designed to train and benchmark job-skill demand forecasting models. Based on 10.35 million public job advertisements collected from major online recruitment platforms in China between 2021 and 2023, this dataset encompasses monthly recruitment demand for 2,324 types of skills across 521 companies. Our dataset uniquely enables evaluating skill demand forecasting models at various granularities, including occupation, company, and regional levels. We benchmark a range of models on this dataset, evaluating their performance in standard scenarios, in predictions focused on lower value ranges, and in the presence of structural breaks, providing new insights for further research. Our code and dataset are publicly accessible via the https://github.com/Job-SDF/benchmark.
翻訳日:2024-06-22 00:57:29 公開日:2024-06-19
# REPOEXEC: Repository-Level Executableベンチマークによるコード生成の評価

REPOEXEC: Evaluate Code Generation with a Repository-Level Executable Benchmark ( http://arxiv.org/abs/2406.11927v2 )

ライセンス: Link先を確認
Nam Le Hai, Dung Manh Nguyen, Nghi D. Q. Bui, (参考訳) CodeLLMsがリポジトリレベルのスケールで実行可能で機能的に正しいコードを生成する能力は、まだ明らかにされていない。 RepoExecは、リポジトリレベルのスケールでコード生成を評価するための新しいベンチマークである。 RepoExecは、実行可能性、カバレッジ率の高い自動テストケース生成による機能的正しさ、コードを正確に生成するクロスファイルコンテキストの3つの主な側面に焦点を当てている。 当社の作業では、開発者が必要なコード依存関係を指定して、モデルにこれらを正確に統合させるという、コントロールされたシナリオについて検討しています。 実験によると、事前訓練されたLLMは命令調整されたモデルよりも正確性が高いが、後者は、提供された依存関係を活用し、デバッグ機能を示すのに優れている。 また、コード依存関係に焦点を当てた新しい命令チューニングデータセットを導入し、データセットに微調整されたCodeLLMsが、これらの依存関係を効果的に活用する優れた能力を持っていることを実証します。 RepoExecは、コード機能の包括的な評価と開発者の意図との整合性を提供することを目標とし、現実のシナリオにおいてより信頼性が高く、適用可能なCodeLLMを実現する。 データセットとソースコードは~\url{https://github.com/FSoft-AI4Code/RepoExec}で見ることができる。

The ability of CodeLLMs to generate executable and functionally correct code at the repository-level scale remains largely unexplored. We introduce RepoExec, a novel benchmark for evaluating code generation at the repository-level scale. RepoExec focuses on three main aspects: executability, functional correctness through automated test case generation with high coverage rate, and carefully crafted cross-file contexts to accurately generate code. Our work explores a controlled scenario where developers specify necessary code dependencies, challenging the model to integrate these accurately. Experiments show that while pretrained LLMs outperform instruction-tuned models in correctness, the latter excel in utilizing provided dependencies and demonstrating debugging capabilities. We also introduce a new instruction-tuned dataset that focuses on code dependencies and demonstrate that CodeLLMs fine-tuned on our dataset have a better capability to leverage these dependencies effectively. RepoExec aims to provide a comprehensive evaluation of code functionality and alignment with developer intent, paving the way for more reliable and applicable CodeLLMs in real-world scenarios. The dataset and source code can be found at~\url{https://github.com/FSoft-AI4Code/RepoExec}.
翻訳日:2024-06-22 00:57:29 公開日:2024-06-19
# 空洞QED材料に対する線形応答理論

Linear response theory for cavity QED materials ( http://arxiv.org/abs/2406.11957v2 )

ライセンス: Link先を確認
Juan Román-Roche, Álvaro Gómez-León, Fernando Luis, David Zueco, (参考訳) 空洞QED材料における線形応答理論の厳密な枠組みについて述べる。 我々のアプローチは、光と物質の間の集合的な結合を利用して、量子場理論において大きなN理論と平行に描画する。 空洞と物質の両方の様々な応答に対する閉公式を導出する。 我々の理論は、Dickeモデルと量子ホール効果の確立された結果の回復によって検証される。 さらに、空洞がマグノン対を局所状態に結合する量子磁石において、新しい励起が発見される。

We present a rigorous framework for linear response theory in cavity QED materials. Our approach leverages the collective coupling between light and matter, drawing parallels with large-N theories in quantum field theory. We derive closed formulas for various responses of both the cavity and the matter. Our theory is validated by recovering established results for the Dicke model and the Quantum Hall Effect. Additionally, we discover novel excitations in quantum magnets, where the cavity binds magnon pairs into localized states.
翻訳日:2024-06-22 00:57:29 公開日:2024-06-19
# 大規模言語モデルを用いたメンタルヘルス分析におけるバイアスの発見と緩和

Unveiling and Mitigating Bias in Mental Health Analysis with Large Language Models ( http://arxiv.org/abs/2406.12033v2 )

ライセンス: Link先を確認
Yuqing Wang, Yun Zhao, Sara Alessandra Keller, Anne de Hond, Marieke M. van Buchem, Malvika Pillai, Tina Hernandez-Boussard, (参考訳) 大規模言語モデル(LLM)の進歩は、メンタルヘルス分析を含む様々な応用において強力な能力を示している。 しかし、既存の研究は予測性能に重点を置いており、フェアネスの重大な問題は未発見のままであり、脆弱な個体群に重大なリスクを及ぼしている。 潜在的なバイアスを認めているにもかかわらず、以前の研究はこれらのバイアスとその影響について徹底的な調査を欠いていた。 このギャップに対処するために,8種類のメンタルヘルスデータセットに対して異なるプロンプト法による10個のLSMを用いて,7つの社会的要因(性別,年齢,宗教など)のバイアスを体系的に評価した。 以上の結果から,GPT-4は,MentalRoBERTaのようなドメイン固有モデルに後れを取っているものの,LLM間の性能と公平性において最高の総合バランスを達成していることが示された。 さらに、調整されたフェアネス対応のプロンプトは、メンタルヘルス予測におけるバイアスを効果的に軽減し、この分野におけるフェアネス分析の大きな可能性を浮き彫りにします。

The advancement of large language models (LLMs) has demonstrated strong capabilities across various applications, including mental health analysis. However, existing studies have focused on predictive performance, leaving the critical issue of fairness underexplored, posing significant risks to vulnerable populations. Despite acknowledging potential biases, previous works have lacked thorough investigations into these biases and their impacts. To address this gap, we systematically evaluate biases across seven social factors (e.g., gender, age, religion) using ten LLMs with different prompting methods on eight diverse mental health datasets. Our results show that GPT-4 achieves the best overall balance in performance and fairness among LLMs, although it still lags behind domain-specific models like MentalRoBERTa in some cases. Additionally, our tailored fairness-aware prompts can effectively mitigate bias in mental health predictions, highlighting the great potential for fair analysis in this field.
翻訳日:2024-06-22 00:57:29 公開日:2024-06-19
# WellDunn: ウェルネス次元の同定における言語モデルと大規模言語モデルのロバスト性と説明可能性について

WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions ( http://arxiv.org/abs/2406.12058v2 )

ライセンス: Link先を確認
Seyedali Mohammadi, Edward Raff, Jinendra Malekar, Vedant Palit, Francis Ferraro, Manas Gaur, (参考訳) 言語モデル (LM) は, 予後のリスクを高めることで, 臨床実践におけるモデルの有用性の十分なリトマステストにはならない, メンタルヘルスの分野で提案されている。 実践に信頼できるモデルは、説明と臨床的決定の対応性を持つべきであるが、これらのモデルの注意力と、それらの基礎的真理的説明への影響について、事前の研究は行われていない。 本稿では,ウェルネス次元(WD)の同定におけるLMの堅牢性と説明性に着目した評価設計を提案する。 2つのメンタルヘルスと幸福なデータセットに焦点を当てます。 (a)多ラベル分類に基づくMultiWD及び b) 専門家による説明に対する注意機構の妥当性を評価するためのWellXplain ラベルはハルベルト・ダンのウェルネスの理論に基づいている。 1)人間のような能力にもかかわらず、RoBERTaに遅れてGPT-3.5/4ラグ、そしてMedAlpacaでは、微調整のLDMでは、パフォーマンスや説明に顕著な改善が得られなかった。 2)信頼性指向の損失関数に基づくLMの予測を再検討した結果,性能低下が顕著であった。 (3) すべてのLM/LLMにおいて, 注意と説明の整合性は低く, LLMは0.0。 (4)ほとんどの精神保健専門のLM/LLMは、ドメイン固有の知識や価値の低い説明を見落とし、これらの相違の原因となった。 この研究は、精神保健と健康における一貫性と説明について、さらなる研究の必要性を強調している。

Language Models (LMs) are being proposed for mental health applications where the heightened risk of adverse outcomes means predictive performance may not be a sufficient litmus test of a model's utility in clinical practice. A model that can be trusted for practice should have a correspondence between explanation and clinical determination, yet no prior research has examined the attention fidelity of these models and their effect on ground truth explanations. We introduce an evaluation design that focuses on the robustness and explainability of LMs in identifying Wellness Dimensions (WD). We focus on two mental health and well-being datasets: (a) Multi-label Classification-based MultiWD, and (b) WellXplain for evaluating attention mechanism veracity against expert-labeled explanations. The labels are based on Halbert Dunn's theory of wellness, which gives grounding to our evaluation. We reveal four surprising results about LMs/LLMs: (1) Despite their human-like capabilities, GPT-3.5/4 lag behind RoBERTa, and MedAlpaca, a fine-tuned LLM fails to deliver any remarkable improvements in performance or explanations. (2) Re-examining LMs' predictions based on a confidence-oriented loss function reveals a significant performance drop. (3) Across all LMs/LLMs, the alignment between attention and explanations remains low, with LLMs scoring a dismal 0.0. (4) Most mental health-specific LMs/LLMs overlook domain-specific knowledge and undervalue explanations, causing these discrepancies. This study highlights the need for further research into their consistency and explanations in mental health and well-being.
翻訳日:2024-06-22 00:57:29 公開日:2024-06-19
# LLMアライメントに対する毒の脅威は本当にあるのか?

Is poisoning a real threat to LLM alignment? Maybe more so than you think ( http://arxiv.org/abs/2406.12091v2 )

ライセンス: Link先を確認
Pankayaraj Pathmanathan, Souradip Chakraborty, Xiangyu Liu, Yongyuan Liang, Furong Huang, (参考訳) 近年のRLHF(Reinforcement Learning with Human Feedback)は,Large Language Models(LLM)のアライメントに大きな影響を与えている。 PPO(Proximal Policy Optimization)のような強化学習アルゴリズムの感度は、RLHFを教師付き学習フレームワークとして扱うDPO(Direct Policy Optimization)の新たなラインワークにつながっている。 これらのRLHF手法の実用性の向上は、その脆弱性の分析を保証している。 本研究は,DPOの攻撃に対する脆弱性を異なるシナリオで調査し,第1種である嗜好中毒の有効性を比較した。 DPOの脆弱性は、バックドアや非バックドア攻撃、さまざまな言語モデル(LLama 7B, Mistral 7B, Gemma 7B)で網羅的に分析する。 バックドア攻撃に関して、有害な行動を誘発するためには、少なくとも4\%のデータを汚染する必要があるPPOベースの手法とは違って、DPOの真の脆弱性をより簡単に活用することで、データの0.5\%でモデルに毒を与えることができる。 脆弱性の背後にある潜在的な理由と、この脆弱性がバックドアと非バックドアの攻撃にどの程度うまく変換されるかをさらに調査する。

Recent advancements in Reinforcement Learning with Human Feedback (RLHF) have significantly impacted the alignment of Large Language Models (LLMs). The sensitivity of reinforcement learning algorithms such as Proximal Policy Optimization (PPO) has led to new line work on Direct Policy Optimization (DPO), which treats RLHF in a supervised learning framework. The increased practical use of these RLHF methods warrants an analysis of their vulnerabilities. In this work, we investigate the vulnerabilities of DPO to poisoning attacks under different scenarios and compare the effectiveness of preference poisoning, a first of its kind. We comprehensively analyze DPO's vulnerabilities under different types of attacks, i.e., backdoor and non-backdoor attacks, and different poisoning methods across a wide array of language models, i.e., LLama 7B, Mistral 7B, and Gemma 7B. We find that unlike PPO-based methods, which, when it comes to backdoor attacks, require at least 4\% of the data to be poisoned to elicit harmful behavior, we exploit the true vulnerabilities of DPO more simply so we can poison the model with only as much as 0.5\% of the data. We further investigate the potential reasons behind the vulnerability and how well this vulnerability translates into backdoor vs non-backdoor attacks.
翻訳日:2024-06-22 00:57:29 公開日:2024-06-19
# TroL: 大規模言語とビジョンモデルのためのレイヤのトラバース

TroL: Traversal of Layers for Large Language and Vision Models ( http://arxiv.org/abs/2406.12246v2 )

ライセンス: Link先を確認
Byung-Kwan Lee, Sangyun Chung, Chae Won Kim, Beomchan Park, Yong Man Ro, (参考訳) 大規模言語と視覚モデル(LLVM)は、大規模言語モデル(LLM)の一般化力と視覚的インストラクションチューニングの出現によって駆動されている。 これらのモデルを直接スケールアップすることで、LLVMはさまざまなタスクを自然言語命令でカバーすることで、強力なビジョン言語(VL)のパフォーマンスを誇示することができる。 しかし、GPT-4VのようなクローズドソースのLLVMと互換性のある既存のLLVMは、層数が多すぎる(例:26B、34B、110Bパラメータ)。 これらの大きなモデルは、トレーニングと推論の両方に費用がかかるハイエンドのリソースを必要とします。 この問題に対処するため、トークン的にレイヤを再利用可能な、1.8B, 3.8B, 7B LLMモデルサイズを持つLLVMファミリー、Traversal of Layers (TroL)を提案する。 この層トラバース技術は、応答ストリームを振り返り、追跡する効果をシミュレートし、さらに多くの層を追加せずに前方伝播層の数を増やします。 我々は,TroLが単純なレイヤトラバースアプローチを採用しながら,より大きなモデルサイズでオープンソースLLVMを効率よく上回り,かなりのサイズでクローズドソースLLVMのパフォーマンスに匹敵することを示した。

Large language and vision models (LLVMs) have been driven by the generalization power of large language models (LLMs) and the advent of visual instruction tuning. Along with scaling them up directly, these models enable LLVMs to showcase powerful vision language (VL) performances by covering diverse tasks via natural language instructions. However, existing open-source LLVMs that perform comparably to closed-source LLVMs such as GPT-4V are often considered too large (e.g., 26B, 34B, and 110B parameters), having a larger number of layers. These large models demand costly, high-end resources for both training and inference. To address this issue, we present a new efficient LLVM family with 1.8B, 3.8B, and 7B LLM model sizes, Traversal of Layers (TroL), which enables the reuse of layers in a token-wise manner. This layer traversing technique simulates the effect of looking back and retracing the answering stream while increasing the number of forward propagation layers without physically adding more layers. We demonstrate that TroL employs a simple layer traversing approach yet efficiently outperforms the open-source LLVMs with larger model sizes and rivals the performances of the closed-source LLVMs with substantial sizes.
翻訳日:2024-06-22 00:47:45 公開日:2024-06-19
# スロット状態空間モデル

Slot State Space Models ( http://arxiv.org/abs/2406.12272v2 )

ライセンス: Link先を確認
Jindong Jiang, Fei Deng, Gautam Singh, Minseung Lee, Sungjin Ahn, (参考訳) S4、S5、Mambaのような最近の状態空間モデル(SSM)は、長距離時間依存性モデリングにおいて顕著な計算上の利点を示している。 しかし、多くのシーケンスモデリング問題において、基礎となるプロセスは本質的にモジュラーであり、このモジュラー構造を模倣する帰納的バイアスを持つことは興味深い。 本稿では,情報分離の維持・促進を目的として,独立したメカニズムをSSMに組み込む新しいフレームワークであるSlotSSMを紹介する。 モノリシックな状態ベクトルを保持する従来のSSMとは異なり、SlotSSMはスロットと呼ばれる複数のベクトルの集合として状態を維持する。 重要なことは、状態遷移はスロットごとに独立に行われ、自己注意のボトルネックを通じて実装されたスロット間の疎相互作用である。 実験では,オブジェクト中心の映像理解,3次元視覚推論,映像予測タスクにおいて,複数のオブジェクトとその長距離時間依存性のモデル化を含むモデルを評価する。 提案手法は,既存のシーケンス・モデリング手法に比べて性能が大幅に向上することがわかった。

Recent State Space Models (SSMs) such as S4, S5, and Mamba have shown remarkable computational benefits in long-range temporal dependency modeling. However, in many sequence modeling problems, the underlying process is inherently modular and it is of interest to have inductive biases that mimic this modular structure. In this paper, we introduce SlotSSMs, a novel framework for incorporating independent mechanisms into SSMs to preserve or encourage separation of information. Unlike conventional SSMs that maintain a monolithic state vector, SlotSSMs maintains the state as a collection of multiple vectors called slots. Crucially, the state transitions are performed independently per slot with sparse interactions across slots implemented via the bottleneck of self-attention. In experiments, we evaluate our model in object-centric video understanding, 3D visual reasoning, and video prediction tasks, which involve modeling multiple objects and their long-range temporal dependencies. We find that our proposed design offers substantial performance gains over existing sequence modeling methods.
翻訳日:2024-06-22 00:47:45 公開日:2024-06-19
# 分離データを用いた鏡面流れの入射バイアス

Implicit Bias of Mirror Flow on Separable Data ( http://arxiv.org/abs/2406.12763v2 )

ライセンス: Link先を確認
Scott Pesme, Radu-Alexandru Dragomir, Nicolas Flammarion, (参考訳) 線形分離可能な分類問題に対して,ミラー降下の連続時間,すなわちミラーフローについて検討する。 このような問題は'at infinity'と最小化され、多くの可能な解を持ち、ミラーポテンシャルに依存するアルゴリズムによってどの解が好まれるかを研究する。 指数的尾尾の損失とポテンシャルに対する軽度の仮定に対して、イテレートは$\phi_\infty$-maximum margin classifierに向かって収束することを示す。 関数 $\phi_\infty$ はミラーポテンシャルの $\textit{horizon function}$ であり、その形の 'at infinity' を特徴づける。 ポテンシャルが分離可能であれば、単純な公式でこの関数を計算することができる。 我々は、ポテンシャルのいくつかの例を分析し、その結果を浮き彫りにした数値実験を行う。

We examine the continuous-time counterpart of mirror descent, namely mirror flow, on classification problems which are linearly separable. Such problems are minimised `at infinity' and have many possible solutions; we study which solution is preferred by the algorithm depending on the mirror potential. For exponential tailed losses and under mild assumptions on the potential, we show that the iterates converge in direction towards a $\phi_\infty$-maximum margin classifier. The function $\phi_\infty$ is the $\textit{horizon function}$ of the mirror potential and characterises its shape `at infinity'. When the potential is separable, a simple formula allows to compute this function. We analyse several examples of potentials and provide numerical experiments highlighting our results.
翻訳日:2024-06-22 00:47:45 公開日:2024-06-19
# CU-Net: BraTS 2019データセット上の効率的な脳腫瘍セグメンテーションのためのU-Netアーキテクチャ

CU-Net: a U-Net architecture for efficient brain-tumor segmentation on BraTS 2019 dataset ( http://arxiv.org/abs/2406.13113v1 )

ライセンス: Link先を確認
Qimin Zhang, Weiwei Qi, Huili Zheng, Xinyu Shen, (参考訳) MRIスキャンから正確な脳腫瘍を抽出することは、効果的な治療計画を策定し、患者の結果を改善するのに重要である。 そこで本研究では,BraTS 2019データセットを用いた脳腫瘍セグメンテーションのための,Columbia-University-Net(CU-Net)アーキテクチャの新たな実装を提案する。 CU-Netモデルは対称なU字型構造を持ち、畳み込み層、最大プーリング、アップサンプリング演算を用いて高分解能セグメンテーションを実現する。 我々のCU-NetモデルはDiceスコアが82.41%に達し、他の2つの最先端モデルを上回った。 このセグメンテーション精度の改善は、手術計画や放射線治療に欠かせない腫瘍の境界線を正確に切り離すのに役立つモデルの堅牢性と有効性を強調し、最終的には患者の結果を改善する可能性がある。

Accurately segmenting brain tumors from MRI scans is important for developing effective treatment plans and improving patient outcomes. This study introduces a new implementation of the Columbia-University-Net (CU-Net) architecture for brain tumor segmentation using the BraTS 2019 dataset. The CU-Net model has a symmetrical U-shaped structure and uses convolutional layers, max pooling, and upsampling operations to achieve high-resolution segmentation. Our CU-Net model achieved a Dice score of 82.41%, surpassing two other state-of-the-art models. This improvement in segmentation accuracy highlights the robustness and effectiveness of the model, which helps to accurately delineate tumor boundaries, which is crucial for surgical planning and radiation therapy, and ultimately has the potential to improve patient outcomes.
翻訳日:2024-06-21 23:48:36 公開日:2024-06-19
# 多段階バランス蒸留--シーケンスレベル知識蒸留における長期課題への対応

Multi-Stage Balanced Distillation: Addressing Long-Tail Challenges in Sequence-Level Knowledge Distillation ( http://arxiv.org/abs/2406.13114v1 )

ライセンス: Link先を確認
Yuhang Zhou, Jing Zhu, Paiheng Xu, Xiaoyu Liu, Xiyao Wang, Danai Koutra, Wei Ai, Furong Huang, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理タスクを著しく進歩させてきたが、それらをデプロイするには計算コストがかかる。 知識蒸留(KD)は有望なソリューションであり、より大きな教師のLLMからよりコンパクトな学生モデルへの能力の移転を可能にする。 特に、論理に基づく推論過程を蒸留するシーケンスレベルのKDは、最終的な結果ではなく、学生の推論能力を高める大きな可能性を示している。 しかし、現在の方法では、長い尾を持つデータ分布の下でのシーケンスレベルKDに苦慮し、疎表現領域の一般化に悪影響を及ぼす。 固定予算内でのトレーニングデータを反復的にバランスをとるマルチステージバランス蒸留(BalDistill)フレームワークを導入する。 BalDistillは、代表的ヘッドドメインの例を動的に選択し、テールドメインの例を合成することによって、様々な長い尾のデータセットをまたいだ最先端のパフォーマンスを実現し、蒸留モデルの効率性と有効性を向上させる。

Large language models (LLMs) have significantly advanced various natural language processing tasks, but deploying them remains computationally expensive. Knowledge distillation (KD) is a promising solution, enabling the transfer of capabilities from larger teacher LLMs to more compact student models. Particularly, sequence-level KD, which distills rationale-based reasoning processes instead of merely final outcomes, shows great potential in enhancing students' reasoning capabilities. However, current methods struggle with sequence level KD under long-tailed data distributions, adversely affecting generalization on sparsely represented domains. We introduce the Multi-Stage Balanced Distillation (BalDistill) framework, which iteratively balances training data within a fixed computational budget. By dynamically selecting representative head domain examples and synthesizing tail domain examples, BalDistill achieves state-of-the-art performance across diverse long-tailed datasets, enhancing both the efficiency and efficacy of the distilled models.
翻訳日:2024-06-21 23:48:36 公開日:2024-06-19
# State-of-Artレビュー:Digital Twinsを用いた人工知能による予測保守支援

State-of-the-Art Review: The Use of Digital Twins to Support Artificial Intelligence-Guided Predictive Maintenance ( http://arxiv.org/abs/2406.13117v1 )

ライセンス: Link先を確認
Sizhe Ma, Katherine A. Flanigan, Mario Bergés, (参考訳) 近年、予測保守(PMx)は、人間の関与を減らしながら効率、自動化、正確性、費用対効果を高める可能性で有名になっている。 重要なことに、PMxはビッグデータやIoT(Internet of Things, モノのインターネット)など、デジタルの進歩と共に進化してきた。 これらの技術進歩により、人工知能(AI)はPMxプロセスに革命をもたらし、監視、分析、予測タスクのリアルタイム自動化の能力が増大した。 しかし、PMxは、データ駆動手法における説明可能性の低下やサンプルの非効率、物理モデルにおける高い複雑さといった課題に直面しており、広く採用されるのを妨げている。 本稿では、これらの課題を克服するために、Digital Twins (DT) をPMxに統合し、様々な利害関係者にまたがるより自動化されたPMxアプリケーションを実現する方法について提案する。 その可能性にもかかわらず、現在のDTは既存のギャップを埋めるために完全に成熟していない。 我々の論文はDTの進化に関する包括的なロードマップを提供し、大規模な自動化PMxの進展を促進するために現在の制限に対処する。 まず、PMxのための情報要求(IR)と機能要求(FR)を特定し定義し、統一されたフレームワークの青写真を形成する、事前の作業を参照します。 第2に、これらのIRとFRを統合した現在のDTアプリケーションを評価するための文献レビューを行い、標準化されたDTモデルと自動PMxをサポートするツールを明らかにする。 最後に、現在のDT実装のギャップ、特にIRとFRが完全にサポートされていない点を強調し、包括的な自動化PMxシステムに必要なコンポーネントを概説する。 本稿では、この野心的なビジョンを達成するために、DTをPMxパラダイムにシームレスに統合する研究の方向性について述べる。

In recent years, predictive maintenance (PMx) has gained prominence for its potential to enhance efficiency, automation, accuracy, and cost-effectiveness while reducing human involvement. Importantly, PMx has evolved in tandem with digital advancements, such as Big Data and the Internet of Things (IOT). These technological strides have enabled Artificial Intelligence (AI) to revolutionize PMx processes, with increasing capacities for real-time automation of monitoring, analysis, and prediction tasks. However, PMx still faces challenges such as poor explainability and sample inefficiency in data-driven methods and high complexity in physics-based models, hindering broader adoption. This paper posits that Digital Twins (DTs) can be integrated into PMx to overcome these challenges, paving the way for more automated PMx applications across various stakeholders. Despite their potential, current DTs have not fully matured to bridge existing gaps. Our paper provides a comprehensive roadmap for DT evolution, addressing current limitations to foster large-scale automated PMx progression. We structure our approach in three stages: First, we reference prior work where we identified and defined the Information Requirements (IRs) and Functional Requirements (FRs) for PMx, forming the blueprint for a unified framework. Second, we conduct a literature review to assess current DT applications integrating these IRs and FRs, revealing standardized DT models and tools that support automated PMx. Lastly, we highlight gaps in current DT implementations, particularly those IRs and FRs not fully supported, and outline the necessary components for a comprehensive, automated PMx system. Our paper concludes with research directions aimed at seamlessly integrating DTs into the PMx paradigm to achieve this ambitious vision.
翻訳日:2024-06-21 23:48:36 公開日:2024-06-19
# GbHammer: ページテーブル内のグローバルビットをハマーすることで、プロセス間ページ共有を悪用する

GbHammer: Malicious Inter-process Page Sharing by Hammering Global Bits in Page Table Entries ( http://arxiv.org/abs/2406.13119v1 )

ライセンス: Link先を確認
Keigo Yoshioka, Soramichi Akiyama, (参考訳) RowHammerはDRAMチップ内の脆弱性で、攻撃者がDRAM行に何度もアクセスして、直接アクセスすることなく近くの行のビットを切り替える。 いくつかの研究により、ページテーブルエントリ(PTE)内のアドレス部分のビットを反転させることで、特権エスカレーションのような深刻なセキュリティリスクが生じることが判明した。 しかしながら、PTEがRowHammerにひっくり返されるリスクは、私たちが知る限り、まだ議論されていない。 本稿では,攻撃者がPTEのグローバルビットを打つことによって,物理的メモリページを悪意を持って被害者と共有できるGbHammerという新たな脆弱性を指摘した。 GbHammerは共有ページを作成するだけでなく、(1)被害者のプロセスが任意のバイナリを実行し、(2)被害者の秘密データを共有ページを通じてスヌープすることを可能にする。 サイクル精度のCPUシミュレータ上で動作する実Linuxカーネル上で2つのエクスプロイトを実演する。 また,非x86 ISAにおけるGbHammerの緩和対策とGbHammerのリスクについても検討した。

RowHammer is a vulnerability inside DRAM chips where an attacker repeatedly accesses a DRAM row to flip bits in the nearby rows without directly accessing them. Several studies have found that flipping bits in the address part inside a page table entry (PTE) leads to serious security risks such as privilege escalation. However, the risk of management bits in a PTE being flipped by RowHammer has not yet been discussed as far as we know. In this paper, we point out a new vulnerability called GbHammer that allows an attacker to maliciously share a physical memory page with a victim by hammering the global bit in a PTE. GbHammer not only creates a shared page but also enables the attacker to (1) make the victim's process execute arbitrary binary and (2) snoop on the victim's secret data through the shared page. We demonstrate the two exploits on a real Linux kernel running on a cycle-accurate CPU simulator. We also discuss possible mitigation measures for GbHammer and the risk of GbHammer in non-x86 ISAs.
翻訳日:2024-06-21 23:48:36 公開日:2024-06-19
# Long-Context Language Models Subsume Retrieval, RAG, SQLなどなどは可能か?

Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? ( http://arxiv.org/abs/2406.13121v1 )

ライセンス: Link先を確認
Jinhyuk Lee, Anthony Chen, Zhuyun Dai, Dheeru Dua, Devendra Singh Sachan, Michael Boratko, Yi Luan, Sébastien M. R. Arnold, Vincent Perot, Siddharth Dalmia, Hexiang Hu, Xudong Lin, Panupong Pasupat, Aida Amini, Jeremy R. Cole, Sebastian Riedel, Iftekhar Naim, Ming-Wei Chang, Kelvin Guu, (参考訳) 長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。 情報コーパス全体をネイティブに取り込み、処理するLCLMの能力を活用することは、多くの利点をもたらす。 ツールの専門知識を不要にすることでユーザフレンドリさを高め、複雑なパイプラインのカスケードエラーを最小限に抑える堅牢なエンドツーエンドモデリングを提供し、システム全体にわたって高度なプロンプト技術の適用を可能にします。 このパラダイムシフトを評価するために,実世界のタスクのベンチマークであるLOFTを紹介した。 以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。 しかしLCLMは、SQLのようなタスクで必要とされる構成的推論のような領域で依然として課題に直面している。 特に、戦略の推進はパフォーマンスに大きな影響を与え、文脈の長さが大きくなるにつれて継続的な研究の必要性を強調している。 全体として、LOFTはLCLMの厳格なテスト基盤を提供し、既存のパラダイムを代替し、モデル能力のスケールとして新しいタスクに取り組む可能性を示している。

Long-context language models (LCLMs) have the potential to revolutionize our approach to tasks traditionally reliant on external tools like retrieval systems or databases. Leveraging LCLMs' ability to natively ingest and process entire corpora of information offers numerous advantages. It enhances user-friendliness by eliminating the need for specialized knowledge of tools, provides robust end-to-end modeling that minimizes cascading errors in complex pipelines, and allows for the application of sophisticated prompting techniques across the entire system. To assess this paradigm shift, we introduce LOFT, a benchmark of real-world tasks requiring context up to millions of tokens designed to evaluate LCLMs' performance on in-context retrieval and reasoning. Our findings reveal LCLMs' surprising ability to rival state-of-the-art retrieval and RAG systems, despite never having been explicitly trained for these tasks. However, LCLMs still face challenges in areas like compositional reasoning that are required in SQL-like tasks. Notably, prompting strategies significantly influence performance, emphasizing the need for continued research as context lengths grow. Overall, LOFT provides a rigorous testing ground for LCLMs, showcasing their potential to supplant existing paradigms and tackle novel tasks as model capabilities scale.
翻訳日:2024-06-21 23:48:36 公開日:2024-06-19
# ViLCo-Bench: VIdeo Language Continual Learning Benchmark

ViLCo-Bench: VIdeo Language COntinual learning Benchmark ( http://arxiv.org/abs/2406.13123v1 )

ライセンス: Link先を確認
Tianqi Tang, Shohreh Deldari, Hao Xue, Celso De Melo, Flora D. Salim, (参考訳) ビデオ言語連続学習は、ビデオやテキスト入力からの情報に継続的に適応し、事前の知識を維持しながら新しいタスクを処理する能力を高める。 この領域は、比較的未調査の領域であり、適切なデータセットを確立することが、この分野におけるコミュニケーションと研究の促進に不可欠である。 本研究では,ビデオテキストタスクにおける連続学習モデルの評価を目的とした,最初の専用ベンチマークViLCo-Benchを提案する。 データセットは10分間のビデオと、公開されているデータセットから収集された対応する言語クエリで構成されている。 さらに、自己教師付き学習を取り入れ、長期記憶効果と短期記憶効果を模倣する新しい記憶効率フレームワークを提案する。 このフレームワークは、長いビデオクリップからのメモリの複雑さ、オープンクエリからの自然言語の複雑さ、テキストとビデオのミスアライメントといった課題に対処する。 ViLCo-Benchは、既存の継続学習ベンチマークよりも複雑であり、ビデオ言語領域を探索し、従来のクラス増分タスクを超えて、複雑で限定的なアノテーション問題に対処するための重要なツールとなると仮定する。 キュレートされたデータ、評価、新しい手法はhttps://github.com/cruiseresearchgroup/ViLCoで公開されている。

Video language continual learning involves continuously adapting to information from video and text inputs, enhancing a model's ability to handle new tasks while retaining prior knowledge. This field is a relatively under-explored area, and establishing appropriate datasets is crucial for facilitating communication and research in this field. In this study, we present the first dedicated benchmark, ViLCo-Bench, designed to evaluate continual learning models across a range of video-text tasks. The dataset comprises ten-minute-long videos and corresponding language queries collected from publicly available datasets. Additionally, we introduce a novel memory-efficient framework that incorporates self-supervised learning and mimics long-term and short-term memory effects. This framework addresses challenges including memory complexity from long video clips, natural language complexity from open queries, and text-video misalignment. We posit that ViLCo-Bench, with greater complexity compared to existing continual learning benchmarks, would serve as a critical tool for exploring the video-language domain, extending beyond conventional class-incremental tasks, and addressing complex and limited annotation issues. The curated data, evaluations, and our novel method are available at https://github.com/cruiseresearchgroup/ViLCo .
翻訳日:2024-06-21 23:48:36 公開日:2024-06-19
# 実情整合モデルによる質問文生成の学習

Learning to Generate Answers with Citations via Factual Consistency Models ( http://arxiv.org/abs/2406.13124v1 )

ライセンス: Link先を確認
Rami Aly, Zhiqiang Tang, Samson Tan, George Karypis, (参考訳) 大規模言語モデル(LLM)は、ミッションクリティカルな状況においてその信頼性を阻害する。 この問題に対処する1つのアプローチは、生成したコンテンツと共に関連するソースに引用を提供することで、世代間の妥当性を高めることである。 しかし、答えを正確に引用することは依然として大きな課題である。 本稿では,事実整合性モデル(FCM)を利用した微調整手法を提案する。 提案手法は,引用付きテキストの生成とFCMフィルタリングによる微調整とを交互に行う。 フォーカスドラーニングは、FCMが測定した事実の単位トークンを強調するために微調整プロセスを指示する。 ALCEの様々な命令チューニング LLM による数ショットの引用ベンチマークの結果は、コンテキスト内学習、バニラ教師ありの微調整、最先端の手法と比較して、それぞれ平均344.1ドル、15.5ドル、および10.5$の引用F$1ドルポイントよりも優れた性能を示した。 さらに、ドメイン転送設定では、得られた引用生成能力が、目に見えないデータセットに頑健に転送されることを示す。 特に、引用の改善は、ベースラインをまたがる最も低い事実的エラー率に寄与します。

Large Language Models (LLMs) frequently hallucinate, impeding their reliability in mission-critical situations. One approach to address this issue is to provide citations to relevant sources alongside generated content, enhancing the verifiability of generations. However, citing passages accurately in answers remains a substantial challenge. This paper proposes a weakly-supervised fine-tuning method leveraging factual consistency models (FCMs). Our approach alternates between generating texts with citations and supervised fine-tuning with FCM-filtered citation data. Focused learning is integrated into the objective, directing the fine-tuning process to emphasise the factual unit tokens, as measured by an FCM. Results on the ALCE few-shot citation benchmark with various instruction-tuned LLMs demonstrate superior performance compared to in-context learning, vanilla supervised fine-tuning, and state-of-the-art methods, with an average improvement of $34.1$, $15.5$, and $10.5$ citation F$_1$ points, respectively. Moreover, in a domain transfer setting we show that the obtained citation generation ability robustly transfers to unseen datasets. Notably, our citation improvements contribute to the lowest factual error rate across baselines.
翻訳日:2024-06-21 23:48:36 公開日:2024-06-19
# グラフニューラルネットワークに基づく組合せ最適化のための統一フレームワーク

A Unified Framework for Combinatorial Optimization Based on Graph Neural Networks ( http://arxiv.org/abs/2406.13125v1 )

ライセンス: Link先を確認
Yaochu Jin, Xueming Yan, Shiqing Liu, Xiangyu Wang, (参考訳) グラフニューラルネットワーク(GNN)は、組合せ最適化問題(COP)を解決する強力なツールとして登場し、グラフ構造化ドメインと非グラフ構造化ドメインの両方で最先端のパフォーマンスを示す。 しかし、既存のアプローチでは、幅広いCOPに対処できる統一されたフレームワークが欠如している。 本稿では,代表型COPの要約と,GNNにおける最近のCOPの進歩を概説した上で,COPのグラフ表現,非グラフ構造COPのグラフ構造化COPへの等価変換,グラフ分解,グラフ単純化などを含む,GNNに基づくCOPの統一化フレームワークを提案する。 提案フレームワークは,GNNが関係情報を効果的にキャプチャし,COPのグラフ表現から特徴を抽出する能力を活用し,非グラフ構造化および高度に複雑なグラフ構造化COPの解法における最先端の限界に対処できるCOPの汎用的なソリューションを提供する。

Graph neural networks (GNNs) have emerged as a powerful tool for solving combinatorial optimization problems (COPs), exhibiting state-of-the-art performance in both graph-structured and non-graph-structured domains. However, existing approaches lack a unified framework capable of addressing a wide range of COPs. After presenting a summary of representative COPs and a brief review of recent advancements in GNNs for solving COPs, this paper proposes a unified framework for solving COPs based on GNNs, including graph representation of COPs, equivalent conversion of non-graph structured COPs to graph-structured COPs, graph decomposition, and graph simplification. The proposed framework leverages the ability of GNNs to effectively capture the relational information and extract features from the graph representation of COPs, offering a generic solution to COPs that can address the limitations of state-of-the-art in solving non-graph-structured and highly complex graph-structured COPs.
翻訳日:2024-06-21 23:48:36 公開日:2024-06-19
# ガイド付きコンテクストゲーティング:網膜基底画像におけるサルエント病変の活用の学習

Guided Context Gating: Learning to leverage salient lesions in retinal fundus images ( http://arxiv.org/abs/2406.13126v1 )

ライセンス: Link先を確認
Teja Krishna Cherukuri, Nagur Shareef Shaik, Dong Hye Ye, (参考訳) 医用画像(特に網膜画像)を効果的に表現することは、病変と呼ばれる病理徴候の外観、大きさ、文脈的情報の変化によって大きな課題を呈する。 これらの病変の正確な識別は糖尿病網膜症などの視力障害の診断に不可欠である。 視覚的注意に基づくニューラルネットワークは網膜画像から空間的コンテキストとチャネル相関を学習するために導入されているが、局所的な病変コンテキストを捉えるには不十分であることが多い。 この制限に対処するため,グローバルなコンテキスト,空間的相関,局所的な病変コンテキストを学習するために,コンテキスト定式化,チャネル相関,ガイド付きゲーティングを統合するユニークなアプローチであるガイド付きコンテキストゲーティング(Guid Context Gating)を提案する。 既存の注意機構に対する質的評価は、説明可能性の観点から、ガイド付きコンテキストゲーティングの優位性を強調している。 特に、Zenodo-DR-7データセットの実験では、高度な注意機構よりも精度が2.63%向上し、各クラスで不均衡で限られたトレーニングサンプルであっても、網膜症の重症度を評価するための最先端のVision Transformerよりも6.53%改善されている。

Effectively representing medical images, especially retinal images, presents a considerable challenge due to variations in appearance, size, and contextual information of pathological signs called lesions. Precise discrimination of these lesions is crucial for diagnosing vision-threatening issues such as diabetic retinopathy. While visual attention-based neural networks have been introduced to learn spatial context and channel correlations from retinal images, they often fall short in capturing localized lesion context. Addressing this limitation, we propose a novel attention mechanism called Guided Context Gating, an unique approach that integrates Context Formulation, Channel Correlation, and Guided Gating to learn global context, spatial correlations, and localized lesion context. Our qualitative evaluation against existing attention mechanisms emphasize the superiority of Guided Context Gating in terms of explainability. Notably, experiments on the Zenodo-DR-7 dataset reveal a substantial 2.63% accuracy boost over advanced attention mechanisms & an impressive 6.53% improvement over the state-of-the-art Vision Transformer for assessing the severity grade of retinopathy, even with imbalanced and limited training samples for each class.
翻訳日:2024-06-21 23:48:36 公開日:2024-06-19
# Oralytics Reinforcement Learning Algorithm

Oralytics Reinforcement Learning Algorithm ( http://arxiv.org/abs/2406.13127v1 )

ライセンス: Link先を確認
Anna L. Trella, Kelly W. Zhang, Stephanie M. Carpenter, David Elashoff, Zara M. Greer, Inbal Nahum-Shani, Dennis Ruenger, Vivek Shetty, Susan A. Murphy, (参考訳) 歯科疾患は現在でもアメリカ合衆国で最も一般的な慢性疾患の1つである。 歯科疾患は、健康的な口腔セルフケア行動(OSCB)によって予防できるが、この基本的な行動は一貫して実践されていない。 我々は、個人化された介入プロンプトの配信を最適化し、OSCBを改善するオンライン強化学習(RL)アルゴリズムであるOralyticsを開発した。 本稿では、先行データ、ドメインの専門知識、実験をシミュレーションテストベッドで使用したアルゴリズム設計決定について概説する。 最終RLアルゴリズムは、2023年秋から2024年夏にかけて行われたOralytics臨床試験で展開された。

Dental disease is still one of the most common chronic diseases in the United States. While dental disease is preventable through healthy oral self-care behaviors (OSCB), this basic behavior is not consistently practiced. We have developed Oralytics, an online, reinforcement learning (RL) algorithm that optimizes the delivery of personalized intervention prompts to improve OSCB. In this paper, we offer a full overview of algorithm design decisions made using prior data, domain expertise, and experiments in a simulation test bed. The finalized RL algorithm was deployed in the Oralytics clinical trial, conducted from fall 2023 to summer 2024.
翻訳日:2024-06-21 23:48:36 公開日:2024-06-19
# ハード・トゥ・ディテクト血液容器におけるセグメンテーションアルゴリズムの性能評価と改善のための新しいアプローチ

A New Approach for Evaluating and Improving the Performance of Segmentation Algorithms on Hard-to-Detect Blood Vessels ( http://arxiv.org/abs/2406.13128v1 )

ライセンス: Link先を確認
João Pedro Parella, Matheus Viana da Silva, Cesar Henrique Comin, (参考訳) 生体組織の血管に関する多くの研究は、サンプル内の血管の分断と、血管をモデル化するグラフ構造の作成を含む。 グラフは、関連する血管特性を抽出するために使用される。 小さいセグメンテーション誤差は、主に異なる接続パターンと抽出された特性の高いばらつきをもたらす可能性がある。 それでも、Dice、精度、リコールといったグローバルな指標は、血管分割アルゴリズムのパフォーマンスを測定するために一般的に適用されている。 これらの指標は、サンプルの特定の領域における精度に関する重要な情報を隠蔽する可能性がある。 そこで本研究では,特定の血管セグメントの分節化の難しさを定量化するために,局所血管サリエンス(LVS)指標を提案する。 LVS指数は、各容器の局所強度と画素周辺の画像背景を比較することにより、各容器画素に対して算出される。 次に、この指標を使用して、低濃度リコール(LSRecall)と呼ばれる新しい精度メトリックを定義し、低濃度の血管セグメントにおけるセグメンテーションアルゴリズムのパフォーマンスを定量化する。 LVSインデックスが提供する視点は、畳み込みニューラルネットワークのセグメンテーション性能を改善するために使用できるデータ拡張手順を定義するために使用される。 高いDice値とリコール値を持つセグメンテーションアルゴリズムはLSRecall値が極めて低いことを示し、これらのアルゴリズムの系統的誤りを、低いサリエンスを持つ船舶に対して明らかにする。 提案したデータ拡張手順は、いくつかのサンプルのLSRecallを最大25%改善することができる。 開発した手法は, 検出困難な血管に関するセグメンテーションアルゴリズムの性能と血管トポロジーの保存能力を比較するための新たな可能性を開く。

Many studies regarding the vasculature of biological tissues involve the segmentation of the blood vessels in a sample followed by the creation of a graph structure to model the vasculature. The graph is then used to extract relevant vascular properties. Small segmentation errors can lead to largely distinct connectivity patterns and a high degree of variability of the extracted properties. Nevertheless, global metrics such as Dice, precision, and recall are commonly applied for measuring the performance of blood vessel segmentation algorithms. These metrics might conceal important information about the accuracy at specific regions of a sample. To tackle this issue, we propose a local vessel salience (LVS) index to quantify the expected difficulty in segmenting specific blood vessel segments. The LVS index is calculated for each vessel pixel by comparing the local intensity of the vessel with the image background around the pixel. The index is then used for defining a new accuracy metric called low-salience recall (LSRecall), which quantifies the performance of segmentation algorithms on blood vessel segments having low salience. The perspective provided by the LVS index is used to define a data augmentation procedure that can be used to improve the segmentation performance of convolutional neural networks. We show that segmentation algorithms having high Dice and recall values can display very low LSRecall values, which reveals systematic errors of these algorithms for vessels having low salience. The proposed data augmentation procedure is able to improve the LSRecall of some samples by as much as 25%. The developed methodology opens up new possibilities for comparing the performance of segmentation algorithms regarding hard-to-detect blood vessels as well as their capabilities for vascular topology preservation.
翻訳日:2024-06-21 23:48:36 公開日:2024-06-19
# M3T:網膜画像医用記述生成のためのビジュアルインサイトを用いた臨床コンテキストブリッジ用マルチモーダル医用トランス

M3T: Multi-Modal Medical Transformer to bridge Clinical Context with Visual Insights for Retinal Image Medical Description Generation ( http://arxiv.org/abs/2406.13129v1 )

ライセンス: Link先を確認
Nagur Shareef Shaik, Teja Krishna Cherukuri, Dong Hye Ye, (参考訳) 網膜画像診断と治療計画の合理化には, 網膜画像診断の自動生成が不可欠である。 既存の課題には、学習された網膜画像表現への依存、複数の画像モダリティを扱うことの難しさ、視覚表現における臨床コンテキストの欠如などがある。 これらの課題に対処するために,視覚表現と診断キーワードを統合する新しいディープラーニングアーキテクチャであるMulti-Modal Medical Transformer (M3T)を提案する。 従来の研究とは異なり,本手法は両モードから文脈情報や意味を効率よく学習し,網膜画像の正確で一貫性のある医学的記述を生成する。 DeepEyeNetデータセットに関する実験的研究は、眼科医の基準を満たす上でのM3Tの成功を検証し、最高性能のベースラインモデルに対してBLEU@4が13.5%向上したことを示した。

Automated retinal image medical description generation is crucial for streamlining medical diagnosis and treatment planning. Existing challenges include the reliance on learned retinal image representations, difficulties in handling multiple imaging modalities, and the lack of clinical context in visual representations. Addressing these issues, we propose the Multi-Modal Medical Transformer (M3T), a novel deep learning architecture that integrates visual representations with diagnostic keywords. Unlike previous studies focusing on specific aspects, our approach efficiently learns contextual information and semantics from both modalities, enabling the generation of precise and coherent medical descriptions for retinal images. Experimental studies on the DeepEyeNet dataset validate the success of M3T in meeting ophthalmologists' standards, demonstrating a substantial 13.5% improvement in BLEU@4 over the best-performing baseline model.
翻訳日:2024-06-21 23:48:36 公開日:2024-06-19
# 小売データ科学の進歩:合成データの総合的評価

Advancing Retail Data Science: Comprehensive Evaluation of Synthetic Data ( http://arxiv.org/abs/2406.13130v1 )

ライセンス: Link先を確認
Yu Xia, Chi-Hua Wang, Joshua Mabry, Guang Cheng, (参考訳) 特にデータ精度が最重要である小売分野では,合成データ生成の評価が重要である。 本稿では, 総合的な小売データ評価フレームワークを導入し, 忠実度, 実用性, プライバシに着目した。 提案手法は連続データ属性と離散データ属性を区別し,正確な評価基準を提供する。 忠実度は安定性と一般化性によって測定される。 安定性は、合成データが既知のデータの分布を正確に再現することを保証する。 実用性は、需要予測や動的価格設定といった重要な小売業務における合成データの有効性、予測分析や戦略的計画における価値の証明を通じて示される。 プライバシは差分プライバシを使用して保護されており、セキュリティを損なうことなく、トレーニングとホールトアウトデータセットとの完全なバランスを維持することができる。 以上の結果から,このフレームワークが総合小売データに対して信頼性およびスケーラブルな評価を提供することが明らかとなった。 高い忠実性、ユーティリティ、プライバシを確保し、小売データサイエンスを前進させる上で不可欠なツールである。 この枠組みは、小売業界の進化するニーズを精度と信頼性で満たし、合成データ方法論の将来的な進歩の道を開く。

The evaluation of synthetic data generation is crucial, especially in the retail sector where data accuracy is paramount. This paper introduces a comprehensive framework for assessing synthetic retail data, focusing on fidelity, utility, and privacy. Our approach differentiates between continuous and discrete data attributes, providing precise evaluation criteria. Fidelity is measured through stability and generalizability. Stability ensures synthetic data accurately replicates known data distributions, while generalizability confirms its robustness in novel scenarios. Utility is demonstrated through the synthetic data's effectiveness in critical retail tasks such as demand forecasting and dynamic pricing, proving its value in predictive analytics and strategic planning. Privacy is safeguarded using Differential Privacy, ensuring synthetic data maintains a perfect balance between resembling training and holdout datasets without compromising security. Our findings validate that this framework provides reliable and scalable evaluation for synthetic retail data. It ensures high fidelity, utility, and privacy, making it an essential tool for advancing retail data science. This framework meets the evolving needs of the retail industry with precision and confidence, paving the way for future advancements in synthetic data methodologies.
翻訳日:2024-06-21 23:48:36 公開日:2024-06-19
# 部品が総和より大きい場合:個々のLCMコンポーネントは完全なモデルを上回ることができる

When Parts are Greater Than Sums: Individual LLM Components Can Outperform Full Models ( http://arxiv.org/abs/2406.13131v1 )

ライセンス: Link先を確認
Ting-Yun Chang, Jesse Thomason, Robin Jia, (参考訳) 本稿では,大規模言語モデルの出力を注目頭やMLP(コンポーネント)の個人的貢献に分解することで,文脈内学習(ICL)について検討する。 モデルが貧弱な場合であっても、分類タスクで個別にうまく機能する優れたパフォーマンスのコンポーネント、偶然よりもはるかに悪いパフォーマンスのコンポーネント、常に同じラベルを予測するラベルバイアスのコンポーネント。 完全モデルの精度が大きく変化しても, コンポーネントの精度は, 異なるデモセットやプロンプトテンプレートの摂動とよく相関していることがわかった。 そこで本研究では,いくつかのラベル付き例から,コンポーネントアクティベーションを線形に再スケールするコンポーネント再重み付けを提案する。 Llama-2-7Bの8つのタスクにまたがる24ショットICLよりも平均6.0%精度が向上した。 全体として、本論文はICLの理解を深め、モデル内部を調べることで改善のための実践的な方法を提供する。

This paper studies in-context learning (ICL) by decomposing the output of large language models into the individual contributions of attention heads and MLPs (components). We observe curious components: good-performing ones that individually do well on a classification task, even when the model performs poorly; bad-performing ones that do much worse than chance; and label-biased components that always predict the same label. We find that component accuracies are well-correlated across different demonstration sets and perturbations of prompt templates, even when the full-model accuracy varies greatly. Based on our findings, we propose component reweighting, which learns to linearly re-scale the component activations from a few labeled examples. Given 24 labeled examples, our method improves by an average of 6.0% accuracy points over 24-shot ICL across 8 tasks on Llama-2-7B. Overall, this paper both enriches our understanding of ICL and provides a practical method for improvement by examining model internals.
翻訳日:2024-06-21 23:48:36 公開日:2024-06-19
# PathoLM:ゲノム基盤モデルによるDNA配列からの病原性同定

PathoLM: Identifying pathogenicity from the DNA sequence through the Genome Foundation Model ( http://arxiv.org/abs/2406.13133v1 )

ライセンス: Link先を確認
Sajib Acharjee Dip, Uddip Acharjee Shuvo, Tran Chau, Haoqiu Song, Petra Choi, Xuan Wang, Liqing Zhang, (参考訳) 病原体同定は、感染症の診断、治療、予防、感染症の予防、公衆衛生の保護において重要である。 従来のアライメントベースの手法は広く使われているが、計算的に強く、広範囲の参照データベースに依存しており、しばしばその感度と特異性のために新しい病原体を検出することができない。 同様に、従来の機械学習技術は有望ではあるが、大きな注釈付きデータセットと広範な機能エンジニアリングを必要とし、過度に適合する傾向がある。 これらの課題に対処するために,細菌およびウイルス配列の病原性の同定に最適化された最先端の病原性言語モデルPathoLMを紹介した。 Nucleotide Transformerのような事前訓練されたDNAモデルの強度を活用して、PathoLMは微調整のために最小限のデータを必要とし、病原体検出能力を向上する。 より広いゲノムコンテキストを効果的に捉え、新規な病原体の同定を著しく改善する。 ESKAPEE病原菌を含む約30種のウイルス・細菌からなる包括的データセットを開発した。 さらに,ESKAPEE群を中心に種分類データセットを作成した。 比較評価では、PathoLMはDciPathoのような既存のモデルよりも劇的に優れており、堅牢なゼロショットと少数ショット機能を示している。 さらに,esKAPEE種分類のためのPathoLM-Spを拡張し,タスクの複雑さにもかかわらず,他の高度な深層学習手法と比較して優れた性能を示した。

Pathogen identification is pivotal in diagnosing, treating, and preventing diseases, crucial for controlling infections and safeguarding public health. Traditional alignment-based methods, though widely used, are computationally intense and reliant on extensive reference databases, often failing to detect novel pathogens due to their low sensitivity and specificity. Similarly, conventional machine learning techniques, while promising, require large annotated datasets and extensive feature engineering and are prone to overfitting. Addressing these challenges, we introduce PathoLM, a cutting-edge pathogen language model optimized for the identification of pathogenicity in bacterial and viral sequences. Leveraging the strengths of pre-trained DNA models such as the Nucleotide Transformer, PathoLM requires minimal data for fine-tuning, thereby enhancing pathogen detection capabilities. It effectively captures a broader genomic context, significantly improving the identification of novel and divergent pathogens. We developed a comprehensive data set comprising approximately 30 species of viruses and bacteria, including ESKAPEE pathogens, seven notably virulent bacterial strains resistant to antibiotics. Additionally, we curated a species classification dataset centered specifically on the ESKAPEE group. In comparative assessments, PathoLM dramatically outperforms existing models like DciPatho, demonstrating robust zero-shot and few-shot capabilities. Furthermore, we expanded PathoLM-Sp for ESKAPEE species classification, where it showed superior performance compared to other advanced deep learning methods, despite the complexities of the task.
翻訳日:2024-06-21 23:38:44 公開日:2024-06-19
# GVT2RPM:遠隔生理計測への一般ビデオトランスフォーマー適応に関する実証的研究

GVT2RPM: An Empirical Study for General Video Transformer Adaptation to Remote Physiological Measurement ( http://arxiv.org/abs/2406.13136v1 )

ライセンス: Link先を確認
Hao Wang, Euijoon Ahn, Jinman Kim, (参考訳) リモート生理計測(Remote physiological Measurement, RPM)は、身体ウェアラブルを介して遠隔地における生理的兆候(例えば心拍数)の測定を可能にする医療監視に不可欠なツールである。 近年,顔画像ではビデオベースのRPMが急速に進歩している。 しかし, 臨床現場では, RPM の顔画像の採用は, 精度と頑健性(患者集団間での作業)に大きく依存する。 幸いなことに、一般的な(自然な)ビデオ理解における最先端のトランスフォーマーアーキテクチャの能力は、顕著な改善をもたらし、RPMを含む顔理解に変換されている。 しかし、既存のRPM法は一般にRPM固有のモジュール、例えば時間差畳み込みや手作りの特徴写像を必要とする。 これらのカスタマイズされたモジュールは精度を高めることができるが、データセット間の堅牢性については示されていない。 さらに、トランスアーキテクチャのカスタマイズにより、一般的なビデオトランス(GVT)の進歩を利用できない。 本研究では、GVTアーキテクチャを疑問視し、トレーニング設計、すなわちデータ前処理とネットワーク構成がRPMに適用されたモデル性能に与える影響を実証的に分析する。 ビデオ変換器の構造に基づいて、信号特徴抽出に必要なRPMの高密度時間情報と整合する時空間階層を構成する。 我々は,いくつかの実践的ガイドラインを定義し,RPM固有のモジュールを導入することなく,徐々にGVTをRPMに適用する。 実験の結果,既存のRPM固有のモジュールに対して良好な結果が得られた。 データセット内設定とデータセット間設定を用いて,5つのデータセットを用いた広範囲な実験を行った。 提案したガイドラインであるGVT2RPMは、任意のビデオトランスフォーマーに一般化することができ、様々なデータセットに対して堅牢である。

Remote physiological measurement (RPM) is an essential tool for healthcare monitoring as it enables the measurement of physiological signs, e.g., heart rate, in a remote setting via physical wearables. Recently, with facial videos, we have seen rapid advancements in video-based RPMs. However, adopting facial videos for RPM in the clinical setting largely depends on the accuracy and robustness (work across patient populations). Fortunately, the capability of the state-of-the-art transformer architecture in general (natural) video understanding has resulted in marked improvements and has been translated to facial understanding, including RPM. However, existing RPM methods usually need RPM-specific modules, e.g., temporal difference convolution and handcrafted feature maps. Although these customized modules can increase accuracy, they are not demonstrated for their robustness across datasets. Further, due to their customization of the transformer architecture, they cannot use the advancements made in general video transformers (GVT). In this study, we interrogate the GVT architecture and empirically analyze how the training designs, i.e., data pre-processing and network configurations, affect the model performance applied to RPM. Based on the structure of video transformers, we propose to configure its spatiotemporal hierarchy to align with the dense temporal information needed in RPM for signal feature extraction. We define several practical guidelines and gradually adapt GVTs for RPM without introducing RPM-specific modules. Our experiments demonstrate favorable results to existing RPM-specific module counterparts. We conducted extensive experiments with five datasets using intra-dataset and cross-dataset settings. We highlight that the proposed guidelines GVT2RPM can be generalized to any video transformers and is robust to various datasets.
翻訳日:2024-06-21 23:38:44 公開日:2024-06-19
# 分子グラフトランスモデルの効率的シャープネス認識最小化

Efficient Sharpness-Aware Minimization for Molecular Graph Transformer Models ( http://arxiv.org/abs/2406.13137v1 )

ライセンス: Link先を確認
Yili Wang, Kaixiong Zhou, Ninghao Liu, Ying Wang, Xin Wang, (参考訳) シャープネス認識最小化(SAM)は、訓練軌道からのシャープ局所最小化を効果的に排除し、一般化の劣化を軽減することができるため、コンピュータビジョンにおいて注目されている。 しかし、SAMは各ステップの最適化中に2つの逐次勾配計算を必要とする: 1つは摂動勾配、もう1つは更新勾配を得る。 ベースオプティマイザ(例えばAdam)と比較すると、SAMはさらなる摂動勾配のために時間オーバーヘッドを2倍にする。 SAMの理論を解き、分子グラフ変換器のトレーニング勾配を観察することにより、SAMのトレーニングコストを低減し、グラフ変換器モデルの一般化性能を向上させる新しいアルゴリズムGraphSAMを提案する。 この結果に寄与する要因は2つある。 i) \textit{gradient approximation}: 前段の更新勾配を用いて、中間段の摂動勾配を滑らかに近似する(\textbf{increases efficiency})。 (ii) \textit{loss landscape approximation}: 理論上、GraphSAMの損失景観はSAMの期待損失を中心とする小さな範囲に限定されていることを証明する。 異なるタスクを持つ6つのデータセットに関する広範な実験は、特にモデル更新プロセスの最適化において、GraphSAMの優位性を示している。 コードは:https://github.com/YL-wang/GraphSAM/tree/graphsam

Sharpness-aware minimization (SAM) has received increasing attention in computer vision since it can effectively eliminate the sharp local minima from the training trajectory and mitigate generalization degradation. However, SAM requires two sequential gradient computations during the optimization of each step: one to obtain the perturbation gradient and the other to obtain the updating gradient. Compared with the base optimizer (e.g., Adam), SAM doubles the time overhead due to the additional perturbation gradient. By dissecting the theory of SAM and observing the training gradient of the molecular graph transformer, we propose a new algorithm named GraphSAM, which reduces the training cost of SAM and improves the generalization performance of graph transformer models. There are two key factors that contribute to this result: (i) \textit{gradient approximation}: we use the updating gradient of the previous step to approximate the perturbation gradient at the intermediate steps smoothly (\textbf{increases efficiency}); (ii) \textit{loss landscape approximation}: we theoretically prove that the loss landscape of GraphSAM is limited to a small range centered on the expected loss of SAM (\textbf{guarantees generalization performance}). The extensive experiments on six datasets with different tasks demonstrate the superiority of GraphSAM, especially in optimizing the model update process. The code is in:https://github.com/YL-wang/GraphSAM/tree/graphsam
翻訳日:2024-06-21 23:38:44 公開日:2024-06-19
# 大規模言語モデルであるため,大規模言語モデルにはバイアスがかかる

Large Language Models are Biased Because They Are Large Language Models ( http://arxiv.org/abs/2406.13138v1 )

ライセンス: Link先を確認
Philip Resnik, (参考訳) 本稿の主な目的は,大規模言語モデルにおけるバイアスと基本特性の関係について,思慮深い議論を提起することである。 我々は、LLMが現在定式化されているような大きな言語モデルの設計から生じる有害なバイアスが必然的な結果であると読者に納得させることで、これを実現しようとしている。 このことが事実である範囲では、有害なバイアスの問題は、LLMによって駆動されるAIの深刻な再考なしには適切に対処できず、設計の根底にある基本的な前提に戻ることを示唆している。

This paper's primary goal is to provoke thoughtful discussion about the relationship between bias and fundamental properties of large language models. We do this by seeking to convince the reader that harmful biases are an inevitable consequence arising from the design of any large language model as LLMs are currently formulated. To the extent that this is true, it suggests that the problem of harmful bias cannot be properly addressed without a serious reconsideration of AI driven by LLMs, going back to the foundational assumptions underlying their design.
翻訳日:2024-06-21 23:38:44 公開日:2024-06-19
# 意思決定の補助からアルゴリズムの大量使用に至るまで、責任はどこにあるのか?

From decision aiding to the massive use of algorithms: where does the responsibility stand? ( http://arxiv.org/abs/2406.13140v1 )

ライセンス: Link先を確認
Odile Bellenguez, Nadia Branuer, Alexis Tsoukiàs, (参考訳) 本稿では,アルゴリズムの倫理に関する非常に大きな議論の中で,人間の責任に関する分析を提案する。 一方、アルゴリズムは、結果と予期せぬ影響に責任を負う人間によって設計されている。 それでも、彼らが使用と結果の完全な状況を受け入れることができないという事実が、到達不可能な限界につながっていることを示す。 一方、技術の使用は、たとえその特性に制限があるとしても、決して責任を負わない。 非専門のユーザによる大量使用は、倫理的に責任を持つ可能性を変更するための追加の質問を導入します。 記事は、その限界が徐々に進化してきたことを示し、未考の問題と責任共有の失敗を残しているように構成されている。

In the very large debates on ethics of algorithms, this paper proposes an analysis on human responsibility. On one hand, algorithms are designed by some humans, who bear a part of responsibility in the results and unexpected impacts. Nevertheless, we show how the fact they cannot embrace the full situations of use and consequences lead to an unreachable limit. On the other hand, using technology is never free of responsibility, even if there also exist limits to characterise. Massive uses by unprofessional users introduce additional questions that modify the possibilities to be ethically responsible. The article is structured in such a way as to show how the limits have gradually evolved, leaving unthought of issues and a failure to share responsibility.
翻訳日:2024-06-21 23:38:44 公開日:2024-06-19
# DialSim:会話エージェントの長期対話理解のためのリアルタイムシミュレータ

DialSim: A Real-Time Simulator for Evaluating Long-Term Dialogue Understanding of Conversational Agents ( http://arxiv.org/abs/2406.13144v1 )

ライセンス: Link先を確認
Jiho Kim, Woosog Chay, Hyeonji Hwang, Daeun Kyung, Hyunseung Chung, Eunbyeol Cho, Yohan Jo, Edward Choi, (参考訳) 近年のLarge Language Models (LLM) の進歩は会話エージェントの能力を大幅に向上させ、様々な分野(例えば教育)に応用されている。 その進展にもかかわらず、エージェントの評価は、リアルタイム対話、多人数対話、拡張されたコンテキスト依存など、現実世界の会話の複雑さをしばしば見落としている。 このギャップを埋めるために,リアルタイム対話シミュレータDialSimを導入する。 このシミュレータでは、エージェントが人気番組のキャラクターの役割を割り当てられ、過去の対話情報を用いて自発的な質問に応答し、未知の情報と未知の情報とを区別する必要がある。 DialSimの主な特徴は、エージェントの適切な時間制限内で応答する能力の評価、長期にわたる多人数対話の処理、およびエージェントの事前訓練された知識への依存に挑戦するための敵の設定(文字名の変更など)の管理である。 我々は,このシミュレータを用いて,最新の会話エージェントを評価し,その制限を解析した。 我々の実験は、これらのエージェントの強みと弱みの両方を強調し、対話型AIの分野における将来の改善に対する貴重な洞察を提供する。 DialSimはhttps://github.com/jiho283/Simulator.comで入手できる。

Recent advancements in Large Language Models (LLMs) have significantly enhanced the capabilities of conversational agents, making them applicable to various fields (e.g., education). Despite their progress, the evaluation of the agents often overlooks the complexities of real-world conversations, such as real-time interactions, multi-party dialogues, and extended contextual dependencies. To bridge this gap, we introduce DialSim, a real-time dialogue simulator. In this simulator, an agent is assigned the role of a character from popular TV shows, requiring it to respond to spontaneous questions using past dialogue information and to distinguish between known and unknown information. Key features of DialSim include evaluating the agent's ability to respond within a reasonable time limit, handling long-term multi-party dialogues, and managing adversarial settings (e.g., swap character names) to challenge the agent's reliance on pre-trained knowledge. We utilized this simulator to evaluate the latest conversational agents and analyze their limitations. Our experiments highlight both the strengths and weaknesses of these agents, providing valuable insights for future improvements in the field of conversational AI. DialSim is available at https://github.com/jiho283/Simulator.
翻訳日:2024-06-21 23:38:44 公開日:2024-06-19
# ディジタルツインの構築と評価 - DT開発のためのインテリジェントフレームワーク

Constructing and Evaluating Digital Twins: An Intelligent Framework for DT Development ( http://arxiv.org/abs/2406.13145v1 )

ライセンス: Link先を確認
Longfei Ma, Nan Cheng, Xiucheng Wang, Jiong Chen, Yinjun Gao, Dongxiao Zhang, Jun-Jie Zhang, (参考訳) デジタルツイン(DT)の開発は、制御されたデジタル空間における複雑なシステムをシミュレートし最適化するための変革的な進歩を表している。 これらの可能性にもかかわらず、現実のシステムの力学を正確に再現し、予測するDTを構築するという課題は、依然として深刻である。 本稿では,アルゴリズム性能試験におけるDTの精度と有用性を高めるために,DTの構築と評価のためのインテリジェントなフレームワークを提案する。 本稿では,Deep Learning-based policy gradient techniqueを統合してDTパラメータを動的に調整し,物理システムのデジタル複製における高い忠実性を確保する手法を提案する。 さらに,これらのデジタル空間におけるアルゴリズムの性能を評価するために,MSTE(Mean STate Error)を提案する。 我々のフレームワークの有効性は、DTが物理的現実を正確に反映するだけでなく、アルゴリズム評価のための信頼性の高いプラットフォームを提供することを示す広範囲なシミュレーションによって実証される。 この研究は将来のDT技術研究の基礎を築き、様々な産業における理論的強化と実践的実装の両方の道のりを強調している。

The development of Digital Twins (DTs) represents a transformative advance for simulating and optimizing complex systems in a controlled digital space. Despite their potential, the challenge of constructing DTs that accurately replicate and predict the dynamics of real-world systems remains substantial. This paper introduces an intelligent framework for the construction and evaluation of DTs, specifically designed to enhance the accuracy and utility of DTs in testing algorithmic performance. We propose a novel construction methodology that integrates deep learning-based policy gradient techniques to dynamically tune the DT parameters, ensuring high fidelity in the digital replication of physical systems. Moreover, the Mean STate Error (MSTE) is proposed as a robust metric for evaluating the performance of algorithms within these digital space. The efficacy of our framework is demonstrated through extensive simulations that show our DT not only accurately mirrors the physical reality but also provides a reliable platform for algorithm evaluation. This work lays a foundation for future research into DT technologies, highlighting pathways for both theoretical enhancements and practical implementations in various industries.
翻訳日:2024-06-21 23:38:44 公開日:2024-06-19
# アントコロニーダイナミクスの神経進化シミュレーション環境

A Simulation Environment for the Neuroevolution of Ant Colony Dynamics ( http://arxiv.org/abs/2406.13147v1 )

ライセンス: Link先を確認
Michael Crosscombe, Ilya Horiguchi, Norihiro Maruyama, Shigeto Dobata, Takashi Ikegami, (参考訳) 我々は,アリコロニーの動態を複製することに着目し,創発的集団行動の研究を促進するためのシミュレーション環境を導入する。 現実のデータを活用することで、環境は、ターゲットアリが観測した感覚データを用いて、制御可能なエージェントが複製を学ばなければならないターゲットアリの跡をシミュレートする。 この研究は、ネットワークトポロジにおけるドメイン固有の振る舞いをエンコードする神経アーキテクチャの進化に焦点を当て、集合的行動のためのモデルの神経進化に寄与することを目的としている。 制御された環境で修正および研究できるモデルを進化させることで、集団行動の出現に必要な条件を明らかにすることができる。 この環境が、集団システムにおける創発的行動における相互作用の役割を研究する人々にとって有用であることを願っている。

We introduce a simulation environment to facilitate research into emergent collective behaviour, with a focus on replicating the dynamics of ant colonies. By leveraging real-world data, the environment simulates a target ant trail that a controllable agent must learn to replicate, using sensory data observed by the target ant. This work aims to contribute to the neuroevolution of models for collective behaviour, focusing on evolving neural architectures that encode domain-specific behaviours in the network topology. By evolving models that can be modified and studied in a controlled environment, we can uncover the necessary conditions required for collective behaviours to emerge. We hope this environment will be useful to those studying the role of interactions in emergent behaviour within collective systems.
翻訳日:2024-06-21 23:38:44 公開日:2024-06-19
# テクスチャ量子化による高忠実顔面アルベド推定

High-Fidelity Facial Albedo Estimation via Texture Quantization ( http://arxiv.org/abs/2406.13149v1 )

ライセンス: Link先を確認
Zimin Ran, Xingyu Ren, Xiang An, Kaicheng Yang, Xiangzi Dai, Ziyong Feng, Jia Guo, Linchao Zhu, Jiankang Deng, (参考訳) 近年の3次元顔復元法は形状推定において顕著な進歩を遂げているが,高忠実度顔アルベド再建はいまだに困難である。 既存の方法は、顔のアルベドマップを学習するために、高価なライトステージのキャプチャーデータに依存する。 しかし、被験者の多様性の欠如は、高忠実度の結果を回復する能力を制限する。 本稿では,新しい顔アルベド再構成モデルであるHiFiAlbedoについて述べる。 我々の重要な洞察は、アルベドマップが照明不変テクスチャマップであり、安価なテクスチャデータを用いて照明を排除してアルベド推定を導出することができることである。 そこで我々はまず,大規模な超高解像度顔画像を収集し,高忠実度顔テクスチャコードブックを訓練する。 FFHQデータセットと限られたUVテクスチャを用いて、入力画像からテクスチャ再構成のためのエンコーダを微調整し、画像とUV空間の両方で逆監督する。 最後に、顔のテクスチャからアルベド領域への適応を学習するために、クロスアテンションモジュールをトレーニングし、グループアイデンティティ損失を利用する。 広汎な実験により,本手法は優れた一般化性を示し,顔面アルベド回復のための高忠実度を達成できることが証明された。 私たちのコード、事前トレーニングされたウェイト、トレーニングデータはhttps://hifialbedo.github.io/で公開されます。

Recent 3D face reconstruction methods have made significant progress in shape estimation, but high-fidelity facial albedo reconstruction remains challenging. Existing methods depend on expensive light-stage captured data to learn facial albedo maps. However, a lack of diversity in subjects limits their ability to recover high-fidelity results. In this paper, we present a novel facial albedo reconstruction model, HiFiAlbedo, which recovers the albedo map directly from a single image without the need for captured albedo data. Our key insight is that the albedo map is the illumination invariant texture map, which enables us to use inexpensive texture data to derive an albedo estimation by eliminating illumination. To achieve this, we first collect large-scale ultra-high-resolution facial images and train a high-fidelity facial texture codebook. By using the FFHQ dataset and limited UV textures, we then fine-tune the encoder for texture reconstruction from the input image with adversarial supervision in both image and UV space. Finally, we train a cross-attention module and utilize group identity loss to learn the adaptation from facial texture to the albedo domain. Extensive experimentation has demonstrated that our method exhibits excellent generalizability and is capable of achieving high-fidelity results for in-the-wild facial albedo recovery. Our code, pre-trained weights, and training data will be made publicly available at https://hifialbedo.github.io/.
翻訳日:2024-06-21 23:38:44 公開日:2024-06-19
# MCAD:高画質PET画像再構成のための多モード共振器拡散モデル

MCAD: Multi-modal Conditioned Adversarial Diffusion Model for High-Quality PET Image Reconstruction ( http://arxiv.org/abs/2406.13150v1 )

ライセンス: Link先を確認
Jiaqi Cui, Xinyi Zeng, Pinxian Zeng, Bo Liu, Xi Wu, Jiliu Zhou, Yan Wang, (参考訳) 低線量PET(LPET)画像の品質は臨床要件を満たしていないが、標準線量ポジトロン断層撮影(SPET)画像に関連する放射線障害が懸念されている。 そのため,LPET画像からのSPET画像の再構成には大きな関心がある。 しかし、先行研究は画像データのみに焦点をあて、他のモダリティ、例えば患者の臨床表表から重要な補完情報を無視し、限られた診断ユーティリティで再構成を損なう結果となった。 さらに、実際のSPETと再構成された画像のセマンティック一貫性を見落とし、歪んだセマンティックコンテキストを生み出す。 これらの問題に対処するため,本研究では,LCP画像や臨床表表などの多モード入力からSPET画像を再構成する,MCAD(Multi-modal Conditioned Adversarial Diffusion Model)を提案する。 具体的には、マルチモーダルな条件付きエンコーダ(Mc-Encoder)を用いてマルチモーダルな特徴を抽出し、次いで条件付き拡散処理を行い、ノイズとマルチモーダルな特徴をブレンドし、徐々に混合した特徴を対象のSPET画像にマッピングする。 マルチモーダル入力のバランスをとるため、Mc-EncoderはOMTA(Optimal Multi-modal Transport co-Attention)を組み込み、画像と表の間の不均一性ギャップを狭めながら相互作用を捉え、再構築のための十分なガイダンスを提供する。 さらに, 意味の歪みを軽減するために, 識別されたPET画像から抽出した意味的知識を活用して, マスク付き臨床表象を復元し, 再建中の正確な意味の維持をネットワークに促すマルチモーダルマスケッドテキスト再構成(M3TRec)を導入する。 さらに,拡散過程を高速化するために,拡散ステップの少ない対向拡散ネットワークを導入する。 実験により,本手法は定性的かつ定量的に,最先端の性能を達成することが示された。

Radiation hazards associated with standard-dose positron emission tomography (SPET) images remain a concern, whereas the quality of low-dose PET (LPET) images fails to meet clinical requirements. Therefore, there is great interest in reconstructing SPET images from LPET images. However, prior studies focus solely on image data, neglecting vital complementary information from other modalities, e.g., patients' clinical tabular, resulting in compromised reconstruction with limited diagnostic utility. Moreover, they often overlook the semantic consistency between real SPET and reconstructed images, leading to distorted semantic contexts. To tackle these problems, we propose a novel Multi-modal Conditioned Adversarial Diffusion model (MCAD) to reconstruct SPET images from multi-modal inputs, including LPET images and clinical tabular. Specifically, our MCAD incorporates a Multi-modal conditional Encoder (Mc-Encoder) to extract multi-modal features, followed by a conditional diffusion process to blend noise with multi-modal features and gradually map blended features to the target SPET images. To balance multi-modal inputs, the Mc-Encoder embeds Optimal Multi-modal Transport co-Attention (OMTA) to narrow the heterogeneity gap between image and tabular while capturing their interactions, providing sufficient guidance for reconstruction. In addition, to mitigate semantic distortions, we introduce the Multi-Modal Masked Text Reconstruction (M3TRec), which leverages semantic knowledge extracted from denoised PET images to restore the masked clinical tabular, thereby compelling the network to maintain accurate semantics during reconstruction. To expedite the diffusion process, we further introduce an adversarial diffusive network with a reduced number of diffusion steps. Experiments show that our method achieves the state-of-the-art performance both qualitatively and quantitatively.
翻訳日:2024-06-21 23:38:44 公開日:2024-06-19
# ベイジアン回路回帰のための疑似準数式

von Mises Quasi-Processes for Bayesian Circular Regression ( http://arxiv.org/abs/2406.13151v1 )

ライセンス: Link先を確認
Yarden Cohen, Alexandre Khae Wu Navarro, Jes Frellsen, Richard E. Turner, Raziel Riemer, Ari Pakman, (参考訳) 円の値を予測する回帰モデルの必要性は多くの科学分野に現れている。 本研究では、単位円上で条件付けられた2つのユークリッド次元を対象とするガウス過程に関連する円値ランダム関数上の表現的および解釈可能な分布の族を探索する。 結果の確率モデルは、統計物理学における連続スピンモデルと関係を持つ。 さらに、その密度は非常に単純で最大エントロピーを持ち、ラッピングやラジアル境界化を使ったガウスのプロセスベースのアプローチとは違っている。 後続推論のために、高速マルコフ連鎖モンテカルロサンプリングに寄与するストラトノビッチのような拡張を導入する。 これらのモデルにおける帰納的学習は、パラメータに対するベイズ的アプローチを好む。 本モデルを用いた予測実験について述べる。 (一)風向及び風向 (ii)関節角度の関数としての走行歩行周期の比率。

The need for regression models to predict circular values arises in many scientific fields. In this work we explore a family of expressive and interpretable distributions over circle-valued random functions related to Gaussian processes targeting two Euclidean dimensions conditioned on the unit circle. The resulting probability model has connections with continuous spin models in statistical physics. Moreover, its density is very simple and has maximum-entropy, unlike previous Gaussian process-based approaches, which use wrapping or radial marginalization. For posterior inference, we introduce a new Stratonovich-like augmentation that lends itself to fast Markov Chain Monte Carlo sampling. We argue that transductive learning in these models favors a Bayesian approach to the parameters. We present experiments applying this model to the prediction of (i) wind directions and (ii) the percentage of the running gait cycle as a function of joint angles.
翻訳日:2024-06-21 23:38:44 公開日:2024-06-19
# 保健 LLM 研究における多様性の分析 : サイエントメトリック・パースペクティブ

Analyzing Diversity in Healthcare LLM Research: A Scientometric Perspective ( http://arxiv.org/abs/2406.13152v1 )

ライセンス: Link先を確認
David Restrepo, Chenwei Wu, Constanza Vásquez-Venegas, João Matos, Jack Gallifant, Luis Filipe, (参考訳) 医療における大規模言語モデル (LLMs) の展開は, 臨床意思決定, 管理効率, 患者の予後を向上する大きな可能性を示唆している。 しかしながら、これらのモデルの開発と適用における多様なグループの過小評価はバイアスを持続させ、不平等な医療提供につながる可能性がある。 本稿では、2021年1月1日から2024年6月16日までのデータを含む、医療のためのLLM研究の総合的な科学的分析について述べる。 著者、国、資金源を含むPubMedおよびDimensionsのメタデータを分析することにより、LCM研究への貢献者の多様性を評価する。 高所得国(HICs)の男性作家や貢献者を中心に,男女差や地理的格差が顕著であった。 我々は,学術出版物の包括性を測定するために,ジニ不純物に基づく新しい雑誌多様性指標を導入する。 医療におけるLLMの適正な適用を確保するためには,より大きな表現の必要性を強調した。 我々は、人工知能研究における多様性と傾きを高めるための実行可能な戦略を提案し、医療革新においてより包括的で公平な未来を育むという究極の目標を掲げる。

The deployment of large language models (LLMs) in healthcare has demonstrated substantial potential for enhancing clinical decision-making, administrative efficiency, and patient outcomes. However, the underrepresentation of diverse groups in the development and application of these models can perpetuate biases, leading to inequitable healthcare delivery. This paper presents a comprehensive scientometric analysis of LLM research for healthcare, including data from January 1, 2021, to June 16, 2024. By analyzing metadata from PubMed and Dimensions, including author affiliations, countries, and funding sources, we assess the diversity of contributors to LLM research. Our findings highlight significant gender and geographic disparities, with a predominance of male authors and contributions primarily from high-income countries (HICs). We introduce a novel journal diversity index based on Gini impurity to measure the inclusiveness of scientific publications. Our results underscore the necessity for greater representation in order to ensure the equitable application of LLMs in healthcare. We propose actionable strategies to enhance diversity and inclusivity in artificial intelligence research, with the ultimate goal of fostering a more inclusive and equitable future in healthcare innovation.
翻訳日:2024-06-21 23:38:44 公開日:2024-06-19
# SwinStyleformerは画像インバージョンに好適な選択

SwinStyleformer is a favorable choice for image inversion ( http://arxiv.org/abs/2406.13153v1 )

ライセンス: Link先を確認
Jiawei Mao, Guangyi Zhao, Xuesong Yin, Yuanqi Chang, (参考訳) 本稿では,CNNの長大な依存関係を処理し,オブジェクトのグローバルな構造を学習することにより,CNNの欠点を補うことのできる,SwinStyleformerと呼ばれる最初の純粋なトランスフォーマー構造インバージョンネットワークを提案する。 実験の結果、トランスフォーマーのバックボーンによるインバージョンネットワークは、画像の反転に成功しなかった。 以上の現象はCNNとTransformerの違い、例えば、畳み込みと比較して画像の詳細を無視する自己注意重み、Transformerのマルチスケール特性の欠如、およびTransformerとStyleGANスタイルベクトルによって抽出された潜時符号の分布差などである。 これらの違いに対処するために、我々は、SwinStyleformerのバックボーンとして、ウィンドウサイズが小さいSwin Transformerを使用し、インバージョン画像の局所的な詳細性を高める。 一方,学習可能なクエリに基づいてTransformerブロックを設計する。 自己アテンション変換ブロックと比較すると、学習可能なクエリに基づくTransformerブロックにより、より適応性と柔軟性が向上し、特定のタスクに応じて注意重みを更新できる。 したがって、反転焦点は画像構造に限らない。 マルチスケールな特徴を更に導入するために,特徴マップの抽出において,マルチスケールな接続を設計する。 マルチスケール接続により、グローバルなモデリングによる詳細の喪失を避けるために、モデルが画像の包括的な理解を得ることができる。 さらに,分布差を最小限に抑えるために,逆判別器と分布アライメント損失を提案する。 以上の設計に基づいて,我々のSwinStyleformerは,Transformerの反転故障問題の解決に成功し,画像インバージョンにおけるSOTA性能といくつかの関連視覚タスクを実証する。

This paper proposes the first pure Transformer structure inversion network called SwinStyleformer, which can compensate for the shortcomings of the CNNs inversion framework by handling long-range dependencies and learning the global structure of objects. Experiments found that the inversion network with the Transformer backbone could not successfully invert the image. The above phenomena arise from the differences between CNNs and Transformers, such as the self-attention weights favoring image structure ignoring image details compared to convolution, the lack of multi-scale properties of Transformer, and the distribution differences between the latent code extracted by the Transformer and the StyleGAN style vector. To address these differences, we employ the Swin Transformer with a smaller window size as the backbone of the SwinStyleformer to enhance the local detail of the inversion image. Meanwhile, we design a Transformer block based on learnable queries. Compared to the self-attention transformer block, the Transformer block based on learnable queries provides greater adaptability and flexibility, enabling the model to update the attention weights according to specific tasks. Thus, the inversion focus is not limited to the image structure. To further introduce multi-scale properties, we design multi-scale connections in the extraction of feature maps. Multi-scale connections allow the model to gain a comprehensive understanding of the image to avoid loss of detail due to global modeling. Moreover, we propose an inversion discriminator and distribution alignment loss to minimize the distribution differences. Based on the above designs, our SwinStyleformer successfully solves the Transformer's inversion failure issue and demonstrates SOTA performance in image inversion and several related vision tasks.
翻訳日:2024-06-21 23:38:44 公開日:2024-06-19
# 力学における逆問題解決のための条件付きスコアベース拡散モデル

Conditional score-based diffusion models for solving inverse problems in mechanics ( http://arxiv.org/abs/2406.13154v1 )

ライセンス: Link先を確認
Agnimitra Dasgupta, Harisankar Ramaswamy, Javier Murgoitio Esandi, Ken Foo, Runze Li, Qifa Zhou, Brendan Kennedy, Assad Oberai, (参考訳) 本研究では, 条件付きスコアベース拡散モデルを用いてベイズ推定を行い, 荷重に対する機械的応答のノイズ測定から, 試料の空間的に変化する材料特性を推定する機構の逆問題クラスを解く枠組みを提案する。 条件付きスコアベース拡散モデル(英: Conditional score-based diffusion model)は、条件付き分布のスコア関数を、共同分布からのサンプルを用いて近似する生成モデルである。 より具体的には、測定の多重実現に対応するスコア関数を、単一のニューラルネットワーク、いわゆるスコアネットワークを用いて近似し、その後、ランゲヴィン力学に基づく適切なマルコフ連鎖モンテカルロスキームを用いて後部分布をサンプリングする。 スコアネットワークをトレーニングするには、フォワードモデルをシミュレートする必要がある。 したがって、提案手法はブラックボックスフォワードモデルと複雑な測定ノイズに対応できる。 さらに、一度スコアネットワークをトレーニングすれば、測定の異なる実現のための逆問題の解決に再利用することができる。 ノイズ測定から異種材料特性を推定する力学における高次元逆問題に対して,提案手法の有効性を実証する。 合成データを含むと考える例や、実際のエラストグラフィー実験から収集したデータを含む例がある。 さらに, 提案手法は, 異なる測定モダリティ, 推定量の複雑なパターン, 非ガウス雑音モデル, 非ガウス雑音モデル, 非線形ブラックボックスフォワードモデルに対応できることを示す。 その結果,提案フレームワークは大規模物理学に基づく逆問題の解法を効率的に行うことができることがわかった。

We propose a framework to perform Bayesian inference using conditional score-based diffusion models to solve a class of inverse problems in mechanics involving the inference of a specimen's spatially varying material properties from noisy measurements of its mechanical response to loading. Conditional score-based diffusion models are generative models that learn to approximate the score function of a conditional distribution using samples from the joint distribution. More specifically, the score functions corresponding to multiple realizations of the measurement are approximated using a single neural network, the so-called score network, which is subsequently used to sample the posterior distribution using an appropriate Markov chain Monte Carlo scheme based on Langevin dynamics. Training the score network only requires simulating the forward model. Hence, the proposed approach can accommodate black-box forward models and complex measurement noise. Moreover, once the score network has been trained, it can be re-used to solve the inverse problem for different realizations of the measurements. We demonstrate the efficacy of the proposed approach on a suite of high-dimensional inverse problems in mechanics that involve inferring heterogeneous material properties from noisy measurements. Some examples we consider involve synthetic data, while others include data collected from actual elastography experiments. Further, our applications demonstrate that the proposed approach can handle different measurement modalities, complex patterns in the inferred quantities, non-Gaussian and non-additive noise models, and nonlinear black-box forward models. The results show that the proposed framework can solve large-scale physics-based inverse problems efficiently.
翻訳日:2024-06-21 23:38:44 公開日:2024-06-19
# Convolutional Kolmogorov-Arnold Networks

Convolutional Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2406.13155v1 )

ライセンス: Link先を確認
Alexander Dylan Bodner, Antonio Santiago Tepsich, Jack Natan Spolski, Santiago Pourteau, (参考訳) 本稿では、コンピュータビジョンの分野に革命をもたらした標準畳み込みニューラルネットワーク(CNN)の革新的な代替品である、畳み込みコルモゴロフ・アルノルドネットワーク(畳み込みカン)を紹介する。 我々は、KAN(Kolmogorov-Arnold Networks)で提示される非線形活性化関数を畳み込みに統合し、新しい層を構築する。 本論文を通じて,MNIST と Fashion-MNIST ベンチマークを用いた従来のアーキテクチャに対する Convolutional Kans の性能評価を行った。 このパラメータの大幅な削減は、ニューラルネットワークアーキテクチャの最適化を進めるための新しいアプローチを開く。

In this paper, we introduce the Convolutional Kolmogorov-Arnold Networks (Convolutional KANs), an innovative alternative to the standard Convolutional Neural Networks (CNNs) that have revolutionized the field of computer vision. We integrate the non-linear activation functions presented in Kolmogorov-Arnold Networks (KANs) into convolutions to build a new layer. Throughout the paper, we empirically validate the performance of Convolutional KANs against traditional architectures across MNIST and Fashion-MNIST benchmarks, illustrating that this new approach maintains a similar level of accuracy while using half the amount of parameters. This significant reduction of parameters opens up a new approach to advance the optimization of neural network architectures.
翻訳日:2024-06-21 23:38:44 公開日:2024-06-19
# 2次元ストリートサイド画像からのユーティリティポール火災リスク検査

Utility Pole Fire Risk Inspection from 2D Street-Side Images ( http://arxiv.org/abs/2406.13158v1 )

ライセンス: Link先を確認
Rajanie Prabha, Kopal Nihar, (参考訳) 近年、カリフォルニア州の電力網は、老朽化したインフラと、山火事の影響を受けやすい風景から生じる問題に直面している。 本稿では,電力網内の山火事リスクに対処するためのコンピュータビジョン技術を活用した総合的枠組みについて述べる。 これらの極は、極端な天候のときの発火や構造上の故障の影響を受けやすい。 提案したパイプラインは、利用可能なGoogleストリートビューの画像を利用して、ユーティリティポールを特定し、周囲の植生に近接し、傾斜角を判定する。 ユーティリティポールに関連する潜在的なリスクを早期に検出することは、森林火災の発火を抑え、脆弱なポールや電力線を地下に設置するといった戦略的投資を行う上で重要である。 さらに, この研究は, グリッドレジリエンスの強化におけるデータ駆動型意思決定の重要性, 特に公共安全パワーシャットオフについて, その重要性を浮き彫りにしている。 このパイプラインは、公共事業、政策立案者、研究者の協力を促進することで、電力網のレジリエンスを強化し、山火事のエスカレートする脅威に対してコミュニティを保護することを目的としている。

In recent years, California's electrical grid has confronted mounting challenges stemming from aging infrastructure and a landscape increasingly susceptible to wildfires. This paper presents a comprehensive framework utilizing computer vision techniques to address wildfire risk within the state's electrical grid, with a particular focus on vulnerable utility poles. These poles are susceptible to fire outbreaks or structural failure during extreme weather events. The proposed pipeline harnesses readily available Google Street View imagery to identify utility poles and assess their proximity to surrounding vegetation, as well as to determine any inclination angles. The early detection of potential risks associated with utility poles is pivotal for forestalling wildfire ignitions and informing strategic investments, such as undergrounding vulnerable poles and powerlines. Moreover, this study underscores the significance of data-driven decision-making in bolstering grid resilience, particularly concerning Public Safety Power Shutoffs. By fostering collaboration among utilities, policymakers, and researchers, this pipeline aims to solidify the electric grid's resilience and safeguard communities against the escalating threat of wildfires.
翻訳日:2024-06-21 23:28:56 公開日:2024-06-19
# APPL: プログラムと大規模言語モデルの調和した統合のためのプロンプトプログラミング言語

APPL: A Prompt Programming Language for Harmonious Integration of Programs and Large Language Model Prompts ( http://arxiv.org/abs/2406.13161v1 )

ライセンス: Link先を確認
Honghua Dong, Qidong Su, Yubo Gao, Zhaoyu Li, Yangjun Ruan, Gennady Pekhimenko, Chris J. Maddison, Xujie Si, (参考訳) 大きな言語モデル(LLM)は、よく構築されたプロンプトと外部ツールの統合によって、多様なタスクを扱う能力がますます高まっているが、タスクの複雑さが増大するにつれて、LLMを含むワークフローは複雑になり、実装とメンテナンスが困難になる。 この課題に対処するために,コンピュータプログラムとLLM間のブリッジとして機能し,Python関数にプロンプトをシームレスに埋め込むことができるAPPL,A Prompt Programming Languageを提案する。 APPLは直感的でPythonネイティブな構文、非同期セマンティクスを備えた効率的な並列ランタイム、効果的な障害診断と再生を余分なコストなしでサポートするトレースモジュールを提供する。 我々は,APPLプログラムが直感的かつ簡潔かつ効率的であることを示すために,自己整合性(CoT-SC),ReActツール使用エージェント,マルチエージェントチャットの3つの代表的なシナリオを紹介した。 3つの並列化可能なワークフローの実験は、APPLが独立LLM呼び出しを効果的に並列化できることを示す。

Large Language Models (LLMs) have become increasingly capable of handling diverse tasks with the aid of well-crafted prompts and integration of external tools, but as task complexity rises, the workflow involving LLMs can be complicated and thus challenging to implement and maintain. To address this challenge, we propose APPL, A Prompt Programming Language that acts as a bridge between computer programs and LLMs, allowing seamless embedding of prompts into Python functions, and vice versa. APPL provides an intuitive and Python-native syntax, an efficient parallelized runtime with asynchronous semantics, and a tracing module supporting effective failure diagnosis and replaying without extra costs. We demonstrate that APPL programs are intuitive, concise, and efficient through three representative scenarios: Chain-of-Thought with self-consistency (CoT-SC), ReAct tool use agent, and multi-agent chat. Experiments on three parallelizable workflows further show that APPL can effectively parallelize independent LLM calls, with a significant speedup ratio that almost matches the estimation.
翻訳日:2024-06-21 23:28:56 公開日:2024-06-19
# Antibody Flow: 抗体相補性決定領域の設計のための正規化フローモデル

AntibodyFlow: Normalizing Flow Model for Designing Antibody Complementarity-Determining Regions ( http://arxiv.org/abs/2406.13162v1 )

ライセンス: Link先を確認
Bohao Xu, Yanbo Wang, Wenyu Chen, Shimin Shan, (参考訳) 過去数十年間、薬物の発見と開発において、治療抗体は広範囲に研究されてきた。 抗体は、抗原にロック・トゥ・キーで結合する特殊な保護タンパク質である。 抗体と特定の抗原との結合強度/親和性は、抗体上の相補性決定領域(CDR)によって決定される。 既存の機械学習手法は、CDRをシークエンスまたは3Dグラフ生成タスクとして(チェーン1つで)開発し、最初の成功をおさめた。 しかし、特定の幾何学形状を持つCDRループでは、CDRの3次元幾何学構造を学ぶことは依然として困難である。 そこで本研究では,抗体CDRループを設計するための3次元フローモデルであるAntibodyFlowを提案する。 具体的には、AntibodyFlowはまず距離行列を構築し、それから距離行列に条件付けられたアミノ酸を予測する。 また、AntibodyFlowは、有効な3D構造を保証するために制約学習と制約付き生成を行う。 実験結果から、AntibodyFlowは最大16.0%の妥当性向上と24.3%の幾何グラフレベルの誤差(ルート平均平方偏差、RMSD)で最高のベースラインを一貫して上回っていることが示唆された。

Therapeutic antibodies have been extensively studied in drug discovery and development in the past decades. Antibodies are specialized protective proteins that bind to antigens in a lock-to-key manner. The binding strength/affinity between an antibody and a specific antigen is heavily determined by the complementarity-determining regions (CDRs) on the antibodies. Existing machine learning methods cast in silico development of CDRs as either sequence or 3D graph (with a single chain) generation tasks and have achieved initial success. However, with CDR loops having specific geometry shapes, learning the 3D geometric structures of CDRs remains a challenge. To address this issue, we propose AntibodyFlow, a 3D flow model to design antibody CDR loops. Specifically, AntibodyFlow first constructs the distance matrix, then predicts amino acids conditioned on the distance matrix. Also, AntibodyFlow conducts constraint learning and constrained generation to ensure valid 3D structures. Experimental results indicate that AntibodyFlow outperforms the best baseline consistently with up to 16.0% relative improvement in validity rate and 24.3% relative reduction in geometric graph level error (root mean square deviation, RMSD).
翻訳日:2024-06-21 23:28:56 公開日:2024-06-19
# LLMatDesign: 大規模言語モデルによる自律的な材料発見

LLMatDesign: Autonomous Materials Discovery with Large Language Models ( http://arxiv.org/abs/2406.13163v1 )

ライセンス: Link先を確認
Shuyi Jia, Chao Zhang, Victor Fung, (参考訳) 新たな物質を発見することは、科学的、技術的に重要な意味を持つが、化学空間の永続性のために今日でも難しい問題となっている。 機械学習の最近の進歩により、データ駆動の手法で有望な材料を素早くスクリーニングしたり生成したりすることが可能になったが、これらの手法は依然として非常に大量のトレーニングデータに依存しており、材料発見においてしばしば望まれる柔軟性や化学的理解に欠けることが多い。 本稿では,LLMatDesignを紹介した。LLMatDesignは,大規模言語モデル(LLM)を用いた材料設計を解釈可能な新しい言語ベースのフレームワークである。 LLMatDesignは、LLMエージェントを使用して人間の指示を翻訳し、材料に修正を加え、提供されたツールを使用して結果を評価する。 LLMatDesignは、以前の決定に自己回帰を組み込むことで、ゼロショット方式で新しいタスクや条件に迅速に適応する。 LLMatDesignのいくつかの材料設計タスクにおける体系的評価は、小さなデータ構造においてユーザ定義のターゲット特性を持つ新しい材料を開発する上でのLLMatDesignの有効性を検証する。 本フレームワークは, 将来, 計算環境におけるLCM誘導材料発見の目覚ましい可能性を示すものである。

Discovering new materials can have significant scientific and technological implications but remains a challenging problem today due to the enormity of the chemical space. Recent advances in machine learning have enabled data-driven methods to rapidly screen or generate promising materials, but these methods still depend heavily on very large quantities of training data and often lack the flexibility and chemical understanding often desired in materials discovery. We introduce LLMatDesign, a novel language-based framework for interpretable materials design powered by large language models (LLMs). LLMatDesign utilizes LLM agents to translate human instructions, apply modifications to materials, and evaluate outcomes using provided tools. By incorporating self-reflection on its previous decisions, LLMatDesign adapts rapidly to new tasks and conditions in a zero-shot manner. A systematic evaluation of LLMatDesign on several materials design tasks, in silico, validates LLMatDesign's effectiveness in developing new materials with user-defined target properties in the small data regime. Our framework demonstrates the remarkable potential of autonomous LLM-guided materials discovery in the computational setting and towards self-driving laboratories in the future.
翻訳日:2024-06-21 23:28:56 公開日:2024-06-19
# 心臓コパイロット : 世界モデルを用いた心エコー検査のための自動プローブガイド

Cardiac Copilot: Automatic Probe Guidance for Echocardiography with World Model ( http://arxiv.org/abs/2406.13165v1 )

ライセンス: Link先を確認
Haojun Jiang, Zhenguo Sun, Ning Jia, Meng Li, Yu Sun, Shaqi Luo, Shiji Song, Gao Huang, (参考訳) 心エコー法は、心臓をリアルタイムに画像化できる唯一の技術であり、心臓疾患の大部分を診断するのに不可欠である。 しかし、心臓の複雑な構造と重要な手術上の課題のため、経験豊富なソノグラフィーが不足している。 この状況を緩和するため,フリーハンド心エコー図作成において,経験の浅いソノグラフィーを支援するために,リアルタイムなプローブ移動誘導を行うことができるCardiac Copilotシステムを提案する。 このシステムは、特に初等部や医療従事地において、非専門家が心臓超音波検査を行えるようにし、世界的な医療提供を改善する可能性がある。 中心となるイノベーションは、心臓の空間構造を表現するためのデータ駆動の世界モデル、Cardiac Dreamerの提案である。 この世界モデルは、潜在空間における現在のプローブ位置の周囲の心臓面の構造的特徴を提供し、自律的な平面位置決めのための正確なナビゲーションマップとして機能する。 実世界の超音波データとそれに対応するプローブの動きを,3人のソノグラフィーによる151Kサンプル対を用いた110の定期的な臨床スキャンからトレーニングする。 37Kのサンプルペアを持つ3つの標準平面の評価は、世界モデルが航法誤差を最大33\%低減し、より安定した性能を示すことを示す。

Echocardiography is the only technique capable of real-time imaging of the heart and is vital for diagnosing the majority of cardiac diseases. However, there is a severe shortage of experienced cardiac sonographers, due to the heart's complex structure and significant operational challenges. To mitigate this situation, we present a Cardiac Copilot system capable of providing real-time probe movement guidance to assist less experienced sonographers in conducting freehand echocardiography. This system can enable non-experts, especially in primary departments and medically underserved areas, to perform cardiac ultrasound examinations, potentially improving global healthcare delivery. The core innovation lies in proposing a data-driven world model, named Cardiac Dreamer, for representing cardiac spatial structures. This world model can provide structure features of any cardiac planes around the current probe position in the latent space, serving as an precise navigation map for autonomous plane localization. We train our model with real-world ultrasound data and corresponding probe motion from 110 routine clinical scans with 151K sample pairs by three certified sonographers. Evaluations on three standard planes with 37K sample pairs demonstrate that the world model can reduce navigation errors by up to 33\% and exhibit more stable performance.
翻訳日:2024-06-21 23:28:56 公開日:2024-06-19
# 自動機械学習によるサプライチェーンセキュリティの強化

Enhancing supply chain security with automated machine learning ( http://arxiv.org/abs/2406.13166v1 )

ライセンス: Link先を確認
Haibo Wang, Lutfu S. Sua, Bahram Alidaee, (参考訳) この研究は、港の混雑、材料不足、インフレーションによって引き起こされる混乱にますます弱いグローバルサプライチェーンの複雑さに取り組む。 これらの課題に対処するために、大規模なデータセットに基づいたソリューションの予測と最適化に長けた機械学習手法の適用について検討する。 我々の焦点は、不正検出、メンテナンス予測、および材料予約予測を通じてサプライチェーンのセキュリティを強化することである。 データ分析、モデル構築、これらのタスクのハイパーパラメータ最適化を効率化する自動機械学習フレームワークを導入する。 これらのプロセスを自動化することで,サプライチェーンセキュリティ対策の効率性と有効性を向上させることができる。 本研究は,サンプリング手法,カテゴリエンコーディング,特徴選択,ハイパーパラメータ最適化など,機械学習のパフォーマンスに影響を与える重要な要因を明らかにする。 本稿では,機械学習をチェーンの課題に応用する上で,これらの要因を考慮することの重要性を示す。 伝統的な数学的プログラミングモデルは、しばしば大規模なサプライチェーン問題の複雑さに対処するのに苦労する。 我々の研究は、機械学習手法が、特に広範囲なデータセットや複雑なパターンを扱う際に、有効な代替手段となることを示している。 この研究で紹介された自動機械学習フレームワークは、サプライチェーンセキュリティに対する新しいアプローチを提供し、この分野における既存の知識体系に寄与する。 機械学習プロセスの包括的な自動化は、サプライチェーン管理の領域に価値ある貢献をもたらす。

This study tackles the complexities of global supply chains, which are increasingly vulnerable to disruptions caused by port congestion, material shortages, and inflation. To address these challenges, we explore the application of machine learning methods, which excel in predicting and optimizing solutions based on large datasets. Our focus is on enhancing supply chain security through fraud detection, maintenance prediction, and material backorder forecasting. We introduce an automated machine learning framework that streamlines data analysis, model construction, and hyperparameter optimization for these tasks. By automating these processes, our framework improves the efficiency and effectiveness of supply chain security measures. Our research identifies key factors that influence machine learning performance, including sampling methods, categorical encoding, feature selection, and hyperparameter optimization. We demonstrate the importance of considering these factors when applying machine learning to supply chain challenges. Traditional mathematical programming models often struggle to cope with the complexity of large-scale supply chain problems. Our study shows that machine learning methods can provide a viable alternative, particularly when dealing with extensive datasets and complex patterns. The automated machine learning framework presented in this study offers a novel approach to supply chain security, contributing to the existing body of knowledge in the field. Its comprehensive automation of machine learning processes makes it a valuable contribution to the domain of supply chain management.
翻訳日:2024-06-21 23:28:56 公開日:2024-06-19
# QRMeM: 質問とリフレクション記憶機構による長さ制限の解き方

QRMeM: Unleash the Length Limitation through Question then Reflection Memory Mechanism ( http://arxiv.org/abs/2406.13167v1 )

ライセンス: Link先を確認
Bo Wang, Heyan Huang, Yixin Cao, Jiahao Ying, Wei Tang, Chong Feng, (参考訳) 大きな言語モデル(LLM)は自然言語処理において顕著な進歩を遂げてきたが、広範なテキスト処理に苦戦し続けている。 メモリメカニズムは、圧縮、要約、構造化といった技術を活用して、大量のテキストのニュアンスで効率的な処理を容易にする、長いコンテキストを管理する柔軟なソリューションを提供する。 しかし、既存の技術は静的知識統合による課題に直面しており、タスク固有のニーズへの適応が不十分であり、またマルチセグメント関係が欠如しているため、応答過程において関連するセグメントの動的再編成と論理的組み合わせを妨げている。 これらの問題に対処するために、二層構造メモリプールを組み込んだ新しい戦略、QRMeMを導入する。 このプールは、構造化されたグラフガイダンスで静的テキストコンテンツを相乗化し、関連するセグメントをナビゲートし識別するための反射的試行錯誤アプローチを促進する。 マルチチョイス質問 (MCQ) とマルチドキュメント質問応答 (Multi-doc QA) のベンチマークによる評価では,既存手法と比較してQRMeMの性能が向上している。

While large language models (LLMs) have made notable advancements in natural language processing, they continue to struggle with processing extensive text. Memory mechanism offers a flexible solution for managing long contexts, utilizing techniques such as compression, summarization, and structuring to facilitate nuanced and efficient handling of large volumes of text. However, existing techniques face challenges with static knowledge integration, leading to insufficient adaptation to task-specific needs and missing multi-segmentation relationships, which hinders the dynamic reorganization and logical combination of relevant segments during the response process. To address these issues, we introduce a novel strategy, Question then Reflection Memory Mechanism (QRMeM), incorporating a dual-structured memory pool. This pool synergizes static textual content with structured graph guidance, fostering a reflective trial-and-error approach for navigating and identifying relevant segments. Our evaluation across multiple-choice questions (MCQ) and multi-document question answering (Multi-doc QA) benchmarks showcases QRMeM enhanced performance compared to existing approaches.
翻訳日:2024-06-21 23:28:56 公開日:2024-06-19
# Amphista: 双方向多重ドラフトヘッドを用いた非自己回帰型LCM推論

Amphista: Accelerate LLM Inference with Bi-directional Multiple Drafting Heads in a Non-autoregressive Style ( http://arxiv.org/abs/2406.13170v1 )

ライセンス: Link先を確認
Zeping Li, Xinlong Yang, Ziheng Gao, Ji Liu, Zhuang Liu, Dong Li, Jinzhang Peng, Lu Tian, Emad Barsoum, (参考訳) 大規模言語モデル(LLM)は本質的に自己回帰デコーディングを使用し、推論の並列性に欠け、特にハードウェア並列アクセラレータとメモリ帯域が完全に利用されていない場合、推論速度が著しく遅い。 本研究では,非自己回帰的復号法に従う投機的復号法であるアムフィスタを提案する。 並列性の増加に伴い,本手法は自己回帰法よりも推論効率が高いことを示した。 具体的には、Amphistaは並列推論が可能なAuto-embedding Blockをモデル化し、双方向の注意を取り入れて、異なるドラフトヘッド間のインタラクションを可能にする。 さらに、Amphistaは、ベースモデルの自己回帰的推論からドラフトヘッドの非自己回帰的推測への意味情報の移行を容易にするために、段階的適応層を実装している。 MT-Bench と Spec-Bench を用いて,Vicuna モデルの一連の実験を行う。 Vicuna 33B モデルでは、Amphista はバニラ自己回帰復号法と Medusa と比較して最大2.75$\times$ と 1.40$\times$ のウォールクロックアクセラレーションを達成する。

Large Language Models (LLMs) inherently use autoregressive decoding, which lacks parallelism in inference and results in significantly slow inference speeds, especially when hardware parallel accelerators and memory bandwidth are not fully utilized. In this work, we propose Amphista, a speculative decoding algorithm that adheres to a non-autoregressive decoding paradigm. Owing to the increased parallelism, our method demonstrates higher efficiency in inference compared to autoregressive methods. Specifically, Amphista models an Auto-embedding Block capable of parallel inference, incorporating bi-directional attention to enable interaction between different drafting heads. Additionally, Amphista implements Staged Adaptation Layers to facilitate the transition of semantic information from the base model's autoregressive inference to the drafting heads' non-autoregressive speculation, thereby achieving paradigm transformation and feature fusion. We conduct a series of experiments on a suite of Vicuna models using MT-Bench and Spec-Bench. For the Vicuna 33B model, Amphista achieves up to 2.75$\times$ and 1.40$\times$ wall-clock acceleration compared to vanilla autoregressive decoding and Medusa, respectively, while preserving lossless generation quality.
翻訳日:2024-06-21 23:28:56 公開日:2024-06-19
# 臨床適応を考慮した生体医用ビジュアルインストラクションチューニング

Biomedical Visual Instruction Tuning with Clinician Preference Alignment ( http://arxiv.org/abs/2406.13173v1 )

ライセンス: Link先を確認
Hejie Cui, Lingjun Mao, Xin Liang, Jieyu Zhang, Hui Ren, Quanzheng Li, Xiang Li, Carl Yang, (参考訳) マルチモーダル基礎モデルの最近の進歩は、視覚情報やテキスト情報による理解と推論において、印象的な能力を示した。 これらの基礎モデルをバイオメディシンのような特殊なドメインに適用するには、大規模なドメイン固有の命令データセットが必要である。 既存の作業では、そのようなデータセットを自動的にキュレーションする方法が検討されているが、結果のデータセットは、ドメインの専門知識と明確に一致していない。 本研究では,臨床医の嗜好をバイオメディカル・マルチモーダル基礎モデルのチューニングのための指導データの生成と選択の両段階に組み込むデータ中心型ビオメディカル・ビジュアル・インストラクション・チューニング(BioMed-VITAL)を提案する。 まず,GPT-4Vジェネレータに,好みに整合したデータ候補生成のための多種多様なクリニック選択による実演を誘導する。 そして、選択期間中に、臨床医と政策指導を受けたモデルの選別を評価関数に明示的に蒸留して、医用指導のための高品質なデータを選択する別個の選別モデルを訓練する。 その結果,提案手法から得られた指示追従データに調整したモデルでは,オープン・ビジュアル・チャット(18.5%)と医療用VQA(81.73%)の大幅な改善が見られた。 BioMed-VITAL.github.ioでは、インストラクション追跡データとモデルが利用可能です。

Recent advancements in multimodal foundation models have showcased impressive capabilities in understanding and reasoning with visual and textual information. Adapting these foundation models trained for general usage to specialized domains like biomedicine requires large-scale domain-specific instruction datasets. While existing works have explored curating such datasets automatically, the resultant datasets are not explicitly aligned with domain expertise. In this work, we propose a data-centric framework, Biomedical Visual Instruction Tuning with Clinician Preference Alignment (BioMed-VITAL), that incorporates clinician preferences into both stages of generating and selecting instruction data for tuning biomedical multimodal foundation models. First, during the generation stage, we prompt the GPT-4V generator with a diverse set of clinician-selected demonstrations for preference-aligned data candidate generation. Then, during the selection phase, we train a separate selection model, which explicitly distills clinician and policy-guided model preferences into a rating function to select high-quality data for medical instruction tuning. Results show that the model tuned with the instruction-following data from our method demonstrates a significant improvement in open visual chat (18.5% relatively) and medical VQA (win rate up to 81.73%). Our instruction-following data and models are available at BioMed-VITAL.github.io.
翻訳日:2024-06-21 23:28:56 公開日:2024-06-19
# Sparse High Rank Adapters

Sparse High Rank Adapters ( http://arxiv.org/abs/2406.13175v1 )

ライセンス: Link先を確認
Kartikeya Bhardwaj, Nilesh Prasad Pandey, Sweta Priyadarshi, Viswanath Ganapathy, Rafael Esteves, Shreya Kadambi, Shubhankar Borse, Paul Whatmough, Risheek Garrepalli, Mart Van Baalen, Harris Teague, Markus Nagel, (参考訳) ローランク適応(LoRA)は、最近の生成AI研究で大きな注目を集めている。 LoRAの主な利点の1つは、推論中にオーバーヘッドを伴わない事前訓練されたモデルと融合できることである。 しかし、モバイルデプロイメントの観点からは、フューズモードでの推論オーバーヘッドを回避できるが、アダプタを迅速に切り替える能力を失うか、未使用モードでの迅速な切り替えを可能にしながら、かなりの(最大30%の)推論遅延に悩まされる可能性がある。 LoRAはまた、複数のアダプタが同時に使用される場合にもコンセプトロスを示す。 本稿では,Sparse High Rank Adapters (SHiRA)を提案する。 具体的には、SHiRAはベースモデルの重量の1-2%を直接調整し、他は変更せずにトレーニングすることができる。 これにより、高度にスパースなアダプタが、融合モードで直接切り替えられるようになる。 さらに、SHiRAの高空間空間が、概念損失を減らすことで、マルチアダプタ融合に役立つかという理論的および実証的な知見を提供する。 LVM と LLM に関する広範な実験により,高速切換とマルチアダプタ融合を両立しながら,基本モデルのパラメータのごく一部のみを微調整することは,多くのタスクに十分であることが示された。 最後に,パラメータ効率の良いファインタニング(PEFT)ライブラリに基づく,レイテンシとメモリ効率のよいSHiRA実装を提案する。 この実装は、低ピークのGPUメモリを消費しながら、LoRAとほぼ同じ速度でトレーニングする。

Low Rank Adaptation (LoRA) has gained massive attention in the recent generative AI research. One of the main advantages of LoRA is its ability to be fused with pretrained models adding no overhead during inference. However, from a mobile deployment standpoint, we can either avoid inference overhead in the fused mode but lose the ability to switch adapters rapidly, or suffer significant (up to 30% higher) inference latency while enabling rapid switching in the unfused mode. LoRA also exhibits concept-loss when multiple adapters are used concurrently. In this paper, we propose Sparse High Rank Adapters (SHiRA), a new paradigm which incurs no inference overhead, enables rapid switching, and significantly reduces concept-loss. Specifically, SHiRA can be trained by directly tuning only 1-2% of the base model weights while leaving others unchanged. This results in a highly sparse adapter which can be switched directly in the fused mode. We further provide theoretical and empirical insights on how high sparsity in SHiRA can aid multi-adapter fusion by reducing concept loss. Our extensive experiments on LVMs and LLMs demonstrate that finetuning only a small fraction of the parameters in the base model is sufficient for many tasks while enabling both rapid switching and multi-adapter fusion. Finally, we provide a latency- and memory-efficient SHiRA implementation based on Parameter-Efficient Finetuning (PEFT) Library. This implementation trains at nearly the same speed as LoRA while consuming lower peak GPU memory, thus making SHiRA easy to adopt for practical use cases.
翻訳日:2024-06-21 23:28:56 公開日:2024-06-19
# トリガー埋め込みによる自己教師付き事前学習グラフエンコーダへの透かし

Transferable Watermarking to Self-supervised Pre-trained Graph Encoders by Trigger Embeddings ( http://arxiv.org/abs/2406.13177v1 )

ライセンス: Link先を確認
Xiangyu Zhao, Hanzhou Wu, Xinpeng Zhang, (参考訳) 近年、転送可能な基礎グラフエンコーダの事前トレーニングを可能にするグラフ自己教師型学習(GSSL)の開発が盛んに行われている。 しかし、このようなエンコーダは簡単にプルインできるので、著作権侵害に弱い。 この問題に対処するため,グラフエンコーダをGSSL設定で保護する新しい透かしフレームワークを開発した。 キーとなるアイデアは、エンコーダに、特別に作られたトリガーインスタンスのセットを、モデル事前トレーニング中に出力された埋め込み空間内のユニークなコンパクトクラスタにマッピングするように強制することである。 これにより、エンコーダが盗まれたり、ダウンストリーム分類器と連結されたりすると、結果として得られたモデルは、エンコーダのバックドアを継承し、トリガーインスタンスが、地上の真実に関係なく高い確率で単一のカテゴリにあることを予測する。 実験の結果,組込み透かしは,ノード分類やリンク予測,コミュニティ検出など,ブラックボックス設定の様々な下流タスクに移動可能であることがわかった。 このアプローチはまた、モデルの忠実さ、信頼性、堅牢性という観点で、十分なパフォーマンスを示す。

Recent years have witnessed the prosperous development of Graph Self-supervised Learning (GSSL), which enables to pre-train transferable foundation graph encoders. However, the easy-to-plug-in nature of such encoders makes them vulnerable to copyright infringement. To address this issue, we develop a novel watermarking framework to protect graph encoders in GSSL settings. The key idea is to force the encoder to map a set of specially crafted trigger instances into a unique compact cluster in the outputted embedding space during model pre-training. Consequently, when the encoder is stolen and concatenated with any downstream classifiers, the resulting model inherits the backdoor of the encoder and predicts the trigger instances to be in a single category with high probability regardless of the ground truth. Experimental results have shown that, the embedded watermark can be transferred to various downstream tasks in black-box settings, including node classification, link prediction and community detection, which forms a reliable watermark verification system for GSSL in reality. This approach also shows satisfactory performance in terms of model fidelity, reliability and robustness.
翻訳日:2024-06-21 23:28:56 公開日:2024-06-19
# エネルギー効率の良いキーワードスポッティングのためのスパイクニューラルネットワークによるグローバルローカルコンボリューション

Global-Local Convolution with Spiking Neural Networks for Energy-efficient Keyword Spotting ( http://arxiv.org/abs/2406.13179v1 )

ライセンス: Link先を確認
Shuai Wang, Dehao Zhang, Kexin Shi, Yuchen Wang, Wenjie Wei, Jibin Wu, Malu Zhang, (参考訳) ディープニューラルネットワーク(DNN)のおかげで、キーワードスポッティング(KWS)の精度は大幅に向上した。 しかしながら、KWSシステムは通常エッジデバイスで実装されるため、エネルギー効率は性能以外の重要な要件となっている。 ここでは、ニューラルネットワークのエネルギー効率をスパイクし、エンドツーエンドの軽量KWSモデルを提案する。 このモデルは2つの革新的なモジュールから構成される。 1)グローバルローカルスパイキング・コンボリューション(GLSC)モジュール及びモジュール 2) Bottleneck-PLIFモジュール。 手作りの特徴抽出法と比較して、GLSCモジュールは、スペーサーでエネルギー効率が良く、性能が向上する音声特徴抽出を実現する。 Bottleneck-PLIFモジュールはさらにGLSCからの信号を処理し、より少ないパラメータで高い精度を達成する。 Google Speech Commands Dataset(V1とV2)で大規模な実験が行われている。 提案手法は,より少ないパラメータを持つSNNベースのKWSモデル間での競合性能を示す。

Thanks to Deep Neural Networks (DNNs), the accuracy of Keyword Spotting (KWS) has made substantial progress. However, as KWS systems are usually implemented on edge devices, energy efficiency becomes a critical requirement besides performance. Here, we take advantage of spiking neural networks' energy efficiency and propose an end-to-end lightweight KWS model. The model consists of two innovative modules: 1) Global-Local Spiking Convolution (GLSC) module and 2) Bottleneck-PLIF module. Compared to the hand-crafted feature extraction methods, the GLSC module achieves speech feature extraction that is sparser, more energy-efficient, and yields better performance. The Bottleneck-PLIF module further processes the signals from GLSC with the aim to achieve higher accuracy with fewer parameters. Extensive experiments are conducted on the Google Speech Commands Dataset (V1 and V2). The results show our method achieves competitive performance among SNN-based KWS models with fewer parameters.
翻訳日:2024-06-21 23:28:56 公開日:2024-06-19
# 信頼できる教師なしドメイン適応を目指して--ロバスト性、差別性、一般化を促進するための表現学習の視点

Towards Trustworthy Unsupervised Domain Adaptation: A Representation Learning Perspective for Enhancing Robustness, Discrimination, and Generalization ( http://arxiv.org/abs/2406.13180v1 )

ライセンス: Link先を確認
Jia-Li Yin, Haoyuan Zheng, Ximeng Liu, (参考訳) Robust Unsupervised Domain Adaptation (RoUDA)は、クリーンなだけでなく、ラベル付きソースドメインからラベル付きターゲットドメインへの堅牢なクロスドメイン知識移行を実現することを目的としている。 自己学習パイプラインをベースとしたUDAの対人訓練(AT)を直接注入し,ATのためのより良い対人訓練(AE)を作成することで,多くの研究がなされている。 顕著な進歩にもかかわらず、これらの手法はより強力なAEを見つけることにのみ焦点をあてるが、これらのAEからより良く学ぶ方法を無視し、不満足な結果をもたらす。 本稿では,表現学習の観点から頑健なUDAを調査し,相互情報理論(MIRoUDA)を利用して新しいアルゴリズムを設計する。 具体的には、相互情報最適化により、ロバストなUDA、すなわちロバスト性、差別、一般化の3つの特性を達成するように設計されている。 次に、堅牢な UDA 学習のための二重モデルフレームワークを提案する。 様々なベンチマーク実験により提案したMIRoUDAの有効性が検証された。

Robust Unsupervised Domain Adaptation (RoUDA) aims to achieve not only clean but also robust cross-domain knowledge transfer from a labeled source domain to an unlabeled target domain. A number of works have been conducted by directly injecting adversarial training (AT) in UDA based on the self-training pipeline and then aiming to generate better adversarial examples (AEs) for AT. Despite the remarkable progress, these methods only focus on finding stronger AEs but neglect how to better learn from these AEs, thus leading to unsatisfied results. In this paper, we investigate robust UDA from a representation learning perspective and design a novel algorithm by utilizing the mutual information theory, dubbed MIRoUDA. Specifically, through mutual information optimization, MIRoUDA is designed to achieve three characteristics that are highly expected in robust UDA, i.e., robustness, discrimination, and generalization. We then propose a dual-model framework accordingly for robust UDA learning. Extensive experiments on various benchmarks verify the effectiveness of the proposed MIRoUDA, in which our method surpasses the state-of-the-arts by a large margin.
翻訳日:2024-06-21 23:28:56 公開日:2024-06-19
# 胸部X線自動生成における補助的患者データの影響と実施方法

The Impact of Auxiliary Patient Data on Automated Chest X-Ray Report Generation and How to Incorporate It ( http://arxiv.org/abs/2406.13181v1 )

ライセンス: Link先を確認
Aaron Nicolson, Shengyao Zhuang, Jason Dowling, Bevan Koopman, (参考訳) 本研究は,胸部X線自動レポート生成のための多モーダル言語モデルへの多様な患者データソースの統合について検討する。 伝統的に、CXRのレポート生成はCXR画像と限られた放射線学データにのみ依存しており、患者の健康記録、特に救急部門から貴重な情報を見落としている。 MIMIC-CXRおよびMIMIC-IV-EDデータセットを用いて、診断精度を高めるために、非周期的バイタルサイン、医薬品、臨床歴などの詳細な患者情報を組み込んだ。 我々は,これらの異種データソースを埋め込みに変換し,マルチモーダル言語モデルを誘導し,生成したラジオグラフィーレポートの診断精度を大幅に向上させる新しい手法を提案する。 包括的評価は、CXRレポート生成におけるマルチモーダルデータの統合を通じて、より広範な患者データを使用することの利点を実証し、診断能力の向上とより良い患者結果の可能性を裏付けるものである。

This study investigates the integration of diverse patient data sources into multimodal language models for automated chest X-ray (CXR) report generation. Traditionally, CXR report generation relies solely on CXR images and limited radiology data, overlooking valuable information from patient health records, particularly from emergency departments. Utilising the MIMIC-CXR and MIMIC-IV-ED datasets, we incorporate detailed patient information such as aperiodic vital signs, medications, and clinical history to enhance diagnostic accuracy. We introduce a novel approach to transform these heterogeneous data sources into embeddings that prompt a multimodal language model, significantly enhancing the diagnostic accuracy of generated radiology reports. Our comprehensive evaluation demonstrates the benefits of using a broader set of patient data, underscoring the potential for enhanced diagnostic capabilities and better patient outcomes through the integration of multimodal data in CXR report generation.
翻訳日:2024-06-21 23:28:56 公開日:2024-06-19
# コミュニケーション効率とプライバシ保護による分散メタラーニング

Communication-Efficient and Privacy-Preserving Decentralized Meta-Learning ( http://arxiv.org/abs/2406.13183v1 )

ライセンス: Link先を確認
Hansi Yang, James T. Kwok, (参考訳) 集中的な場所でトレーニングデータを収集する必要のない分散学習は、ビッグデータ時代においてますます重要になっている。 特にランダムウォークベースの分散アルゴリズムは、すべてのクライアントが信頼する中央サーバを必要とせず、すべてのクライアントがすべてのイテレーションでアクティブになる必要はない。 しかし、既存の分散学習アルゴリズムでは、すべての学習クライアントが同じタスクを共有していると仮定している。 本稿では,異なるクライアントが限られた学習データで異なる(しかし関連する)タスクを実行する,より困難なメタラーニング環境について考察する。 そこで我々はLoDMeta(Local Decentralized Meta-learning)を提案する。LoDMeta(Local Decentralized Meta-learning)は局所的な最適化パラメータとランダムな摂動をモデルパラメータに用いて提案する。 コンバージェンスとプライバシ分析の両方に関する理論的結果が提供される。 いくつかの数ショットの学習データセットに対する実証的な結果から、LoDMetaは集中型メタ学習アルゴリズムと類似したメタ学習精度を持っているが、各クライアントからのデータ収集は必要とせず、各クライアントのデータプライバシをよりよく保護することができる。

Distributed learning, which does not require gathering training data in a central location, has become increasingly important in the big-data era. In particular, random-walk-based decentralized algorithms are flexible in that they do not need a central server trusted by all clients and do not require all clients to be active in all iterations. However, existing distributed learning algorithms assume that all learning clients share the same task. In this paper, we consider the more difficult meta-learning setting, in which different clients perform different (but related) tasks with limited training data. To reduce communication cost and allow better privacy protection, we propose LoDMeta (Local Decentralized Meta-learning) with the use of local auxiliary optimization parameters and random perturbations on the model parameter. Theoretical results are provided on both convergence and privacy analysis. Empirical results on a number of few-shot learning data sets demonstrate that LoDMeta has similar meta-learning accuracy as centralized meta-learning algorithms, but does not require gathering data from each client and is able to better protect data privacy for each client.
翻訳日:2024-06-21 23:28:56 公開日:2024-06-19
# 大規模言語モデルにおける関係概念の配置と抽出

Locating and Extracting Relational Concepts in Large Language Models ( http://arxiv.org/abs/2406.13184v1 )

ライセンス: Link先を確認
Zijian Wang, Britney White, Chang Xu, (参考訳) 関係概念は、様々な実体概念の関連を助長し、複雑な世界知識を表現し理解できるようにするため、知識表現の構造に根ざしている。 自然言語のプロンプトでリレーショナルな概念を表現することで、人々は大規模言語モデル(LLM)と懸命に対話し、望ましい事実知識を思い出すことができる。 しかし、知識リコールのプロセスは解釈可能性に欠けており、LLMにおける関係概念の表現はいまだに不明である。 本稿では,事実記憶過程における因果媒介分析を通じて実体と関係概念を表現できる隠蔽状態を特定する。 我々の発見は、入力プロンプトの最後のトークン位置において、リレーショナル概念の因果効果のみを表現する隠れ状態が存在することを示している。 このことから,これらの隠れ状態はリレーショナル表現として扱えると仮定し,LLMから抽出することに成功した。 実験の結果、リレーショナル表現の信頼性が高く、他のファクトリコールプロセスに柔軟に移植でき、ロバストなエンティティコネクタとしても使用できることがわかった。 また,リレーショナル表現は,リレーショナルリライトによる制御可能なファクトリコールに有意な可能性を示すことを示す。

Relational concepts are indeed foundational to the structure of knowledge representation, as they facilitate the association between various entity concepts, allowing us to express and comprehend complex world knowledge. By expressing relational concepts in natural language prompts, people can effortlessly interact with large language models (LLMs) and recall desired factual knowledge. However, the process of knowledge recall lacks interpretability, and representations of relational concepts within LLMs remain unknown to us. In this paper, we identify hidden states that can express entity and relational concepts through causal mediation analysis in fact recall processes. Our finding reveals that at the last token position of the input prompt, there are hidden states that solely express the causal effects of relational concepts. Based on this finding, we assume that these hidden states can be treated as relational representations and we can successfully extract them from LLMs. The experimental results demonstrate high credibility of the relational representations: they can be flexibly transplanted into other fact recall processes, and can also be used as robust entity connectors. Moreover, we also show that the relational representations exhibit significant potential for controllable fact recall through relation rewriting.
翻訳日:2024-06-21 23:19:12 公開日:2024-06-19
# 視覚的質問応答のための学習可能なインコンテキストベクトル

Learnable In-Context Vector for Visual Question Answering ( http://arxiv.org/abs/2406.13185v1 )

ライセンス: Link先を確認
Yingzhe Peng, Chenduo Hao, Xu Yang, Jiawei Peng, Xinting Hu, Xin Geng, (参考訳) 言語モデルが拡大を続けるにつれて、LLM(Large Language Models)は、インコンテキストラーニング(ICL)において新たな能力を示し、いくつかのインコンテキストデモ(ICD)をコンテキストとしてプレフィックスすることで、言語タスクの解決を可能にした。 これらの進歩に触発されて、研究者はこれらの技術を拡張し、ICL機能を備えたLMM(Large Multimodal Models)を開発した。 しかし、ICLの適用は通常、2つの大きな課題に直面します。 1) より多くのICDを使用すると、推論時間が大幅に増加する。 2) 性能はICDの選択に敏感である。 これらの課題は、複数のデータ型の統合とマルチモーダルIDDの組合せ複雑さにより、LMMにおいてさらに悪化している。 近年、これらの課題に対処するため、NLP研究ではICDから有用なタスク情報を1つのベクトルに抽出し、それに対応するタスクをLLMに挿入する非学習型In-Context Vectors (ICVs)を導入している。 しかし、単純なNLPタスクでは有用であるが、これらの非学習可能なメソッドはVisual Question Answering (VQA)のような複雑なマルチモーダルタスクを処理できない。 本研究では,実演から重要なタスク情報を抽出し,LMMにおけるICL性能を向上させるために,textbf{Learnable ICV} (L-ICV)を提案する。 実験により,従来のICLや他の非学習可能なICV手法と比較して,VQAタスクの精度を向上しながら,L-ICVは計算コストを大幅に削減できることが示された。

As language models continue to scale, Large Language Models (LLMs) have exhibited emerging capabilities in In-Context Learning (ICL), enabling them to solve language tasks by prefixing a few in-context demonstrations (ICDs) as context. Inspired by these advancements, researchers have extended these techniques to develop Large Multimodal Models (LMMs) with ICL capabilities. However, applying ICL usually faces two major challenges: 1) using more ICDs will largely increase the inference time and 2) the performance is sensitive to the selection of ICDs. These challenges are further exacerbated in LMMs due to the integration of multiple data types and the combinational complexity of multimodal ICDs. Recently, to address these challenges, some NLP studies introduce non-learnable In-Context Vectors (ICVs) which extract useful task information from ICDs into a single vector and then insert it into the LLM to help solve the corresponding task. However, although useful in simple NLP tasks, these non-learnable methods fail to handle complex multimodal tasks like Visual Question Answering (VQA). In this study, we propose \textbf{Learnable ICV} (L-ICV) to distill essential task information from demonstrations, improving ICL performance in LMMs. Experiments show that L-ICV can significantly reduce computational costs while enhancing accuracy in VQA tasks compared to traditional ICL and other non-learnable ICV methods.
翻訳日:2024-06-21 23:19:11 公開日:2024-06-19
# 先進的脅威キャンペーンにおける多段階脅威分析のためのフェデレートラーニングアプローチ

A Federated Learning Approach for Multi-stage Threat Analysis in Advanced Persistent Threat Campaigns ( http://arxiv.org/abs/2406.13186v1 )

ライセンス: Link先を確認
Florian Nelles, Abbas Yazdinejad, Ali Dehghantanha, Reza M. Parizi, Gautam Srivastava, (参考訳) 高度な永続的脅威(APT)のようなマルチステージの脅威は、データを盗み、インフラストラクチャを破壊することによって重大なリスクを生じ、検出は困難である。 APTは新規な攻撃ベクターを使用し、ネットワークの存在を隠蔽することで署名に基づく検出を回避し、しばしばその新規性のために気づかない。 機械学習モデルは高い精度を提供するが、過剰なデータを持つ圧倒的なアナリストである真のAPTの振る舞いを特定するのに依然として苦労している。 効果的な検出には、GDPRなどの規制の下でプライバシの問題を導入する、さまざまなクライアントから複数のデータセットをトレーニングする必要がある。 これらの課題に対処するため,本研究では,APTを検出するための3段階の非教師付きフェデレーション学習(FL)フレームワークを提案する。 ユニークなログイベントタイプを特定し、関連するログイベントから不審なパターンを抽出し、複雑性と頻度で順序付けする。 このフレームワークは、フェデレートされたアプローチを通じてプライバシを保証し、Paillierの部分的同型暗号化を使用したセキュリティを強化する。 SoTM 34データセットでテストした結果,従来の手法と比較し,ログファイルからの効率的なパターン抽出と解析,分析負荷の低減,データプライバシの厳格化などを行った。 このアプローチは、現在の方法論における大きなギャップに対処し、プライバシー法に従ってAPT検出の堅牢なソリューションを提供する。

Multi-stage threats like advanced persistent threats (APT) pose severe risks by stealing data and destroying infrastructure, with detection being challenging. APTs use novel attack vectors and evade signature-based detection by obfuscating their network presence, often going unnoticed due to their novelty. Although machine learning models offer high accuracy, they still struggle to identify true APT behavior, overwhelming analysts with excessive data. Effective detection requires training on multiple datasets from various clients, which introduces privacy issues under regulations like GDPR. To address these challenges, this paper proposes a novel 3-phase unsupervised federated learning (FL) framework to detect APTs. It identifies unique log event types, extracts suspicious patterns from related log events, and orders them by complexity and frequency. The framework ensures privacy through a federated approach and enhances security using Paillier's partial homomorphic encryption. Tested on the SoTM 34 dataset, our framework compares favorably against traditional methods, demonstrating efficient pattern extraction and analysis from log files, reducing analyst workload, and maintaining stringent data privacy. This approach addresses significant gaps in current methodologies, offering a robust solution to APT detection in compliance with privacy laws.
翻訳日:2024-06-21 23:19:11 公開日:2024-06-19
# 長期指導型セミスーパービジョンラーニングのためのデュアルトレーニングにおけるブースティング整合性

Boosting Consistency in Dual Training for Long-Tailed Semi-Supervised Learning ( http://arxiv.org/abs/2406.13187v1 )

ライセンス: Link先を確認
Kai Gan, Tong Wei, Min-Ling Zhang, (参考訳) 長い尾を持つ半教師付き学習(LTSSL)は多くの現実世界の分類問題で大きな注目を集めているが、既存のLTSSLアルゴリズムは通常、ラベル付きデータとラベルなしデータのクラス分布はほぼ同一であると仮定する。 この仮定に基づいて構築されたLTSSLアルゴリズムは、ラベル付きデータのクラス分布とラベルなしデータのクラス分布が、モデルからバイアス付き擬似ラベルを利用するため、ミスマッチした場合、深刻な被害を被る可能性がある。 この問題を軽減するために,DuAl Training (BOAT)におけるBoosting cOnsistencyを通じて未知のクラス分布からのラベルなしデータを効果的に活用する,新しい簡易手法を提案する。 具体的には、それぞれが頭と尾のクラスの性能を保証するために、標準とバランスの取れたブランチを構築します。 トレーニングプロセスを通じて、2つのブランチは漸進的に収束し、相互に相互作用し、最終的にはすべてのクラスで信頼できるパフォーマンスをもたらす。 その単純さにもかかわらず、BOATは様々な標準LTSSLベンチマークにおいて、ラベル付きおよびラベルなしデータのクラス分布が一致しない場合、既存のアルゴリズムに対して平均2.7%の絶対的なテスト精度向上を実現していることを示す。 クラス分布が同一であっても、BOATは多くの高度なLTSSLアルゴリズムを一貫して上回っている。 BOATの成功に最も重要となる要因を整理するために,広範囲にわたるアブレーション研究を実施している。 ソースコードはhttps://github.com/Gank0078/BOAT.comで入手できる。

While long-tailed semi-supervised learning (LTSSL) has received tremendous attention in many real-world classification problems, existing LTSSL algorithms typically assume that the class distributions of labeled and unlabeled data are almost identical. Those LTSSL algorithms built upon the assumption can severely suffer when the class distributions of labeled and unlabeled data are mismatched since they utilize biased pseudo-labels from the model. To alleviate this problem, we propose a new simple method that can effectively utilize unlabeled data from unknown class distributions through Boosting cOnsistency in duAl Training (BOAT). Specifically, we construct the standard and balanced branch to ensure the performance of the head and tail classes, respectively. Throughout the training process, the two branches incrementally converge and interact with each other, eventually resulting in commendable performance across all classes. Despite its simplicity, we show that BOAT achieves state-of-the-art performance on a variety of standard LTSSL benchmarks, e.g., an averaged 2.7% absolute increase in test accuracy against existing algorithms when the class distributions of labeled and unlabeled data are mismatched. Even when the class distributions are identical, BOAT consistently outperforms many sophisticated LTSSL algorithms. We carry out extensive ablation studies to tease apart the factors that are the most important to the success of BOAT. The source code is available at https://github.com/Gank0078/BOAT.
翻訳日:2024-06-21 23:19:11 公開日:2024-06-19
# 質問生成のための合成文脈生成

Synthetic Context Generation for Question Generation ( http://arxiv.org/abs/2406.13188v1 )

ライセンス: Link先を確認
Naiming Liu, Zichao Wang, Richard Baraniuk, (参考訳) 大規模言語モデル(LLM)の急速な進歩にもかかわらず、QGは複雑なプロセス、オープンエンドな性質、質問生成の多様な設定のために、依然として困難な問題である。 これらの課題に対処する一般的なアプローチは、バックグラウンドコンテキスト、質問、回答を含むデータセットを使用して、より小さなカスタムモデルを微調整する、というものだ。 しかし、適切なコンテキストで適切なドメイン固有のデータセットを取得することは、質問と回答のペアを取得するよりも難しい場合が多い。 本稿では,LLMが生成する合成文脈を用いたQGモデルの訓練について検討する。 我々は、合成文脈で訓練されたモデルの性能とそのQG研究および応用への影響に関する重要な研究課題に答えるために、包括的な研究を行う。 私たちの経験的結果は明らかです。 1) 文脈は、たとえ合成されたとしても、QGタスクに必須である。 2) 微調整された小さな言語モデルには,より大きな言語モデルよりも優れたパフォーマンスを実現する能力がある。 3) 合成コンテキストと実コンテキストは同等のパフォーマンスを達成することができた。 これらの知見は、QGにおける合成文脈の有効性を浮き彫りにし、今後の分野の発展への道を開くものである。

Despite rapid advancements in large language models (LLMs), QG remains a challenging problem due to its complicated process, open-ended nature, and the diverse settings in which question generation occurs. A common approach to address these challenges involves fine-tuning smaller, custom models using datasets containing background context, question, and answer. However, obtaining suitable domain-specific datasets with appropriate context is often more difficult than acquiring question-answer pairs. In this paper, we investigate training QG models using synthetic contexts generated by LLMs from readily available question-answer pairs. We conduct a comprehensive study to answer critical research questions related to the performance of models trained on synthetic contexts and their potential impact on QG research and applications. Our empirical results reveal: 1) contexts are essential for QG tasks, even if they are synthetic; 2) fine-tuning smaller language models has the capability of achieving better performances as compared to prompting larger language models; and 3) synthetic context and real context could achieve comparable performances. These findings highlight the effectiveness of synthetic contexts in QG and paves the way for future advancements in the field.
翻訳日:2024-06-21 23:19:11 公開日:2024-06-19
# PRESTO: プログレッシブプレトレーニングによる合成化学の成果

PRESTO: Progressive Pretraining Enhances Synthetic Chemistry Outcomes ( http://arxiv.org/abs/2406.13193v1 )

ライセンス: Link先を確認
He Cao, Yanjun Shao, Zhiyuan Liu, Zijing Liu, Xiangru Tang, Yuan Yao, Yu Li, (参考訳) MLLM(Multimodal Large Language Models)は、様々な科学分野において普及している。 これらの進歩により、合成化学における分子-テキストモデリングの研究が促進され、化学反応を設計、実行し、望ましい性質と応用を持つ新しい化合物を合成する分野である。 しかしながら、現在のアプローチでは、化学反応を理解するために複数の分子グラフ相互作用が重要な役割を欠いていることが多く、合成化学のタスクにおいて最適以下の性能をもたらす。 PRESTO(Progressive Pretraining Enhances Synthetic Chemistry Outcomes)は、事前学習戦略とデータセット構成の包括的なベンチマークを統合することで、分子-テキスト間のモダリティギャップを橋渡しする新しいフレームワークである。 クロスモーダルアライメントとマルチグラフ理解により、マルチモーダルLLMを徐々に改善する。 我々の広範な実験は、PRESTOが下流の合成化学タスクにおいて競合する結果をもたらすことを示した。 コードはhttps://github.com/IDEA-XL/PRESTOで見ることができる。

Multimodal Large Language Models (MLLMs) have seen growing adoption across various scientific disciplines. These advancements encourage the investigation of molecule-text modeling within synthetic chemistry, a field dedicated to designing and conducting chemical reactions to synthesize new compounds with desired properties and applications. Current approaches, however, often neglect the critical role of multiple molecule graph interaction in understanding chemical reactions, leading to suboptimal performance in synthetic chemistry tasks. This study introduces PRESTO(Progressive Pretraining Enhances Synthetic Chemistry Outcomes), a new framework that bridges the molecule-text modality gap by integrating a comprehensive benchmark of pretraining strategies and dataset configurations. It progressively improves multimodal LLMs through cross-modal alignment and multi-graph understanding. Our extensive experiments demonstrate that PRESTO offers competitive results in downstream synthetic chemistry tasks. The code can be found at https://github.com/IDEA-XL/PRESTO.
翻訳日:2024-06-21 23:19:11 公開日:2024-06-19
# マトリックスコンプリートによる翻訳学習

Learning Translations via Matrix Completion ( http://arxiv.org/abs/2406.13195v1 )

ライセンス: Link先を確認
Derry Wijaya, Brendan Callahan, John Hewitt, Jie Gao, Xiao Ling, Marianna Apidianaki, Chris Callison-Burch, (参考訳) バイリンガル・レキシコン・インダクションはバイリンガル・パラレル・コーパスを使わずに単語翻訳を学習するタスクである。 本稿では,このタスクを行列補完問題としてモデル化し,行列完了のための効果的で拡張可能なフレームワークを提案する。 この方法は多種多様なバイリンガル信号とモノリンガル信号を利用し、それぞれが不完全またはノイズである可能性がある。 本モデルは,高低リソース言語と高低リソース言語の両方に対して,最先端の性能を実現する。

Bilingual Lexicon Induction is the task of learning word translations without bilingual parallel corpora. We model this task as a matrix completion problem, and present an effective and extendable framework for completing the matrix. This method harnesses diverse bilingual and monolingual signals, each of which may be incomplete or noisy. Our model achieves state-of-the-art performance for both high and low resource languages.
翻訳日:2024-06-21 23:19:11 公開日:2024-06-19
# 高分解能医用画像生成のための量子生成学習

Quantum Generative Learning for High-Resolution Medical Image Generation ( http://arxiv.org/abs/2406.13196v1 )

ライセンス: Link先を確認
Amena Khatun, Kübra Yeter Aydeniz, Yaakov S. Weinstein, Muhammad Usman, (参考訳) 生成機械学習モデルにおける量子コンピューティングの統合は、トレーニングスピードアップや優れた特徴抽出といったメリットを提供する可能性がある。 しかし、QGAN(Quantum Generative Adversarial Network)は、パッチベースの画素単位の学習アプローチのため、高品質な画像を生成することができない。 これらの手法は局所的な詳細のみを捉え、画像のグローバル構造や意味情報を無視する。 本研究では、高品質な医用画像生成のための量子画像生成学習(QIGL)アプローチを提案することにより、これらの課題に対処する。 提案する量子発生器は、画像から主成分をパッチに分割する代わりに抽出することにより、スケーラビリティ問題に対処する変動量子回路アプローチを利用する。 さらに、QIGLフレームワーク内にWasserstein距離を統合し、多様な医療サンプルを生成する。 変形性膝関節症およびMNISTデータセットからのX線画像のシステマティックなシミュレーションにより,本研究はFr'echet Inception Distance(FID)スコアを従来のものと比較し,優れた成績を示した。

Integration of quantum computing in generative machine learning models has the potential to offer benefits such as training speed-up and superior feature extraction. However, the existing quantum generative adversarial networks (QGANs) fail to generate high-quality images due to their patch-based, pixel-wise learning approaches. These methods capture only local details, ignoring the global structure and semantic information of images. In this work, we address these challenges by proposing a quantum image generative learning (QIGL) approach for high-quality medical image generation. Our proposed quantum generator leverages variational quantum circuit approach addressing scalability issues by extracting principal components from the images instead of dividing them into patches. Additionally, we integrate the Wasserstein distance within the QIGL framework to generate a diverse set of medical samples. Through a systematic set of simulations on X-ray images from knee osteoarthritis and medical MNIST datasets, our model demonstrates superior performance, achieving the lowest Fr\'echet Inception Distance (FID) scores compared to its classical counterpart and advanced QGAN models reported in the literature.
翻訳日:2024-06-21 23:19:11 公開日:2024-06-19
# 単一光子による2つの量子ビットまたは少なくとも2000の同一量子ビット間の量子絡み合い

Single-photon triggered quantum entanglement between two qubits or at least 2000 identical qubits ( http://arxiv.org/abs/2406.13198v1 )

ライセンス: Link先を確認
Wangjun Lu, Cuilu Zhai, Hong Tao, Yaju Song, Shiqing Tang, Lan Xu, (参考訳) 本稿では、2つの量子ビットと複数の同一量子ビットの直接状態における量子絡み合いに対する単光子光場の効果について検討する。 2つの量子ビットに対して、まず励起状態の重みが単一光子トリガーの絡み合いに与える影響を分析し、過剰な重みがこの過程を妨害することを発見した。 次に、初期コヒーレンスがエンタングルメントにどのように影響するかを探求し、最大初期コヒーレンスによって単一の光子が最大エンタングルメントを達成することができることを発見した。 複数の量子ビットに対して、同様に励起状態の重みと初期コヒーレンスが絡み合い制御に及ぼす影響を考察する。 大きな量子ビット系では、励起状態の重みが基底状態の重みを超える場合や、全ての量子ビットが最初に基底状態にある場合、単一の光子が絡み合うことができない。 興味深いことに、単一の光子は少なくとも2000量子ビットを持つ系の任意の2つの量子ビット間の絡み合いを引き起こすことができ、その絡み合いは量子ビットの数ではなく初期状態パラメータに依存する。

This paper studies the effect of single-photon light fields on quantum entanglement between two qubits and multiple identical qubits initially in a direct state. For two qubits, we first analyze the impact of the excited state's weight on single-photon-triggered entanglement, finding that excessive weight disrupts this process. We then explore how initial coherence affects entanglement, discovering that maximum initial coherence enables the single photon to achieve maximal entanglement. For multiple qubits, we similarly investigate the effects of the excited state's weight and initial coherence on entanglement control. In large qubit systems, we find that single photons cannot trigger entanglement when excited-state weights exceed ground-state weights or when all qubits are initially in the ground state. Interestingly, single photons can still trigger entanglement between any two qubits in systems with at least 2000 qubits, with the entanglement depending on initial state parameters rather than the number of qubits.
翻訳日:2024-06-21 23:19:11 公開日:2024-06-19
# RobGC:ロバストなグラフ凝縮を目指して

RobGC: Towards Robust Graph Condensation ( http://arxiv.org/abs/2406.13200v1 )

ライセンス: Link先を確認
Xinyi Gao, Hongzhi Yin, Tong Chen, Guanhua Ye, Wentao Zhang, Bin Cui, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ表現学習の目覚ましい能力によって広く注目を集めている。 しかし、大規模グラフの普及は、GNNの計算要求により、様々なシナリオにおけるGNNの適用性を制限し、GNNのトレーニングにとって大きな課題となる。 この課題に対するグラフ凝縮 (GC) は有望な加速法として提案され, 性能を維持しつつ, GNN の効率的な訓練を可能にする情報的コンパクトグラフの生成に重点を置いている。 GNNトレーニングを加速する可能性にもかかわらず、既存のGCメソッドはトレーニングと推論の段階で大きなトレーニンググラフの品質を見落としている。 彼らはトレーニンググラフの分布を無差別にエミュレートし、凝縮グラフをトレーニンググラフ内のノイズの影響を受けやすくし、複雑な実世界のシナリオにおけるGCの適用を著しく阻害する。 この問題に対処するため,我々は,雑音の多いグラフ構造環境における凝縮グラフの堅牢性と適用性を拡張するためのGCのプラグアンドプレイアプローチであるロブGCを提案する。 具体的には、RobGCは縮合されたグラフをフィードバック信号として利用して、元のトレーニンググラフのデノイングプロセスを導出する。 ラベル伝搬に基づく交互最適化戦略は、凝縮および復調過程に導入され、凝縮グラフとトレーニンググラフの相互浄化に寄与する。 さらに、インダクティブグラフ推論用に設計されたGC手法として、RobGCは、ノイズフリー凝縮グラフを利用してテストグラフの構造を校正することにより、テスト時間グラフの復調を容易にする。 大規模な実験により、RobGCは様々なGCメソッドと互換性があり、異なるタイプのグラフ構造ノイズのレベルにおいて、ロバスト性を大幅に向上することが示された。

Graph neural networks (GNNs) have attracted widespread attention for their impressive capability of graph representation learning. However, the increasing prevalence of large-scale graphs presents a significant challenge for GNN training due to their computational demands, limiting the applicability of GNNs in various scenarios. In response to this challenge, graph condensation (GC) is proposed as a promising acceleration solution, focusing on generating an informative compact graph that enables efficient training of GNNs while retaining performance. Despite the potential to accelerate GNN training, existing GC methods overlook the quality of large training graphs during both the training and inference stages. They indiscriminately emulate the training graph distributions, making the condensed graphs susceptible to noises within the training graph and significantly impeding the application of GC in intricate real-world scenarios. To address this issue, we propose robust graph condensation (RobGC), a plug-and-play approach for GC to extend the robustness and applicability of condensed graphs in noisy graph structure environments. Specifically, RobGC leverages the condensed graph as a feedback signal to guide the denoising process on the original training graph. A label propagation-based alternating optimization strategy is in place for the condensation and denoising processes, contributing to the mutual purification of the condensed graph and training graph. Additionally, as a GC method designed for inductive graph inference, RobGC facilitates test-time graph denoising by leveraging the noise-free condensed graph to calibrate the structure of the test graph. Extensive experiments show that RobGC is compatible with various GC methods, significantly boosting their robustness under different types and levels of graph structural noises.
翻訳日:2024-06-21 23:19:11 公開日:2024-06-19
# 動的グラフ埋め込みにおける構造フェアネスに向けて:トレンドを意識したデュアルデバイアス手法

Toward Structure Fairness in Dynamic Graph Embedding: A Trend-aware Dual Debiasing Approach ( http://arxiv.org/abs/2406.13201v1 )

ライセンス: Link先を確認
Yicong Li, Yu Yang, Jiannong Cao, Shuaiqi Liu, Haoran Tang, Guandong Xu, (参考訳) 近年の研究では、下流グラフマイニングタスクにおける高次および低次頂点群の有効性の相違を防止し、構造的に公正な静的グラフ埋め込みをうまく学習している。 しかし、動的グラフ埋め込みにおける構造的公正性を達成することは、未解決の問題である。 動的グラフの次数変化の無視は、構造フェアネスを顕著に改善することなく、埋め込みの有効性を著しく損なう。 これは,高次,低次,低次の頂点の埋め込み性能が,低次,低次,低次,低次,低次,低次,低次,低次,低次,低次,低次,低次,低次,低次,低次,低次,低次,低次,低次,低次,低次,低次,低次,低次,高次,低次,低次,低次,低次,低次,低次な。 まず、頂点次数の進化傾向に基づいて、動的グラフにおけるバイアス付き構造進化を同定し、次いで、最初の構造的に公正な動的グラフ埋め込みアルゴリズムであるFairDGEを提案する。 FairDGEは頂点間の接続変化と頂点次数の長期的進化傾向を共同で埋め込むことで、偏りのある構造的進化を学習する。 さらに、異なるバイアス構造進化に対するデバイアス戦略をカスタマイズし、公正な埋め込みを対照的に符号化するために、新しい双対デバイアス法が考案された。 この革新的なデバイアス戦略は、顕著な公平性を失うことなく、埋め込みの有効性のボトルネックを突破する。 広汎な実験により、FairDGEは埋め込みの有効性と公正性を同時に改善することを示した。

Recent studies successfully learned static graph embeddings that are structurally fair by preventing the effectiveness disparity of high- and low-degree vertex groups in downstream graph mining tasks. However, achieving structure fairness in dynamic graph embedding remains an open problem. Neglecting degree changes in dynamic graphs will significantly impair embedding effectiveness without notably improving structure fairness. This is because the embedding performance of high-degree and low-to-high-degree vertices will significantly drop close to the generally poorer embedding performance of most slightly changed vertices in the long-tail part of the power-law distribution. We first identify biased structural evolutions in a dynamic graph based on the evolving trend of vertex degree and then propose FairDGE, the first structurally Fair Dynamic Graph Embedding algorithm. FairDGE learns biased structural evolutions by jointly embedding the connection changes among vertices and the long-short-term evolutionary trend of vertex degrees. Furthermore, a novel dual debiasing approach is devised to encode fair embeddings contrastively, customizing debiasing strategies for different biased structural evolutions. This innovative debiasing strategy breaks the effectiveness bottleneck of embeddings without notable fairness loss. Extensive experiments demonstrate that FairDGE achieves simultaneous improvement in the effectiveness and fairness of embeddings.
翻訳日:2024-06-21 23:19:11 公開日:2024-06-19
# 肺結節の診断におけるコンピュータ深層学習モデルの応用

Application of Computer Deep Learning Model in Diagnosis of Pulmonary Nodules ( http://arxiv.org/abs/2406.13205v1 )

ライセンス: Link先を確認
Yutian Yang, Hongjie Qiu, Yulu Gong, Xiaoyi Liu, Yang Lin, Muqing Li, (参考訳) 再建法を用いて肺の3次元シミュレーションモデルを構築した。 コンピュータ支援肺結節検出モデルを構築した。 このプロセスは画像を反復して、ニューラルネットワークに基づいて肺結節認識モデルを洗練する。 3次元仮想モデリング技術と統合され、肺結節のインテリジェントな認識を実現するためにシステムの相互作用性を改善する。 3次元RCNN(Region-based Convolutional Neural Network)を用いて特徴抽出と結節同定を行った。 LUNA16の大きなサンプルデータベースが研究データセットとして使用された。 FROC (Free-Response Receiver Operating Characteristics) 解析を適用し, 各種偽陽性率の感度を算出し, 平均FROCを導出した。 従来の診断法と比較すると,認識率は有意に改善した。 本手法は,早期の肺悪性腫瘍の早期診断に有用である肺病変の早期発見を容易にする。

The 3D simulation model of the lung was established by using the reconstruction method. A computer aided pulmonary nodule detection model was constructed. The process iterates over the images to refine the lung nodule recognition model based on neural networks. It is integrated with 3D virtual modeling technology to improve the interactivity of the system, so as to achieve intelligent recognition of lung nodules. A 3D RCNN (Region-based Convolutional Neural Network) was utilized for feature extraction and nodule identification. The LUNA16 large sample database was used as the research dataset. FROC (Free-response Receiver Operating Characteristic) analysis was applied to evaluate the model, calculating sensitivity at various false positive rates to derive the average FROC. Compared with conventional diagnostic methods, the recognition rate was significantly improved. This technique facilitates the detection of pulmonary abnormalities at an initial phase, which holds immense value for the prompt diagnosis of lung malignancies.
翻訳日:2024-06-21 23:19:11 公開日:2024-06-19
# LLMを用いたブロックレベルテキストスポッティング

Block-level Text Spotting with LLMs ( http://arxiv.org/abs/2406.13208v1 )

ライセンス: Link先を確認
Ganesh Bannur, Bharadwaj Amrutur, (参考訳) テキストスポッティングは近年、文字、単語、行レベルのテキストを抽出できるパフォーマンス技術を生み出している。 しかし、画像(ブロックレベルのテキストスポッティング)からテキストのブロックを抽出することは、比較的未探索である。 ブロックは個々の行や単語、文字よりも多くのコンテキストを含むため、ブロックレベルのテキストスポッティングは、追加のコンテキストの恩恵を受ける翻訳などの下流アプリケーションを強化する。 本稿では,ブロックレベルのテキストを識別するためのBTS-LLM (Block-level Text Spotting with LLMs)を提案する。 BTS-LLM には3つの部分がある。 1) 行レベルでテキストを検出して認識すること。 2) 行をブロックにグループ化して 3) 大きな言語モデル(LLM)を使用してブロック内の行の最良の順序を見つける。 ブロックレベルのテキストスポッティングにLLMの強い意味的知識を活用することを目的としている。 従って、検出されたテキストが意味論的に意味があるが、テキスト認識中に破損した場合、LLMはテキスト内の誤りを修正し、その再構築を生成することができる。

Text spotting has seen tremendous progress in recent years yielding performant techniques which can extract text at the character, word or line level. However, extracting blocks of text from images (block-level text spotting) is relatively unexplored. Blocks contain more context than individual lines, words or characters and so block-level text spotting would enhance downstream applications, such as translation, which benefit from added context. We propose a novel method, BTS-LLM (Block-level Text Spotting with LLMs), to identify text at the block level. BTS-LLM has three parts: 1) detecting and recognizing text at the line level, 2) grouping lines into blocks and 3) finding the best order of lines within a block using a large language model (LLM). We aim to exploit the strong semantic knowledge in LLMs for accurate block-level text spotting. Consequently if the text spotted is semantically meaningful but has been corrupted during text recognition, the LLM is also able to rectify mistakes in the text and produce a reconstruction of it.
翻訳日:2024-06-21 23:19:11 公開日:2024-06-19
# DMRIにおける高歪みからの拡散モデルに基づくFOD復元

Diffusion Model-based FOD Restoration from High Distortion in dMRI ( http://arxiv.org/abs/2406.13209v1 )

ライセンス: Link先を確認
Shuo Huang, Lujia Zhong, Yonggang Shi, (参考訳) ファイバー配向分布(FOD)は拡散MRI(dMRI)データを表す一般的なモデルである。 しかし、dMRIの感受性によって引き起こされる歪みなどの画像アーチファクトは、信号の喪失を引き起こし、FODの破損を招き、脳幹などの脳の損傷領域における繊維追跡と接続解析を成功させるのを妨げている。 拡散モデルのような生成モデルは、様々な画像復元タスクにうまく適用されている。 しかし、FOD画像へのそれらの応用は、FODは4次元の球面高調波(SPHARM)で表される4次元のデータであり、第4次元の秩序関連依存性を示すため、ユニークな課題を生んでいる。 本稿では, 歪みアーチファクトによる信号損失を回復できる新しいFOD復元モデルを提案する。 我々は、拡散モデルの能力を高めるためにボリュームオーダーエンコーディングを使用し、すべてのSPHARMオーダーで個別のFODボリュームを生成する。 さらに,全SPHARMオーダーから抽出した相互アテンション機能を加えて,各FODボリュームを生成して,FODボリューム全体の順序関連依存関係をキャプチャする。 また,FODの幾何学的コヒーレンスを維持するために,高歪み領域を囲む低歪みFODの拡散モデルを条件とした。 英国バイオバンク(n = 1315)のデータを使って、モデルをトレーニングし、テストしました。 基底真理を持つテストセット(n = 43)では、FODボリュームのルート平均二乗誤差とFODピークの角度誤差の観点から、生成されたFODの精度を実証する。 また,脳幹領域の歪みが大きいテストセット(n = 1172)に適用し,FOD整合性回復における本手法の有効性を実証した。

Fiber orientation distributions (FODs) is a popular model to represent the diffusion MRI (dMRI) data. However, imaging artifacts such as susceptibility-induced distortion in dMRI can cause signal loss and lead to the corrupted reconstruction of FODs, which prohibits successful fiber tracking and connectivity analysis in affected brain regions such as the brain stem. Generative models, such as the diffusion models, have been successfully applied in various image restoration tasks. However, their application on FOD images poses unique challenges since FODs are 4-dimensional data represented by spherical harmonics (SPHARM) with the 4-th dimension exhibiting order-related dependency. In this paper, we propose a novel diffusion model for FOD restoration that can recover the signal loss caused by distortion artifacts. We use volume-order encoding to enhance the ability of the diffusion model to generate individual FOD volumes at all SPHARM orders. Moreover, we add cross-attention features extracted across all SPHARM orders in generating every individual FOD volume to capture the order-related dependency across FOD volumes. We also condition the diffusion model with low-distortion FODs surrounding high-distortion areas to maintain the geometric coherence of the generated FODs. We trained and tested our model using data from the UK Biobank (n = 1315). On a test set with ground truth (n = 43), we demonstrate the high accuracy of the generated FODs in terms of root mean square errors of FOD volumes and angular errors of FOD peaks. We also apply our method to a test set with large distortion in the brain stem area (n = 1172) and demonstrate the efficacy of our method in restoring the FOD integrity and, hence, greatly improving tractography performance in affected brain regions.
翻訳日:2024-06-21 23:19:11 公開日:2024-06-19
# 拡散モデルによる手術用トリプルト認識

Surgical Triplet Recognition via Diffusion Model ( http://arxiv.org/abs/2406.13210v1 )

ライセンス: Link先を確認
Daochang Liu, Xintao Hu, Mubarak Shah, Chang Xu, (参考訳) 外科的三重項認識は、次世代のコンテキスト対応手術室を実現するために必要不可欠なビルディングブロックである。 目的は、手術用ビデオフレームに表示される楽器、動詞、ターゲットの組み合わせを特定することである。 本稿では,拡散モデルを用いた手術三重項認識のための新しい生成フレームワークであるDiffTripletを提案する。 三重項結合の課題に対処するために, 拡散フレームワーク, すなわち, 関連学習と関連指導において, 2つのユニークな設計が提案されている。 トレーニング中、三重項と個々のコンポーネントの結合空間におけるモデルを最適化し、それらの間の依存関係をキャプチャする。 推論の際には,各成分の情報を用いて三重項予測を洗練させる反復的認知過程の更新に関連性制約を組み込む。 CholecT45とColecT50データセットの実験は、手術用三重項認識のための新しい最先端性能を達成する上で、提案手法の優位性を示している。 私たちのコードは解放されます。

Surgical triplet recognition is an essential building block to enable next-generation context-aware operating rooms. The goal is to identify the combinations of instruments, verbs, and targets presented in surgical video frames. In this paper, we propose DiffTriplet, a new generative framework for surgical triplet recognition employing the diffusion model, which predicts surgical triplets via iterative denoising. To handle the challenge of triplet association, two unique designs are proposed in our diffusion framework, i.e., association learning and association guidance. During training, we optimize the model in the joint space of triplets and individual components to capture the dependencies among them. At inference, we integrate association constraints into each update of the iterative denoising process, which refines the triplet prediction using the information of individual components. Experiments on the CholecT45 and CholecT50 datasets show the superiority of the proposed method in achieving a new state-of-the-art performance for surgical triplet recognition. Our codes will be released.
翻訳日:2024-06-21 23:19:11 公開日:2024-06-19
# 量子キックロータを用いた振幅増幅と推定

Amplitude Amplification and Estimation using quantum kicked rotor ( http://arxiv.org/abs/2406.13211v1 )

ライセンス: Link先を確認
Keshav V., M. S. Santhanam, (参考訳) 量子キックローターは、アンダーソン局在の量子カオスと物理学の研究に広く用いられてきた。 その結果,QKRは非構造化探索を行う量子アルゴリズムの設計に利用できることがわかった。 これは、QKRシステムを用いてGroverの探索アルゴリズムの一般化である振幅増幅によって説明される。 また、マーク状態の振幅が未知の場合には、QKRを用いて振幅推定を行う。 また,QKRの動的ローカライゼーションを利用して振幅増幅アルゴリズムの性能を向上できることを示した。 共振から逸脱する未構造化探索の成功確率とノイズキック強度の影響を解析し,QKRに基づくアルゴリズムのロバスト性を示す。 アルゴリズムのすべてのコンポーネントの実験的実現可能性について論じる。

The quantum kicked rotor had been widely used for studying quantum chaos and the physics of Anderson localization. It is shown that QKR can be used to design a quantum algorithm to perform unstructured search. This is illustrated through amplitude amplification, a generalization of Grover's search algorithm, using QKR system. Further, QKR is employed for amplitude estimation when the amplitude of the marked states is unknown. It is also shown that dynamical localization in QKR can be exploited to enhance the performance of the amplitude amplification algorithm by reducing the average runtime. The sensitivity of the success probability of unstructured search to detuning from resonance and the effects of noisy kick strengths are analyzed and the robustness of the QKR based algorithm is shown. The experimental feasibility of every component of the algorithm is discussed.
翻訳日:2024-06-21 23:09:15 公開日:2024-06-19
# マルチメタRAG:LLM抽出メタデータを用いたデータベースフィルタリングによるマルチホップクエリのRAG改善

Multi-Meta-RAG: Improving RAG for Multi-Hop Queries using Database Filtering with LLM-Extracted Metadata ( http://arxiv.org/abs/2406.13213v1 )

ライセンス: Link先を確認
Mykhailo Poliakov, Nadiya Shvai, (参考訳) 検索拡張生成(RAG)は、外部の知識ソースから関連する情報を検索し、未確認の文書コレクションに対する問い合わせに答える大きな言語モデル(LLM)を可能にする。 しかし,従来のRAGアプリケーションはマルチホップ質問に対する回答が不十分であり,証拠の複数の要素を検索・推論する必要があることが実証された。 LLM抽出メタデータを用いたデータベースフィルタリング手法であるMulti-Meta-RAGを提案する。 データベースフィルタリングは特定のドメインやフォーマットからの質問に特化しているが、Multi-Meta-RAGはMultiHop-RAGベンチマークの結果を大幅に改善することがわかった。 コードはhttps://github.com/mxpoliakov/Multi-Meta-RAGで公開されている。

The retrieval-augmented generation (RAG) enables retrieval of relevant information from an external knowledge source and allows large language models (LLMs) to answer queries over previously unseen document collections. However, it was demonstrated that traditional RAG applications perform poorly in answering multi-hop questions, which require retrieving and reasoning over multiple elements of supporting evidence. We introduce a new method called Multi-Meta-RAG, which uses database filtering with LLM-extracted metadata to improve the RAG selection of the relevant documents from various sources, relevant to the question. While database filtering is specific to a set of questions from a particular domain and format, we found out that Multi-Meta-RAG greatly improves the results on the MultiHop-RAG benchmark. The code is available at https://github.com/mxpoliakov/Multi-Meta-RAG.
翻訳日:2024-06-21 23:09:15 公開日:2024-06-19
# グラフ情報を用いた自己説明可能な時間グラフネットワーク

Self-Explainable Temporal Graph Networks based on Graph Information Bottleneck ( http://arxiv.org/abs/2406.13214v1 )

ライセンス: Link先を確認
Sangwoo Seo, Sungwon Kim, Jihyeong Jung, Yoonho Lee, Chanyoung Park, (参考訳) 時間的グラフニューラルネットワーク(TGNN)は、時間とともにグラフ内の相互作用のトポロジと動的依存関係の両方をキャプチャする能力を持つ。 過去の出来事が予測にどのように影響するかを特定するのが困難であるため、TGNNモデルの予測を説明する必要性が高まっている。 静的グラフの説明モデルは,時間的依存を捉えることができないため,時間的グラフに容易に適用できないため,最近の研究では時間的グラフの説明モデルが提案されている。 しかし、時間グラフの既存の説明モデルは、説明の効率と正確さの2つの側面に制限された予測と説明のために別々のモデルを必要とする、ポストホックな説明に依存している。 本研究では,グラフ情報ボトルネック(TGIB)に基づく自己説明可能な時間グラフネットワーク(Self-Explainable Temporal Graph Networks)と呼ばれる,時間グラフのための新しい説明フレームワークを提案する。 TGIBは、インフォメーション・ボトルネック理論に基づいて、各時間事象に確率性を導入することで事象の発生を説明する。 リンク予測性能と説明可能性の両面でTGIBの優位性を示す実験結果を得た。 これは、時間グラフの予測と説明をエンドツーエンドで同時に行う最初の作品である。

Temporal Graph Neural Networks (TGNN) have the ability to capture both the graph topology and dynamic dependencies of interactions within a graph over time. There has been a growing need to explain the predictions of TGNN models due to the difficulty in identifying how past events influence their predictions. Since the explanation model for a static graph cannot be readily applied to temporal graphs due to its inability to capture temporal dependencies, recent studies proposed explanation models for temporal graphs. However, existing explanation models for temporal graphs rely on post-hoc explanations, requiring separate models for prediction and explanation, which is limited in two aspects: efficiency and accuracy of explanation. In this work, we propose a novel built-in explanation framework for temporal graphs, called Self-Explainable Temporal Graph Networks based on Graph Information Bottleneck (TGIB). TGIB provides explanations for event occurrences by introducing stochasticity in each temporal event based on the Information Bottleneck theory. Experimental results demonstrate the superiority of TGIB in terms of both the link prediction performance and explainability compared to state-of-the-art methods. This is the first work that simultaneously performs prediction and explanation for temporal graphs in an end-to-end manner.
翻訳日:2024-06-21 23:09:15 公開日:2024-06-19
# ディープ・スケールブル・ビジョン生成のためのニューラルネットワーク残差拡散モデル

Neural Residual Diffusion Models for Deep Scalable Vision Generation ( http://arxiv.org/abs/2406.13215v1 )

ライセンス: Link先を確認
Zhiyuan Ma, Liangliang Zhao, Biqing Qi, Bowen Zhou, (参考訳) 最も先進的な拡散モデルでは、大規模言語モデル(LLM)に似た視覚生成モデルの生成能力を促進するために、近年ますます深く積み重ねられたネットワーク(例えば、U-NetやTransformer)が採用されている。 しかし、より深く積み重ねられたネットワークは、直感的に数値伝搬誤差を生じさせ、生成データに対するノイズ予測能力を低下させるため、視覚生成モデルの大規模でスケーラブルなトレーニングを妨げている。 本稿では,入力信号の逆拡散過程と固有残差ユニットが一貫した動的特性を持ち,生成能力に優れたニューラルネットワークを効果的に実行できることを明らかにする。 その後、我々は、2つの共通タイプの深層ネットワークの肩の上に、統合的で大規模に拡張可能なニューラルネットワーク残差拡散モデルフレームワーク(略してNeural-RDM)を提案し、これは、生成力学に適合する一連の学習可能なゲート残差パラメータを導入することで、深層ネットワークの共通アーキテクチャに単純かつ意味のある変更である。 様々な生成タスクに関する実験結果から,提案したニューラル残差モデルが画像およびビデオ生成ベンチマークの最先端スコアを得ることが示された。 厳密な理論的証明と広範な実験により、この単純なゲート残留機構の利点は、動的モデリングと一致し、生成されたコンテンツの忠実さと一貫性を改善し、大規模にスケーラブルなトレーニングをサポートすることを証明している。 コードはhttps://github.com/Anonymous/Neural-RDMで入手できる。

The most advanced diffusion models have recently adopted increasingly deep stacked networks (e.g., U-Net or Transformer) to promote the generative emergence capabilities of vision generation models similar to large language models (LLMs). However, progressively deeper stacked networks will intuitively cause numerical propagation errors and reduce noisy prediction capabilities on generative data, which hinders massively deep scalable training of vision generation models. In this paper, we first uncover the nature that neural networks being able to effectively perform generative denoising lies in the fact that the intrinsic residual unit has consistent dynamic property with the input signal's reverse diffusion process, thus supporting excellent generative abilities. Afterwards, we stand on the shoulders of two common types of deep stacked networks to propose a unified and massively scalable Neural Residual Diffusion Models framework (Neural-RDM for short), which is a simple yet meaningful change to the common architecture of deep generative networks by introducing a series of learnable gated residual parameters that conform to the generative dynamics. Experimental results on various generative tasks show that the proposed neural residual models obtain state-of-the-art scores on image's and video's generative benchmarks. Rigorous theoretical proofs and extensive experiments also demonstrate the advantages of this simple gated residual mechanism consistent with dynamic modeling in improving the fidelity and consistency of generated content and supporting large-scale scalable training. Code is available at https://github.com/Anonymous/Neural-RDM.
翻訳日:2024-06-21 23:09:15 公開日:2024-06-19
# 教師なしグラフアライメントにおける表現性向上のための最適輸送と埋め込みに基づくアプローチ

Combining Optimal Transport and Embedding-Based Approaches for More Expressiveness in Unsupervised Graph Alignment ( http://arxiv.org/abs/2406.13216v1 )

ライセンス: Link先を確認
Songyang Chen, Yu Liu, Lei Zou, Zexuan Wang, Youfang Lin, Yuxing Chen, Anqun Pan, (参考訳) 教師なしグラフアライメントは、グラフ構造とノード特徴のみを活用することで、属性グラフのペア間の1対1ノード対応を見つける。 既存の研究の1つのカテゴリは、まずノード表現を計算し、次にノードを密着した埋め込みとマッチングする。 他のカテゴリでは、Gromov-Wasserstein (GW) 学習による最適輸送 (OT) への問題を減らすが、輸送コストの設計を探求するための大きな空間を残している。 モデル表現性の理論的解析によって動機付けられたそれらの利点を組み合わせるための原理的アプローチを提案する。 一致したノード対と一致しないノード対を分離する際の識別力の限界に気付くことにより、GW学習のコスト設計を特徴変換により改善し、次元間の特徴的相互作用を可能にする。 さらに,Weisfeiler-Lehmanテストにインスパイアされた単純かつ効果的な埋め込みに基づくヒューリスティックを提案し,非ユークリッドデータを扱う際に,その事前知識をOTに付加する。 さらに,この問題を最大ウェイトマッチングに還元することで,一対一のマッチング制約を初めて保証する。 アルゴリズム設計は、我々のOTと埋め込みベースの予測を、アンサンブル学習戦略である積み重ねによって効果的に組み合わせる。 本稿では,ノードアライメントを段階的に洗練するために,上記のモジュールをすべて統合したモデルフレームワークであるtexttt{CombAlign}を提案する。 広範囲な実験により,最先端手法と比較してアライメント精度が大幅に向上し,提案手法の有効性が検証された。

Unsupervised graph alignment finds the one-to-one node correspondence between a pair of attributed graphs by only exploiting graph structure and node features. One category of existing works first computes the node representation and then matches nodes with close embeddings, which is intuitive but lacks a clear objective tailored for graph alignment in the unsupervised setting. The other category reduces the problem to optimal transport (OT) via Gromov-Wasserstein (GW) learning with a well-defined objective but leaves a large room for exploring the design of transport cost. We propose a principled approach to combine their advantages motivated by theoretical analysis of model expressiveness. By noticing the limitation of discriminative power in separating matched and unmatched node pairs, we improve the cost design of GW learning with feature transformation, which enables feature interaction across dimensions. Besides, we propose a simple yet effective embedding-based heuristic inspired by the Weisfeiler-Lehman test and add its prior knowledge to OT for more expressiveness when handling non-Euclidean data. Moreover, we are the first to guarantee the one-to-one matching constraint by reducing the problem to maximum weight matching. The algorithm design effectively combines our OT and embedding-based predictions via stacking, an ensemble learning strategy. We propose a model framework named \texttt{CombAlign} integrating all the above modules to refine node alignment progressively. Through extensive experiments, we demonstrate significant improvements in alignment accuracy compared to state-of-the-art approaches and validate the effectiveness of the proposed modules.
翻訳日:2024-06-21 23:09:15 公開日:2024-06-19
# ブリッジング法とデータ:IRAC手法による半構造化データセットによる推論の強化

Bridging Law and Data: Augmenting Reasoning via a Semi-Structured Dataset with IRAC methodology ( http://arxiv.org/abs/2406.13217v1 )

ライセンス: Link先を確認
Xiaoxi Kang, Lizhen Qu, Lay-Ki Soon, Zhuang Li, Adnan Trakic, (参考訳) 法的な推論におけるLarge Language Models(LLM)の有効性は、ユニークな法的用語と高度に専門化された知識の必要性のために制限されることが多い。 これらの制限は、複雑な法的推論タスクに適した高品質なデータの必要性を強調している。 本稿では,法シナリオ分析のためのベンチマークであるLEGALSEMIを紹介する。 LEGALSEMIは54の法的シナリオで構成されており、それぞれが包括的なIRAC(Issue, Rule, Application, Conclusion)フレームワークに基づいて、法の専門家によって厳格に注釈付けされている。 さらに、LEGALSEMIには構造化知識グラフ(SKG)が付属している。 IRAC分析におけるLEGALSEMIの有用性を評価するための一連の実験を行った。 実験結果は,SKGを4つの異なるLLMを用いた問題識別,ルール検索,適用,結論生成に組み込むことの有効性を示した。 LEGALSEMIは,本論文の受理時に公開される予定である。

The effectiveness of Large Language Models (LLMs) in legal reasoning is often limited due to the unique legal terminologies and the necessity for highly specialized knowledge. These limitations highlight the need for high-quality data tailored for complex legal reasoning tasks. This paper introduces LEGALSEMI, a benchmark specifically curated for legal scenario analysis. LEGALSEMI comprises 54 legal scenarios, each rigorously annotated by legal experts, based on the comprehensive IRAC (Issue, Rule, Application, Conclusion) framework. In addition, LEGALSEMI is accompanied by a structured knowledge graph (SKG). A series of experiments were conducted to assess the usefulness of LEGALSEMI for IRAC analysis. The experimental results demonstrate the effectiveness of incorporating the SKG for issue identification, rule retrieval, application and conclusion generation using four different LLMs. LEGALSEMI will be publicly available upon acceptance of this paper.
翻訳日:2024-06-21 23:09:15 公開日:2024-06-19
# MC-MKE:Modality Consistencyを重視したベンチマークによる細粒度マルチモーダル知識の編集

MC-MKE: A Fine-Grained Multimodal Knowledge Editing Benchmark Emphasizing Modality Consistency ( http://arxiv.org/abs/2406.13219v1 )

ライセンス: Link先を確認
Junzhe Zhang, Huixuan Zhang, Xunjian Yin, Baizhou Huang, Xu Zhang, Xinyu Hu, Xiaojun Wan, (参考訳) マルチモーダル大言語モデル(MLLM)は、非現実的または時代遅れの知識問題に傾向があり、多モーダル知識の複雑さによる誤読や誤認識の誤りとして現れる。 以前のベンチマークでは、これらの2つのエラータイプを修正する際に、編集方法のパフォーマンスを体系的に分析していなかった。 これらの誤りをよりよく表現し、修正するために、多モーダルな知識を視覚的およびテキスト的構成要素に分解する。 異なるエラータイプは異なる編集形式に対応し、多モードの知識の異なる部分を編集する。 MC-MKEは,モダリティの一貫性を重視した細粒度マルチモーダル知識編集ベンチマークである。 本ベンチマークは,対応する知識コンポーネントを編集することで,誤読誤りと誤認識誤りの独立修正を容易にする。 我々はMC-MKE上での3つのマルチモーダル知識編集手法を評価し,その限界,特にモダリティの整合性について明らかにした。 本研究は,マルチモーダルな知識編集がもたらす課題を強調し,この課題に対する効果的な技術開発に向けたさらなる研究を動機づけるものである。

Multimodal large language models (MLLMs) are prone to non-factual or outdated knowledge issues, which can manifest as misreading and misrecognition errors due to the complexity of multimodal knowledge. Previous benchmarks have not systematically analyzed the performance of editing methods in correcting these two error types. To better represent and correct these errors, we decompose multimodal knowledge into its visual and textual components. Different error types correspond to different editing formats, which edits distinct part of the multimodal knowledge. We present MC-MKE, a fine-grained Multimodal Knowledge Editing benchmark emphasizing Modality Consistency. Our benchmark facilitates independent correction of misreading and misrecognition errors by editing the corresponding knowledge component. We evaluate three multimodal knowledge editing methods on MC-MKE, revealing their limitations, particularly in terms of modality consistency. Our work highlights the challenges posed by multimodal knowledge editing and motivates further research in developing effective techniques for this task.
翻訳日:2024-06-21 23:09:15 公開日:2024-06-19
# 大規模データセットを用いたプライバシー保護ロジスティック回帰トレーニング

Privacy-Preserving Logistic Regression Training on Large Datasets ( http://arxiv.org/abs/2406.13221v1 )

ライセンス: Link先を確認
John Chiang, (参考訳) プライバシ保存機械学習は、大規模な暗号化データに対する同型ロジスティック回帰トレーニングなど、プライバシを維持しながらプライベートおよび機密データを解析することを目的とした、暗号化手法の1つのクラスである。 本稿では,より高速な勾配変種である $\texttt{quadratic gradient}$ を用いて,最近の手法のミニバッチ版であるhomomorphic Encryption (HE) を用いて,大規模暗号化データのロジスティック回帰学習を行うアルゴリズムを提案する。 $\texttt{quadratic gradient}$ は曲線情報(ヘッセン行列)を勾配に統合することができ、従って1階勾配アルゴリズムを効果的に加速することができる。 また、暗号化されたデータセットがあまりに大きく、ミニバッチ方式で暗号化する必要がある場合に、それらのメソッドのフルバッチバージョンを実装する。 我々は,200個の関数を持つ422,108個のサンプルからなる実財務データに対して,私たちのミニバッチアルゴリズムとフルバッチ実装手法を比較した。 %Nesterovの加速勾配(NAG)はHEの非効率性から,大規模な暗号化データセット上でのロジスティック回帰トレーニングは現実的な実現可能性を示し,私たちの理解において重要なマイルストーンとなっている。

Privacy-preserving machine learning is one class of cryptographic methods that aim to analyze private and sensitive data while keeping privacy, such as homomorphic logistic regression training over large encrypted data. In this paper, we propose an efficient algorithm for logistic regression training on large encrypted data using Homomorphic Encryption (HE), which is the mini-batch version of recent methods using a faster gradient variant called $\texttt{quadratic gradient}$. It is claimed that $\texttt{quadratic gradient}$ can integrate curve information (Hessian matrix) into the gradient and therefore can effectively accelerate the first-order gradient (descent) algorithms. We also implement the full-batch version of their method when the encrypted dataset is so large that it has to be encrypted in the mini-batch manner. We compare our mini-batch algorithm with our full-batch implementation method on real financial data consisting of 422,108 samples with 200 freatures. %Our experiments show that Nesterov's accelerated gradient (NAG) Given the inefficiency of HEs, our results are inspiring and demonstrate that the logistic regression training on large encrypted dataset is of practical feasibility, marking a significant milestone in our understanding.
翻訳日:2024-06-21 23:09:15 公開日:2024-06-19
# Entity-Wise Top-K Sparsificationを組み込んだコミュニケーション効率の良いフェデレーション知識グラフ

Communication-Efficient Federated Knowledge Graph Embedding with Entity-Wise Top-K Sparsification ( http://arxiv.org/abs/2406.13225v1 )

ライセンス: Link先を確認
Xiaoxiong Zhang, Zhiwei Zeng, Xin Zhou, Dusit Niyato, Zhiqi Shen, (参考訳) Federated Knowledge Graphs Embedding Learning (FKGE)は、パラメータのかなりのサイズと広範なコミュニケーションラウンドから生じるコミュニケーション効率の課題に直面する。 しかし、既存のFKGE法では、各通信ラウンドで複数のローカルトレーニングを実施すれば、通信ラウンドの削減にのみ焦点が当てられており、各通信ラウンド内で送信されるパラメータの削減は無視されている。 この問題に対処するために、まず、圧縮中のすべてのエンティティにまたがる埋め込み精度の普遍的低減が収束速度を著しく損なうことを発見し、埋め込み精度を維持することの重要性を浮き彫りにした。 次に、Entity-Wise Top-K Sparsification戦略に基づく双方向通信効率のFedSを提案する。 アップロード中、クライアントはTop-Kエンティティの埋め込みのみを動的に識別し、アップロードし、サーバに大きな変更を加える。 ダウンロード中、サーバはまず各クライアントに対してパーソナライズされた埋め込みアグリゲーションを実行する。 その後、Top-Kアグリゲートされた埋め込みを識別し、各クライアントに送信する。 さらに、フェデレート知識グラフの不均一性に起因するクライアントの共有エンティティ間での不整合を埋め込むことによる負の効果を軽減するために、間欠同期機構がFedSによって使用される。 3つのデータセットにわたる大規模な実験により、FedSは無視可能な(あるいはまったく)パフォーマンス劣化を伴う通信効率を大幅に向上させることを示した。

Federated Knowledge Graphs Embedding learning (FKGE) encounters challenges in communication efficiency stemming from the considerable size of parameters and extensive communication rounds. However, existing FKGE methods only focus on reducing communication rounds by conducting multiple rounds of local training in each communication round, and ignore reducing the size of parameters transmitted within each communication round. To tackle the problem, we first find that universal reduction in embedding precision across all entities during compression can significantly impede convergence speed, underscoring the importance of maintaining embedding precision. We then propose bidirectional communication-efficient FedS based on Entity-Wise Top-K Sparsification strategy. During upload, clients dynamically identify and upload only the Top-K entity embeddings with the greater changes to the server. During download, the server first performs personalized embedding aggregation for each client. It then identifies and transmits the Top-K aggregated embeddings to each client. Besides, an Intermittent Synchronization Mechanism is used by FedS to mitigate negative effect of embedding inconsistency among shared entities of clients caused by heterogeneity of Federated Knowledge Graph. Extensive experiments across three datasets showcase that FedS significantly enhances communication efficiency with negligible (even no) performance degradation.
翻訳日:2024-06-21 23:09:15 公開日:2024-06-19
# 物理モデルによる制御可能な顔のブレンディッシュ

Controllable and Gradual Facial Blemishes Retouching via Physics-Based Modelling ( http://arxiv.org/abs/2406.13227v1 )

ライセンス: Link先を確認
Chenhao Shuai, Rizhao Cai, Bandara Dissanayake, Amanda Newman, Dayan Guan, Dennis Sng, Ling Li, Alex Kot, (参考訳) 顔のリタッチは、顔の顔色やアシネなどのフレッシュを除去することを目的としており、微粒なテクスチャの細部を保っている。 それにもかかわらず、既存の方法は単にブレンディッシュを除去するだけでなく、中間プロセスのリアリズムにはほとんど焦点を合わせておらず、顔の顔の顔の顔色や祖先の変化をシミュレートする効果的なツールとしてではなく、ソーシャルメディア上での顔画像の美化により多くの使用を制限している。 本研究は,この制限を前提として,制御可能・グラダルフェイスリタッチ (CGFR) を提案する。 我々のCGFRは物理的モデリングに基づいており、分解メラニンとヘモグロビンの色空間における皮膚下散乱を近似するために、Sum-of-Gaussianを用いている。 我々のCGFRは、顔のブレンディッシュをユーザフレンドリーにコントロールし、リアルで段階的なブレンディッシュのリタッチを実現します。 実際の臨床データに基づく実験結果は、CGFRがブレンディッシュの段階的回復過程を現実的にシミュレートできることを示している。

Face retouching aims to remove facial blemishes, such as pigmentation and acne, and still retain fine-grain texture details. Nevertheless, existing methods just remove the blemishes but focus little on realism of the intermediate process, limiting their use more to beautifying facial images on social media rather than being effective tools for simulating changes in facial pigmentation and ance. Motivated by this limitation, we propose our Controllable and Gradual Face Retouching (CGFR). Our CGFR is based on physical modelling, adopting Sum-of-Gaussians to approximate skin subsurface scattering in a decomposed melanin and haemoglobin color space. Our CGFR offers a user-friendly control over the facial blemishes, achieving realistic and gradual blemishes retouching. Experimental results based on actual clinical data shows that CGFR can realistically simulate the blemishes' gradual recovering process.
翻訳日:2024-06-21 23:09:15 公開日:2024-06-19
# AGSOA:平均勾配と構造最適化に基づくグラフニューラルネットワークターゲット攻撃

AGSOA:Graph Neural Network Targeted Attack Based on Average Gradient and Structure Optimization ( http://arxiv.org/abs/2406.13228v1 )

ライセンス: Link先を確認
Yang Chen, Bin Zhou, (参考訳) グラフニューラルネットワーク(GNN)は、グラフに小さな摂動を加えることで性能劣化を引き起こす敵攻撃に対して脆弱である。 グラディエントベースのアタックは最も一般的に使用されるメソッドの1つで、多くのアタックシナリオで優れたパフォーマンスを実現している。 しかし、現在の勾配攻撃は、局所的な最適状態に陥りやすく、攻撃の可視性が低いという問題に直面している。 特に、ほとんどの勾配攻撃は摂動を引き起こすために欲張り戦略を使い、これは攻撃の過小評価につながる。 さらに、多くの攻撃は攻撃の有効性のみを考慮し、攻撃の可視性を無視し、攻撃が容易に失敗につながるようにしている。 上記の問題に対処するために,平均勾配計算と構造最適化モジュールからなるAGSOAと呼ばれるGNNに対する攻撃を提案する。 平均勾配計算モジュールでは、全ての瞬間における勾配情報の平均を算出し、攻撃を誘導して乱れエッジを生成し、攻撃更新の方向を安定させ、望ましくない局所最大値を取り除く。 構造最適化モジュールでは、ターゲットノードと他のノードとの類似性と均一性を計算し、グラフ構造を調整し、攻撃の可視性と伝達性を改善する。 3つの一般的なデータセットに対する大規模な実験は、AGSOAが他の最先端モデルと比較して、誤分類率を2$\%$-8$\%$に改善していることを示している。

Graph Neural Networks(GNNs) are vulnerable to adversarial attack that cause performance degradation by adding small perturbations to the graph. Gradient-based attacks are one of the most commonly used methods and have achieved good performance in many attack scenarios. However, current gradient attacks face the problems of easy to fall into local optima and poor attack invisibility. Specifically, most gradient attacks use greedy strategies to generate perturbations, which tend to fall into local optima leading to underperformance of the attack. In addition, many attacks only consider the effectiveness of the attack and ignore the invisibility of the attack, making the attacks easily exposed leading to failure. To address the above problems, this paper proposes an attack on GNNs, called AGSOA, which consists of an average gradient calculation and a structre optimization module. In the average gradient calculation module, we compute the average of the gradient information over all moments to guide the attack to generate perturbed edges, which stabilizes the direction of the attack update and gets rid of undesirable local maxima. In the structure optimization module, we calculate the similarity and homogeneity of the target node's with other nodes to adjust the graph structure so as to improve the invisibility and transferability of the attack. Extensive experiments on three commonly used datasets show that AGSOA improves the misclassification rate by 2$\%$-8$\%$ compared to other state-of-the-art models.
翻訳日:2024-06-21 23:09:15 公開日:2024-06-19
# LLM訓練における言語間アライメントの創発性について

Probing the Emergence of Cross-lingual Alignment during LLM Training ( http://arxiv.org/abs/2406.13229v1 )

ライセンス: Link先を確認
Hetong Wang, Pasquale Minervini, Edoardo M. Ponti, (参考訳) 多言語大言語モデル(LLM)は、ゼロショットの多言語間転送性能を著しく向上させる。 これは、並列文からの明示的な監督なしに言語を調整できることを前提にしていると推測する。 異なる言語における翻訳等価文の表現は収束後に類似していることが知られているが、そのような言語間アライメントがLLMの事前学習中にどのように現れるかは定かではない。 本研究は, 言語的特徴をコードするニューロンのサブセットを同定する内在的探索手法を利用して, 言語間ニューロンの重複度を, 与えられたモデルに対するゼロショット言語間伝達性能と相関させる。 特に,多言語の自動回帰LDMであるBLOOMのチェックポイントを,さまざまなトレーニングステップやモデルスケールに頼っています。 我々は,ニューロンの重なり合いと下流性能の相関関係をよく観察し,実効的な言語間移動につながる条件の仮説を裏付ける。 また,事前学習プロセスの特定の段階における暗黙のアライメントと多言語能力の劣化を検知し,多言語事前学習のダイナミクスに関する新たな知見を提供する。

Multilingual Large Language Models (LLMs) achieve remarkable levels of zero-shot cross-lingual transfer performance. We speculate that this is predicated on their ability to align languages without explicit supervision from parallel sentences. While representations of translationally equivalent sentences in different languages are known to be similar after convergence, however, it remains unclear how such cross-lingual alignment emerges during pre-training of LLMs. Our study leverages intrinsic probing techniques, which identify which subsets of neurons encode linguistic features, to correlate the degree of cross-lingual neuron overlap with the zero-shot cross-lingual transfer performance for a given model. In particular, we rely on checkpoints of BLOOM, a multilingual autoregressive LLM, across different training steps and model scales. We observe a high correlation between neuron overlap and downstream performance, which supports our hypothesis on the conditions leading to effective cross-lingual transfer. Interestingly, we also detect a degradation of both implicit alignment and multilingual abilities in certain phases of the pre-training process, providing new insights into the multilingual pretraining dynamics.
翻訳日:2024-06-21 23:09:15 公開日:2024-06-19
# アクティベーションに基づく信頼度校正とガイドデコードによる言語モデルのファクタリティ向上

Enhancing Language Model Factuality via Activation-Based Confidence Calibration and Guided Decoding ( http://arxiv.org/abs/2406.13230v1 )

ライセンス: Link先を確認
Xin Liu, Farima Fatahi Bayat, Lu Wang, (参考訳) キャリブレーション言語モデル(LM)は、その生成信頼度を実際の正解率と整合させ、LMの信頼性をユーザーに通知し、幻覚的コンテンツを緩和する。 しかし、自己整合性に基づく手法やロジットに基づく手法のような事前校正手法は、推論時間の効率に制限があるか、情報信号の提供に不足している。 さらに、低信頼応答をフィルタリングするだけで、回答が正しければLMの有用性が低下する。 したがって、LMの事実性を高めるためにキャリブレーションを効果的に活用することは未解決の課題である。 本稿では,まず,アクティベーションに基づくキャリブレーション手法であるActCabを提案する。 ActCab上に構築されたCoDecは、信頼性の高い復号化戦略であり、LMからの信頼性の高い真理解を導き出す。 一般的な5つのQAベンチマークで評価することにより、ActCabは、平均的なキャリブレーション誤差(ECE)スコアを最大39%削減することで、全ての競合ベースライン、例えば、より優れたキャリブレーション性能を達成する。 CoDecのさらなる実験は、TrathfulQAのような挑戦的なQAデータセットに対するいくつかのLMの事実性に一貫した改善を示し、事実性を高める上での信頼信号の価値を強調している。

Calibrating language models (LMs) aligns their generation confidence with the actual likelihood of answer correctness, which can inform users about LMs' reliability and mitigate hallucinated content. However, prior calibration methods, such as self-consistency-based and logit-based approaches, are either limited in inference-time efficiency or fall short of providing informative signals. Moreover, simply filtering out low-confidence responses reduces the LM's helpfulness when the answers are correct. Therefore, effectively using calibration techniques to enhance an LM's factuality remains an unsolved challenge. In this paper, we first propose an activation-based calibration method, ActCab, which trains a linear layer on top of the LM's last-layer activations that can better capture the representations of knowledge. Built on top of ActCab, we further propose CoDec, a confidence-guided decoding strategy to elicit truthful answers with high confidence from LMs. By evaluating on five popular QA benchmarks, ActCab achieves superior calibration performance than all competitive baselines, e.g., by reducing the average expected calibration error (ECE) score by up to 39%. Further experiments on CoDec show consistent improvements in several LMs' factuality on challenging QA datasets, such as TruthfulQA, highlighting the value of confidence signals in enhancing factuality.
翻訳日:2024-06-21 23:09:15 公開日:2024-06-19
# ロバスト評価に向けて:大規模言語モデルにおけるオープンドメイン質問応答のためのデータセットとメトリクスの包括的分類

Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language Models ( http://arxiv.org/abs/2406.13232v1 )

ライセンス: Link先を確認
Akchay Srivastava, Atif Memon, (参考訳) 自然言語処理におけるオープンドメイン質問回答(ODQA)は,大規模知識コーパスを用いて,事実質問に回答するシステムを構築する。 最近の進歩は、大規模トレーニングデータセット、ディープラーニング技術、大規模言語モデルの台頭など、いくつかの要因が混在していることに起因している。 高品質なデータセットは、現実的なシナリオでモデルをトレーニングし、潜在的に見えないデータに基づいてシステムの評価を可能にするために使用される。 標準化されたメトリクスは、異なるODQAシステム間の比較を促進するため、研究者はフィールドの進歩を客観的に追跡することができる。 本研究では,52個のデータセットと20個の評価手法をテキスト・マルチモーダル・モダリティで検証し,ODQAベンチマークの現在の状況について詳細に検討する。 質問型のモダリティと難易度の両方を組み込んだODQAデータセットの新しい分類法を提案する。 さらに、ODQA評価指標の構造的組織と、それらの固有のトレードオフの批判的分析について述べる。 本研究は,現代の質問応答システムの堅牢性評価のための枠組みを提供することにより,研究者の力を高めることを目的としている。 我々は、現在の課題を特定し、将来の研究開発に向けての有望な道の概略を述べることで結論付けます。

Open Domain Question Answering (ODQA) within natural language processing involves building systems that answer factual questions using large-scale knowledge corpora. Recent advances stem from the confluence of several factors, such as large-scale training datasets, deep learning techniques, and the rise of large language models. High-quality datasets are used to train models on realistic scenarios and enable the evaluation of the system on potentially unseen data. Standardized metrics facilitate comparisons between different ODQA systems, allowing researchers to objectively track advancements in the field. Our study presents a thorough examination of the current landscape of ODQA benchmarking by reviewing 52 datasets and 20 evaluation techniques across textual and multimodal modalities. We introduce a novel taxonomy for ODQA datasets that incorporates both the modality and difficulty of the question types. Additionally, we present a structured organization of ODQA evaluation metrics along with a critical analysis of their inherent trade-offs. Our study aims to empower researchers by providing a framework for the robust evaluation of modern question-answering systems. We conclude by identifying the current challenges and outlining promising avenues for future research and development.
翻訳日:2024-06-21 23:09:15 公開日:2024-06-19
# AdaMoE:Mixture-of-Experts言語モデルのためのNull専門家によるToken-Adaptive Routing

AdaMoE: Token-Adaptive Routing with Null Experts for Mixture-of-Experts Language Models ( http://arxiv.org/abs/2406.13233v1 )

ライセンス: Link先を確認
Zihao Zeng, Yibo Miao, Hongcheng Gao, Hao Zhang, Zhijie Deng, (参考訳) 運用レベルの大規模言語モデル(LLM)を構築する上では,Mixture of Expert (MoE) が標準となっている。 それにもかかわらず、既存のMoEメソッドは通常、すべてのトークンに対して一定のトップkルーティングを強制するが、これは、様々なトークン(例: "<EOS>" 対 "apple")が機能抽象化のために様々な専門家を必要とするため、明らかに制限的である。 このような制約を緩和することは、限られたリソースを最大限に活用し、下流タスクのためのモデルの可能性を解き放つのに役立ちます。 この意味で、AdaMoEを導入して、さまざまなトークンがさまざまな専門家を選択することができるMoEのトークン適応ルーティングを実現する。 AdaMoEは、トップkルーティングでバニラMoEを最小限に修正する -- 単に、FLOPを消費しない固定数のnull専門家を専門家セットに導入し、kの値を増加させるだけである。 AdaMoEは、各トークンに一定の数のnullエキスパートを占有させるのではなく、ロードバランシング損失を持つnullエキスパートの平均使用量を保証し、各トークンで使用されるnull/trueエキスパートの適応数に繋がる。 AdaMoEは、厳密な自動回帰モデリングを可能にしながら、専門家による選択ルーティングを備えたMoEと非常によく似ている。 AdaMoEは実装が容易で、事前訓練された(MoE-)LLMにも効果的に適用できる。 大規模な研究により、AdaMoEは優れた性能を保ちながら、平均的専門家負荷(FLOP)を低減できることが示された。 例えば、ARC-Cデータセットでは、Mixtral-8x7Bの微調整にこの手法を適用すると、FLOPを14.5%削減でき、精度は1.69%向上する。

Mixture of experts (MoE) has become the standard for constructing production-level large language models (LLMs) due to its promise to boost model capacity without causing significant overheads. Nevertheless, existing MoE methods usually enforce a constant top-k routing for all tokens, which is arguably restrictive because various tokens (e.g., "<EOS>" vs. "apple") may require various numbers of experts for feature abstraction. Lifting such a constraint can help make the most of limited resources and unleash the potential of the model for downstream tasks. In this sense, we introduce AdaMoE to realize token-adaptive routing for MoE, where different tokens are permitted to select a various number of experts. AdaMoE makes minimal modifications to the vanilla MoE with top-k routing -- it simply introduces a fixed number of null experts, which do not consume any FLOPs, to the expert set and increases the value of k. AdaMoE does not force each token to occupy a fixed number of null experts but ensures the average usage of the null experts with a load-balancing loss, leading to an adaptive number of null/true experts used by each token. AdaMoE exhibits a strong resemblance to MoEs with expert choice routing while allowing for trivial auto-regressive modeling. AdaMoE is easy to implement and can be effectively applied to pre-trained (MoE-)LLMs. Extensive studies show that AdaMoE can reduce average expert load (FLOPs) while achieving superior performance. For example, on the ARC-C dataset, applying our method to fine-tuning Mixtral-8x7B can reduce FLOPs by 14.5% while increasing accuracy by 1.69%.
翻訳日:2024-06-21 23:09:15 公開日:2024-06-19
# グラフ認識学習による言語モデル駆動レコメンデーションの協調的セマンティクスの強化

Enhancing Collaborative Semantics of Language Model-Driven Recommendations via Graph-Aware Learning ( http://arxiv.org/abs/2406.13235v1 )

ライセンス: Link先を確認
Zhong Guan, Likang Wu, Hongke Zhao, Ming He, Jianpin Fan, (参考訳) 大規模言語モデル(LLM)は、レコメンデーションシステムドメインにおいてますます顕著になっている。 既存の研究は通常、LLMをレコメンデーションに合わせるために、コンテキスト内学習やタスク固有のデータの教師付き微調整を利用する。 しかし、言語処理タスクとレコメンデーションタスクの間の意味空間のかなりのバイアスは、無視できない課題を引き起こす。 特に、協調情報の適切な捕捉能力がなければ、既存のモデリングパラダイムはコミュニティグループ内の行動パターンを捉えるのに苦労し、レコメンデーションシナリオにおける暗黙的な相互作用の意味を識別するLLMの非効率性に繋がる。 これを解決するために,構造化データに対する言語モデル駆動レコメンデーションモデルの学習能力の向上を検討する。 本稿では,言語モデル駆動レコメンデーション(GAL-Rec)のためのグラフ認識学習を提案する。 GAL-Recは、マルチホップ情報を集約するグラフニューラルネットワーク(GNN)の意図を模倣し、LLMの実質的な学習能力をフル活用して、レコメンデーションシステムにおける複雑なグラフに独立して対処することで、ユーザとイテムの協調的セマンティクスの理解を強化する。 3つの実世界のデータセットに対する十分な実験結果から、GAL-Recは協調的セマンティクスの理解を著しく向上し、レコメンデーション性能を向上させることが示されている。

Large Language Models (LLMs) are increasingly prominent in the recommendation systems domain. Existing studies usually utilize in-context learning or supervised fine-tuning on task-specific data to align LLMs into recommendations. However, the substantial bias in semantic spaces between language processing tasks and recommendation tasks poses a nonnegligible challenge. Specifically, without the adequate capturing ability of collaborative information, existing modeling paradigms struggle to capture behavior patterns within community groups, leading to LLMs' ineffectiveness in discerning implicit interaction semantic in recommendation scenarios. To address this, we consider enhancing the learning capability of language model-driven recommendation models for structured data, specifically by utilizing interaction graphs rich in collaborative semantics. We propose a Graph-Aware Learning for Language Model-Driven Recommendations (GAL-Rec). GAL-Rec enhances the understanding of user-item collaborative semantics by imitating the intent of Graph Neural Networks (GNNs) to aggregate multi-hop information, thereby fully exploiting the substantial learning capacity of LLMs to independently address the complex graphs in the recommendation system. Sufficient experimental results on three real-world datasets demonstrate that GAL-Rec significantly enhances the comprehension of collaborative semantics, and improves recommendation performance.
翻訳日:2024-06-21 22:59:30 公開日:2024-06-19
# データ汚染は言語間バリアになり得る

Data Contamination Can Cross Language Barriers ( http://arxiv.org/abs/2406.13236v1 )

ライセンス: Link先を確認
Feng Yao, Yufan Zhuang, Zihao Sun, Sunan Xu, Animesh Kumar, Jingbo Shang, (参考訳) 大規模言語モデル(LLM)の開発における不透明さは、事前学習データにおける公開ベンチマークの汚染の可能性への懸念が高まっている。 既存の汚染検出法は通常、トレーニングと評価データ間のテキスト重なり合いに基づいており、より深い汚染形態を反映するには表面的すぎる可能性がある。 本稿では,まず,LLMsを変換したベンチマークテストセットに対して,LLMsを過度に適合させて意図的に注入しながら,LLMsの性能を増大させる,言語横断的な汚染方式を提案する。 そこで我々は,このような汚染を深く隠蔽する一般化に基づく手法を提案する。 具体的には、元のベンチマークを変更した後のLCMの性能変化について、偽解の選択を他の質問の正解に置き換えることによって検討する。 汚染されたモデルは、すべての選択が記憶において正しいので、偽の選択が 'emph{not even wrong' であるようなより簡単な状況にほとんど一般化できない。 実験結果から,既存の検出手法を騙すことは容易であるが,本研究の成果は得られなかった。 さらに,LLMの動作機構の解釈や,多言語機能向上のための後学習における言語間汚染の可能性についても検討した。 使用するコードとデータセットは \url{https://github.com/ShangDataLab/Deep-Contam} から取得できます。

The opacity in developing large language models (LLMs) is raising growing concerns about the potential contamination of public benchmarks in the pre-training data. Existing contamination detection methods are typically based on the text overlap between training and evaluation data, which can be too superficial to reflect deeper forms of contamination. In this paper, we first present a cross-lingual form of contamination that inflates LLMs' performance while evading current detection methods, deliberately injected by overfitting LLMs on the translated versions of benchmark test sets. Then, we propose generalization-based approaches to unmask such deeply concealed contamination. Specifically, we examine the LLM's performance change after modifying the original benchmark by replacing the false answer choices with correct ones from other questions. Contaminated models can hardly generalize to such easier situations, where the false choices can be \emph{not even wrong}, as all choices are correct in their memorization. Experimental results demonstrate that cross-lingual contamination can easily fool existing detection methods, but not ours. In addition, we discuss the potential utilization of cross-lingual contamination in interpreting LLMs' working mechanisms and in post-training LLMs for enhanced multilingual capabilities. The code and dataset we use can be obtained from \url{https://github.com/ShangDataLab/Deep-Contam}.
翻訳日:2024-06-21 22:59:30 公開日:2024-06-19
# ModelMix:Few-Scribbleをベースとした心臓セグメンテーションのためのリスク最小化のための新しいモデルミクスアップ戦略

ModelMix: A New Model-Mixup Strategy to Minimize Vicinal Risk across Tasks for Few-scribble based Cardiac Segmentation ( http://arxiv.org/abs/2406.13237v1 )

ライセンス: Link先を確認
Ke Zhang, Vishal M. Patel, (参考訳) ピクセルレベルの高密度ラベリングはリソース集約的かつ時間を要するが、スクリブルのような弱いラベルは完全なアノテーションの代替となる。 しかし、スクリブルからの監督が弱いセグメンテーションネットワークの訓練は依然として困難である。 異なるセグメンテーションタスクを相互に関連付けることができるという事実に着想を得て,モデルパラメータ補間に基づくスクリブル制御セグメンテーションに新たなアプローチを導入する。 畳み込みカーネルとバイアス項の線形補間が対応する特徴ベクトルの線形補間をもたらすという以前の知識を活用して、ModelMixは、畳み込みパラメータの凸結合を別のエンコーダから構築する。 次に、教師なしとスクリブル付きの両方の方法で、タスク間のビジナルリスクを最小限に抑えるために、モデルセットを正規化します。 ACDC、MSCMRseg、MyoPSの3つのオープンデータセットで検証されたModelMixは、最先端のスクリブル管理手法の性能を大幅に上回っている。

Pixel-level dense labeling is both resource-intensive and time-consuming, whereas weak labels such as scribble present a more feasible alternative to full annotations. However, training segmentation networks with weak supervision from scribbles remains challenging. Inspired by the fact that different segmentation tasks can be correlated with each other, we introduce a new approach to few-scribble supervised segmentation based on model parameter interpolation, termed as ModelMix. Leveraging the prior knowledge that linearly interpolating convolution kernels and bias terms should result in linear interpolations of the corresponding feature vectors, ModelMix constructs virtual models using convex combinations of convolutional parameters from separate encoders. We then regularize the model set to minimize vicinal risk across tasks in both unsupervised and scribble-supervised way. Validated on three open datasets, i.e., ACDC, MSCMRseg, and MyoPS, our few-scribble guided ModelMix significantly surpasses the performance of the state-of-the-art scribble supervised methods.
翻訳日:2024-06-21 22:59:30 公開日:2024-06-19
# 運動インダクタンス増幅器からの経路-絡み合った放射

Path-entangled radiation from kinetic inductance amplifier ( http://arxiv.org/abs/2406.13239v1 )

ライセンス: Link先を確認
Abdul Mohamed, Shabir Barzanjeh, (参考訳) アインシュタイン-ポドルスキー-ローゼン状態(Einstein-Podolsky-Rosen state)は、量子テレポーテーションや通信から量子センシングまで、空間的に分離された量子状態である。 EPR状態の効率的な生成と利用は、特にマイクロ波領域において量子技術の進歩に不可欠である。 そこで本研究では,定常路絡みマイクロ波放射を発生させる運動インダクタンス量子制限増幅器について紹介する。 従来のジョセフソン接合回路とは異なり、我々の設計は簡易な製造と運用上の利点を提供する。 単一モード圧縮状態を生成し、マイクロ波共振器の異なるポートに分散することにより、共振器の出力で分散絡み合った状態を決定的に生成する。 エンタングルメントの実験的検証に加えて,運動インダクタンス超伝導回路における経路絡み状態の生成を記述するため,ビームスプリッタ画像を用いた簡単な理論モデルを提案する。 この研究は、量子テレポーテーション、分散量子コンピューティング、拡張量子センシングなどの実用的な応用のための有望な技術として、運動インダクタンスパラメトリック増幅器の可能性を強調している。 さらに、量子力学の基礎的なテストや次世代の量子情報技術の進歩にも貢献できる。

Continuous variable entangled radiation, known as Einstein-Podolsky-Rosen (EPR) states, are spatially separated quantum states with applications ranging from quantum teleportation and communication to quantum sensing. The ability to efficiently generate and harness EPR states is vital for advancements of quantum technologies, particularly in the microwave domain. Here, we introduce a kinetic inductance quantum-limited amplifier that generates stationary path-entangled microwave radiation. Unlike traditional Josephson junction circuits, our design offers simplified fabrication and operational advantages. By generating single-mode squeezed states and distributing them to different ports of a microwave resonator, we deterministically create distributed entangled states at the output of the resonator. In addition to the experimental verification of entanglement, we present a simple theoretical model using a beam-splitter picture to describe the generation of path-entangled states in kinetic inductance superconducting circuits. This work highlights the potential of kinetic inductance parametric amplifiers, as a promising technology, for practical applications such as quantum teleportation, distributed quantum computing, and enhanced quantum sensing. Moreover, it can contribute to foundational tests of quantum mechanics and advances in next-generation quantum information technologies.
翻訳日:2024-06-21 22:59:30 公開日:2024-06-19
# GSR-BENCH:マルチモーダルLLMによる地上空間推論評価ベンチマーク

GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs ( http://arxiv.org/abs/2406.13246v1 )

ライセンス: Link先を確認
Navid Rajabi, Jana Kosecka, (参考訳) 画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。 このスキルは、興味のある物体を認識し、その空間的関係を決定する能力に依存している。 初期の視覚と言語モデル(VLM)は空間的関係を認識するのに苦労していることが示されている。 我々は、以前リリースされたWhat'sUpデータセットを拡張し、27種類のモデルの長所と短所を強調する空間関係理解のための新しい総合的な評価を提案する。 What'sUpで評価されたVLMに加えて、パラメータサイズ(7Bから110Bの範囲)、トレーニング/インストラクション-チューニング方法、そしてそれらのパフォーマンスをベンチマークし、このタスクにおけるスケーリング法則を精査する視覚的解像度の3つのクラス(MLLM)を含む広範囲な評価を行った。

The ability to understand and reason about spatial relationships between objects in images is an important component of visual reasoning. This skill rests on the ability to recognize and localize objects of interest and determine their spatial relation. Early vision and language models (VLMs) have been shown to struggle to recognize spatial relations. We extend the previously released What'sUp dataset and propose a novel comprehensive evaluation for spatial relationship understanding that highlights the strengths and weaknesses of 27 different models. In addition to the VLMs evaluated in What'sUp, our extensive evaluation encompasses 3 classes of Multimodal LLMs (MLLMs) that vary in their parameter sizes (ranging from 7B to 110B), training/instruction-tuning methods, and visual resolution to benchmark their performances and scrutinize the scaling laws in this task.
翻訳日:2024-06-21 22:59:30 公開日:2024-06-19
# R^2AG:検索情報を検索拡張世代に組み込む

R^2AG: Incorporating Retrieval Information into Retrieval Augmented Generation ( http://arxiv.org/abs/2406.13249v1 )

ライセンス: Link先を確認
Fuda Ye, Shuangyin Li, Yongqi Zhang, Lei Chen, (参考訳) Retrieval augmented generation (RAG) は、検索者によって提供される外部文書で大規模言語モデル(LLM)を拡張するために、多くのシナリオで適用されてきた。 しかし、学習目的やアーキテクチャの違いにより、LLMとレトリバーの間に意味的なギャップが存在する。 このミスアライメントにより、LLMは、レトリバーが提供する文書を受動的に受け入れることになり、ジェネレーションプロセスにおいて、LLMはそれらの文書を固有の知識を使って区別するタスクに負担をかけることになる。 本稿では,R$^2$AGを提案する。R$^2$AGはRetrieval情報をRetrieval Augmented Generationに組み込むことで,このギャップを埋める新しいRAGフレームワークである。 具体的には、R$^2$AGは検索者のニュアンスされた特徴を利用し、R$^2$-Formerを使って検索情報をキャプチャする。 次に、LLMの生成に検索情報を統合するための検索対応プロンプト戦略を設計する。 特に、R$^2$AGは、LLMとレトリバーが凍結されるローソースシナリオに適合する。 5つのデータセットにわたる大規模な実験は、R$^2$AGの有効性、堅牢性、効率を検証した。 解析の結果,検索情報は生成過程においてLLMを支援するアンカーとして機能し,セマンティックギャップを埋めることがわかった。

Retrieval augmented generation (RAG) has been applied in many scenarios to augment large language models (LLMs) with external documents provided by retrievers. However, a semantic gap exists between LLMs and retrievers due to differences in their training objectives and architectures. This misalignment forces LLMs to passively accept the documents provided by the retrievers, leading to incomprehension in the generation process, where the LLMs are burdened with the task of distinguishing these documents using their inherent knowledge. This paper proposes R$^2$AG, a novel enhanced RAG framework to fill this gap by incorporating Retrieval information into Retrieval Augmented Generation. Specifically, R$^2$AG utilizes the nuanced features from the retrievers and employs a R$^2$-Former to capture retrieval information. Then, a retrieval-aware prompting strategy is designed to integrate retrieval information into LLMs' generation. Notably, R$^2$AG suits low-source scenarios where LLMs and retrievers are frozen. Extensive experiments across five datasets validate the effectiveness, robustness, and efficiency of R$^2$AG. Our analysis reveals that retrieval information serves as an anchor to aid LLMs in the generation process, thereby filling the semantic gap.
翻訳日:2024-06-21 22:59:30 公開日:2024-06-19
# LangTopo: トポロジカルモデリングによるグラフの言語記述の調整

LangTopo: Aligning Language Descriptions of Graphs with Tokenized Topological Modeling ( http://arxiv.org/abs/2406.13250v1 )

ライセンス: Link先を確認
Zhong Guan, Hongke Zhao, Likang Wu, Ming He, Jianpin Fan, (参考訳) 近年,大規模言語モデル (LLM) は,言語理解や学習において優れた能力を持つため,グラフ機械学習の分野で広く研究されている。 しかし、自然言語タスクとトポロジカル構造モデリングの間の大きなギャップは、無視できない課題を招いている。 特に、LLMがグラフ構造データを理解し処理するのには自然言語の記述が不十分であるため、微調整されたLLMはグラフ構造に固有のモデリング機能がないため、グラフ上の従来のGNNモデルよりもさらにパフォーマンスが悪くなる。 既存の研究は、LLMが外部モデルで捉えた意味情報の理解を過度に強調する一方で、グラフトポロジカルな構造モデリングを不十分に探求し、LLMに欠けている真の能力を見落としている。 そこで本稿では,グラフ構造モデリングと自然言語理解をトークンレベルで整合させる新しいフレームワークであるLangTopoを紹介する。 LangTopoは、グラフモダリティのためのコードブックを構築し、一貫性を最大化することで、GNNとLLMのグラフ構造モデリング能力を定量化する。 このプロセスは、LLMのテキスト記述とGNNのトポロジ的モデリングを一致させ、LLMはGNNがグラフ構造をキャプチャする能力を学ぶことができ、LLMはグラフ構造データを独立して扱うことができる。 複数のデータセットに対して提案手法の有効性を示す。

Recently, large language models (LLMs) have been widely researched in the field of graph machine learning due to their outstanding abilities in language comprehension and learning. However, the significant gap between natural language tasks and topological structure modeling poses a nonnegligible challenge. Specifically, since natural language descriptions are not sufficient for LLMs to understand and process graph-structured data, fine-tuned LLMs perform even worse than some traditional GNN models on graph tasks, lacking inherent modeling capabilities for graph structures. Existing research overly emphasizes LLMs' understanding of semantic information captured by external models, while inadequately exploring graph topological structure modeling, thereby overlooking the genuine capabilities that LLMs lack. Consequently, in this paper, we introduce a new framework, LangTopo, which aligns graph structure modeling with natural language understanding at the token level. LangTopo quantifies the graph structure modeling capabilities of GNNs and LLMs by constructing a codebook for the graph modality and performs consistency maximization. This process aligns the text description of LLM with the topological modeling of GNN, allowing LLM to learn the ability of GNN to capture graph structures, enabling LLM to handle graph-structured data independently. We demonstrate the effectiveness of our proposed method on multiple datasets.
翻訳日:2024-06-21 22:59:30 公開日:2024-06-19
# Freq-Mip-AA : 反エイリアス性神経放射場に対する周波数ミップ表現

Freq-Mip-AA : Frequency Mip Representation for Anti-Aliasing Neural Radiance Fields ( http://arxiv.org/abs/2406.13251v1 )

ライセンス: Link先を確認
Youngin Park, Seungtae Nam, Cheul-hee Hahm, Eunbyung Park, (参考訳) ニューラル・ラジアンス・フィールズ(NeRF)は、3Dシーンを表現し、新しいビューを生成するのに顕著な成功を収めた。 しかし、トレーニングビューから異なるカメラ距離の画像をレンダリングする際には、アーティファクトのエイリアスに苦労することが多い。 この問題に対処するため、Mip-NeRFはボリュームフラストラムを用いてピクセルを描画し、統合位置符号化(IPE)を提案する。 このアプローチは効果的だが、MLPアーキテクチャに依存しているため、長いトレーニング時間を必要とする。 本研究では,グリッドベース表現を用いた新しいアンチエイリアス手法を提案する。 さらに、サンプリング定理に着想を得たエイリアス問題に対処するために周波数領域表現を利用する。 提案手法は,LPFと学習可能な周波数マスクを用いたFreqMipAAである。 スケール固有のローパスフィルタ(LPF)は、重要な画像の詳細のエイリアスや優先順位付けを防止し、学習可能なマスクは必須情報を保持しながら問題のある高周波要素を効果的に除去する。 スケール固有のLPFとトレーニング可能なマスクを使用することで、FreqMipAAは重要な詳細を保持しながらエイリアス因子を効果的に除去することができる。 提案手法を広範に用いたグリッド方式に組み込むことで検証した。 実験の結果、FreqMipAAはエイリアス問題を効果的に解決し、マルチスケールのBlenderデータセットで最先端の結果を達成した。 私たちのコードはhttps://github.com/yi0109/FreqMipAAで利用可能です。

Neural Radiance Fields (NeRF) have shown remarkable success in representing 3D scenes and generating novel views. However, they often struggle with aliasing artifacts, especially when rendering images from different camera distances from the training views. To address the issue, Mip-NeRF proposed using volumetric frustums to render a pixel and suggested integrated positional encoding (IPE). While effective, this approach requires long training times due to its reliance on MLP architecture. In this work, we propose a novel anti-aliasing technique that utilizes grid-based representations, usually showing significantly faster training time. In addition, we exploit frequency-domain representation to handle the aliasing problem inspired by the sampling theorem. The proposed method, FreqMipAA, utilizes scale-specific low-pass filtering (LPF) and learnable frequency masks. Scale-specific low-pass filters (LPF) prevent aliasing and prioritize important image details, and learnable masks effectively remove problematic high-frequency elements while retaining essential information. By employing a scale-specific LPF and trainable masks, FreqMipAA can effectively eliminate the aliasing factor while retaining important details. We validated the proposed technique by incorporating it into a widely used grid-based method. The experimental results have shown that the FreqMipAA effectively resolved the aliasing issues and achieved state-of-the-art results in the multi-scale Blender dataset. Our code is available at https://github.com/yi0109/FreqMipAA .
翻訳日:2024-06-21 22:59:30 公開日:2024-06-19
# 現実世界におけるスマートコントラクト - 外部データ依存の統計的探索

Smart Contracts in the Real World: A Statistical Exploration of External Data Dependencies ( http://arxiv.org/abs/2406.13253v1 )

ライセンス: Link先を確認
Yishun Wang, Xiaoqi Li, Wenkai Li, Xin Wang, (参考訳) スマートコントラクトは、外部データとの相互作用のため、さまざまな機能を実装する上で重要である。 しかし、この相互作用はセキュリティと信頼性の観点からも課題を呈している。 スマートコントラクトと外部データとの相互作用に関する統計的、定量的研究が欠如している。 このギャップを埋めるため、古いものやコンパイルエラーのあるものを除いて、10,500個の実際のスマートコントラクトを精査し、9,356個の有効なサンプルを選択します。 コード解析技術を利用して、この研究はコントラクトコードを抽象構文木(AST)に変換し、コード解析を通じて外部データ依存性に関連するキーワードを抽出した。 ASTをキーワードリストと比較することにより、外部データインタラクションを含む契約数と比率を定量的に分析する。 さらに,3600件以上のセキュリティ監査報告を収集し,外部データインタラクションに関する249件(約9%)のレポートを手作業でフィルタリングし,外部データ依存関係を分類する。 また、スマートコントラクトの複雑さと外部データへの依存との関係についても検討する。

Smart contracts are pivotal for implementing various functions due to their interactivity with external data. However, this interactivity also presents challenges in terms of security and reliability. There is a lack of statistical and quantitative research on the interaction between smart contracts and external data. To fill this gap, we thoroughly examine 10,500 actual smart contracts to select 9,356 valid samples, excluding those that are outdated or have compilation errors. Utilizing code parsing techniques, the study transformed contract code into Abstract Syntax Trees (ASTs) and extracted keywords related to external data dependency through code analysis. By comparing the ASTs with the keyword list, we conduct a quantitative analysis of the number and proportion of contracts involving external data interaction. Furthermore, we collect over 3,600 security audit reports and manually filter 249 (approximately 9%) reports related to external data interaction, categorizing the external data dependency in these contracts. We also explore the relationship between the complexity of smart contracts and their dependence on external data.
翻訳日:2024-06-21 22:59:30 公開日:2024-06-19
# 木による推論:階層構造を用いたCNNの解釈

Reasoning with trees: interpreting CNNs using hierarchies ( http://arxiv.org/abs/2406.13257v1 )

ライセンス: Link先を確認
Caroline Mazini Rodrigues, Nicolas Boutry, Laurent Najman, (参考訳) 課題は、説明可能なAI(xAI)において、ニューラルネットワーク推論の解釈可能な説明を提供することにある。 統合グラディエントのような既存の手法はノイズの多いマップを生成し、LIMEは直感的であるが、モデルの推論から逸脱する可能性がある。 本稿では,畳み込みニューラルネットワーク(CNN)の忠実かつ解釈可能な説明に階層的セグメンテーション技術を用いるフレームワークを提案する。 本手法はモデルに基づく階層的セグメンテーションを構築し,モデルの推論忠実性を維持し,人間中心とモデル中心のセグメンテーションの両方を可能にする。 このアプローチは、マルチスケールの説明、バイアス識別の支援、ニューラルネットワークの意思決定の理解の強化を提供する。 実験により、我々のフレームワークであるxAiTreesは、従来のxAIメソッドを超えるだけでなく、xAIの解釈可能性を高める新しいアプローチに新たな光を当てることで、高度に解釈可能で忠実なモデル説明を提供します。 コードネームは、https://github.com/CarolMazini/reasoning_with_trees。

Challenges persist in providing interpretable explanations for neural network reasoning in explainable AI (xAI). Existing methods like Integrated Gradients produce noisy maps, and LIME, while intuitive, may deviate from the model's reasoning. We introduce a framework that uses hierarchical segmentation techniques for faithful and interpretable explanations of Convolutional Neural Networks (CNNs). Our method constructs model-based hierarchical segmentations that maintain the model's reasoning fidelity and allows both human-centric and model-centric segmentation. This approach offers multiscale explanations, aiding bias identification and enhancing understanding of neural network decision-making. Experiments show that our framework, xAiTrees, delivers highly interpretable and faithful model explanations, not only surpassing traditional xAI methods but shedding new light on a novel approach to enhancing xAI interpretability. Code at: https://github.com/CarolMazini/reasoning_with_trees .
翻訳日:2024-06-21 22:59:30 公開日:2024-06-19
# 量子後暗号の応用

Applications of Post-quantum Cryptography ( http://arxiv.org/abs/2406.13258v1 )

ライセンス: Link先を確認
Emils Bagirovs, Grigory Provodin, Tuomo Sipola, Jari Hautamäki, (参考訳) 量子コンピュータの絶えず進歩する能力により、複雑な数学問題に依存する従来の暗号システムは、予期せぬ脆弱性に遭遇する可能性がある。 暗号攻撃ではコスト非効率と見なされる通常のコンピュータとは異なり、量子コンピュータは計算速度において大きな利点がある。 この区別は、現在使われているアルゴリズムの安全性を低下させるか、あるいは完全に脆弱にする可能性があり、量子脅威に対する最も合理的な解決策として、量子後暗号(PQC)の探索を説得する。 このレビューは、PQCに関連するアプリケーション、メリット、課題に関する現在の情報を提供することを目的としている。 このレビューでは、2022年と2023年に制限された範囲の体系的なスクーピングのレビューを採用しており、この論文では科学雑誌に掲載された記事のみが使用された。 このレビューでは、様々な分野における量子コンピューティングの適用について論じている。 しかし,本論文の範囲はPQCの領域に限定された。 その後、格子ベース、ハッシュベース、コードベース、多変量多項式、等質暗号など様々なPQCアルゴリズムを解析する。 それぞれのアルゴリズムは、潜在的な応用、堅牢性、課題に基づいて判断される。 分析されたアルゴリズムはすべて、デジタルシグネチャ、通信チャネル、IoTといったアプリケーションにおいて、クォータ後の時代に期待されている。 さらに、いくつかのアルゴリズムは、銀行取引、通信、知的財産の領域で既に実装されている。 一方、それらの可能性にもかかわらず、これらのアルゴリズムは標準化の欠如、大量のストレージと計算能力を必要とし、何年もの暗号解析でしか発見できない未知の脆弱性を抱えているため、深刻な課題に直面している。

With the constantly advancing capabilities of quantum computers, conventional cryptographic systems relying on complex math problems may encounter unforeseen vulnerabilities. Unlike regular computers, which are often deemed cost-ineffective in cryptographic attacks, quantum computers have a significant advantage in calculation speed. This distinction potentially makes currently used algorithms less secure or even completely vulnerable, compelling the exploration of post-quantum cryptography (PQC) as the most reasonable solution to quantum threats. This review aims to provide current information on applications, benefits, and challenges associated with the PQC. The review employs a systematic scoping review with the scope restricted to the years 2022 and 2023; only articles that were published in scientific journals were used in this paper. The review examined the articles on the applications of quantum computing in various spheres. However, the scope of this paper was restricted to the domain of the PQC because most of the analyzed articles featured this field. Subsequently, the paper is analyzing various PQC algorithms, including lattice-based, hash-based, code-based, multivariate polynomial, and isogeny-based cryptography. Each algorithm is being judged based on its potential applications, robustness, and challenges. All the analyzed algorithms are promising for the post-quantum era in such applications as digital signatures, communication channels, and IoT. Moreover, some of the algorithms are already implemented in the spheres of banking transactions, communication, and intellectual property. Meanwhile, despite their potential, these algorithms face serious challenges since they lack standardization, require vast amounts of storage and computation power, and might have unknown vulnerabilities that can be discovered only with years of cryptanalysis.
翻訳日:2024-06-21 22:59:30 公開日:2024-06-19
# 量子コンピューティングのサイバー保護応用 : レビュー

Cyber Protection Applications of Quantum Computing: A Review ( http://arxiv.org/abs/2406.13259v1 )

ライセンス: Link先を確認
Ummar Ahmed, Tuomo Sipola, Jari Hautamäki, (参考訳) 量子コンピューティング(Quantum Computing)は、量子力学の原理を利用して計算を行う情報技術の最先端分野である。 これはサイバーセキュリティ産業に大きな影響を与える。 既存のサイバー保護アプリケーションはうまく機能しているが、コンピュータネットワークには依然として課題と脆弱性がある。 データやプライバシーも侵害されることがある。 これらの合併症は、量子コンピューティングのどんなサイバー保護アプリケーションがあるのか、サイバー保護にどんな方法やテクニックが使えるのか、という研究の疑問に繋がる。 これらの疑問は、量子コンピューティングがどれだけのパワーを持ち、それが従来のコンピューティングシステムよりどの程度優れているかを明らかにする。 このスコーピングのレビューは815の論文を考慮して行われた。 量子技術がサイバー環境で実装された場合、実現可能な可能性を示した。 このスコーピングレビューでは、アルゴリズムやアプリケーション、バイオインフォマティクス、クラウドとエッジコンピューティング、複雑なシステムの組織化、セキュリティと脅威に焦点を当てたアプリケーション領域、より広範な量子コンピューティングエコシステムなど、さまざまな領域について論じている。 これらの分野では、量子コンピューティングが実装され、作業環境に革命をもたらすための重要なスコープがある。 サイバー保護のための多くの量子コンピューティングアプリケーションと、データとプライバシを保護するための多くのテクニックが同定された。 結果はネットワークセキュリティに限らず、データセキュリティも含んでいる。 本稿では、社会科学における量子コンピューティングの応用など、社会的側面についても論じる。 このスクーピングレビューでは、様々なサイバーセキュリティドメインにおける量子コンピューティングの効率性とセキュリティの強化について論じる。 さらに、これは読者に、サイバー世界を保護するためにどんな技術や方法が展開できるかを考えることを奨励する。

Quantum computing is a cutting-edge field of information technology that harnesses the principles of quantum mechanics to perform computations. It has major implications for the cyber security industry. Existing cyber protection applications are working well, but there are still challenges and vulnerabilities in computer networks. Sometimes data and privacy are also compromised. These complications lead to research questions asking what kind of cyber protection applications of quantum computing are there and what potential methods or techniques can be used for cyber protection? These questions will reveal how much power quantum computing has and to what extent it can outperform the conventional computing systems. This scoping review was conducted by considering 815 papers. It showed the possibilities that can be achievedif quantum technologies are implemented in cyber environments. This scoping review discusses various domains such as algorithms and applications, bioinformatics, cloud and edge computing, the organization of complex systems, application areas focused on security and threats, and the broader quantum computing ecosystem. In each of these areas, there is significant scope for quantum computing to be implemented and to revolutionize the working environment. Numerous quantum computing applications for cyber protection and a number of techniques to protect our data and privacy were identified. The results are not limited to network security but also include data security. This paper also discusses societal aspects, e.g., the applications of quantum computing in the social sciences. This scoping review discusses how to enhance the efficiency and security of quantum computing in various cyber security domains. Additionally, it encourages the reader to think about what kind of techniques and methods can be deployed to secure the cyber world.
翻訳日:2024-06-21 22:59:30 公開日:2024-06-19
# BeHonest: 大規模言語モデルのベンチマーク

BeHonest: Benchmarking Honesty of Large Language Models ( http://arxiv.org/abs/2406.13261v1 )

ライセンス: Link先を確認
Steffi Chern, Zhulin Hu, Yuqing Yang, Ethan Chern, Yuan Guo, Jiahe Jin, Binjie Wang, Pengfei Liu, (参考訳) LLM(Large Language Models)に関するこれまでの研究は、主に、その有用性や無害性を評価することに重点を置いてきた。 しかし、もう1つの重要なアライメント基準である正直さは、比較的注目を集めていない。 LLMにおける不名誉な行動は、誤報を広めたり、ユーザーを欺いたり、ユーザーの信頼を損なったり、現実世界の危害を招いたりし、これらのモデルが超知能レベルに近づくと、深刻なリスクが増す。 LLMにおける誠実さの強化は、重大な欠陥に対処し、容易に表現できない潜在能力を明らかにするのに役立つ。 このことは、LCMの誠実さを効果的に保証し評価するために、信頼性の高い方法やベンチマークが緊急に必要であることを示している。 本稿では,LLMにおける誠実さを総合的に評価するための先駆的ベンチマークであるBeHonestを紹介する。 BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。 この基盤に基づいて、我々は、さまざまなモデルサイズを持つ異なるモデルファミリのクローズドソースモデルとオープンソースモデルを含む、市場で人気のある9つのLCMを評価し、分析するための10のシナリオを設計した。 以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。 また、LLMにおける誠実な調整を優先するようAIコミュニティに勧めます。 ベンチマークとコードは以下の通りです。

Previous works on Large Language Models (LLMs) have mainly focused on evaluating their helpfulness or harmlessness. However, honesty, another crucial alignment criterion, has received relatively less attention. Dishonest behaviors in LLMs, such as spreading misinformation and defrauding users, eroding user trust, and causing real-world harm, present severe risks that intensify as these models approach superintelligence levels. Enhancing honesty in LLMs addresses critical deficiencies and helps uncover latent capabilities that are not readily expressed. This underscores the urgent need for reliable methods and benchmarks to effectively ensure and evaluate the honesty of LLMs. In this paper, we introduce BeHonest, a pioneering benchmark specifically designed to assess honesty in LLMs comprehensively. BeHonest evaluates three essential aspects of honesty: awareness of knowledge boundaries, avoidance of deceit, and consistency in responses. Building on this foundation, we designed 10 scenarios to evaluate and analyze 9 popular LLMs on the market, including both closed-source and open-source models from different model families with varied model sizes. Our findings indicate that there is still significant room for improvement in the honesty of LLMs. We also encourage the AI community to prioritize honesty alignment in LLMs. Our benchmark and code can be found at: \url{https://github.com/GAIR-NLP/BeHonest}.
翻訳日:2024-06-21 22:59:30 公開日:2024-06-19
# 量子コンピューティングの機械学習応用

Machine Learning Applications of Quantum Computing: A Review ( http://arxiv.org/abs/2406.13262v1 )

ライセンス: Link先を確認
Thien Nguyen, Tuomo Sipola, Jari Hautamäki, (参考訳) 量子コンピューティングと機械学習の交差点では、従来の計算手法の限界をはるかに超えて、これらの技術がデータ処理と分析の能力に与える影響について検討する。 このレビューは、32のセミナル論文の詳細な分析に基づいて、量子コンピューティングと機械学習の相互作用を掘り下げ、先進的なデータ処理とアプリケーションにおける古典的コンピューティングの限界を超越することに焦点を当てる。 このレビューでは、これらの進歩から大きな恩恵を受ける重要な分野であるサイバーセキュリティの強化における量子化手法の可能性を強調している。 学術データベースとしてScience Directを主に活用したこの文献レビューは、機械学習における量子技術の変革的効果を掘り下げ、さまざまな研究や学術論文から洞察を引き出す。 主にサイバーセキュリティにおける量子コンピューティングの重要性の増大に焦点が当てられているが、このレビューは、分野が成熟するにつれて他のセクターに有望な意味があることも認めている。 我々の体系的なアプローチは、量子機械学習アルゴリズム、アプリケーション、課題、そして潜在的な将来の発展に基づくソースを分類し、量子コンピューティングが実用的な機械学習シナリオでますます実装されていることを明らかにする。 このレビューは、量子化された機械学習アルゴリズムの進歩とサイバーセキュリティなどの分野における潜在的な応用を強調し、倫理的およびセキュリティ上の懸念を考慮しつつ、業界固有のソリューションの必要性を強調している。 本論文は,現状の概要と今後の方向性を提示することによって,量子機械学習の継続的な研究と戦略的発展の基礎を定めている。

At the intersection of quantum computing and machine learning, this review paper explores the transformative impact these technologies are having on the capabilities of data processing and analysis, far surpassing the bounds of traditional computational methods. Drawing upon an in-depth analysis of 32 seminal papers, this review delves into the interplay between quantum computing and machine learning, focusing on transcending the limitations of classical computing in advanced data processing and applications. This review emphasizes the potential of quantum-enhanced methods in enhancing cybersecurity, a critical sector that stands to benefit significantly from these advancements. The literature review, primarily leveraging Science Direct as an academic database, delves into the transformative effects of quantum technologies on machine learning, drawing insights from a diverse collection of studies and scholarly articles. While the focus is primarily on the growing significance of quantum computing in cybersecurity, the review also acknowledges the promising implications for other sectors as the field matures. Our systematic approach categorizes sources based on quantum machine learning algorithms, applications, challenges, and potential future developments, uncovering that quantum computing is increasingly being implemented in practical machine learning scenarios. The review highlights advancements in quantum-enhanced machine learning algorithms and their potential applications in sectors such as cybersecurity, emphasizing the need for industry-specific solutions while considering ethical and security concerns. By presenting an overview of the current state and projecting future directions, the paper sets a foundation for ongoing research and strategic advancement in quantum machine learning.
翻訳日:2024-06-21 22:59:30 公開日:2024-06-19
# マルチモーダルファウンデーションモデルはエンタープライズワークフローを理解するか?ビジネスプロセス管理タスクのベンチマーク

Do Multimodal Foundation Models Understand Enterprise Workflows? A Benchmark for Business Process Management Tasks ( http://arxiv.org/abs/2406.13264v1 )

ライセンス: Link先を確認
Michael Wornow, Avanika Narayan, Ben Viggiano, Ishan S. Khare, Tathagat Verma, Tibor Thompson, Miguel Angel Fuentes Hernandez, Sudharsan Sundar, Chloe Trujillo, Krrish Chawla, Rongfei Lu, Justin Shen, Divya Nagaraj, Joshua Martinez, Vardhan Agrawal, Althea Hudson, Nigam H. Shah, Christopher Re, (参考訳) 既存のMLベンチマークには、ビジネスプロセス管理(BPM)タスクのモデルを評価するのに必要なアノテーションの深さと多様性が欠けている。 BPMはエンタープライズワークフローの文書化、測定、改善、自動化のプラクティスです。 GPT-4のようなマルチモーダル・ファンデーション・モデル(FM)に基づくエージェントを用いたエンドツーエンドの自動化。 関連したワークフローの文書化は、典型的なプロセス最適化プロジェクトの60%の時間を要する。 このギャップに対処するため、私たちはWONDERBREADというBPMタスクにおけるマルチモーダルFMを評価するための最初のベンチマークを紹介します。 1)ドキュメント化されたワークフローのデモを含むデータセット、(2)ワークフローのドキュメントから知識の伝達、プロセスの改善まで、現実世界のアプリケーションから得られた6つの新しいBPMタスク、(3)自動評価ハーネス。 我々のベンチマークでは、最先端のFMは自動的にドキュメンテーションを生成することができるが(例えば、ワークフローのデモビデオにおけるステップの88%をリコールする)、ワークフロー完了のよりきめ細かい検証(F1 < 0.3)への知識の再適用に苦労している。 WONDERBREADは、エンタープライズアプリケーションのためのより「人間中心の」AIツールの開発を奨励し、BPMタスクのより広い宇宙のためのマルチモーダルFMの探索をさらに進めることを願っています。 データセットと実験はこちらで公開しています。

Existing ML benchmarks lack the depth and diversity of annotations needed for evaluating models on business process management (BPM) tasks. BPM is the practice of documenting, measuring, improving, and automating enterprise workflows. However, research has focused almost exclusively on one task - full end-to-end automation using agents based on multimodal foundation models (FMs) like GPT-4. This focus on automation ignores the reality of how most BPM tools are applied today - simply documenting the relevant workflow takes 60% of the time of the typical process optimization project. To address this gap we present WONDERBREAD, the first benchmark for evaluating multimodal FMs on BPM tasks beyond automation. Our contributions are: (1) a dataset containing 2928 documented workflow demonstrations; (2) 6 novel BPM tasks sourced from real-world applications ranging from workflow documentation to knowledge transfer to process improvement; and (3) an automated evaluation harness. Our benchmark shows that while state-of-the-art FMs can automatically generate documentation (e.g. recalling 88% of the steps taken in a video demonstration of a workflow), they struggle to re-apply that knowledge towards finer-grained validation of workflow completion (F1 < 0.3). We hope WONDERBREAD encourages the development of more "human-centered" AI tooling for enterprise applications and furthers the exploration of multimodal FMs for the broader universe of BPM tasks. We publish our dataset and experiments here: https://github.com/HazyResearch/wonderbread
翻訳日:2024-06-21 22:59:30 公開日:2024-06-19
# 多体同変相互作用を持つ分子グラフネットワーク

Molecule Graph Networks with Many-body Equivariant Interactions ( http://arxiv.org/abs/2406.13265v1 )

ライセンス: Link先を確認
Zetian Mao, Jiawen Li, Chen Liang, Diptesh Das, Masato Sumita, Koji Tsuda, (参考訳) メッセージパッシングニューラルネットワークは、分子間相互作用を予測する上で大きな効果を示している。 等変ベクトル表現の導入は、幾何データ対称性をキャプチャして表現性を高め、モデル精度を向上させる。 しかし、反対の2体結合ベクトルはメッセージパッシング中に互いにキャンセルされ、共有ノード上の方向情報が失われる。 本研究では,メッセージパッシング方式における指向性情報を保持するために,同変多体インタラクションを明示的に統合するEquivariant N-body Interaction Networks (ENINet) を開発した。 実験により、多体同変表現を統合することで、様々なスカラーおよびテンソル量子化学特性の予測精度が向上することが示された。 アブレーションによる研究によると、QM9の12個中11個中7.9%、MD17の27.9%、QM7bの11.3%において、平均的な性能改善が見られた。

Message passing neural networks have demonstrated significant efficacy in predicting molecular interactions. Introducing equivariant vectorial representations augments expressivity by capturing geometric data symmetries, thereby improving model accuracy. However, two-body bond vectors in opposition may cancel each other out during message passing, leading to the loss of directional information on their shared node. In this study, we develop Equivariant N-body Interaction Networks (ENINet) that explicitly integrates equivariant many-body interactions to preserve directional information in the message passing scheme. Experiments indicate that integrating many-body equivariant representations enhances prediction accuracy across diverse scalar and tensorial quantum chemical properties. Ablation studies show an average performance improvement of 7.9% across 11 out of 12 properties in QM9, 27.9% in forces in MD17, and 11.3% in polarizabilities (CCSD) in QM7b.
翻訳日:2024-06-21 22:49:46 公開日:2024-06-19
# 音声対話理解データセットのための低コストLPMアノテーションの検討

Investigating Low-Cost LLM Annotation for~Spoken Dialogue Understanding Datasets ( http://arxiv.org/abs/2406.13269v1 )

ライセンス: Link先を確認
Lucas Druart, Valentin Vielzeuf, Yannick Estève, (参考訳) 音声タスク指向対話(TOD)システムでは、ユーザの要求を記述した意味表現の選択がスムーズな対話の鍵となる。 実際、システムはこの表現を使ってデータベースとそのドメイン知識を推論し、次のアクションを選択する。 したがって、対話コースは、この意味表現によって提供される情報に依存する。 テキストデータセットはきめ細かな意味表現を提供するが、音声対話データセットは遅れる。 本稿では,音声対話データセットのセマンティック表現の自動強化に関する知見を提供する。 筆者らの貢献は,(1)大規模言語モデルの微調整の関連性を評価すること,(2)生成したアノテーションが捉えた知識を評価すること,(3)半自動アノテーションの意義を強調すること,の3つだ。

In spoken Task-Oriented Dialogue (TOD) systems, the choice of the semantic representation describing the users' requests is key to a smooth interaction. Indeed, the system uses this representation to reason over a database and its domain knowledge to choose its next action. The dialogue course thus depends on the information provided by this semantic representation. While textual datasets provide fine-grained semantic representations, spoken dialogue datasets fall behind. This paper provides insights into automatic enhancement of spoken dialogue datasets' semantic representations. Our contributions are three fold: (1) assess the relevance of Large Language Model fine-tuning, (2) evaluate the knowledge captured by the produced annotations and (3) highlight semi-automatic annotation implications.
翻訳日:2024-06-21 22:49:46 公開日:2024-06-19
# インターバルに基づく階層型IoU追跡

Hierarchical IoU Tracking based on Interval ( http://arxiv.org/abs/2406.13271v1 )

ライセンス: Link先を確認
Yunhao Du, Zhicheng Zhao, Fei Su, (参考訳) マルチオブジェクト追跡(MOT)は、フレーム間で与えられたクラスのすべてのターゲットを検出し、関連付けることを目的としている。 現在の支配的なソリューションであるeg ByteTrackとStrongSORT++は、まずオンラインの方法でほとんどのアソシエーションを達成し、補間やグローバルリンクのようなオフラインのトリックを使って結果を洗練するハイブリッドパイプラインに従っている。 このパラダイムは、アプリケーションの柔軟性を提供するが、この2つのステージ間の不整合設計は、最適以下のパフォーマンスをもたらす。 本稿では,HITと呼ばれる階層型IoU追跡フレームワークを提案する。 簡潔性を確保するために、重い外観モデル、トリッキーな補助キュー、学習ベースのアソシエーションモジュールを捨てながら、IoUのみをアソシエーションに利用する。 さらに、ターゲットサイズ、カメラの動き、階層的手がかりに関する3つの矛盾問題を特定し、関連性の信頼性を保証するための対応するソリューションを設計する。 その単純さにもかかわらず,本手法はMOT17,KITTI,DanceTrack,VisDroneの4つのデータセットに対して有望な性能を実現し,将来のトラッキング手法設計のための強力なベースラインを提供する。 さらに,7つのトラッカーを実験し,HITが動作ベースでも外観ベースでも学習ベースでも,他のソリューションとシームレスに統合可能であることを証明する。 私たちのコードはhttps://github.com/dyhBUPT/HIT.comでリリースされます。

Multi-Object Tracking (MOT) aims to detect and associate all targets of given classes across frames. Current dominant solutions, e.g. ByteTrack and StrongSORT++, follow the hybrid pipeline, which first accomplish most of the associations in an online manner, and then refine the results using offline tricks such as interpolation and global link. While this paradigm offers flexibility in application, the disjoint design between the two stages results in suboptimal performance. In this paper, we propose the Hierarchical IoU Tracking framework, dubbed HIT, which achieves unified hierarchical tracking by utilizing tracklet intervals as priors. To ensure the conciseness, only IoU is utilized for association, while discarding the heavy appearance models, tricky auxiliary cues, and learning-based association modules. We further identify three inconsistency issues regarding target size, camera movement and hierarchical cues, and design corresponding solutions to guarantee the reliability of associations. Though its simplicity, our method achieves promising performance on four datasets, i.e., MOT17, KITTI, DanceTrack and VisDrone, providing a strong baseline for future tracking method design. Moreover, we experiment on seven trackers and prove that HIT can be seamlessly integrated with other solutions, whether they are motion-based, appearance-based or learning-based. Our codes will be released at https://github.com/dyhBUPT/HIT.
翻訳日:2024-06-21 22:49:46 公開日:2024-06-19
# AniFaceDiff:顔面パラメトリック条件拡散モデルによる高忠実顔再現

AniFaceDiff: High-Fidelity Face Reenactment via Facial Parametric Conditioned Diffusion Models ( http://arxiv.org/abs/2406.13272v1 )

ライセンス: Link先を確認
Ken Chen, Sachith Seneviratne, Wei Wang, Dongting Hu, Sanjay Saha, Md. Tarek Hasan, Sanka Rasnayaka, Tamasha Malepathirana, Mingming Gong, Saman Halgamuge, (参考訳) 顔再現とは、ポーズと表情を基準(運転)ビデオから静的な顔(音源)画像に転送する過程を指す。 この領域における以前の研究は、特定のアイデンティティ、ポーズ、表現条件に基づいて顔を生成する制御可能な深層生成モデルを訓練することで大きな進歩を遂げた。 しかし,これらの手法で表現とポーズを制御するメカニズムは,運転映像からの識別情報を不注意に導入すると同時に,表現関連の詳細が失われることも少なくない。 本稿では,AniFaceDiffと呼ばれる安定拡散に基づく新しい手法を提案する。 まず,顔形状アライメントによる2次元顔画像条件付け手法を提案する。 次に,表現関連情報の潜在的な損失に対応するための表現アダプタ条件付け機構を提案する。 本手法は,画像の同一性や細部を保ちながら,映像からのポーズや表現の忠実さを効果的に維持する。 VoxCelebデータセットを用いた実験により, 顔の再現, 優れた画像品質, アイデンティティの保存, 表現精度, 特にクロスアイデンティティのシナリオにおいて, この手法が実現できることが実証された。 潜在的な誤用に関する倫理的懸念を考慮し,本手法の意義を分析し,最先端のディープフェイク検出器の評価を行い,今後の研究を導く上での問題点を明らかにする。

Face reenactment refers to the process of transferring the pose and facial expressions from a reference (driving) video onto a static facial (source) image while maintaining the original identity of the source image. Previous research in this domain has made significant progress by training controllable deep generative models to generate faces based on specific identity, pose and expression conditions. However, the mechanisms used in these methods to control pose and expression often inadvertently introduce identity information from the driving video, while also causing a loss of expression-related details. This paper proposes a new method based on Stable Diffusion, called AniFaceDiff, incorporating a new conditioning module for high-fidelity face reenactment. First, we propose an enhanced 2D facial snapshot conditioning approach by facial shape alignment to prevent the inclusion of identity information from the driving video. Then, we introduce an expression adapter conditioning mechanism to address the potential loss of expression-related information. Our approach effectively preserves pose and expression fidelity from the driving video while retaining the identity and fine details of the source image. Through experiments on the VoxCeleb dataset, we demonstrate that our method achieves state-of-the-art results in face reenactment, showcasing superior image quality, identity preservation, and expression accuracy, especially for cross-identity scenarios. Considering the ethical concerns surrounding potential misuse, we analyze the implications of our method, evaluate current state-of-the-art deepfake detectors, and identify their shortcomings to guide future research.
翻訳日:2024-06-21 22:49:46 公開日:2024-06-19
# 予算の文脈学習--名前付きエンティティ認識を事例として-

In-Context Learning on a Budget: A Case Study in Named Entity Recognition ( http://arxiv.org/abs/2406.13274v1 )

ライセンス: Link先を確認
Uri Berger, Tal Baumel, Gabriel Stanovsky, (参考訳) ショット・イン・コンテキスト・ラーニング(ICL)は一般的に大規模な注釈付きトレーニングセットへのアクセスを前提としている。 しかし、ドメイン適応のような現実世界のシナリオでは、下流のパフォーマンスを最大化することを目的として、少数のサンプルに注釈をつけるための限られた予算しか存在しない。 提案手法は,実世界のアプリケーションでアノテートに費用がかかり,ICL設定では比較的研究の少ない,名前付きエンティティ認識(NER)タスクに着目し,事前定義された予算内でアノテートするサンプルを選択するための様々な手法について検討する。 異なるモデルやデータセットによって、比較的小さなアノテートされたサンプルのプールが、トレーニングセット全体と同等の結果を得ることができることが分かりました。 さらに、アノテーションのためのサンプルのランダムな選択が驚くほど優れた性能をもたらすことが判明した。 最後に、多様なアノテーションプールが性能改善と相関していることを確認する。 将来的な作業には、アノテーション予算を考慮した現実的なパラダイムが採用されることを願っています。

Few shot in-context learning (ICL) typically assumes access to large annotated training sets. However, in many real world scenarios, such as domain adaptation, there is only a limited budget to annotate a small number of samples, with the goal of maximizing downstream performance. We study various methods for selecting samples to annotate within a predefined budget, specifically focusing on the named entity recognition (NER) task, which has real-world applications, is expensive to annotate, and is relatively less studied in ICL setups. Across different models and datasets, we find that a relatively small pool of annotated samples can achieve results comparable to using the entire training set. Moreover, we discover that random selection of samples for annotation yields surprisingly good performance. Finally, we observe that a diverse annotation pool is correlated with improved performance. We hope that future work adopts our realistic paradigm which takes annotation budget into account.
翻訳日:2024-06-21 22:49:46 公開日:2024-06-19
# 最適化音声符号化による大規模言語モデルによる自動音声キャプションの実現

Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding ( http://arxiv.org/abs/2406.13275v1 )

ライセンス: Link先を確認
Jizhong Liu, Gang Li, Junbo Zhang, Heinrich Dinkel, Yongqing Wang, Zhiyong Yan, Yujun Wang, Bin Wang, (参考訳) 自動音声キャプション(英: Automated Audio Casting, AAC)は、自然言語で音声を記述するための音声からテキストへのタスクである。 近年,大規模言語モデル(LLM)の進歩とオーディオエンコーダのトレーニング手法の改善により,AACの改善の可能性が高まっている。 このようにして、3つの側面からAACを強化することを検討する。 1)一貫したアンサンブル蒸留(CED)による事前訓練されたオーディオエンコーダを用いて、LLMへのモダリティギャップをブリッジし、音響トークンを圧縮するクエリ変換器(Q-Former)を用いて、音響トークンの効果を向上させる。 2) 7BパラメータをデコーダとするLlama 2の利点を検討する。 3) 事前学習した別のLLMでは, トレーニングデータやアノテーションの曖昧さが不十分なため, テキストエラーを補正する。 オーディオエンコーダとテキストデコーダは-Base (LoRA) によって最適化される。 実験では、これらの拡張がそれぞれ有効であることが示されている。 提案手法は,DCASE 2023 Task 6Aの勝者よりも優れた33.0 SPIDEr-FLスコアを得る。

Automated audio captioning (AAC) is an audio-to-text task to describe audio contents in natural language. Recently, the advancements in large language models (LLMs), with improvements in training approaches for audio encoders, have opened up possibilities for improving AAC. Thus, we explore enhancing AAC from three aspects: 1) a pre-trained audio encoder via consistent ensemble distillation (CED) is used to improve the effectivity of acoustic tokens, with a querying transformer (Q-Former) bridging the modality gap to LLM and compress acoustic tokens; 2) we investigate the advantages of using a Llama 2 with 7B parameters as the decoder; 3) another pre-trained LLM corrects text errors caused by insufficient training data and annotation ambiguities. Both the audio encoder and text decoder are optimized by -Base (LoRA). Experiments show that each of these enhancements is effective. Our method obtains a 33.0 SPIDEr-FL score, outperforming the winner of DCASE 2023 Task 6A.
翻訳日:2024-06-21 22:49:46 公開日:2024-06-19
# 室内環境のためのNOMA支援マルチスターRISの設計最適化:凸近似Imitated Reinforcement Learningアプローチ

Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach ( http://arxiv.org/abs/2406.13280v1 )

ライセンス: Link先を確認
Yu Min Park, Sheikh Salman Hassan, Yan Kyaw Tun, Eui-Nam Huh, Walid Saad, Choong Seon Hong, (参考訳) 第6世代(6G)ネットワークは、従来のRISの限界を克服するために、再構成可能なインテリジェントサーフェス(STAR-RIS)を同時に送信および反射する。 STAR-RISは360度全空間をカバーし、屋内の伝搬環境のネットワーク性能と動的制御を向上するための透過と反射を最適化する。 しかし、STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム構成における課題を提起する。 本研究では,複数のアクセスポイント(AP)とSTAR-RISを用いた新しいネットワークアーキテクチャを提案する。 ユーザ割り当て、アクセスポイントビームフォーミング、反射・透過のためのSTAR-RIS位相制御を含む最適化問題を定式化する。 定式化問題の本質的な複雑性は、効率的な解の分解アプローチを必要とする。 ユーザを適切なアクセスポイントに割り当て、リソース割り当てを最適化するために、多対一のマッチングアルゴリズムが使用される。 効率的な資源管理を容易にするため、相関に基づくK平均クラスタリングアルゴリズムを用いてアクセスポイントをグループ化する。 マルチエージェント深部強化学習(MADRL)を用いてSTAR-RISの制御を最適化する。 提案するMADRLフレームワーク内では,各決定変数が独立したエージェントとして機能し,協調学習と意思決定を可能にする新しいアプローチが導入された。 さらに、提案したMADRLアプローチでは凸近似(CA)が組み込まれている。 この手法は, 連続凸近似(SCA)からの準最適解を用いてエージェントのポリシー学習を加速し, 環境適応と収束を高速化する。 シミュレーションでは、ベースラインアプローチと比較してネットワークユーティリティが大幅に改善されている。

Sixth-generation (6G) networks leverage simultaneously transmitting and reflecting reconfigurable intelligent surfaces (STAR-RISs) to overcome the limitations of traditional RISs. STAR-RISs offer 360-degree full-space coverage and optimized transmission and reflection for enhanced network performance and dynamic control of the indoor propagation environment. However, deploying STAR-RISs indoors presents challenges in interference mitigation, power consumption, and real-time configuration. In this work, a novel network architecture utilizing multiple access points (APs) and STAR-RISs is proposed for indoor communication. An optimization problem encompassing user assignment, access point beamforming, and STAR-RIS phase control for reflection and transmission is formulated. The inherent complexity of the formulated problem necessitates a decomposition approach for an efficient solution. This involves tackling different sub-problems with specialized techniques: a many-to-one matching algorithm is employed to assign users to appropriate access points, optimizing resource allocation. To facilitate efficient resource management, access points are grouped using a correlation-based K-means clustering algorithm. Multi-agent deep reinforcement learning (MADRL) is leveraged to optimize the control of the STAR-RIS. Within the proposed MADRL framework, a novel approach is introduced where each decision variable acts as an independent agent, enabling collaborative learning and decision-making. Additionally, the proposed MADRL approach incorporates convex approximation (CA). This technique utilizes suboptimal solutions from successive convex approximation (SCA) to accelerate policy learning for the agents, thereby leading to faster environment adaptation and convergence. Simulations demonstrate significant network utility improvements compared to baseline approaches.
翻訳日:2024-06-21 22:49:46 公開日:2024-06-19
# ECAFormer: クロスアテンションを用いた低照度画像強調

ECAFormer: Low-light Image Enhancement using Cross Attention ( http://arxiv.org/abs/2406.13281v1 )

ライセンス: Link先を確認
Yudi Ruan, Hao Ma, Weikai Li, Xiao Wang, (参考訳) 低照度画像強調(LLIE)は自動運転に不可欠である。 この重要性にもかかわらず、既存のLLIE法は、細部保存を犠牲にして、全体的な明るさ調整において頑丈さを優先することが多い。 この制限を克服するため,Dual Multi-head Self Attention (DMSA) を利用した新しいネットワークであるクロスアテンション・トランスフォーマー (ECAFormer) による階層的相互拡張を提案する。 ECAFormerのクロスアテンションメカニズムは、従来の拡張技術の改善だけでなく、グローバルな明るさ調整と局所的な詳細保持のバランスの維持にも優れている。 SID や LOL など有名な低照度データセットに対する大規模な検証と,ダークロードシナリオに関する追加試験を行った。 また、計算複雑性とパラメータカウントを最適化し、SSIMとPSNRのメトリクスをさらに向上させる。 私たちのプロジェクトはhttps://github.com/ruanyudi/ECAFormer.comで利用可能です。

Low-light image enhancement (LLIE) is vital for autonomous driving. Despite the importance, existing LLIE methods often prioritize robustness in overall brightness adjustment, which can come at the expense of detail preservation. To overcome this limitation,we propose the Hierarchical Mutual Enhancement via Cross-Attention transformer (ECAFormer), a novel network that utilizes Dual Multi-head Self Attention (DMSA) to enhance both visual and semantic features across scales, significantly preserving details during the process. The cross-attention mechanism in ECAFormer not only improves upon traditional enhancement techniques but also excels in maintaining a balance between global brightness adjustment and local detail retention. Our extensive experimental validation on renowned low-illumination datasets, including SID and LOL, and additional tests on dark road scenarios. or performance over existing methods in terms of illumination enhancement and noise reduction, while also optimizing computational complexity and parameter count, further boosting SSIM and PSNR metrics. Our project is available at https://github.com/ruanyudi/ECAFormer.
翻訳日:2024-06-21 22:49:46 公開日:2024-06-19
# 長期 LLM の RoPE 拡張を理解する: 留意点

Understanding the RoPE Extensions of Long-Context LLMs: An Attention Perspective ( http://arxiv.org/abs/2406.13282v1 )

ライセンス: Link先を確認
Meizhi Zhong, Chen Zhang, Yikun Lei, Xikai Liu, Yan Gao, Yao Hu, Kehai Chen, Min Zhang, (参考訳) 長いコンテキストを扱うためのLLMの導入は、現在研究ホットスポットとなっている。 ほとんどのLLMは回転位置埋め込み(RoPE)に基づいて構築されており、一般的な位置符号化法である。 したがって、顕著なパスは、比較可能な短いテキストで訓練されたRoPEを、はるかに長いテキストに外挿することである。 RoPEの定式化を延長することで、外挿の強化に多くの努力が注がれているが、その内装を包括的に展示しようとする試みは、ほとんどない。 本稿では,RoPE拡張の注意点と2つのベンチマークタスクについて,直接的かつ詳細な理解を提供することを推進している。 幅広い実験によって、いくつかの貴重な発見が明らかになりました。 1)事前訓練された長さの者に対する注意パターンの維持は、外挿を改善する。 2) 大きな注意の不確実性は,検索エラーにつながる。 3)RoPE延長の延長前訓練長は注意不確実性を低減し,外挿を著しく向上させる可能性がある。

Enabling LLMs to handle lengthy context is currently a research hotspot. Most LLMs are built upon rotary position embedding (RoPE), a popular position encoding method. Therefore, a prominent path is to extrapolate the RoPE trained on comparably short texts to far longer texts. A heavy bunch of efforts have been dedicated to boosting the extrapolation via extending the formulations of the RoPE, however, few of them have attempted to showcase their inner workings comprehensively. In this paper, we are driven to offer a straightforward yet in-depth understanding of RoPE extensions from an attention perspective and on two benchmarking tasks. A broad array of experiments reveals several valuable findings: 1) Maintaining attention patterns to those at the pretrained length improves extrapolation; 2) Large attention uncertainty leads to retrieval errors; 3) Using longer continual pretraining lengths for RoPE extensions could reduce attention uncertainty and significantly enhance extrapolation.
翻訳日:2024-06-21 22:49:46 公開日:2024-06-19
# データ重要度外挿による対人訓練における大規模データ・プルーニング

Large-Scale Dataset Pruning in Adversarial Training through Data Importance Extrapolation ( http://arxiv.org/abs/2406.13283v1 )

ライセンス: Link先を確認
Björn Nieth, Thomas Altstidl, Leo Schwinn, Björn Eskofier, (参考訳) 彼らの小さな、受け入れがたい攻撃に対する脆弱性は、現実世界のシステムへのディープラーニングモデルの採用を制限する。 敵の訓練は、訓練時間の大幅な増加を犠牲にして、これらの攻撃に対して最も有望な戦略の1つであることが証明されている。 大規模な合成データの統合が進行中であるため、さらなる増加が期待されている。 したがって、正確性と堅牢性を維持しながら、トレーニングサンプルの数を減らすデータ中心のアプローチの必要性が生じる。 データプルーニングとアクティブラーニングは深層学習において顕著な研究テーマであるが、現在では敵の訓練文学においてほとんど解明されていない。 このギャップに対処し、小さなデータセットからより大きなデータセットへのデータ重要度スコアの補間に基づく新しいデータプルーニング戦略を提案する。 実験的な評価では,外挿型プルーニングは頑健性を維持しつつ,データセットサイズを効率的に削減できることを示した。

Their vulnerability to small, imperceptible attacks limits the adoption of deep learning models to real-world systems. Adversarial training has proven to be one of the most promising strategies against these attacks, at the expense of a substantial increase in training time. With the ongoing trend of integrating large-scale synthetic data this is only expected to increase even further. Thus, the need for data-centric approaches that reduce the number of training samples while maintaining accuracy and robustness arises. While data pruning and active learning are prominent research topics in deep learning, they are as of now largely unexplored in the adversarial training literature. We address this gap and propose a new data pruning strategy based on extrapolating data importance scores from a small set of data to a larger set. In an empirical evaluation, we demonstrate that extrapolation-based pruning can efficiently reduce dataset size while maintaining robustness.
翻訳日:2024-06-21 22:49:46 公開日:2024-06-19
# 三部構造系における相関行列によるEPRステアリング基準とモノガミー関係

EPR Steering Criterion and Monogamy Relation via Correlation Matrices in Tripartite Systems ( http://arxiv.org/abs/2406.13290v1 )

ライセンス: Link先を確認
Li-Juan Li, Xiao-Gang Fan, Xue-Ke Song, Liu Ye, Dong Wang, (参考訳) 量子ステアリングは、量子力学において最もよく知られた非局所現象の1つであると考えられている。 エンタングルメントやベル非局所性とは異なり、量子ステアリングの非対称性は片側デバイス非依存の量子情報処理に不可欠である。 バイパルタイトシステムのステアリング検出には多くの進歩があったが、トリパルタイトシステムにおけるEPRステアリングの基準は依然として困難で不十分である。 本稿では,まず,相関行列を用いて,任意の3ビット状態に対する新規かつ有望な操舵基準を導出する。 さらに, 派生基準に基づいて, システムのトライパートライトステアリングとサブシステムのバイパートライトステアリングとのモノガミー関係を提案する。 最後に, ステアリング基準とモノガミーの関係を, いくつかの代表例を用いて示す。 この研究で提示された結果と手法は、近い将来、真のマルチパーティイト・ステアリングを捕捉する上で有益であると信じている。

Quantum steering is considered as one of the most well-known nonlocal phenomena in quantum mechanics. Unlike entanglement and Bell non-locality, the asymmetry of quantum steering makes it vital for one-sided device-independent quantum information processing. Although there has been much progress on steering detection for bipartite systems, the criterion for EPR steering in tripartite systems remains challenging and inadequate. In this paper, we firstly derive a novel and promising steering criterion for any three-qubit states via correlation matrix. Furthermore, we propose the monogamy relation between the tripartite steering of system and the bipartite steering of subsystems based on the derived criterion. Finally, as illustrations, we demonstrate the performance of the steering criterion and the monogamy relation by means of several representative examples. We believe that the results and methods presented in this work could be beneficial to capture genuine multipartite steering in the near future.
翻訳日:2024-06-21 22:49:46 公開日:2024-06-19
# アルツハイマー病のデコードのための解釈可能な生成型マルチモーダル・ニューロイメージング・ゲノミクスの枠組み

An interpretable generative multimodal neuroimaging-genomics framework for decoding Alzheimer's disease ( http://arxiv.org/abs/2406.13292v1 )

ライセンス: Link先を確認
Giorgio Dolci, Federica Cruciani, Md Abdur Rahaman, Anees Abrol, Jiayu Chen, Zening Fu, Ilaria Boscolo Galazzo, Gloria Menegaz, Vince D. Calhoun, (参考訳) アルツハイマー病(英語: Alzheimer's disease、AD)は認知能力の低下が進行する認知症である。 AD連続体は、MCI(Mild Cognitive Impairment)と呼ばれるプロドーマルステージを包含しており、患者はADに進むか、安定した状態を保つことができる。 本研究では, 構造的, 機能的MRIを用いて, 病原性灰白質と機能的ネットワーク接続性の変化について検討した。 さらに,ADの強い遺伝的成分を考慮すると,SNPを第3のチャネルとして導入する。 このような多様な入力を考えると、1つ以上のモダリティが欠落することは、マルチモーダルメソッドの典型的な関心事である。 そこで我々は,Cycle GANsを用いた生成モジュールを,潜在空間内の欠落データをインプットするために採用した,新しいディープラーニングに基づく分類フレームワークを提案する。 さらに、説明可能なAI手法であるIntegrated Gradientsを採用し、入力特徴の関連性を抽出し、学習した表現の理解を深めた。 AD検出とMCI変換予測という2つの重要な課題に対処した。 実験の結果、我々のモデルはCN/ADの分類において、平均テスト精度0.926\pm0.02$に達するSOAに到達することができた。 MCIタスクでは, CN/ADの事前学習モデルを用いて, 0.711\pm0.01$の平均予測精度を達成した。 解釈可能性分析の結果,大脳皮質および皮質下脳領域における灰白質の修飾は,ADとの関連でよく知られていた。 さらに,アミロイドベータとコレステロール生成のクリアランスおよび調節に関連する生物学的過程を規定するSNPの変異は,疾患連続体に沿った感覚運動と視覚的静止状態のネットワーク接続の障害として同定された。 総合的に、我々の統合的ディープラーニングアプローチは、重要な生物学的洞察に光を当てながら、AD検出とMCI予測を約束することを示している。

Alzheimer's disease (AD) is the most prevalent form of dementia with a progressive decline in cognitive abilities. The AD continuum encompasses a prodormal stage known as Mild Cognitive Impairment (MCI), where patients may either progress to AD or remain stable. In this study, we leveraged structural and functional MRI to investigate the disease-induced grey matter and functional network connectivity changes. Moreover, considering AD's strong genetic component, we introduce SNPs as a third channel. Given such diverse inputs, missing one or more modalities is a typical concern of multimodal methods. We hence propose a novel deep learning-based classification framework where generative module employing Cycle GANs was adopted to impute missing data within the latent space. Additionally, we adopted an Explainable AI method, Integrated Gradients, to extract input features relevance, enhancing our understanding of the learned representations. Two critical tasks were addressed: AD detection and MCI conversion prediction. Experimental results showed that our model was able to reach the SOA in the classification of CN/AD reaching an average test accuracy of $0.926\pm0.02$. For the MCI task, we achieved an average prediction accuracy of $0.711\pm0.01$ using the pre-trained model for CN/AD. The interpretability analysis revealed significant grey matter modulations in cortical and subcortical brain areas well known for their association with AD. Moreover, impairments in sensory-motor and visual resting state network connectivity along the disease continuum, as well as mutations in SNPs defining biological processes linked to amyloid-beta and cholesterol formation clearance and regulation, were identified as contributors to the achieved performance. Overall, our integrative deep learning approach shows promise for AD detection and MCI prediction, while shading light on important biological insights.
翻訳日:2024-06-21 22:49:46 公開日:2024-06-19
# ターゲットトークンのコンテキスト注入による視覚言語モデルのクロスプロンプト伝達性向上

Enhancing Cross-Prompt Transferability in Vision-Language Models through Contextual Injection of Target Tokens ( http://arxiv.org/abs/2406.13294v1 )

ライセンス: Link先を確認
Xikang Yang, Xuehai Tang, Fuqing Zhu, Jizhong Han, Songlin Hu, (参考訳) 視覚言語モデル(VLM)は視覚データとテキストデータをシームレスに統合し、画像分類、キャプション生成、視覚的質問応答などのタスクを実行する。 しかしながら、これらの画像のトークンの確率分布は、ターゲットのトークンよりも元の画像の意味論を好む傾向にあるため、クロスプロンプトマイグレーション攻撃の文脈において、全てのプロンプトを効果的に騙すことに苦慮することが多い。 この課題に対処するために、勾配に基づく摂動を利用してターゲットトークンを視覚的およびテキスト的両方の文脈に注入し、ターゲットトークンの確率分布を改善するコンテキストインジェクション攻撃(CIA)を提案する。 文脈意味論を元のイメージセマンティクスではなくターゲットトークンにシフトさせることにより、CIAは敵画像のクロスプロンプト転送可能性を高める。BLIP2、インストラクトBLIP、LLaVAモデルに対する大規模な実験により、CIAはクロスプロンプト転送可能性において既存の手法よりも優れており、VLMにおけるより効果的な敵戦略の可能性を示している。

Vision-language models (VLMs) seamlessly integrate visual and textual data to perform tasks such as image classification, caption generation, and visual question answering. However, adversarial images often struggle to deceive all prompts effectively in the context of cross-prompt migration attacks, as the probability distribution of the tokens in these images tends to favor the semantics of the original image rather than the target tokens. To address this challenge, we propose a Contextual-Injection Attack (CIA) that employs gradient-based perturbation to inject target tokens into both visual and textual contexts, thereby improving the probability distribution of the target tokens. By shifting the contextual semantics towards the target tokens instead of the original image semantics, CIA enhances the cross-prompt transferability of adversarial images.Extensive experiments on the BLIP2, InstructBLIP, and LLaVA models show that CIA outperforms existing methods in cross-prompt transferability, demonstrating its potential for more effective adversarial strategies in VLMs.
翻訳日:2024-06-21 22:49:46 公開日:2024-06-19
# メディア調査とディープフェイクシステム

Media Forensics and Deepfake Systematic Survey ( http://arxiv.org/abs/2406.13295v1 )

ライセンス: Link先を確認
Nadeem Jabbar CH, Aqib Saghir, Ayaz Ahmad Meer, Salman Ahmad Sahi, Bilal Hassan, Siddiqui Muhammad Yasir, (参考訳) ディープフェイク(Deepfake)は、顔の特徴を非常に現実的な方法で生成または変更し、偽の特徴と現実を区別しにくくする生成的ディープラーニングアルゴリズムである。この論文では、有名人を模倣することによって、偽情報をより良く見せるのに使用できる。 この論文では、Deepfakeデータセットモデルを使用して、さまざまな方法でDeepfakeを分類して分離する。 ディープフェイクデータセットモデルは、実験を通じて信頼性を訓練し、テストする。ディープフェイクは、顔全体のアイデンティティ属性や表現を変更できる顔操作の一種である。ディープフェイクデータセットのトレンドは、Deep Learningを使用する一般的なディープフェイク検出モデルの使用に焦点をあてて議論される。

Deepfake is a generative deep learning algorithm that creates or changes facial features in a very realistic way making it hard to differentiate the real from the fake features It can be used to make movies look better as well as to spread false information by imitating famous people In this paper many different ways to make a Deepfake are explained analyzed and separated categorically Using Deepfake datasets models are trained and tested for reliability through experiments Deepfakes are a type of facial manipulation that allow people to change their entire faces identities attributes and expressions The trends in the available Deepfake datasets are also discussed with a focus on how they have changed Using Deep learning a general Deepfake detection model is made Moreover the problems in making and detecting Deepfakes are also mentioned As a result of this survey it is expected that the development of new Deepfake based imaging tools will speed up in the future This survey gives indepth review of methods for manipulating images of face and various techniques to spot altered face images Four types of facial manipulation are specifically discussed which are attribute manipulation expression swap entire face synthesis and identity swap Across every manipulation category we yield information on manipulation techniques significant benchmarks for technical evaluation of counterfeit detection techniques available public databases and a summary of the outcomes of all such analyses From all of the topics in the survey we focus on the most recent development of Deepfake showing its advances and obstacles in detecting fake images
翻訳日:2024-06-21 22:49:46 公開日:2024-06-19
# 電子商取引サービスにおける信頼向上のための総合的信頼メカニズムの実証評価

Empirical Evaluation of Integrated Trust Mechanism to Improve Trust in E-commerce Services ( http://arxiv.org/abs/2406.13299v1 )

ライセンス: Link先を確認
Siddiqui Muhammad Yasir, Hyunsik Ahn, (参考訳) 世界規模の信頼管理に取り組むには、StrongとcrispとSoftとSocialの2つのアプローチがある。 我々は3つの異なるeコマースサービスにおける統合信頼メカニズムの影響を分析する。 信頼の側面は、潜在的なユーザと、開発された専門家やインターネットシステムとの間の休息要素である。 我々は、制御された実験環境における実験を主眼として統合を支援します。 この実験で選択されたモデルは、政策と評価に基づく信頼メカニズムの複合であり、電子商取引業界で広く認識されている。 政策と信頼のメカニズムの統合は、マッピングプロセスを通じて達成され、一方の弱点は他方の強みと密接な関係になった。 さらに,学習システムにおける統合的信頼機構と従来的信頼機構を分離し,実装の有効性を検証する実験が実施されている。

There are mostly two approaches to tackle trust management worldwide Strong and crisp and Soft and Social. We analyze the impact of integrated trust mechanism in three different e-commerce services. The trust aspect is a dormant element between potential users and being developed expert or internet systems. We support our integration by preside over an experiment in controlled laboratory environment. The model selected for the experiment is a composite of policy and reputation based trust mechanisms and widely acknowledged in e-commerce industry. The integration between policy and trust mechanism was accomplished through mapping process, weakness of one brought to a close with the strength of other. Furthermore, experiment has been supervised to validate the effectiveness of implementation by segregating both integrated and traditional trust mechanisms in learning system
翻訳日:2024-06-21 22:49:46 公開日:2024-06-19
# 位相データ解析に基づく光GBMロバスト最適化アルゴリズム

LightGBM robust optimization algorithm based on topological data analysis ( http://arxiv.org/abs/2406.13300v1 )

ライセンス: Link先を確認
Han Yang, Guangjun Qin, Ziyuan Liu, Yongqing Hu, Qinglong Dai, (参考訳) 画像分類のためのLight Gradient Boosting Machine(LightGBM)アルゴリズムのロバスト性を高めるために,LightGBMのためのトポロジカルデータ解析(TDA)に基づくロバストネス最適化アルゴリズムTDA-LightGBMを提案する。 当初、この機能エンジニアリングプロセスは、ピクセルの特徴ストリームと、特徴抽出のためのトポロジ的特徴ストリームの2つのストリームに分割されていた。 その後、これらのピクセルとトポロジ的特徴は包括的特徴ベクトルに集約され、画像分類タスクにおけるLightGBMの入力として機能する。 この特徴の融合は、伝統的な特徴工学の方法論を包含するだけでなく、トポロジカルな構造情報を利用して、画像の固有の特徴をより正確にカプセル化する。 本研究の目的は、従来の画像処理において、不安定な特徴抽出とデータノイズによる分類精度の低下に関連する課題を克服することである。 TDA-LightGBMは, ノイズ条件下での5つの分類タスクにおいて, SOCOFingデータセット上での光GBMよりも3%精度が向上することが実証された。 ノイズのないシナリオでは、TDA-LightGBMは2つの分類タスクにおいてLightGBMよりも0.5%精度が向上し、99.8%の顕著な精度を実現している。 さらに,乳がんデータセットとMasked CASIA WebFaceデータセットの分類精度を,ノイズの有無でLightGBMを上回っ,それぞれ6%,15%向上させた。 これらの実験結果は、トポロジカルな特徴を統合することにより、光GBMのロバスト性を強化し、データ摂動中の画像分類タスクの性能を高めるために、TDA-LightGBMアプローチの有効性を裏付けるものである。

To enhance the robustness of the Light Gradient Boosting Machine (LightGBM) algorithm for image classification, a topological data analysis (TDA)-based robustness optimization algorithm for LightGBM, TDA-LightGBM, is proposed to address the interference of noise on image classification. Initially, the method partitions the feature engineering process into two streams: pixel feature stream and topological feature stream for feature extraction respectively. Subsequently, these pixel and topological features are amalgamated into a comprehensive feature vector, serving as the input for LightGBM in image classification tasks. This fusion of features not only encompasses traditional feature engineering methodologies but also harnesses topological structure information to more accurately encapsulate the intrinsic features of the image. The objective is to surmount challenges related to unstable feature extraction and diminished classification accuracy induced by data noise in conventional image processing. Experimental findings substantiate that TDA-LightGBM achieves a 3% accuracy improvement over LightGBM on the SOCOFing dataset across five classification tasks under noisy conditions. In noise-free scenarios, TDA-LightGBM exhibits a 0.5% accuracy enhancement over LightGBM on two classification tasks, achieving a remarkable accuracy of 99.8%. Furthermore, the method elevates the classification accuracy of the Ultrasound Breast Images for Breast Cancer dataset and the Masked CASIA WebFace dataset by 6% and 15%, respectively, surpassing LightGBM in the presence of noise. These empirical results underscore the efficacy of the TDA-LightGBM approach in fortifying the robustness of LightGBM by integrating topological features, thereby augmenting the performance of image classification tasks amidst data perturbations.
翻訳日:2024-06-21 22:40:02 公開日:2024-06-19
# ARDuP:Universal Policiesのアクティブリージョンビデオ拡散

ARDuP: Active Region Video Diffusion for Universal Policies ( http://arxiv.org/abs/2406.13301v1 )

ライセンス: Link先を確認
Shuaiyi Huang, Mara Levy, Zhenyu Jiang, Anima Anandkumar, Yuke Zhu, Linxi Fan, De-An Huang, Abhinav Shrivastava, (参考訳) 逐次決定は、テキスト条件付きビデオ生成問題として定式化することができ、そこでは、テキスト定義目標によって導かれるビデオプランナーが将来のフレームを生成して、次に制御アクションを導出する。 本研究では,タスク実行に不可欠なインタラクティブな領域に対する条件付きポリシの焦点を拡大し,潜在的相互作用領域の生成を強調する,ビデオベースのポリシー学習のための新しいフレームワークであるActive Region Video Diffusion for Universal Policies(ARDuP)を紹介する。 このイノベーティブなフレームワークは、ビデオ計画のための潜時拡散モデルとアクティブな領域条件付けを統合し、逆動的モデリング中の直接動作復号に潜時表現を用いる。 本手法は,ビデオ中の動作手がかりを有効領域の自動発見に活用することにより,アクティブ領域の手動アノテーションの必要性を解消する。 シミュレータCLIPortと実世界のデータセットBridgeData v2の広範な実験を通じてARDuPの有効性を検証する。

Sequential decision-making can be formulated as a text-conditioned video generation problem, where a video planner, guided by a text-defined goal, generates future frames visualizing planned actions, from which control actions are subsequently derived. In this work, we introduce Active Region Video Diffusion for Universal Policies (ARDuP), a novel framework for video-based policy learning that emphasizes the generation of active regions, i.e. potential interaction areas, enhancing the conditional policy's focus on interactive areas critical for task execution. This innovative framework integrates active region conditioning with latent diffusion models for video planning and employs latent representations for direct action decoding during inverse dynamic modeling. By utilizing motion cues in videos for automatic active region discovery, our method eliminates the need for manual annotations of active regions. We validate ARDuP's efficacy via extensive experiments on simulator CLIPort and the real-world dataset BridgeData v2, achieving notable improvements in success rates and generating convincingly realistic video plans.
翻訳日:2024-06-21 22:40:02 公開日:2024-06-19
# 状況インストラクションデータベース:動的環境におけるタスクガイダンス

Situational Instructions Database: Task Guidance in Dynamic Environments ( http://arxiv.org/abs/2406.13302v1 )

ライセンス: Link先を確認
Muhammad Saif Ullah Khan, Sankalp Sinha, Didier Stricker, Muhammad Zeshan Afzal, (参考訳) 状況インストラクションデータベース(SID)は、動的環境で動作する人工知能(AI)システムにおいて、状況認識の強化の必要性に対処する。 SIDは、詳細なシーングラフを動的に生成されたタスク固有の命令と統合することにより、コンテキスト感度と運用精度を改善して、AIシステムが複雑な現実世界のタスクを実行できるような、新しいデータセットを提供する。 このデータセットは高度な生成モデルを活用し、3Dセマンティックシーングラフ(DSSG)データセットに基づいて様々な現実的なシナリオをシミュレートする。 SIDは、大規模なリトレーニングをすることなく、新しく進化する条件に適応できるAIアプリケーションの開発を促進し、自律技術とAI駆動意思決定プロセスの研究を支援する。 このデータセットは、予測不可能な設定を効果的にナビゲートし、応答できる堅牢でコンテキスト対応のAIエージェントの開発に役立ちます。 SIDは研究と開発に利用でき、複雑な環境でインテリジェントシステムの能力を向上するための重要なリソースとして機能する。 データセットは \url{https://github.com/mindgarage/situational-instructions-database} で利用可能である。

The Situational Instructions Database (SID) addresses the need for enhanced situational awareness in artificial intelligence (AI) systems operating in dynamic environments. By integrating detailed scene graphs with dynamically generated, task-specific instructions, SID provides a novel dataset that allows AI systems to perform complex, real-world tasks with improved context sensitivity and operational accuracy. This dataset leverages advanced generative models to simulate a variety of realistic scenarios based on the 3D Semantic Scene Graphs (3DSSG) dataset, enriching it with scenario-specific information that details environmental interactions and tasks. SID facilitates the development of AI applications that can adapt to new and evolving conditions without extensive retraining, supporting research in autonomous technology and AI-driven decision-making processes. This dataset is instrumental in developing robust, context-aware AI agents capable of effectively navigating and responding to unpredictable settings. Available for research and development, SID serves as a critical resource for advancing the capabilities of intelligent systems in complex environments. Dataset available at \url{https://github.com/mindgarage/situational-instructions-database}.
翻訳日:2024-06-21 22:40:02 公開日:2024-06-19
# 電子商取引産業における政策とレコメンデーションに基づく信頼メカニズムの統合

Integration of Policy and Reputation based Trust Mechanisms in e-Commerce Industry ( http://arxiv.org/abs/2406.13303v1 )

ライセンス: Link先を確認
Muhammad Yasir Siddiqui, Alam Gir, (参考訳) 電子商取引システムは、商業行動やインターネット技術から取り組まれている。 したがって、買い手と売り手の取引間の信頼の側面は、競争力のあるeコマース業界で対処する必要がある潜在的な要素である。 電子商取引業界は現在、2つの異なる信頼アプローチを扱っている。 最初のアプローチは、ポリシベースの信頼メカニズムと呼ばれる、デジタル認証/ルールセットが組み立てられた集中的なメカニズムに基づいています。 第2のアプローチは、評価、ポイントの収集、共有を行う分散信頼メカニズム(Reputation based Trust mechanism)で構成されている。 評判と政策ベースの信頼メカニズムの違いを分析し、eコマース業界における買い手と売り手との信頼を高めるために推奨する。 信頼メカニズムの統合は、マッピングプロセス、一方のメカニズムと他方の弱点の強さを通じて提案される。 提案する統合メカニズムモデルについて, 実世界のeコマース産業において, 提案モデルがどのように使用されるかを紹介する。

The e-commerce systems are being tackled from commerce behavior and internet technologies. Therefore, trust aspect between buyer-seller transactions is a potential element which needs to be addressed in competitive e-commerce industry. The e-commerce industry is currently handling two different trust approaches. First approach consists on centralized mechanism where digital credentials/set of rules assembled, called Policy based trust mechanisms . Second approach consists on decentralized trust mechanisms where reputation, points assembled and shared, called Reputation based trust mechanisms. The difference between reputation and policy based trust mechanism will be analyzed and recommendations would be proposed to increase trust between buyer and seller in e-commerce industry. The integration of trust mechanism is proposed through mapping process, strength of one mechanism with the weakness of other. The proposed model for integrated mechanism will be presented and illustrated how the proposed model will be used in real world e-commerce industry.
翻訳日:2024-06-21 22:40:02 公開日:2024-06-19
# アルツハイマー病連続性アミロイドのマルチモーダルMRIによる検出

Multimodal MRI-based Detection of Amyloid Status in Alzheimer's Disease Continuum ( http://arxiv.org/abs/2406.13305v1 )

ライセンス: Link先を確認
Giorgio Dolci, Charles A. Ellis, Federica Cruciani, Lorenza Brusini, Anees Abrol, Ilaria Boscolo Galazzo, Gloria Menegaz, Vince D. Calhoun, (参考訳) Amyloid-$\beta$ (A$\beta$) プラークは、高リン酸化タウタンパク質と結合し、神経線維の絡み合いの形で、アルツハイマー病(AD)の2つの神経病理学的特徴である。 特に、A/T/N(アミロイド/タウ/ニューロデジェネレーション)フレームワークによるA$\beta$プラークの蓄積は、初期段階を示す。 したがって、A$\beta$陽性の個体の同定は早期診断を可能にし、より効果的な介入につながる可能性がある。 この目的のためには、主にアミロイドPET画像に依存する深層学習法が用いられている。 しかし、PETイメージングには、放射性物質の必要性や高価な買収など、いくつかの欠点がある。 そこで本研究では,AD連続体におけるA$\beta$状態を識別するために,構造,機能,拡散MRIデータからの情報を統合する新しいマルチモーダル手法を提案する。 精度は0.762\pm0.04$である。 さらに、モデル予測に最も影響した脳領域を検索するために、textit{post-hoc}説明可能性分析(誘導バックプロパゲーション)を行った。 この分析では、モダリティに共通するいくつかの重要な領域を同定し、そのうちのいくつかはよく確立されたAD識別バイオマーカーであり、海馬、視床、前頭骨、帯状回など、A$\beta$の沈着に関係していた。 そこで本研究では,MRIによるA$\beta$状態のキャラクタリゼーションの可能性を示し,この領域におけるさらなる研究の道を開く。

Amyloid-$\beta$ (A$\beta$) plaques in conjunction with hyperphosphorylated tau proteins in the form of neurofibrillary tangles are the two neuropathological hallmarks of Alzheimer's disease (AD). In particular, the accumulation of A$\beta$ plaques, as evinced by the A/T/N (amyloid/tau/neurodegeneration) framework, marks the initial stage. Thus, the identification of individuals with A$\beta$ positivity could enable early diagnosis and potentially lead to more effective interventions. Deep learning methods relying mainly on amyloid PET images have been employed to this end. However, PET imaging has some disadvantages, including the need of radiotracers and expensive acquisitions. Hence, in this work, we propose a novel multimodal approach that integrates information from structural, functional, and diffusion MRI data to discriminate A$\beta$ status in the AD continuum. Our method achieved an accuracy of $0.762\pm0.04$. Furthermore, a \textit{post-hoc} explainability analysis (guided backpropagation) was performed to retrieve the brain regions that most influenced the model predictions. This analysis identified some key regions that were common across modalities, some of which were well-established AD-discriminative biomarkers and related to A$\beta$ deposition, such as the hippocampus, thalamus, precuneus, and cingulate gyrus. Hence, our study demonstrates the potential viability of MRI-based characterization of A$\beta$ status, paving the way for further research in this domain.
翻訳日:2024-06-21 22:40:02 公開日:2024-06-19
# ディープラーニングに基づく3Dインスタンスとセマンティックセグメンテーション

Deep Learning-Based 3D Instance and Semantic Segmentation: A Review ( http://arxiv.org/abs/2406.13308v1 )

ライセンス: Link先を確認
Siddiqui Muhammad Yasir, Hyunsik Ahn, (参考訳) 点雲データを同じ属性を持つ同じ領域の点を持つ複数の同質領域に分割する過程は、3Dセグメンテーションとして知られている。 セグメンテーションは、かなり冗長性があり、サンプル密度が変動し、明らかな組織が欠如しているため、ポイントクラウドデータでは困難である。 研究エリアには、インテリジェントな車両、自律マッピング、ナビゲーションなど、幅広いロボット工学の応用がある。 多くの研究者が様々な手法とアルゴリズムを導入している。 ディープラーニングは、一般的なAI手法として、2次元視覚領域のスペクトルにうまく使われてきた。 しかし、深いニューラルネットワークでポイントクラウドを処理するという特定の問題のため、ポイントクラウドでのディープラーニングはまだ初期段階にある。 本研究では,3Dインスタンスとセマンティックセグメンテーションに提示された多くの戦略について検討し,深層学習に基づく3Dセグメンテーションの現況について完全な評価を行う。 これらのアプローチでは、引き戻し、設計メカニズムが研究され、対処されます。 本研究は,様々なセグメンテーションアルゴリズムが各種公開データセットの競争性に及ぼす影響と,最も頻繁に使用されるパイプライン,その利点と限界,洞察に富んだ発見,今後の研究方向性について評価する。

The process of segmenting point cloud data into several homogeneous areas with points in the same region having the same attributes is known as 3D segmentation. Segmentation is challenging with point cloud data due to substantial redundancy, fluctuating sample density and lack of apparent organization. The research area has a wide range of robotics applications, including intelligent vehicles, autonomous mapping and navigation. A number of researchers have introduced various methodologies and algorithms. Deep learning has been successfully used to a spectrum of 2D vision domains as a prevailing A.I. methods. However, due to the specific problems of processing point clouds with deep neural networks, deep learning on point clouds is still in its initial stages. This study examines many strategies that have been presented to 3D instance and semantic segmentation and gives a complete assessment of current developments in deep learning-based 3D segmentation. In these approaches benefits, draw backs, and design mechanisms are studied and addressed. This study evaluates the impact of various segmentation algorithms on competitiveness on various publicly accessible datasets, as well as the most often used pipelines, their advantages and limits, insightful findings and intriguing future research directions.
翻訳日:2024-06-21 22:40:02 公開日:2024-06-19
# 非最大エンタングル状態による継手ワイヤ切断

Joint Wire Cutting with Non-Maximally Entangled States ( http://arxiv.org/abs/2406.13315v1 )

ライセンス: Link先を確認
Marvin Bechtold, Johanna Barzen, Frank Leymann, Alexander Mandl, Felix Truger, (参考訳) 分散量子コンピューティングは、複数の量子デバイスの集合的パワーを活用して、個々の量子デバイスの能力を超える計算を行う。 この分散アプローチを実現するための現在研究されている技術は、配線を切断することで量子回路を小さなサブ回路に分解するワイヤ切断である。 これらのサブ回路は分散デバイス上で実行でき、それらの結果を古典的に組み合わせて元の計算結果を再構築する。 しかし、ワイヤ切断は結果の正確性を維持するために追加の回路実行を必要とし、その数はカットごとに指数関数的に増加する。 したがって、このサンプリングオーバーヘッドを最小限に抑えることは、全体の実行時間を短縮するために重要である。 分散デバイス間での共有非最大エンタングルド(NME)状態の利用は、単一ワイヤカットのオーバーヘッドを低減し、最大エンタングルド状態による理想的なテレポーテーションに近づく。 このアプローチをNME状態を用いて複数ワイヤを共同切断するように拡張することは、まだ未検討のままである。 本論文は,NME 状態を用いた電線切断について検討し,サンプリングオーバーヘッドをさらに低減することを目的として,このギャップに対処するものである。 私たちの3つの主な貢献は i) このシナリオの最小限のサンプリングオーバーヘッドを決定する。 二 より小さいNME状態から構築した複合NME状態を用いた場合のオーバーヘッド解析及び 三 純NME状態での最適なサンプリングオーバーヘッドを達成し、任意のNME状態でのワイヤ切断への道を開く電線切断技術を導入する。

Distributed quantum computing leverages the collective power of multiple quantum devices to perform computations exceeding the capabilities of individual quantum devices. A currently studied technique to enable this distributed approach is wire cutting, which decomposes a quantum circuit into smaller subcircuits by cutting their connecting wires. These subcircuits can then be executed on distributed devices, and their results are classically combined to reconstruct the original computation's result. However, wire cutting requires additional circuit executions to preserve result accuracy, with their number growing exponentially with each cut. Thus, minimizing this sampling overhead is crucial for reducing the total execution time. Employing shared non-maximally entangled (NME) states between distributed devices reduces this overhead for single wire cuts, moving closer to ideal teleportation with maximally entangled states. Extending this approach to jointly cutting multiple wires using NME states remained unexplored. Our paper addresses this gap by investigating the use of NME states for joint wire cuts, aiming to reduce the sampling overhead further. Our three main contributions include (i) determining the minimal sampling overhead for this scenario, (ii) analyzing the overhead when using composite NME states constructed from smaller NME states, and (iii) introducing a wire cutting technique that achieves the optimal sampling overhead with pure NME states, paving the way towards wire cutting with arbitrary NME states.
翻訳日:2024-06-21 22:40:02 公開日:2024-06-19
# 対実画像を用いた事前学習モデルの強化

Reinforcing Pre-trained Models Using Counterfactual Images ( http://arxiv.org/abs/2406.13316v1 )

ライセンス: Link先を確認
Xiang Li, Ren Togo, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama, (参考訳) 本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。 ディープラーニングの分類モデルは、現実世界のシナリオを反映したデータセットを使って訓練されることが多い。 このトレーニングプロセスでは、学習はラベルとの相関にのみ基づくため、画像の背景要素のような被写体の中心ではない特徴への過度な依存など、モデルが突発的な関係を学習するリスクがある。 しかし、ディープラーニングモデルにおける意思決定プロセスのブラックボックスの性質のため、これらの脆弱性を特定し、対処することは特に困難である。 本稿では,2段階のプロセスからなる分類モデルを強化するための新しいフレームワークを提案する。 まず,摂動画像キャプションによって生成された反ファクト画像データセットを用いてモデルをテストすることにより,モデルの弱点を同定する。 続いて, 分類モデルを微調整し, 強化するために, 逆ファクト画像を拡張データセットとして利用する。 様々なデータセットにまたがる様々な分類モデルに関する広範な実験により、小さな対物画像による微調整が効果的にモデルを強化することが明らかとなった。

This paper proposes a novel framework to reinforce classification models using language-guided generated counterfactual images. Deep learning classification models are often trained using datasets that mirror real-world scenarios. In this training process, because learning is based solely on correlations with labels, there is a risk that models may learn spurious relationships, such as an overreliance on features not central to the subject, like background elements in images. However, due to the black-box nature of the decision-making process in deep learning models, identifying and addressing these vulnerabilities has been particularly challenging. We introduce a novel framework for reinforcing the classification models, which consists of a two-stage process. First, we identify model weaknesses by testing the model using the counterfactual image dataset, which is generated by perturbed image captions. Subsequently, we employ the counterfactual images as an augmented dataset to fine-tune and reinforce the classification model. Through extensive experiments on several classification models across various datasets, we revealed that fine-tuning with a small set of counterfactual images effectively strengthens the model.
翻訳日:2024-06-21 22:40:02 公開日:2024-06-19
# M4Fog:大域的マルチリージョン,マルチモーダル,マルチステージの海洋生物検出とブリッジオーシャンと大気への予測のためのデータセット

M4Fog: A Global Multi-Regional, Multi-Modal, and Multi-Stage Dataset for Marine Fog Detection and Forecasting to Bridge Ocean and Atmosphere ( http://arxiv.org/abs/2406.13317v1 )

ライセンス: Link先を確認
Mengqiu Xu, Ming Wu, Kaixin Chen, Yixiang Huang, Mingrui Xu, Yujia Yang, Yiqing Feng, Yiying Guo, Bin Huang, Dongliang Chang, Zhenwei Shi, Chuang Zhang, Zhanyu Ma, Jun Guo, (参考訳) 海洋の霧はグローバルな輸送に重大な危険をもたらし、経済的損失を減らすために効果的な検知と予測を必要としている。 近年,いくつかの機械学習(ML)手法は,従来の気象法に比べて検出精度が優れていることが示されている。 しかし、これらの研究の多くはプロプライエタリなデータセットに基づいて開発されており、いくつかの公開データセットは研究目的の単純なおもちゃのシナリオに限られることが多い。 本研究は, 気象観測と数値解析とともに, 海洋霧が頻発する15の海域を網羅する4つの静止気象衛星から, 連続的な海洋霧のステージに関連する10年分のマルチモーダルデータを収集した。 気象専門家によるピクセルレベルの手動アノテーションを通じて、これまでで最も包括的な海洋霧の検出と予測データセットであるM4Fogを、海と大気を橋渡しするために提示する。 データセットは、元素、緯度、経度、時間の4次元に沿って68,000個の「スーパーデータキューブ」で構成され、時間分解能は30時間、空間分解能は1kmである。 現実的な応用を考慮し, 静的・動的海洋霧検出, クラウド画像の時空間予測という, マルチメトリック評価システムを用いた3つの意味トラックを定義し, 検討した。 大規模なベンチマークと実験により、提案されたM4Fogの構築概念の合理性と有効性を示す。 データとコードはクラウドプラットフォームを通じて研究者全体に公開されており、ML駆動の海洋霧ソリューションを開発し、人間の活動に対する悪影響を軽減する。

Marine fog poses a significant hazard to global shipping, necessitating effective detection and forecasting to reduce economic losses. In recent years, several machine learning (ML) methods have demonstrated superior detection accuracy compared to traditional meteorological methods. However, most of these works are developed on proprietary datasets, and the few publicly accessible datasets are often limited to simplistic toy scenarios for research purposes. To advance the field, we have collected nearly a decade's worth of multi-modal data related to continuous marine fog stages from four series of geostationary meteorological satellites, along with meteorological observations and numerical analysis, covering 15 marine regions globally where maritime fog frequently occurs. Through pixel-level manual annotation by meteorological experts, we present the most comprehensive marine fog detection and forecasting dataset to date, named M4Fog, to bridge ocean and atmosphere. The dataset comprises 68,000 "super data cubes" along four dimensions: elements, latitude, longitude and time, with a temporal resolution of half an hour and a spatial resolution of 1 kilometer. Considering practical applications, we have defined and explored three meaningful tracks with multi-metric evaluation systems: static or dynamic marine fog detection, and spatio-temporal forecasting for cloud images. Extensive benchmarking and experiments demonstrate the rationality and effectiveness of the construction concept for proposed M4Fog. The data and codes are available to whole researchers through cloud platforms to develop ML-driven marine fog solutions and mitigate adverse impacts on human activities.
翻訳日:2024-06-21 22:40:02 公開日:2024-06-19
# エルゴトロピックギャップを用いた多粒子絡み合い分類

Multiparticle entanglement classification with ergotropic gap ( http://arxiv.org/abs/2406.13319v1 )

ライセンス: Link先を確認
Xue Yang, Yan-Han Yang, Shao-Ming Fei, Ming-Xing Luo, (参考訳) 量子多部構造の絡み合いの存在は、エルゴトロピックギャップ(英語版)として知られる熱力学量の存在を意味し、これは系から最大の大域的および局所的な抽出可能な作品の違いとして定義される。 エンタングルメントの幾何学的測度とエルゴトロピックギャップの直接的な関係を確立する。 それぞれの量子状態は、確率的局所演算と古典的通信(SLOCC)の下で等価である。 最終的にマルチパーティのエルゴトロピックギャップインジケータの概念を導入し,SLOCCの下での絡み合いを分類するための洗練された基準を示す。

The presence of quantum multipartite entanglement implies the existence of a thermodynamic quantity known as the ergotropic gap, which is defined as the difference between the maximal global and local extractable works from the system. We establish a direct relation between the geometric measure of entanglement and the ergotropic gaps. We show that all the marginal ergotropic gaps form a convex polytope for each class of quantum states that are equivalent under stochastic local operations and classical communication (SLOCC). We finally introduce the concept of multipartite ergotropic gap indicators and use them to present a refined criterion for classifying entanglement under SLOCC.
翻訳日:2024-06-21 22:40:02 公開日:2024-06-19
# ゼロショット動作認識のための部分認識型言語と骨格表現

Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition ( http://arxiv.org/abs/2406.13327v1 )

ライセンス: Link先を確認
Anqi Zhu, Qiuhong Ke, Mingming Gong, James Bailey, (参考訳) 骨格に基づく行動認識は目覚ましい進歩を遂げているが、ゼロショット認識の課題はいまだに解明されていない。 本稿では,ラベルレベルのセマンティクスとグローバルスケルトンの特徴の整合性のみに頼っているだけでは,視覚的知識の局所的一貫した理解を,見知らぬクラスへ効果的に伝達できないことを論じる。 この制限に対処するため,言語と骨格間の統一表現(PURLS)を導入し,局所的・グローバル的に視覚的セマンティックなアライメントを探索する。 PURLSは新しいプロンプトモジュールと新しいパーティショニングモジュールを導入し、異なるレベルのテキストおよびビジュアル表現を生成する。 前者はトレーニング済みのGPT-3を利用して、元のアクションラベルからグローバルおよびローカル(ボディ部分ベースおよび時間間隔ベース)の動きの洗練された記述を推測する。 後者は、与えられた記述に意味的に関係するすべての身体関節運動から視覚的特徴をグループ化する適応的なサンプリング戦略を採用している。 提案手法は,NTU-RGB+D 60,NTU-RGB+D 120,Kinetics-skeleton 200の3つの大規模データセットと骨格/言語バックボーンを用いて評価した。 その結果、PURLSの普遍性と優れた性能を示し、以前のスケルトンベースのソリューションと他のドメインからの標準ベースラインを上回った。 ソースコードはhttps://github.com/azzh1/PURLSでアクセスできる。

While remarkable progress has been made on supervised skeleton-based action recognition, the challenge of zero-shot recognition remains relatively unexplored. In this paper, we argue that relying solely on aligning label-level semantics and global skeleton features is insufficient to effectively transfer locally consistent visual knowledge from seen to unseen classes. To address this limitation, we introduce Part-aware Unified Representation between Language and Skeleton (PURLS) to explore visual-semantic alignment at both local and global scales. PURLS introduces a new prompting module and a novel partitioning module to generate aligned textual and visual representations across different levels. The former leverages a pre-trained GPT-3 to infer refined descriptions of the global and local (body-part-based and temporal-interval-based) movements from the original action labels. The latter employs an adaptive sampling strategy to group visual features from all body joint movements that are semantically relevant to a given description. Our approach is evaluated on various skeleton/language backbones and three large-scale datasets, i.e., NTU-RGB+D 60, NTU-RGB+D 120, and a newly curated dataset Kinetics-skeleton 200. The results showcase the universality and superior performance of PURLS, surpassing prior skeleton-based solutions and standard baselines from other domains. The source codes can be accessed at https://github.com/azzh1/PURLS.
翻訳日:2024-06-21 22:40:02 公開日:2024-06-19
# オープンワールド意思決定システムにおける意思決定予測のための大まかなメレオロジーとVC次元について

On rough mereology and VC-dimension in treatment of decision prediction for open world decision systems ( http://arxiv.org/abs/2406.13329v1 )

ライセンス: Link先を確認
Lech T. Polkowski, (参考訳) データテーブルや意思決定システムという形で、生の知識が与えられれば、2つの可能な場所に直面します。 一つは、系を閉じたものとして扱うこと、すなわち、その宇宙は新しい物体を認めない、あるいはそれとは対照的に、その宇宙は新しい物体の受け入れに基づいて開かれている。 特に、特徴の値のセットがシステムに新しい新しい新しいオブジェクトを得ることができる。 この場合、問題は、そのような新しいオブジェクトに決定値を割り当てることである。 この問題は、すでに決定値が割り当てられているオブジェクトの値集合に対する新しいオブジェクトの値集合の類似性に基づいて、粗い集合論(例えば、g)において何らかの方法で解決される。 新しいオブジェクトが予測された決定値を持つ必要がある場合、オンライン学習は不可欠である。 は、新しいが見えない対象に対する決定予測のための様々な方法に関する膨大な文献がある。 提案するアプローチは、粗メアロジーの理論に基礎を置いており、集合や概念の理論を必要としており、メアロジーとして知られる部分の理論を想起させるシロジックの古典的集合論に我々の理論を根ざす。 そして、我々のラフ・メアロジーの理論と、タルスキ代数(英語版)(Tarski algebra of Mereology)への重み付けの理論を思い出す。 これは、ある部分の概念をある程度に導入することを可能にする。 メレオロジーと粗メレオロジーの基本を定義すると、メレオロジー内のブール代数の要素に対する重み付けの理論を思い出し、この理論は次数への部分の関係を定義でき、この概念を新しい未知の対象に対する決定を選択する手順に適用する。 ここでは、Vapnik - Chervonenkis 次元の概念を用いて、$\varepsilon$-components for some choice of $\varepsilon$の家族の最大のVC次元を持つ候補を選択する。

Given a raw knowledge in the form of a data table/a decision system, one is facing two possible venues. One, to treat the system as closed, i.e., its universe does not admit new objects, or, to the contrary, its universe is open on admittance of new objects. In particular, one may obtain new objects whose sets of values of features are new to the system. In this case the problem is to assign a decision value to any such new object. This problem is somehow resolved in the rough set theory, e.g., on the basis of similarity of the value set of a new object to value sets of objects already assigned a decision value. It is crucial for online learning when each new object must have a predicted decision value.\ There is a vast literature on various methods for decision prediction for new yet unseen object. The approach we propose is founded in the theory of rough mereology and it requires a theory of sets/concepts, and, we root our theory in classical set theory of Syllogistic within which we recall the theory of parts known as Mereology. Then, we recall our theory of Rough Mereology along with the theory of weight assignment to the Tarski algebra of Mereology.\ This allows us to introduce the notion of a part to a degree. Once we have defined basics of Mereology and rough Mereology, we recall our theory of weight assignment to elements of the Boolean algebra within Mereology and this allows us to define the relation of parts to the degree and we apply this notion in a procedure to select a decision for new yet unseen objects.\ In selecting a plausible candidate which would pass its decision value to the new object, we employ the notion of Vapnik - Chervonenkis dimension in order to select at the first stage the candidate with the largest VC-dimension of the family of its $\varepsilon$-components for some choice of $\varepsilon$.
翻訳日:2024-06-21 22:40:02 公開日:2024-06-19
# リスク最小化によるゼロショットLDMリランカーの改善

Improving Zero-shot LLM Re-Ranker with Risk Minimization ( http://arxiv.org/abs/2406.13331v1 )

ライセンス: Link先を確認
Xiaowei Yuan, Zhao Yang, Yequan Wang, Jun Zhao, Kang Liu, (参考訳) Retrieval-Augmented Generation (RAG)システムでは、高度なLarge Language Models (LLMs) が教師なしの方法でクエリ類似モデル (QLMs) として出現し、ドキュメントの内容からクエリを生成する確率に基づいてドキュメントを再ランクする。 しかし、直接的にQLMを近似させる手法は、推定された分布が実際の文書固有の分布から分岐する可能性があるため、偏りがある。 本研究では,この推定バイアスの定量化と緩和にベイズ決定理論を活用する新しい枠組みである$\mathrm{UR^3}$を導入する。 具体的には、$\mathrm{UR^3}$は、ドキュメント生成の確率を最大化するものとして問題を再構成し、統一されたリスク最小化目標の下でクエリとドキュメント生成確率の最適化を調和させる。 実験の結果,$\mathrm{UR^3}$は,特にTop-1精度の向上において,再ランクを著しく向上することが示された。 少ない入力ドキュメントで高い精度を達成することで、QAタスクの恩恵を受ける。

In the Retrieval-Augmented Generation (RAG) system, advanced Large Language Models (LLMs) have emerged as effective Query Likelihood Models (QLMs) in an unsupervised way, which re-rank documents based on the probability of generating the query given the content of a document. However, directly prompting LLMs to approximate QLMs inherently is biased, where the estimated distribution might diverge from the actual document-specific distribution. In this study, we introduce a novel framework, $\mathrm{UR^3}$, which leverages Bayesian decision theory to both quantify and mitigate this estimation bias. Specifically, $\mathrm{UR^3}$ reformulates the problem as maximizing the probability of document generation, thereby harmonizing the optimization of query and document generation probabilities under a unified risk minimization objective. Our empirical results indicate that $\mathrm{UR^3}$ significantly enhances re-ranking, particularly in improving the Top-1 accuracy. It benefits the QA tasks by achieving higher accuracy with fewer input documents.
翻訳日:2024-06-21 22:40:02 公開日:2024-06-19
# 低資源インド語翻訳におけるマルチソースピボットはどの程度有効か?

How effective is Multi-source pivoting for Translation of Low Resource Indian Languages? ( http://arxiv.org/abs/2406.13332v1 )

ライセンス: Link先を確認
Pranav Gaikwad, Meet Doshi, Raj Dabre, Pushpak Bhattacharyya, (参考訳) 言語的に異なる言語間の機械翻訳(MT)は特に並列コーパスの不足により困難である。 以前の研究は、高リソース言語をピボットすることで、関連する低リソース言語への変換に役立つことを示唆している。 しかし、既存の作業は、ピボットするときにソース文を破棄する傾向がある。 本稿では、英語からインド語へのMTを例として、ソース文とピボット文の両方を用いて、ピボットによる「複数ソース翻訳」アプローチについて検討する。 我々は,ヒンディー語,マラティー語,ベンガル語を用いて,コンカニ語,マニプリ語,サンスクリット語,ボド語に翻訳する様々な多元的手法による広範な実験を行った。 従来の主張とは対照的に,マルチソースピボットは最先端技術よりも限界的な改善をもたらすが,これらの改善は合成対象言語データによって強化できる。 私たちは、マルチソースのピボットが低リソースの翻訳にとって有望な方向であると信じています。

Machine Translation (MT) between linguistically dissimilar languages is challenging, especially due to the scarcity of parallel corpora. Prior works suggest that pivoting through a high-resource language can help translation into a related low-resource language. However, existing works tend to discard the source sentence when pivoting. Taking the case of English to Indian language MT, this paper explores the 'multi-source translation' approach with pivoting, using both source and pivot sentences to improve translation. We conducted extensive experiments with various multi-source techniques for translating English to Konkani, Manipuri, Sanskrit, and Bodo, using Hindi, Marathi, and Bengali as pivot languages. We find that multi-source pivoting yields marginal improvements over the state-of-the-art, contrary to previous claims, but these improvements can be enhanced with synthetic target language data. We believe multi-source pivoting is a promising direction for Low-resource translation.
翻訳日:2024-06-21 22:40:02 公開日:2024-06-19
# エンティティ認識という医療用スポット

Medical Spoken Named Entity Recognition ( http://arxiv.org/abs/2406.13337v1 )

ライセンス: Link先を確認
Khai Le-Duc, (参考訳) Spoken Named Entity Recognition (NER)は、音声から名前付きエンティティを抽出し、人、場所、組織などのタイプに分類することを目的としている。 本稿では,医療領域における最初の音声NERデータセットであるVietMed-NERを紹介する。 我々の知る限りでは、我々の実世界のデータセットは18の異なるタイプを特徴とするエンティティタイプの数で世界最大のNERデータセットである。 第2に,エンコーダのみとシーケンス・ツー・シーケンスという,最先端の事前学習モデルを用いたベースライン結果を提案する。 事前学習した多言語モデルXLM-Rは、参照テキストとASR出力の両方のモノリンガルモデルよりも優れていた。 また、一般にエンコーダは、NERタスクのシーケンス・ツー・シーケンスモデルよりも優れている。 単に翻訳することで、文字はベトナム語だけでなく他の言語にも適用できる。 すべてのコード、データ、モデルはここで公開されています。

Spoken Named Entity Recognition (NER) aims to extracting named entities from speech and categorizing them into types like person, location, organization, etc. In this work, we present VietMed-NER - the first spoken NER dataset in the medical domain. To our best knowledge, our real-world dataset is the largest spoken NER dataset in the world in terms of the number of entity types, featuring 18 distinct types. Secondly, we present baseline results using various state-of-the-art pre-trained models: encoder-only and sequence-to-sequence. We found that pre-trained multilingual models XLM-R outperformed all monolingual models on both reference text and ASR output. Also in general, encoders perform better than sequence-to-sequence models for the NER task. By simply translating, the transcript is applicable not just to Vietnamese but to other languages as well. All code, data and models are made publicly available here: https://github.com/leduckhai/MultiMed
翻訳日:2024-06-21 22:40:02 公開日:2024-06-19
# 有限次元系における$su(d)$-squeezingおよび多体絡み合い幾何学

$su(d)$-squeezing and many-body entanglement geometry in finite-dimensional systems ( http://arxiv.org/abs/2406.13338v1 )

ライセンス: Link先を確認
Giuseppe Vitagliano, Otfried Gühne, Géza Tóth, (参考訳) 良く知られたスピンスクイーズの不等式を一般化し、集合$N$- Particle $su(d)$演算子のスクイーズと多粒子系の多体絡み合い幾何の関係について検討する。 この目的のために、単粒子状態の積の混合であり、$(d^2-1)$-次元ブロッホ球面にあるが必ずしも正の半定値ではない擬分離状態の集合を定義する。 我々は上記の形式であるような$N$ quditsの状態に必要な条件の集合を得る。 これらの条件に違反する状態はすべて絡み合っている。 また,大粒子アンサンブルの絡みを検出できる$su(d)$-squeezingパラメータも定義する。 幾何学的には、この条件の集合は集合$N$-粒子$su(d)$作用素の第一モーメントと第二モーメントの空間における点の凸集合を定義する。 我々は、極限$N\gg 1$において、そのような集合は擬分離状態で満たされ、一方、この集合の外側の点に対応する状態は必ず絡み合っていることを証明している。 ボゾン対称性を持つ状態が検出されるのは、2体還元状態が正部分転位(PPT)基準に違反している場合に限る。 一方、$su(d)$ singletに近い高度に混合した状態は、分離可能な2体還元状態を持ち、また可能な全ての分割に関してPTである。 また、我々の不等式によって検出される熱平衡状態の数値的な例を示し、スピンスクイーズ不等式と$su(3)$スクイーズ不等式を比較した。

Generalizing the well-known spin-squeezing inequalities, we study the relation between squeezing of collective $N$-particle $su(d)$ operators and many-body entanglement geometry in multi-particle systems. For that aim, we define the set of pseudo-separable states, which are mixtures of products of single-particle states that lie in the $(d^2-1)$-dimensional Bloch sphere but are not necessarily positive semidefinite. We obtain a set of necessary conditions for states of $N$ qudits to be of the above form. Any state that violates these conditions is entangled. We also define a corresponding $su(d)$-squeezing parameter that can be used to detect entanglement in large particle ensembles. Geometrically, this set of conditions defines a convex set of points in the space of first and second moments of the collective $N$-particle $su(d)$ operators. We prove that, in the limit $N\gg 1$, such set is filled by pseudo-separable states, while any state corresponding to a point outside of this set is necessarily entangled. We also study states that are detected by these inequalities: We show that states with a bosonic symmetry are detected if and only if the two-body reduced state violates the positive partial transpose (PPT) criterion. On the other hand, highly mixed states states close to the $su(d)$ singlet are detected which have a separable two-body reduced state and are also PPT with respect to all possible bipartitions. We also provide numerical examples of thermal equilibrium states that are detected by our set of inequalities, comparing the spin-squeezing inequalities with the $su(3)$-squeezing inequalities.
翻訳日:2024-06-21 22:30:00 公開日:2024-06-19
# SD-Eval: 単語以外の対話理解のためのベンチマークデータセット

SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words ( http://arxiv.org/abs/2406.13340v1 )

ライセンス: Link先を確認
Junyi Ao, Yuancheng Wang, Xiaohai Tian, Dekun Chen, Jun Zhang, Lu Lu, Yuxuan Wang, Haizhou Li, Zhizheng Wu, (参考訳) スピーチには豊富な情報が含まれており、内容、パラ言語、環境情報に限定されない。 この包括的言語の性質はコミュニケーションに大きな影響を与え、人間とコンピュータの相互作用に不可欠である。 汎用補助機能で知られるチャット指向大規模言語モデル (LLM) は、音声を含むマルチモーダル入力を扱うように進化してきた。 これらのモデルは、音声認識や分析に適しているが、適切な応答を生成するには不十分であることが多い。 これは、オープンソースのデータセットとモデル評価に適したメトリクスを必要とするタスク定義とモデル開発に関する原則が欠如しているためである、と我々は主張する。 このギャップを埋めるために,音声対話理解と生成の多次元評価を目的としたベンチマークデータセットSD-Evalを提案する。 SD-Evalはパラ言語と環境情報に重点を置いており、発話は7,303件あり、音声データは8.76時間である。 データは8つの公開データセットから集約され、感情、アクセント、年齢、背景音の4つの視点を表す。 SD-Evalベンチマークデータセットを評価するため、3つの異なるモデルを実装し、SD-Evalと同様のプロセスに従ってトレーニングセットを構築する。 トレーニングセットには、1,052.72時間の音声データと724.4kの発話が含まれている。 また、客観的評価手法(例えばBLEUとROUGE)、主観的評価、LLMに基づく評価を用いて総合的な評価を行う。 パラ言語的・環境的な情報が調和したモデルは、客観的・主観的な尺度の両方において、相手よりも優れている。 さらに, LLMを用いた計測実験では, 従来の測定値と比較して, 人体評価と高い相関性を示した。 SD-Evalはhttps://github.com/amphionspace/SD-Eval.comでオープンソース公開しています。

Speech encompasses a wealth of information, including but not limited to content, paralinguistic, and environmental information. This comprehensive nature of speech significantly impacts communication and is crucial for human-computer interaction. Chat-Oriented Large Language Models (LLMs), known for their general-purpose assistance capabilities, have evolved to handle multi-modal inputs, including speech. Although these models can be adept at recognizing and analyzing speech, they often fall short of generating appropriate responses. We argue that this is due to the lack of principles on task definition and model development, which requires open-source datasets and metrics suitable for model evaluation. To bridge the gap, we present SD-Eval, a benchmark dataset aimed at multidimensional evaluation of spoken dialogue understanding and generation. SD-Eval focuses on paralinguistic and environmental information and includes 7,303 utterances, amounting to 8.76 hours of speech data. The data is aggregated from eight public datasets, representing four perspectives: emotion, accent, age, and background sound. To assess the SD-Eval benchmark dataset, we implement three different models and construct a training set following a similar process as SD-Eval. The training set contains 1,052.72 hours of speech data and 724.4k utterances. We also conduct a comprehensive evaluation using objective evaluation methods (e.g. BLEU and ROUGE), subjective evaluations and LLM-based metrics for the generated responses. Models conditioned with paralinguistic and environmental information outperform their counterparts in both objective and subjective measures. Moreover, experiments demonstrate LLM-based metrics show a higher correlation with human evaluation compared to traditional metrics. We open-source SD-Eval at https://github.com/amphionspace/SD-Eval.
翻訳日:2024-06-21 22:30:00 公開日:2024-06-19
# ZeroDL: 大規模言語モデルによるテキストクラスタリングのためのゼロショット分散学習

ZeroDL: Zero-shot Distribution Learning for Text Clustering via Large Language Models ( http://arxiv.org/abs/2406.13342v1 )

ライセンス: Link先を確認
Hwiyeol Jo, Hyunwoo Lee, Taiwoo Park, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、NLPタスクの解決に大きな進歩をもたらした。 特に、文脈内学習(ICL)は、LLMが特定のタスクを理解し、ニュアンスを把握するための鍵となるメカニズムである。 本稿では,(1)所与のLCMがターゲットデータセットの全体あるいは一部をどのように記述しているかを観察し,(2)LLMによるオープンなゼロショット推論結果の集約を行い,(3)最終的に実際のタスクに集約されたメタ情報を統合することによって,特定のLCMに対してタスクを文脈的に効果的に処理する方法を提案する。 本稿では,テキストクラスタリングタスクにおけるこのアプローチの有効性を示すとともに,上記の手順の例による文脈化の重要性を強調する。

The recent advancements in large language models (LLMs) have brought significant progress in solving NLP tasks. Notably, in-context learning (ICL) is the key enabling mechanism for LLMs to understand specific tasks and grasping nuances. In this paper, we propose a simple yet effective method to contextualize a task toward a specific LLM, by (1) observing how a given LLM describes (all or a part of) target datasets, i.e., open-ended zero-shot inference, and (2) aggregating the open-ended inference results by the LLM, and (3) finally incorporate the aggregated meta-information for the actual task. We show the effectiveness of this approach in text clustering tasks, and also highlight the importance of the contextualization through examples of the above procedure.
翻訳日:2024-06-21 22:30:00 公開日:2024-06-19
# 強い相互作用を持つフェルミオンと中性原子配列の量子シミュレーション--興味のある物質のシミュレーションに向けて

Quantum simulation for strongly interacting fermions with neutral atoms array: towards the simulation of materials of interest ( http://arxiv.org/abs/2406.13343v1 )

ライセンス: Link先を確認
Antoine Michel, (参考訳) 量子シミュレーションは、興味のある物質の老朽化を予想するためにEDFで使用される原子シミュレーションを改善するという約束を持っている。 あるシミュレーターは相互作用する電子のモデリングに特に適しているようだ。 この論文の最初の課題は、化学のためのライドバーグ原子シミュレーターで実装できる変分アルゴリズムを設計することである。 このアルゴリズムはこのプラットフォーム用に特別に設計され、最近の理論ツールによって最適化されている。 実実験のエミュレーションにより得られた数値結果と他の手法との比較を行い,本手法がより効率的であることを示す。 最後に,H2,LiH,BeH2分子の基本エネルギーを5%の誤差で到達させることで,実アーキテクチャ上で実験を行うための測定回数を制限することで,第2のアルゴリズムでは,Fermi-Hubbard 2Dモデルの物理をライドバーグ原子シミュレータ上で実装するために,"スレーブ"スピン法を用いた。 この考え方は、平均場を用いて電荷の自由度と「スレーブ」スピンを分離して、古典的に解けるハミルトニアンと実機械で再現できるイジング・ハミルトニアンという2つの自己整合ハミルトニアンを得るというものである。 実実験のノイズをエミュレートしても,初期モデルからモット遷移を復元できることを数値的に示し,同じパラダイムの非平衡電子のダイナミクスを良好な結果で再現できることを示す。 どちらのアルゴリズムも、理論上、興味のある材料に到達するまで改善することができるが、量子優位性を達成するために、今日の既存のアーキテクチャにも実装できる。

Quantum simulation holds the promise of improving the atomic simulations used at EDF to anticipate the ageing of materials of interest. One simulator in particular seems well suited to modeling interacting electrons: the Rydberg atoms quantum processor. The first task of this thesis is to design a variational algorithm that can be implemented on a Rydberg atom simulator for chemistry. This algorithm is specially designed for this platform and optimized by recent theoretical tools. We compare our numerical results, obtained with an emulation of a real experiment, with other approaches and show that our method is more efficient. Finally, we show that by limiting the number of measurements to make the experiment feasible on a real architecture, we can reach the fundamental energy of H2, LiH and BeH2 molecules with 5% error.For a second algorithm, we used the "slave" spin method to implement the physics of the Fermi-Hubbard 2D model on a Rydberg atom simulator. The idea is to decouple the degrees of freedom of charges and "slave" spins using a mean field to obtain two self-consistent Hamiltonians: a classically solvable one and an Ising Hamiltonian that can be reproduced on a real machine. We show numerically that we can recover a Mott transition from the initial model with this method even when emulating the noise of a real experiment, and we show that we can also recover the dynamics of non-equilibrium electrons in this same paradigm with good results. Both algorithms can possibly be improved theoretically until they reach materials of interest, but they can also be implemented on today's existing architectures, to achieve a potential quantum advantage
翻訳日:2024-06-21 22:30:00 公開日:2024-06-19
# WaterMono:教師が指導する異常マスキングとロバスト水中自己監督単眼深度推定のための強化ブースティング

WaterMono: Teacher-Guided Anomaly Masking and Enhancement Boosting for Robust Underwater Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2406.13344v1 )

ライセンス: Link先を確認
Yilin Ding, Kunqian Li, Han Mei, Shuaixin Liu, Guojia Hou, (参考訳) 深度情報は、陸地でも水中でも、様々な視覚的なタスクにとって重要な前提条件となっている。 近年,深度アノテーションが欠如しているにも関わらず,自己教師付き手法はいくつかの地上ベンチマークにおいて顕著な性能を発揮している。 しかし、より困難な水中シナリオでは、海洋生物の影響や水中画像の劣化など、多くの新しい障害に遭遇する。 さらに、水中画像のカメラアングルはより多様である。 幸いなことに、知識蒸留はこれらの課題に取り組む上で有望なアプローチであることがわかった。 本稿では,画像強調と合わせて深度推定を行う新しいフレームワークであるWaterMonoを提案する。 1)教師が指導する異常マスクを用いて画像内の動的領域を識別し,(2)水中画像形成モデルと組み合わせた深度情報を用いて深度推定タスクに寄与する拡張画像を生成し,(3)回転蒸留手法を用いてモデルの回転ロバスト性を高める。 総合的な実験により,提案手法が深度推定と画像強調の両方に有効であることを実証した。 ソースコードと事前トレーニングされたモデルは、プロジェクトのホームページで見ることができる。

Depth information serves as a crucial prerequisite for various visual tasks, whether on land or underwater. Recently, self-supervised methods have achieved remarkable performance on several terrestrial benchmarks despite the absence of depth annotations. However, in more challenging underwater scenarios, they encounter numerous brand-new obstacles such as the influence of marine life and degradation of underwater images, which break the assumption of a static scene and bring low-quality images, respectively. Besides, the camera angles of underwater images are more diverse. Fortunately, we have discovered that knowledge distillation presents a promising approach for tackling these challenges. In this paper, we propose WaterMono, a novel framework for depth estimation coupled with image enhancement. It incorporates the following key measures: (1) We present a Teacher-Guided Anomaly Mask to identify dynamic regions within the images; (2) We employ depth information combined with the Underwater Image Formation Model to generate enhanced images, which in turn contribute to the depth estimation task; and (3) We utilize a rotated distillation strategy to enhance the model's rotational robustness. Comprehensive experiments demonstrate the effectiveness of our proposed method for both depth estimation and image enhancement. The source code and pre-trained models are available on the project home page: https://github.com/OUCVisionGroup/WaterMono.
翻訳日:2024-06-21 22:30:00 公開日:2024-06-19
# 資源拘束型UAVのためのオンセンサー加速光流を用いた低遅延視覚慣性オドメトリー

Low Latency Visual Inertial Odometry with On-Sensor Accelerated Optical Flow for Resource-Constrained UAVs ( http://arxiv.org/abs/2406.13345v1 )

ライセンス: Link先を確認
Jonas Kühne, Michele Magno, Luca Benini, (参考訳) 視覚慣性オドメトリー (VIO) は、車載カメラストリームからエージェントの運動軌跡を推定し、追加の慣性計測ユニット (IMU) 測定で融合させる作業である。 VIO内の重要なサブタスクは、光学フロー(OF)を通じて達成できる機能のトラッキングである。 計算負荷とメモリフットプリントの観点からはOFの計算はリソース要求のタスクであり、特にロボットアプリケーションにおいて低レイテンシで実行する必要があるため、今日では強力なCPUやGPU上で推定が行われる。 これにより、コスト、サイズ、消費電力に関連する制約のため、強力なパワーハングリープロセッサの配備が不可能な幅広いアプリケーションでの使用が制限される。 オンセンサーハードウェアアクセラレーションは、ナノドローンのようなリソース制約のあるデバイスでも低レイテンシVIOを実現するための有望なアプローチである。 本稿では,グローバルシャッターカメラとアプリケーション固有集積回路(ASIC)からなるコンパクトなOFセンサを利用したVIOセンサシステムの高速化を評価する。 VINS-Monoパイプラインの機能追跡ロジックをこのカメラからのデータに置き換えることで、49.4%のレイテンシ削減と53.7%の計算負荷削減を実現し、Raspberry Pi Compute Module 4のクアッドコアARM Cortex-A72プロセッサ上の20 FPSではなく、最大50 FPSまでのVINS-Mono動作を可能にする。

Visual Inertial Odometry (VIO) is the task of estimating the movement trajectory of an agent from an onboard camera stream fused with additional Inertial Measurement Unit (IMU) measurements. A crucial subtask within VIO is the tracking of features, which can be achieved through Optical Flow (OF). As the calculation of OF is a resource-demanding task in terms of computational load and memory footprint, which needs to be executed at low latency, especially in robotic applications, OF estimation is today performed on powerful CPUs or GPUs. This restricts its use in a broad spectrum of applications where the deployment of such powerful, power-hungry processors is unfeasible due to constraints related to cost, size, and power consumption. On-sensor hardware acceleration is a promising approach to enable low latency VIO even on resource-constrained devices such as nano drones. This paper assesses the speed-up in a VIO sensor system exploiting a compact OF sensor consisting of a global shutter camera and an Application Specific Integrated Circuit (ASIC). By replacing the feature tracking logic of the VINS-Mono pipeline with data from this OF camera, we demonstrate a 49.4% reduction in latency and a 53.7% reduction of compute load of the VIO pipeline over the original VINS-Mono implementation, allowing VINS-Mono operation up to 50 FPS instead of 20 FPS on the quad-core ARM Cortex-A72 processor of a Raspberry Pi Compute Module 4.
翻訳日:2024-06-21 22:30:00 公開日:2024-06-19
# テキスト・アンラーニングは、非ラーニングの虚偽の感覚を与える

Textual Unlearning Gives a False Sense of Unlearning ( http://arxiv.org/abs/2406.13348v1 )

ライセンス: Link先を確認
Jiacheng Du, Zhibo Wang, Kui Ren, (参考訳) 言語モデル(LM)は、大量のプライベートまたは著作権保護されたコンテンツを含むトレーニングデータを「記憶する」ことができる。 忘れられる権利(RTBF)を保護するため、マシン・アンラーニングは、LMがセンシティブなトレーニングコンテンツを効率的に「忘れる」とともに、知識漏洩のリスクを軽減するための有望な方法として登場した。 しかし、その善意にもかかわらず、非学習メカニズムは非生産的だろうか? 本稿では,学習前後のモデルにアクセスするだけで,学習者が学習データに関する情報を推測できるテクスチュアル・アンラーニング・リーク・アタック(TULA)を提案する。 さらに、ブラックボックスとホワイトボックスの両方のシナリオでTULAの変種を示す。 様々な実験結果から,機械学習がLMからの知識漏洩のリスクを増幅することを示した。 具体的には、TULAはブラックボックスシナリオにおいて、未学習データの会員情報を20%以上推論する敵の能力を高めることができる。 さらにTULAは、ホワイトボックスアクセスで60%以上の精度で、未学習のデータを直接再構築することも可能だ。 私たちの研究は、LMにおける機械学習の非学習が、逆により大きな知識リスクを生み出し、より安全な非学習メカニズムの開発を促すことを初めて明らかにしたものです。

Language models (LMs) are susceptible to "memorizing" training data, including a large amount of private or copyright-protected content. To safeguard the right to be forgotten (RTBF), machine unlearning has emerged as a promising method for LMs to efficiently "forget" sensitive training content and mitigate knowledge leakage risks. However, despite its good intentions, could the unlearning mechanism be counterproductive? In this paper, we propose the Textual Unlearning Leakage Attack (TULA), where an adversary can infer information about the unlearned data only by accessing the models before and after unlearning. Furthermore, we present variants of TULA in both black-box and white-box scenarios. Through various experimental results, we critically demonstrate that machine unlearning amplifies the risk of knowledge leakage from LMs. Specifically, TULA can increase an adversary's ability to infer membership information about the unlearned data by more than 20% in black-box scenario. Moreover, TULA can even reconstruct the unlearned data directly with more than 60% accuracy with white-box access. Our work is the first to reveal that machine unlearning in LMs can inversely create greater knowledge risks and inspire the development of more secure unlearning mechanisms.
翻訳日:2024-06-21 22:30:00 公開日:2024-06-19
# 量子化による量子熱力学プロセスの高速化

Quantumness Speeds up Quantum Thermodynamics Processes ( http://arxiv.org/abs/2406.13349v1 )

ライセンス: Link先を確認
Ming-Xing Luo, (参考訳) 量子力学プロセスは、エネルギーを抽出したり、高い効率で計算タスクを実行するために量子状態を操作し制御する。 作業抽出におけるコヒーレンスと絡み合いの量子性の効果を理論的に定量化する効率的な方法はまだ存在しない。 本研究では,抽出作業の定量化のための熱力学速度を提案する。 量子系のコヒーレンスは、すべての非コヒーレント状態を超えた循環的進化に関して、仕事の抽出を高速化できることを示す。 さらに、量子系の真の絡み合いは、任意の二分割状態を超えて仕事の抽出をスピードアップする可能性があることを示す。 これは、ステートトモグラフィーを使わずに絡み合ったシステムを目撃するための新しい熱力学的手法を提供する。

Quantum thermodynamic process involves manipulating and controlling quantum states to extract energy or perform computational tasks with high efficiency. There is still no efficientgeneral method to theoretically quantify the effect of the quantumness of coherence and entanglement in work extraction. In this work, we propose a thermodynamics speed to quantify theextracting work. We show that the coherence of quantum systems can speed up work extractingwith respect to some cyclic evolution beyond all incoherent states. We further show the genuine entanglement of quantum systems may speed up work extracting beyond any bi-separablestates. This provides a new thermodynamic method to witness entangled systems without statetomography.
翻訳日:2024-06-21 22:30:00 公開日:2024-06-19
# 資源制約環境下でのフェデレーション学習のための資源適応型アプローチ

A Resource-Adaptive Approach for Federated Learning under Resource-Constrained Environments ( http://arxiv.org/abs/2406.13351v1 )

ライセンス: Link先を確認
Ruirui Zhang, Xingze Wu, Yifei Zou, Zhenzhen Xie, Peng Li, Xiuzhen Cheng, Dongxiao Yu, (参考訳) 本稿では,不均一な制約リソースを持つ複数のクライアントを対象とする,基礎的連合学習(FL)問題について検討する。 多くのトレーニングパラメータと比較して、クライアントのコンピューティングとコミュニケーションリソースは、高速なローカルトレーニングとリアルタイム知識共有には不十分である。 さらに、異種リソースを持つクライアントでのトレーニングは、ストラグラー問題を引き起こす可能性がある。 これらの問題に対処するため,資源適応型非同期フェデレーション学習アルゴリズムであるFed-RAAを提案する。 バニラFLの手法とは異なり、全てのパラメータはリソースの多様性に関わらず各クライアントによって訓練される。 各クライアントは、割り当てられたモデルのフラグメントを個別にトレーニングし、更新された結果を非同期にアップロードする。 理論的解析は我々のアプローチの収束を裏付ける。 さらに,Fed-RAAにおけるフラグメントアロケーションのためのオンライングリーディベースアルゴリズムを設計し,オフライン戦略に匹敵する公平性を達成した。 MNIST, CIFAR-10, CIFAR-100について, 必要な比較, アブレーション研究を行い, 本研究の利点を実証した。 我々の知る限り、この論文は、理論収束を保証したフラグメントベースのFLのための最初のリソース適応非同期手法である。

The paper studies a fundamental federated learning (FL) problem involving multiple clients with heterogeneous constrained resources. Compared with the numerous training parameters, the computing and communication resources of clients are insufficient for fast local training and real-time knowledge sharing. Besides, training on clients with heterogeneous resources may result in the straggler problem. To address these issues, we propose Fed-RAA: a Resource-Adaptive Asynchronous Federated learning algorithm. Different from vanilla FL methods, where all parameters are trained by each participating client regardless of resource diversity, Fed-RAA adaptively allocates fragments of the global model to clients based on their computing and communication capabilities. Each client then individually trains its assigned model fragment and asynchronously uploads the updated result. Theoretical analysis confirms the convergence of our approach. Additionally, we design an online greedy-based algorithm for fragment allocation in Fed-RAA, achieving fairness comparable to an offline strategy. We present numerical results on MNIST, CIFAR-10, and CIFAR-100, along with necessary comparisons and ablation studies, demonstrating the advantages of our work. To the best of our knowledge, this paper represents the first resource-adaptive asynchronous method for fragment-based FL with guaranteed theoretical convergence.
翻訳日:2024-06-21 22:30:00 公開日:2024-06-19
# AgentDojo: LLMエージェントに対する攻撃と防御を評価する動的環境

AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents ( http://arxiv.org/abs/2406.13352v1 )

ライセンス: Link先を確認
Edoardo Debenedetti, Jie Zhang, Mislav Balunović, Luca Beurer-Kellner, Marc Fischer, Florian Tramèr, (参考訳) AIエージェントは、テキストベースの推論と外部ツールコールを組み合わせることで、複雑なタスクを解決することを目指している。 残念ながら、AIエージェントは、外部ツールによって返されるデータがエージェントをハイジャックして悪意のあるタスクを実行するようなインジェクション攻撃に対して脆弱である。 AIエージェントの敵対的堅牢性を測定するために,信頼できないデータ上でツールを実行するエージェントの評価フレームワークであるAgentDojoを紹介した。 攻撃と防御の進化的な性質を捉えるため、AgentDojoは静的テストスイートではなく、新しいエージェントタスク、ディフェンス、アダプティブアタックを設計、評価するための拡張可能な環境である。 環境には、97の現実的なタスク(Eメールクライアントの管理、eバンキングウェブサイトのナビゲート、旅行予約など)、629のセキュリティテストケース、各種の攻撃・防衛パラダイムが組み込まれています。 最先端のLLMは多くのタスク(攻撃がない場合でも)で失敗し、既存のプロンプトインジェクション攻撃はセキュリティ特性を損なうが、すべてではない。 AgentDojoは、一般的なタスクを信頼性と堅牢な方法で解決するAIエージェントのための新しい設計原則の研究を促進することができることを期待しています。 AgentDojoのコードはhttps://github.com/ethz-spylab/agentdojo.comで公開しています。

AI agents aim to solve complex tasks by combining text-based reasoning with external tool calls. Unfortunately, AI agents are vulnerable to prompt injection attacks where data returned by external tools hijacks the agent to execute malicious tasks. To measure the adversarial robustness of AI agents, we introduce AgentDojo, an evaluation framework for agents that execute tools over untrusted data. To capture the evolving nature of attacks and defenses, AgentDojo is not a static test suite, but rather an extensible environment for designing and evaluating new agent tasks, defenses, and adaptive attacks. We populate the environment with 97 realistic tasks (e.g., managing an email client, navigating an e-banking website, or making travel bookings), 629 security test cases, and various attack and defense paradigms from the literature. We find that AgentDojo poses a challenge for both attacks and defenses: state-of-the-art LLMs fail at many tasks (even in the absence of attacks), and existing prompt injection attacks break some security properties but not all. We hope that AgentDojo can foster research on new design principles for AI agents that solve common tasks in a reliable and robust manner. We release the code for AgentDojo at https://github.com/ethz-spylab/agentdojo.
翻訳日:2024-06-21 22:30:00 公開日:2024-06-19
# ターゲット型再学習攻撃による未学習モデルの記憶の探索

Jogging the Memory of Unlearned Model Through Targeted Relearning Attack ( http://arxiv.org/abs/2406.13356v1 )

ライセンス: Link先を確認
Shengyuan Hu, Yiwei Fu, Zhiwei Steven Wu, Virginia Smith, (参考訳) 機械学習は、機械学習モデルにおけるトレーニングデータの望ましくない記憶を緩和するための有望なアプローチである。 しかし、本研究では、LLMにおける未学習に対する既存のアプローチが、単純なターゲット再学習攻撃の影響を受けやすいことを示す。 小さく、潜在的にゆるやかに関連付けられたデータのみにアクセスすることで、未学習モデルのメモリを“ジョグ”して、未学習の影響を反転させることができることが分かりました。 このアンラーニング・ラーニングパイプラインを形式化し、人気のある3つのアンラーニングベンチマークで攻撃を調査し、我々の研究から得られた今後の方向性とガイドラインについて議論する。

Machine unlearning is a promising approach to mitigate undesirable memorization of training data in ML models. However, in this work we show that existing approaches for unlearning in LLMs are surprisingly susceptible to a simple set of targeted relearning attacks. With access to only a small and potentially loosely related set of data, we find that we can 'jog' the memory of unlearned models to reverse the effects of unlearning. We formalize this unlearning-relearning pipeline, explore the attack across three popular unlearning benchmarks, and discuss future directions and guidelines that result from our study.
翻訳日:2024-06-21 22:30:00 公開日:2024-06-19
# 音声からテキストへの変換可能な大言語モデルアライメントモジュール

Transferable speech-to-text large language model alignment module ( http://arxiv.org/abs/2406.13357v1 )

ライセンス: Link先を確認
Boyong Wu, Chao Yan, Haoran Pu, (参考訳) LLM(Large Language Models)と音声基礎モデルの力を利用することで、最先端の音声テキストバイモーダルワークは、より単純なアーキテクチャで、音声翻訳(ST)や質問応答(SQA)といった挑戦的なタスクを実現できる。 本稿では,WhisperエンコーダとYi-6Bの事前学習機能を利用する。 実験結果から,1層モジュールと100時間の音声テキストマルチタスクコーパスでモーダルアライメントを実現することができることがわかった。 さらに、推論中にYi-6Bを人間の好みに合わせたYi-6B-Chatに置き換え、アライメント能力も適用可能であることを明らかにする。 さらに、特異値分解(SVD)によって明らかにされるアライメント部分空間は、線形アライメント部分空間がスパースであることを意味しており、音声プリントやビデオのような他の特徴を結合してモダリティを拡張する可能性を残している。

By leveraging the power of Large Language Models(LLMs) and speech foundation models, state of the art speech-text bimodal works can achieve challenging tasks like spoken translation(ST) and question answering(SQA) altogether with much simpler architectures. In this paper, we utilize the capability of Whisper encoder and pre-trained Yi-6B. Empirical results reveal that modal alignment can be achieved with one layer module and hundred hours of speech-text multitask corpus. We further swap the Yi-6B with human preferences aligned version of Yi-6B-Chat during inference, and discover that the alignment capability is applicable as well. In addition, the alignment subspace revealed by singular value decomposition(SVD) also implies linear alignment subspace is sparse, which leaves the possibility to concatenate other features like voice-print or video to expand modality.
翻訳日:2024-06-21 22:30:00 公開日:2024-06-19
# マスク空間時間アテンションネットワークを用いた光時系列画像における欠測データのマルチスケール復元

Multi-scale Restoration of Missing Data in Optical Time-series Images with Masked Spatial-Temporal Attention Network ( http://arxiv.org/abs/2406.13358v1 )

ライセンス: Link先を確認
Zaiyan Zhang, Jining Yan, Yuanqi Liang, Jiaxin Feng, Haixu He, Wei Han, (参考訳) 厚い雲のカバーやセンサーの制限などの要因により、リモートセンシング画像は重大なデータ不足に悩まされ、不完全な時系列情報をもたらす。 リモートセンシング画像に欠落した値を出力する既存の方法は、時空間補助情報を十分に活用していないため、復元の精度は限られている。 そこで本稿では,MS2TAN (Multi-scale Masked Space-Temporal Attention Network) と呼ばれる,時系列リモートセンシング画像の再構成のための新しい深層学習手法を提案する。 まず,MSTA(Masked Spatial-Temporal Attention)に基づく効率的な時空間特徴抽出器を導入し,欠落地域における時空間特徴の高品質な表現を実現する。 第2に,MSTAをベースとした機能拡張器からなるマルチスケール復元ネットワークを用いて,時空間の特徴を異なるスケールで探索することで,欠落した価値を徐々に改善する。 第3に,複数視点から再構成結果の視覚的効果を高め,さらにテクスチャ構造を保存するための ``Pixel-Structure-Perception' の多目的共同最適化手法を提案する。 さらに,提案手法は,並列な入力時間位相(マルチインマルチアウト)の欠落値を再構成し,高い処理効率を実現する。 最後に,複数の研究領域にまたがる2つの典型的欠落データ復元タスクに対する実験結果から,提案手法は平均ピーク信号-雑音比(mPSNR)が0.40dB/1.17dB,平均構造類似度(mSSIM)が3.77/9.41dB向上し,高いテクスチャと構造整合性を示した。

Due to factors such as thick cloud cover and sensor limitations, remote sensing images often suffer from significant missing data, resulting in incomplete time-series information. Existing methods for imputing missing values in remote sensing images do not fully exploit spatio-temporal auxiliary information, leading to limited accuracy in restoration. Therefore, this paper proposes a novel deep learning-based approach called MS2TAN (Multi-scale Masked Spatial-Temporal Attention Network), for reconstructing time-series remote sensing images. Firstly, we introduce an efficient spatio-temporal feature extractor based on Masked Spatial-Temporal Attention (MSTA), to obtain high-quality representations of the spatio-temporal neighborhood features in the missing regions. Secondly, a Multi-scale Restoration Network consisting of the MSTA-based Feature Extractors, is employed to progressively refine the missing values by exploring spatio-temporal neighborhood features at different scales. Thirdly, we propose a ``Pixel-Structure-Perception'' Multi-Objective Joint Optimization method to enhance the visual effects of the reconstruction results from multiple perspectives and preserve more texture structures. Furthermore, the proposed method reconstructs missing values in all input temporal phases in parallel (i.e., Multi-In Multi-Out), achieving higher processing efficiency. Finally, experimental evaluations on two typical missing data restoration tasks across multiple research areas demonstrate that the proposed method outperforms state-of-the-art methods with an improvement of 0.40dB/1.17dB in mean peak signal-to-noise ratio (mPSNR) and 3.77/9.41 thousandths in mean structural similarity (mSSIM), while exhibiting stronger texture and structural consistency.
翻訳日:2024-06-21 22:30:00 公開日:2024-06-19
# GAN強化シミュレーションによる検索ベースDNNテストとリトレーニング

Search-based DNN Testing and Retraining with GAN-enhanced Simulations ( http://arxiv.org/abs/2406.13359v1 )

ライセンス: Link先を確認
Mohammed Oualid Attaoui, Fabrizio Pastore, Lionel Briand, (参考訳) 安全クリティカルなシステム(自動運転車やロボットなど)では、ディープニューラルネットワーク(DNN)がコンピュータビジョンタスク、特にセマンティックセグメンテーションの重要なコンポーネントになりつつある。 さらに,DNNの動作はコード検査や解析では評価できないため,テスト自動化はDNNの信頼性向上に欠かせない活動となっている。 残念なことに、最先端の自動テストソリューションは、常に不完全であるシミュレータに大きく依存しているため、テスト結果の有効性に影響を及ぼす。 このような制約に対処するために,シミュレータを用いて入力空間を探索するメタヒューリスティック検索とGAN(Generative Adversarial Networks)を組み合わせて,シミュレータが生成したデータをリアルな入力画像に変換することを提案する。 このような画像は、DNNのパフォーマンスを評価し、より効果的にDNNを再訓練するためにも使用できる。 提案手法を最先端DNNのセマンティックセマンティックセグメンテーションに適用し、最先端のGANベースのテストソリューションといくつかのベースラインよりも優れていることを示した。 具体的には、最も多くの多様な画像が、最悪のDNNのパフォーマンスに繋がる。 さらに,本手法により生成した画像は,再トレーニング時に高いDNN性能向上をもたらす。 結論として,探索駆動型シミュレータベースのテストを行う場合,常にGANコンポーネントを統合することを提案する。

In safety-critical systems (e.g., autonomous vehicles and robots), Deep Neural Networks (DNNs) are becoming a key component for computer vision tasks, particularly semantic segmentation. Further, since the DNN behavior cannot be assessed through code inspection and analysis, test automation has become an essential activity to gain confidence in the reliability of DNNs. Unfortunately, state-of-the-art automated testing solutions largely rely on simulators, whose fidelity is always imperfect, thus affecting the validity of test results. To address such limitations, we propose to combine meta-heuristic search, used to explore the input space using simulators, with Generative Adversarial Networks (GANs), to transform the data generated by simulators into realistic input images. Such images can be used both to assess the DNN performance and to retrain the DNN more effectively. We applied our approach to a state-of-the-art DNN performing semantic segmentation and demonstrated that it outperforms a state-of-the-art GAN-based testing solution and several baselines. Specifically, it leads to the largest number of diverse images leading to the worst DNN performance. Further, the images generated with our approach, lead to the highest improvement in DNN performance when used for retraining. In conclusion, we suggest to always integrate GAN components when performing search-driven, simulator-based testing.
翻訳日:2024-06-21 22:30:00 公開日:2024-06-19
# プログレッシブコードスイッチングによるゼロショットクロスリンガルトランスファーの改善

Improving Zero-Shot Cross-Lingual Transfer via Progressive Code-Switching ( http://arxiv.org/abs/2406.13361v1 )

ライセンス: Link先を確認
Zhuoran Li, Chunming Hu, Junfan Chen, Zhijun Chen, Xiaohui Guo, Richong Zhang, (参考訳) コードスイッチング(Code-switching)は、複数の言語の単語をソース言語テキストに混ぜるデータ拡張スキームである。 言語間の文脈表現を整列させることにより、言語間伝達タスクのかなりの一般化性能を実現している。 しかし、制御不能で過度に置換されたコードスイッチングは、トレーニングをモデル化するために汚れたサンプルを増やします。 言い換えれば、過剰なコードスイッチングテキストサンプルは、モデルの言語間転送可能性に悪影響を及ぼすことになる。 そこで本研究では,モデルが難易度と難易度を区別するために,段階的に適度に難しいコードスイッチング例を生成するプログレッシブ・コードスイッチング(PCS)手法を提案する。 このアイデアは、より簡単なコードスイッチングデータを使用して、学習済みの多言語知識を段階的に取り入れて、より難しいコードスイッチングデータを成功させるためのモデル最適化をガイドすることを目的としている。 具体的には、単語関連スコアに基づいて、文中の各単語を置換する影響を測定するために、まず難易度測定器を設計する。 そして、コードスウィッチャーは、制御可能な温度変数を介して、困難が増大するコードスウィッチデータを生成する。 さらに、トレーニングスケジューラは、モデルのトレーニングのためにより難しいコードスイッチングデータをいつサンプリングするかを決定する。 実験により,10言語にまたがる3つのゼロショット言語間移動タスクについて,最先端の結果が得られた。

Code-switching is a data augmentation scheme mixing words from multiple languages into source lingual text. It has achieved considerable generalization performance of cross-lingual transfer tasks by aligning cross-lingual contextual word representations. However, uncontrolled and over-replaced code-switching would augment dirty samples to model training. In other words, the excessive code-switching text samples will negatively hurt the models' cross-lingual transferability. To this end, we propose a Progressive Code-Switching (PCS) method to gradually generate moderately difficult code-switching examples for the model to discriminate from easy to hard. The idea is to incorporate progressively the preceding learned multilingual knowledge using easier code-switching data to guide model optimization on succeeding harder code-switching data. Specifically, we first design a difficulty measurer to measure the impact of replacing each word in a sentence based on the word relevance score. Then a code-switcher generates the code-switching data of increasing difficulty via a controllable temperature variable. In addition, a training scheduler decides when to sample harder code-switching data for model training. Experiments show our model achieves state-of-the-art results on three different zero-shot cross-lingual transfer tasks across ten languages.
翻訳日:2024-06-21 22:30:00 公開日:2024-06-19
# VisualRWKV: ビジュアル言語モデルのためのリカレントニューラルネットワークの探索

VisualRWKV: Exploring Recurrent Neural Networks for Visual Language Models ( http://arxiv.org/abs/2406.13362v1 )

ライセンス: Link先を確認
Haowen Hou, Peigen Zeng, Fei Ma, Fei Richard Yu, (参考訳) ビジュアル言語モデル(VLM)は、近年の大規模言語モデルの成功によって急速に進歩している。 しかしながら、効率的な線形リカレントニューラルネットワーク(RNN)アーキテクチャをVLMに組み込む試みはほとんどない。 本研究では,線形RNNモデルのマルチモーダル学習タスクへの最初の応用であるVisualRWKVを紹介し,事前学習されたRWKV言語モデルを活用する。 本稿では,視覚的シーケンスの処理を充実させる2次元画像スキャン機構とともに,データ依存の再現性とサンドイッチプロンプトを提案する。 大規模な実験により、VisualRWKVは様々なベンチマークで、LLaVA-1.5のようなトランスフォーマーベースのモデルと比較して、競争力を発揮することが示された。 さらなる調査と分析を容易にするため、以下のGitHubリポジトリでチェックポイントと関連するコードを公開しました。

Visual Language Models (VLMs) have rapidly progressed with the recent success of large language models. However, there have been few attempts to incorporate efficient linear Recurrent Neural Networks (RNNs) architectures into VLMs. In this study, we introduce VisualRWKV, the first application of a linear RNN model to multimodal learning tasks, leveraging the pre-trained RWKV language model. We propose a data-dependent recurrence and sandwich prompts to enhance our modeling capabilities, along with a 2D image scanning mechanism to enrich the processing of visual sequences. Extensive experiments demonstrate that VisualRWKV achieves competitive performance compared to Transformer-based models like LLaVA-1.5 on various benchmarks. To facilitate further research and analysis, we have made the checkpoints and the associated code publicly accessible at the following GitHub repository: \href{https://github.com/howard-hou/VisualRWKV}{https://github.com/howard-hou/VisualRWKV}.
翻訳日:2024-06-21 20:22:37 公開日:2024-06-19
# ニューラルネットワーク翻訳における構造一般化の評価

Evaluating Structural Generalization in Neural Machine Translation ( http://arxiv.org/abs/2406.13363v1 )

ライセンス: Link先を確認
Ryoma Kumon, Daiki Matsuoka, Hitomi Yanaka, (参考訳) 構成的一般化は、以前に観察された単語と構文構造の新しい組み合わせに一般化する能力を指す。 ニューラルモデルの望ましい性質と見なされているため、最近の研究は機械翻訳と意味解析における合成一般化を評価している。 しかし、機械翻訳による以前の評価は、主に語彙的一般化(すなわち、未知の単語の組み合わせへの一般化)に焦点を当てていた。 したがって、モデルが構造的一般化を必要とする文(つまり、異なる種類の構文構造への一般化)をどの程度翻訳できるかは、まだ不明である。 この問題に対処するために,文構造と単語を制御した多種多様な合成一般化を含む機械翻訳データセットであるSGETを構築した。 我々は,SGET上でのニューラルネットワーク翻訳モデルを評価し,語彙的一般化よりも構造的一般化に苦慮していることを示す。 また、セマンティック解析と機械翻訳において、様々なタスクにおける評価の重要性を示す様々なパフォーマンストレンドを見出した。

Compositional generalization refers to the ability to generalize to novel combinations of previously observed words and syntactic structures. Since it is regarded as a desired property of neural models, recent work has assessed compositional generalization in machine translation as well as semantic parsing. However, previous evaluations with machine translation have focused mostly on lexical generalization (i.e., generalization to unseen combinations of known words). Thus, it remains unclear to what extent models can translate sentences that require structural generalization (i.e., generalization to different sorts of syntactic structures). To address this question, we construct SGET, a machine translation dataset covering various types of compositional generalization with control of words and sentence structures. We evaluate neural machine translation models on SGET and show that they struggle more in structural generalization than in lexical generalization. We also find different performance trends in semantic parsing and machine translation, which indicates the importance of evaluations across various tasks.
翻訳日:2024-06-21 20:22:37 公開日:2024-06-19
# PPT-GNN: ネットワークセキュリティのための実践的事前学習時空間グラフニューラルネットワーク

PPT-GNN: A Practical Pre-Trained Spatio-Temporal Graph Neural Network for Network Security ( http://arxiv.org/abs/2406.13365v1 )

ライセンス: Link先を確認
Louis Van Langendonck, Ismael Castell-Uroz, Pere Barlet-Ros, (参考訳) 最近の研究は、ネットワーク侵入検出のためのグラフニューラルネットワーク(GNN)の可能性を示している。 それらの利点にもかかわらず、検出速度が重要となる現実世界のシナリオと、数時間のトラフィックを表す大きなグラフを運用する既存の提案との間には、大きなギャップが持続している。 このギャップは非現実的な運用条件と非現実的な検出遅延をもたらす。 さらに、既存のモデルは異なるネットワークにまたがってうまく一般化せず、運用環境でのデプロイメントを妨げている。 これらの問題に対処するために、侵入検知のための実用的な時空間GNNであるPTTGNNを紹介する。 PPTGNNは、ほぼリアルタイムな予測を可能にし、ネットワーク攻撃の時空間的ダイナミクスをよりよく捉えている。 PPTGNNは自己教師付き事前トレーニングを採用し、性能を改善し、ラベル付きデータへの依存を減らす。 本研究では,PPTGNNを3つの公開データセット上で評価し,E-ResGATやE-GraphSAGEなどの最先端モデルを平均精度10.38%で大幅に上回っていることを示す。 最後に、事前学習したPTTGNNは、最小限のラベル付き例で、見知らぬネットワークに微調整できることを示す。 このことは、様々なネットワーク環境で効果的に動作可能な、一般的な大規模事前訓練モデルとしてのPTTGNNの可能性を強調している。

Recent works have demonstrated the potential of Graph Neural Networks (GNN) for network intrusion detection. Despite their advantages, a significant gap persists between real-world scenarios, where detection speed is critical, and existing proposals, which operate on large graphs representing several hours of traffic. This gap results in unrealistic operational conditions and impractical detection delays. Moreover, existing models do not generalize well across different networks, hampering their deployment in production environments. To address these issues, we introduce PPTGNN, a practical spatio-temporal GNN for intrusion detection. PPTGNN enables near real-time predictions, while better capturing the spatio-temporal dynamics of network attacks. PPTGNN employs self-supervised pre-training for improved performance and reduced dependency on labeled data. We evaluate PPTGNN on three public datasets and show that it significantly outperforms state-of-the-art models, such as E-ResGAT and E-GraphSAGE, with an average accuracy improvement of 10.38%. Finally, we show that a pre-trained PPTGNN can easily be fine-tuned to unseen networks with minimal labeled examples. This highlights the potential of PPTGNN as a general, large-scale pre-trained model that can effectively operate in diverse network environments.
翻訳日:2024-06-21 20:22:37 公開日:2024-06-19
# エッジ分散二部グラフにおけるエッジワイド表現学習

Effective Edge-wise Representation Learning in Edge-Attributed Bipartite Graphs ( http://arxiv.org/abs/2406.13369v1 )

ライセンス: Link先を確認
Hewen Wang, Renchi Yang, Xiaokui Xiao, (参考訳) グラフ表現学習(GRL)は、グラフ要素を情報ベクトル表現にエンコードすることであり、グラフ構造化データを解析するための下流タスクで使用できる。 しかし,既存のGRL研究の大部分はノード表現の生成に向けられているため,エッジ分散二部グラフ(EABG)におけるエッジベースの分析タスクの実行は容易には行えず,例えば,顧客製品レビューにおけるスパムレビューの検出やユーザ・マーチャントネットワークにおける不正取引の特定など,現実に浸透している。 ノードワイズGRLと比較して、これらのグラフ上の学習エッジ表現(ERL)は、二部グラフにおける2つの異種ノード集合 U と V の別々の影響を考慮しつつ、エッジの観点からの構造と属性のセマンティクスを組み込む必要があるため、困難である。 我々の知る限り、その重要性にもかかわらず、このフロンティアに限られた研究が注がれており、既存の回避策はすべてサブパールな結果に悩まされている。 そこで本論文は,ERL法であるERL法EAGLEを設計した。 深層・厳密な理論的解析に基づいて,エッジ/フィーチャーの長距離依存性を適切に組み込んだエッジ表現のための因子化特徴伝搬(FFP)方式を提案する。 さらに、ERLにおけるUとVのノードの影響を考慮し、FFPを二重ビューFFPとして改善する。 5つの実データセットに対する大規模な実験は、半教師付きエッジ分類タスクにおいて提案されたERGLEモデルの有効性を示す。 特に、ERGLEは、APでは少なくとも38.11%、AUCでは1.86%の大幅な上昇を達成できる。

Graph representation learning (GRL) is to encode graph elements into informative vector representations, which can be used in downstream tasks for analyzing graph-structured data and has seen extensive applications in various domains. However, the majority of extant studies on GRL are geared towards generating node representations, which cannot be readily employed to perform edge-based analytics tasks in edge-attributed bipartite graphs (EABGs) that pervade the real world, e.g., spam review detection in customer-product reviews and identifying fraudulent transactions in user-merchant networks. Compared to node-wise GRL, learning edge representations (ERL) on such graphs is challenging due to the need to incorporate the structure and attribute semantics from the perspective of edges while considering the separate influence of two heterogeneous node sets U and V in bipartite graphs. To our knowledge, despite its importance, limited research has been devoted to this frontier, and existing workarounds all suffer from sub-par results. Motivated by this, this paper designs EAGLE, an effective ERL method for EABGs. Building on an in-depth and rigorous theoretical analysis, we propose the factorized feature propagation (FFP) scheme for edge representations with adequate incorporation of long-range dependencies of edges/features without incurring tremendous computation overheads. We further ameliorate FFP as a dual-view FFP by taking into account the influences from nodes in U and V severally in ERL. Extensive experiments on 5 real datasets showcase the effectiveness of the proposed EAGLE models in semi-supervised edge classification tasks. In particular, EAGLE can attain a considerable gain of at most 38.11% in AP and 1.86% in AUC when compared to the best baselines.
翻訳日:2024-06-21 20:22:37 公開日:2024-06-19
# 因果表現学習 : 教師なし・多視点・マルチ環境

Identifiable Causal Representation Learning: Unsupervised, Multi-View, and Multi-Environment ( http://arxiv.org/abs/2406.13371v1 )

ライセンス: Link先を確認
Julius von Kügelgen, (参考訳) 因果モデル(Causal model)は、各変数がその直接的な原因に影響されるメカニズムの集合として、複雑なシステムのリッチな記述を提供する。 彼らはシステムの操作に関する推論をサポートし、計画、環境の変化における知識の伝達、分散シフトに対する堅牢性といった、人工知能(AI)のオープンな課題に対処する約束を守ります。 しかし、AIにおける因果モデルをより広範囲に使用するための重要な障害は、関連する変数を事前指定することである。 同時に、機械学習(ML)は、そのような複雑なデータの有用でコンパクトな表現を自動的に抽出することに成功した。 因果表現学習(CRL)は、因果モデルセマンティクスによって与えられる潜在変数の形で表現を学習することで、MLのコア強度と因果性を組み合わせることを目的としている。 本論文では,異なるCRL設定に対する新しい結果について検討し,提示する。 無限のデータが与えられたとき、同じ学習目標を満たす表現が同等であることが保証されるのか? これはCRLにとって重要な前提条件であり、学習タスクが少なくとも原則として実現可能かどうかを形式的に特徴付ける。 因果的モデルを学ぶことは、表現的学習要素がなくても非常に難しいため、古典的なi.d.セッティングを超えたモデルクラスやリッチなデータに対する追加の仮定が必要となる。 この論文は、異なる設定に対する識別性を部分的に特徴付けることによって、直接の監督なしにCRLに何ができるかを調査し、理論的基礎に寄与する。 理想的には、開発された洞察は、データ収集のプラクティスを知らせたり、新しい実用的な推定方法の設計を刺激したりするのに役立ちます。

Causal models provide rich descriptions of complex systems as sets of mechanisms by which each variable is influenced by its direct causes. They support reasoning about manipulating parts of the system and thus hold promise for addressing some of the open challenges of artificial intelligence (AI), such as planning, transferring knowledge in changing environments, or robustness to distribution shifts. However, a key obstacle to more widespread use of causal models in AI is the requirement that the relevant variables be specified a priori, which is typically not the case for the high-dimensional, unstructured data processed by modern AI systems. At the same time, machine learning (ML) has proven quite successful at automatically extracting useful and compact representations of such complex data. Causal representation learning (CRL) aims to combine the core strengths of ML and causality by learning representations in the form of latent variables endowed with causal model semantics. In this thesis, we study and present new results for different CRL settings. A central theme is the question of identifiability: Given infinite data, when are representations satisfying the same learning objective guaranteed to be equivalent? This is an important prerequisite for CRL, as it formally characterises if and when a learning task is, at least in principle, feasible. Since learning causal models, even without a representation learning component, is notoriously difficult, we require additional assumptions on the model class or rich data beyond the classical i.i.d. setting. By partially characterising identifiability for different settings, this thesis investigates what is possible for CRL without direct supervision, and thus contributes to its theoretical foundations. Ideally, the developed insights can help inform data collection practices or inspire the design of new practical estimation methods.
翻訳日:2024-06-21 20:22:37 公開日:2024-06-19
# Thread: Retrieval Augmented Generationによる質問応答のためのロジックベースのデータオーガナイゼーションパラダイム

Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation ( http://arxiv.org/abs/2406.13372v1 )

ライセンス: Link先を確認
Kaikai An, Fangkai Yang, Liqun Li, Junting Lu, Sitao Cheng, Lu Wang, Pu Zhao, Lele Cao, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang, (参考訳) 現在の質問応答システムは, ファクトイドな質問に対して, 非ファクトイドな質問, 特にステップバイステップの詳細な指示と説明を必要とするハウツークエリに対処する上で, 有効である。 本稿では,文書を相互接続性に基づいて論理単位に変換する新しいデータ組織パラダイムThreadを紹介する。 オープンドメインと産業シナリオにわたる大規模な実験は、ThreadがRAGベースのQAシステムで既存のデータ組織パラダイムより優れており、ハウツー質問の処理を大幅に改善していることを示している。

Current question answering systems leveraging retrieval augmented generation perform well in answering factoid questions but face challenges with non-factoid questions, particularly how-to queries requiring detailed step-by-step instructions and explanations. In this paper, we introduce Thread, a novel data organization paradigm that transforms documents into logic units based on their inter-connectivity. Extensive experiments across open-domain and industrial scenarios demonstrate that Thread outperforms existing data organization paradigms in RAG-based QA systems, significantly improving the handling of how-to questions.
翻訳日:2024-06-21 20:22:37 公開日:2024-06-19
# ALiiCE: 位置決めきめ細粒化生成の評価

ALiiCE: Evaluating Positional Fine-grained Citation Generation ( http://arxiv.org/abs/2406.13375v1 )

ライセンス: Link先を確認
Yilong Xu, Jinhua Gao, Xiaoming Yu, Baolong Bi, Huawei Shen, Xueqi Cheng, (参考訳) LLM(Large Language Models)は、引用文を生成することによって、信頼性と妥当性を高めることができる。 しかし、既存のタスクや評価方法は文レベルの文に限られており、文のどこにでも現れるような位置的きめ細かい引用の重要性を無視している。 そこで本研究では,このタスクのための最初の自動評価フレームワークであるALiiCEを提案する。 我々のフレームワークはまず、文のクレームを依存性分析によって原子クレームに解析し、次に原子クレームレベルでの引用品質を計算する。 ALiiCEは3つの新しい測定基準を導入し、位置きめのきめのきめのきめのきめの参照と精度、引用位置のばらつきの係数を含む、位置きめのきめのきめのきめのきめのきめのきめのきめのきめのきめのきめのきめ細やかさの評価を行った。 2つの長周期QAデータセット上で,数個のLCMの位置的きめ細かな励起生成性能を評価する。 実験と分析により,ALiiCEの有効性と妥当性が示された。 また, 既存のLLMでは, 位置の微粒化に苦慮していることが示唆された。

Large Language Models (LLMs) can enhance the credibility and verifiability by generating text with citations. However, existing tasks and evaluation methods are predominantly limited to sentence-level statement, neglecting the significance of positional fine-grained citations that can appear anywhere within sentences. To facilitate further exploration of the fine-grained citation generation, we propose ALiiCE, the first automatic evaluation framework for this task. Our framework first parses the sentence claim into atomic claims via dependency analysis and then calculates citation quality at the atomic claim level. ALiiCE introduces three novel metrics for positional fined-grained citation quality assessment, including positional fine-grained citation recall and precision, and coefficient of variation of citation positions. We evaluate the positional fine-grained citation generation performance of several LLMs on two long-form QA datasets. Our experiments and analyses demonstrate the effectiveness and reasonableness of ALiiCE. The results also indicate that existing LLMs still struggle to provide positional fine-grained citations.
翻訳日:2024-06-21 20:22:37 公開日:2024-06-19
# 効果的なオフライン強化学習:批判は不可欠である

Efficient Offline Reinforcement Learning: The Critic is Critical ( http://arxiv.org/abs/2406.13376v1 )

ライセンス: Link先を確認
Adam Jelley, Trevor McInroe, Sam Devlin, Amos Storkey, (参考訳) 最近の研究は、オフライン強化学習に教師付きアプローチ(時間差学習なし)を使用することによるメリットと制限の両方を実証している。 外部強化学習は教師付きアプローチ以上のパフォーマンス向上に有望なアプローチを提供するが、時間差ブートストラップによるトレーニングは非効率で不安定であることが多い。 本稿では、まず行動方針を学習し、教師付き学習で批判し、その後に非政治強化学習で改善することによるベスト・オブ・ボス・アプローチを提案する。 具体的には、教師付きモンテカルロ値エラーによる事前学習による効率向上を実証し、提供されたオフライン軌道から一般的に無視される下流情報を活用する。 標準ベンチマークで検討されたオフラインアルゴリズムのトレーニング時間の半分以上を達成でき、驚くほど高い安定性を実現しています。 さらに,新しいハイブリッドアルゴリズムであるTD3+BC+CQLとEDAC+BCを提案するために,一貫したポリシーと価値関数を持つことの重要性を強調した。 これは、限られた人間のデモンストレーションから学ぶ際に、行動ポリシーをより確実に改善するのに役立ちます。 コードはhttps://github.com/AdamJelley/EfficientOfflineRLで公開されている。

Recent work has demonstrated both benefits and limitations from using supervised approaches (without temporal-difference learning) for offline reinforcement learning. While off-policy reinforcement learning provides a promising approach for improving performance beyond supervised approaches, we observe that training is often inefficient and unstable due to temporal difference bootstrapping. In this paper we propose a best-of-both approach by first learning the behavior policy and critic with supervised learning, before improving with off-policy reinforcement learning. Specifically, we demonstrate improved efficiency by pre-training with a supervised Monte-Carlo value-error, making use of commonly neglected downstream information from the provided offline trajectories. We find that we are able to more than halve the training time of the considered offline algorithms on standard benchmarks, and surprisingly also achieve greater stability. We further build on the importance of having consistent policy and value functions to propose novel hybrid algorithms, TD3+BC+CQL and EDAC+BC, that regularize both the actor and the critic towards the behavior policy. This helps to more reliably improve on the behavior policy when learning from limited human demonstrations. Code is available at https://github.com/AdamJelley/EfficientOfflineRL
翻訳日:2024-06-21 20:22:37 公開日:2024-06-19
# Any360D: ラベルのない360度データとメビウス空間拡張による360度奥行き

Any360D: Towards 360 Depth Anything with Unlabeled 360 Data and Möbius Spatial Augmentation ( http://arxiv.org/abs/2406.13378v1 )

ライセンス: Link先を確認
Zidong Cao, Jinjing Zhu, Weiming Zhang, Lin Wang, (参考訳) 近年DAM(Deepth Anything Model)と呼ばれる深度基礎モデルでは、多様な視点画像に対して、印象的なゼロショットキャパシティが明らかにされている。 成功にもかかわらず、DAMが大きな視野(180x360)を楽しめるが球面歪みに悩まされている360度画像のパフォーマンスについて、未解決の疑問が残る。 この目的のために私たちは,私たちの知る限り,最初に目標とするベンチマークを確立するのです。 1)360度画像におけるDAMの性能評価と評価 2)コミュニティの利益のために強力な360DAMを開発する。 そこで我々は,360 画像,例えば,異なる360 表現,様々な空間変換,多様な屋内・屋外シーンなどの重要な特性を考察した大規模な実験を行った。 このようにして、我々のベンチマークは、例えば、DAMは多様な360のシーンでは効果が低く、空間変換に敏感である、いくつかの重要な発見を公表する。 これらの課題に対処するために、まず屋内と屋外の多様なシーンを含む大規模なラベルなしデータセットを収集する。 次に、Any360Dと呼ばれる360DAMを学ぶための半教師付き学習(SSL)フレームワークを提案する。 SSLの傘の下で、Any360Dはまず、メートル法深度監視を通じてDAMを微調整することで教師モデルを学ぶ。 そして,教師モデルから擬似ラベルを用いた大規模未ラベルデータの可能性を明らかにすることにより,学生モデルを訓練する。 M\"obius transformation-based spatial augmentation (MTSA) は、未ラベルデータと空間変換データの間に整合性正則化を課すために提案される。 これにより、厳しい歪みの下でも、様々な空間変換に対する生徒モデルの頑健さが微妙に向上する。 大規模な実験では、Any360DはDAMやPanoFormerなど、様々な場面で多くのデータ固有モデルよりも優れており、360度基盤モデルとして印象的なゼロショット能力を示している。

Recently, Depth Anything Model (DAM) - a type of depth foundation model - reveals impressive zero-shot capacity for diverse perspective images. Despite its success, it remains an open question regarding DAM's performance on 360 images that enjoy a large field-of-view (180x360) but suffer from spherical distortions. To this end, we establish, to our knowledge, the first benchmark that aims to 1) evaluate the performance of DAM on 360 images and 2) develop a powerful 360 DAM for the benefit of the community. For this, we conduct a large suite of experiments that consider the key properties of 360 images, e.g., different 360 representations, various spatial transformations, and diverse indoor and outdoor scenes. This way, our benchmark unveils some key findings, e.g., DAM is less effective for diverse 360 scenes and sensitive to spatial transformations. To address these challenges, we first collect a large-scale unlabeled dataset including diverse indoor and outdoor scenes. We then propose a semi-supervised learning (SSL) framework to learn a 360 DAM, dubbed Any360D. Under the umbrella of SSL, Any360D first learns a teacher model by fine-tuning DAM via metric depth supervision. Then, we train the student model by uncovering the potential of large-scale unlabeled data with pseudo labels from the teacher model. M\"obius transformation-based spatial augmentation (MTSA) is proposed to impose consistency regularization between the unlabeled data and spatially transformed ones. This subtly improves the student model's robustness to various spatial transformations even under severe distortions. Extensive experiments demonstrate that Any360D outperforms DAM and many prior data-specific models, e.g., PanoFormer, across diverse scenes, showing impressive zero-shot capacity for being a 360 depth foundation model.
翻訳日:2024-06-21 20:22:37 公開日:2024-06-19
# CoAct: 自律エージェントコラボレーションのためのグローバルローカル階層

CoAct: A Global-Local Hierarchy for Autonomous Agent Collaboration ( http://arxiv.org/abs/2406.13381v1 )

ライセンス: Link先を確認
Xinming Hou, Mingming Yang, Wenxiang Jiao, Xing Wang, Zhaopeng Tu, Wayne Xin Zhao, (参考訳) 既存のLLMは、様々なNLPタスクで顕著なパフォーマンスを示すが、CoTやReActのような高度な戦略も備えた複雑な実世界のタスクに苦戦している。 本研究では,人間社会における階層的計画と協調のパターンをLLMシステムに伝達するCoActフレームワークを提案する。 具体的には,1)グローバルプランニングエージェントが問題の範囲を理解し,マクロレベルプランを定式化し,ローカル実行エージェントに詳細なサブタスク記述を提供する。 2)グローバルプラン内の特定のタスクの詳細な実行と実装に焦点を当てた,多層タスク実行構造内で動作するローカル実行エージェント。 WebArenaベンチマークの実験的結果は、CoActが障害に直面したときにプロセスの軌道を再構成できることを示し、長い水平Webタスクのベースラインメソッドよりも優れたパフォーマンスを実現している。 コードはhttps://github.com/xmhou2002/CoAct.comで入手できる。

Existing LLMs exhibit remarkable performance on various NLP tasks, but still struggle with complex real-world tasks, even equipped with advanced strategies like CoT and ReAct. In this work, we propose the CoAct framework, which transfers the hierarchical planning and collaboration patterns in human society to LLM systems. Specifically, our CoAct framework involves two agents: (1) A global planning agent, to comprehend the problem scope, formulate macro-level plans and provide detailed sub-task descriptions to local execution agents, which serves as the initial rendition of a global plan. (2) A local execution agent, to operate within the multi-tier task execution structure, focusing on detailed execution and implementation of specific tasks within the global plan. Experimental results on the WebArena benchmark show that CoAct can re-arrange the process trajectory when facing failures, and achieves superior performance over baseline methods on long-horizon web tasks. Code is available at https://github.com/xmhou2002/CoAct.
翻訳日:2024-06-21 20:22:37 公開日:2024-06-19
# ガムベルソフトマックス推定器を用いたオーディオ・ビジュアルディープフェイク検出のためのバイモーダルニューラルネットワーク探索

Straight Through Gumbel Softmax Estimator based Bimodal Neural Architecture Search for Audio-Visual Deepfake Detection ( http://arxiv.org/abs/2406.13384v1 )

ライセンス: Link先を確認
Aravinda Reddy PN, Raghavendra Ramachandra, Krothapalli Sreenivasa Rao, Pabitra Mitra, Vinod Rathod, (参考訳) ディープフェイクは生体認証の大きなセキュリティリスクである。 この技術は、現実の人間を偽造できるリアルなフェイクビデオを作り、顔の特徴と識別のための音声パターンに依存しているシステムを騙す。 既存のマルチモーダルディープフェイク検出器は、多数決ルールやアンサンブル投票のような従来の融合法に依存しており、しばしばデータ特性や複雑なパターンの変化に適応するのに苦労する。 本稿では,Straight-through Gumbel-Softmax (STGS) フレームワークを提案する。 2段階の探索手法を用いて、このフレームワークはネットワークアーキテクチャ、パラメータ、パフォーマンスを最適化する。 当初、バックボーンネットワークから重要な特徴を効果的に同定したが、細胞構造では、様々なソースから重み付けされた融合操作が情報を統合した。 分類性能を最大化するアーキテクチャは、温度やサンプリング時間などのパラメータによって導出される。 FakeAVCelebとSWAN-DFデータセットの実験結果は、最小のモデルパラメータでAUC値94.4\%が達成された。

Deepfakes are a major security risk for biometric authentication. This technology creates realistic fake videos that can impersonate real people, fooling systems that rely on facial features and voice patterns for identification. Existing multimodal deepfake detectors rely on conventional fusion methods, such as majority rule and ensemble voting, which often struggle to adapt to changing data characteristics and complex patterns. In this paper, we introduce the Straight-through Gumbel-Softmax (STGS) framework, offering a comprehensive approach to search multimodal fusion model architectures. Using a two-level search approach, the framework optimizes the network architecture, parameters, and performance. Initially, crucial features were efficiently identified from backbone networks, whereas within the cell structure, a weighted fusion operation integrated information from various sources. An architecture that maximizes the classification performance is derived by varying parameters such as temperature and sampling time. The experimental results on the FakeAVCeleb and SWAN-DF datasets demonstrated an impressive AUC value 94.4\% achieved with minimal model parameters.
翻訳日:2024-06-21 20:22:37 公開日:2024-06-19
# 非負行列分解と探索による説明可能なバイデザイン音声分割

Explainable by-design Audio Segmentation through Non-Negative Matrix Factorization and Probing ( http://arxiv.org/abs/2406.13385v1 )

ライセンス: Link先を確認
Martin Lebourdais, Théo Mariotte, Antonio Almudévar, Marie Tahon, Alfonso Ortega, (参考訳) 音声セグメンテーションは多くの音声技術において重要なタスクであり、そのほとんどはニューラルネットワークに基づいており、通常はブラックボックスと見なされる。 しかし、健康や法医学など多くの分野では、優れたパフォーマンスだけでなく、アウトプットの決定に関する説明も必要とされている。 潜在表現から直接導かれる説明は、解釈可能な情報性、コンパクト性、モジュラリティといった「良い」性質を満たす必要がある。 本稿では,非負行列分解(NMF)に基づく音声分割モデルを提案する。 本稿では,本モデルがセグメンテーション性能に優れており,非負行列から抽出した潜在表現の深い解析結果を示す。 提案手法は「良い」性質に基づく解釈可能な表現の評価に対する新たな視点を開放する。

Audio segmentation is a key task for many speech technologies, most of which are based on neural networks, usually considered as black boxes, with high-level performances. However, in many domains, among which health or forensics, there is not only a need for good performance but also for explanations about the output decision. Explanations derived directly from latent representations need to satisfy "good" properties, such as informativeness, compactness, or modularity, to be interpretable. In this article, we propose an explainable-by-design audio segmentation model based on non-negative matrix factorization (NMF) which is a good candidate for the design of interpretable representations. This paper shows that our model reaches good segmentation performances, and presents deep analyses of the latent representation extracted from the non-negative matrix. The proposed approach opens new perspectives toward the evaluation of interpretable representations according to "good" properties.
翻訳日:2024-06-21 20:22:37 公開日:2024-06-19
# 機械学習による分子シーブ膜とMOFの混合ガス吸着

Unifying Mixed Gas Adsorption in Molecular Sieve Membranes and MOFs using Machine Learning ( http://arxiv.org/abs/2406.13389v1 )

ライセンス: Link先を確認
Subhadeep Dasgupta, Amal R S, Prabal K. Maiti, (参考訳) 気体吸着等温線を正確に取得するための最近の機械学習モデルは、ポリマーまたは金属-有機フレームワーク(MOF)を別々に焦点をあてている。 両タイプの吸着剤の吸着傾向を予測できる統一モデルを作成することの難しさは, 化学構造の多様性のため, 困難である。 さらに, 単一ガス吸着データにのみ訓練したモデルでは, 二成分混合ガスの吸着等温線を予測できない。 本研究では, ガス混合物と吸着剤の物性のみを含む特徴ベクトルを用いて, これらの問題に対処する。 本モデルは,COREMOFデータベースから得られるデータとともに,炭素分子捕捉膜 (CMSM) 内の単一および二成分混合ガスの吸着等温性について訓練した。 トレーニングされたモデルでは、純粋なコンポーネントとバイナリコンポーネントの両方に対して、材料の両方のクラスにおける吸着傾向を正確に予測することができる。 ある種類の材料のために設計されたMLアーキテクチャは、適切なトレーニングの後であっても、他のクラスの予測には適さない。 このモデルは、CALF-20フレームワーク内のCO2の取り込みを精度良く予測するために使用される。 この研究は、幅広い材料における気体混合物の複雑な吸着過程を予測するための新しい道を開く。

Recent machine learning models to accurately obtain gas adsorption isotherms focus on polymers or metal-organic frameworks (MOFs) separately. The difficulty in creating a unified model that can predict the adsorption trends in both types of adsorbents is challenging, owing to the diversity in their chemical structures. Moreover, models trained only on single gas adsorption data are incapable of predicting adsorption isotherms for binary gas mixtures. In this work, we address these problems using feature vectors comprising only the physical properties of the gas mixtures and adsorbents. Our model is trained on adsorption isotherms of both single and binary mixed gases inside carbon molecular sieving membrane (CMSM), together with data available from CoRE MOF database. The trained models are capable of accurately predicting the adsorption trends in both classes of materials, for both pure and binary components. ML architecture designed for one class of material, is not suitable for predicting the other class, even after proper training, signifying that the model must be trained jointly for proper predictions and transferability. The model is used to predict with good accuracy the CO2 uptake inside CALF-20 framework. This work opens up a new avenue for predicting complex adsorption processes for gas mixtures in a wide range of materials.
翻訳日:2024-06-21 20:22:37 公開日:2024-06-19
# ケーラー任意の猫状態の安定化とホロノミック普遍制御

Stabilizing the Kerr arbitrary cat states and holonomic universal control ( http://arxiv.org/abs/2406.13390v1 )

ライセンス: Link先を確認
Ke-hui Yu, Fan Zhu, Jiao-jiao Xue, Hong-rong Li, (参考訳) 二光子駆動カー非線形共振器(KNR)によって実現された干渉のない二重ポテンシャル井戸は、猫状態を安定させ、大きなエネルギーギャップを通してデコヒーレンスから保護することができる。 本研究では、パラメトリック駆動KNRを用いて任意の猫状態を安定化し、重畳されたコヒーレント状態を独立に操作し、相空間で任意に動く新しいエンジニアリングハミルトンを提案する。 このより大きな制御により、2つのポテンシャル井戸が衝突して融合し、多くの新しい性質を持つ衝突状態が生じる。 さらに、量子状態を持つポテンシャル井戸は位相空間で断熱的に動くため、量子ホロノミーが生じる。 衝突状態の量子ホロノミーを初めて探求し、任意の猫状態に対するホロノミーのない準備法を提案する。 さらに,コヒーレント状態と衝突状態の量子ホロノミーを利用した一般ホロノミック量子コンピューティングプロトコルを開発した。 最後に,超伝導回路における実験可能な物理実現法を提案し,上述したハミルトニアンを実現する。 本提案では, ボソニックモードのさらなる操作と, 興味をそそる物理探査を可能にする, 自由度の高いプラットフォームを提案する。

The interference-free double potential wells realized by the two-photon driving Kerr nonlinear resonator (KNR) can stabilize cat states and protect them from decoherence through a large energy gap. In this work, we use a parametrically driving KNR to propose a novel engineering Hamiltonian that can stabilize arbitrary cat states and independently manipulate the superposed coherent states to move arbitrarily in phase space. This greater degree of control allows us to make the two potential wells collide and merge, generating a collision state with many novel properties. Furthermore, the potential wells carrying quantum states move adiabatically in phase space produce quantum holonomy. We explore the quantum holonomy of collision states for the first time and propose a holonomy-free preparation method for arbitrary cat states. Additionally, we develop a universal holonomic quantum computing protocol utilizing the quantum holonomy of coherent and collision states, including single-qubit rotation gates and multi-qubit control gates. Finally, we propose an experimentally feasible physical realization in superconducting circuits to achieve the Hamiltonian described above. Our proposal provides a platform with greater control degrees of freedom, enabling more operations on bosonic modes and the exploration of intriguing physics.
翻訳日:2024-06-21 20:22:37 公開日:2024-06-19
# 動的層アテンションによる層間相互作用の強化

Strengthening Layer Interaction via Dynamic Layer Attention ( http://arxiv.org/abs/2406.13392v1 )

ライセンス: Link先を確認
Kaishen Wang, Xun Xia, Jian Liu, Zhang Yi, Tao He, (参考訳) 近年,階層層間の相互作用を高めるためにレイヤアテンションを活用することは,ネットワーク構造の構築において重要な進歩であることが証明されている。 本稿では,固定された特徴写像上の層間相互作用を静的に達成できることに留意し,層間アテンションと一般アテンション機構の区別について検討する。 これらの静的層アテンション手法は、レイヤ間のコンテキスト特徴抽出の能力を制限している。 注意機構の動的コンテキスト表現能力を復元するために,動的レイヤ注意(DLA)アーキテクチャを提案する。 DLAはデュアルパスで構成されており、フォワードパスは動的共有ユニット(DSU)と呼ばれる改良されたリカレントニューラルネットワークブロックを使用してコンテキスト特徴抽出を行う。 これらの共有コンテキスト表現を使用して、後方パスが更新される。 最後に、レイヤー間で動的に更新された特徴マップにアテンションメカニズムを適用する。 実験の結果,提案したDLAアーキテクチャの有効性が示され,画像認識や物体検出タスクにおける他の最先端手法よりも優れていた。 さらに、DSUブロックは提案されたDLAアーキテクチャの効率的なプラグインとして評価されており、コードはhttps://github.com/tunantu/Dynamic-Layer-Attention.comで公開されている。

In recent years, employing layer attention to enhance interaction among hierarchical layers has proven to be a significant advancement in building network structures. In this paper, we delve into the distinction between layer attention and the general attention mechanism, noting that existing layer attention methods achieve layer interaction on fixed feature maps in a static manner. These static layer attention methods limit the ability for context feature extraction among layers. To restore the dynamic context representation capability of the attention mechanism, we propose a Dynamic Layer Attention (DLA) architecture. The DLA comprises dual paths, where the forward path utilizes an improved recurrent neural network block, named Dynamic Sharing Unit (DSU), for context feature extraction. The backward path updates features using these shared context representations. Finally, the attention mechanism is applied to these dynamically refreshed feature maps among layers. Experimental results demonstrate the effectiveness of the proposed DLA architecture, outperforming other state-of-the-art methods in image recognition and object detection tasks. Additionally, the DSU block has been evaluated as an efficient plugin in the proposed DLA architecture.The code is available at https://github.com/tunantu/Dynamic-Layer-Attention.
翻訳日:2024-06-21 20:22:37 公開日:2024-06-19
# スタイル-NeRF2NeRF:スタイル対応マルチビュー画像からの3次元スタイル転送

Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images ( http://arxiv.org/abs/2406.13393v1 )

ライセンス: Link先を確認
Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada, (参考訳) 本稿では,2次元画像拡散モデルのパワーを生かした3次元シーンのスタイリングのための,シンプルで効果的なパイプラインを提案する。 多視点画像の集合から再構成されたNeRFモデルを考えると、スタイル整列画像-画像拡散モデルにより生成されたスタイリング画像を用いて、ソースのNeRFモデルを精細化し、3Dスタイルの転送を行う。 ターゲット方式のプロンプトが与えられた場合、我々はまず、注意共有機構を備えた深度条件付き拡散モデルを利用して、知覚的に類似した多視点画像を生成する。 次に, 事前学習したCNNモデルから抽出した特徴写像に基づいて, スライスされたワッサースタイン損失を用いて, スタイル伝達過程を導出する。 我々のパイプラインは分離されたステップで構成されており、ユーザーは様々なプロンプトのアイデアをテストし、NeRFファインチューニングステージに進む前にスタイリングされた3D結果をプレビューすることができる。 本手法は,現実の3Dシーンに多彩な芸術的スタイルを,競争力のある品質で伝達できることを実証する。

We propose a simple yet effective pipeline for stylizing a 3D scene, harnessing the power of 2D image diffusion models. Given a NeRF model reconstructed from a set of multi-view images, we perform 3D style transfer by refining the source NeRF model using stylized images generated by a style-aligned image-to-image diffusion model. Given a target style prompt, we first generate perceptually similar multi-view images by leveraging a depth-conditioned diffusion model with an attention-sharing mechanism. Next, based on the stylized multi-view images, we propose to guide the style transfer process with the sliced Wasserstein loss based on the feature maps extracted from a pre-trained CNN model. Our pipeline consists of decoupled steps, allowing users to test various prompt ideas and preview the stylized 3D result before proceeding to the NeRF fine-tuning stage. We demonstrate that our method can transfer diverse artistic styles to real-world 3D scenes with competitive quality.
翻訳日:2024-06-21 20:12:53 公開日:2024-06-19
# MoreHopQA:マルチホップ推論以上のもの

MoreHopQA: More Than Multi-hop Reasoning ( http://arxiv.org/abs/2406.13397v1 )

ライセンス: Link先を確認
Julian Schnitzler, Xanh Ho, Jiahao Huang, Florian Boudin, Saku Sugawara, Akiko Aizawa, (参考訳) 既存のマルチホップデータセットの多くは、提供されたコンテキストから直接質問に対する回答を抽出できる、抽出された回答データセットである。 これはしばしばモデルが真のマルチホップ推論を行う代わりにヒューリスティックやショートカットを使用するように導く。 本稿では,抽出から生成への変換を行うマルチホップデータセットであるMoreHopQAを提案する。 我々のデータセットは,HotpotQA,2WikiMultihopQA,MuSiQueの3つの既存のマルチホップデータセットを利用して作成されている。 事実推論のみに頼るのではなく、コモンセンス、算術、記号の3つのタイプの推論のうち1つ、2つ、または全てを含む別の階層の質問を追加することで、既存のマルチホップ質問を強化する。 我々のデータセットは半自動で作成され、1,118個のサンプルからなるデータセットが人間の検証を受けている。 次に、我々のデータセットを用いて、Mistral 7B、Gemma 7B、Llama 3 (8B、70B)、GPT-4の5つの異なる大言語モデルを評価する。 また,質問応答過程における推論ステップを分析するために,様々な事例を設計する。 以上の結果から,初期のマルチホップ質問ではモデルの性能は良好であったが,拡張された質問には対処できず,データセットが従来のモデルよりも困難であることが示唆された。 Llama3-70B では GPT-4 では 38.7% 、Llama3-70B では 33.4% の正解率しか得られていない。 評価コードとデータはhttps://github.com/Alab-NII/morehopqaで公開されている。

Most existing multi-hop datasets are extractive answer datasets, where the answers to the questions can be extracted directly from the provided context. This often leads models to use heuristics or shortcuts instead of performing true multi-hop reasoning. In this paper, we propose a new multi-hop dataset, MoreHopQA, which shifts from extractive to generative answers. Our dataset is created by utilizing three existing multi-hop datasets: HotpotQA, 2WikiMultihopQA, and MuSiQue. Instead of relying solely on factual reasoning, we enhance the existing multi-hop questions by adding another layer of questioning that involves one, two, or all three of the following types of reasoning: commonsense, arithmetic, and symbolic. Our dataset is created through a semi-automated process, resulting in a dataset with 1,118 samples that have undergone human verification. We then use our dataset to evaluate five different large language models: Mistral 7B, Gemma 7B, Llama 3 (8B and 70B), and GPT-4. We also design various cases to analyze the reasoning steps in the question-answering process. Our results show that models perform well on initial multi-hop questions but struggle with our extended questions, indicating that our dataset is more challenging than previous ones. Our analysis of question decomposition reveals that although models can correctly answer questions, only a portion - 38.7% for GPT-4 and 33.4% for Llama3-70B - achieve perfect reasoning, where all corresponding sub-questions are answered correctly. Evaluation code and data are available at https://github.com/Alab-NII/morehopqa
翻訳日:2024-06-21 20:12:53 公開日:2024-06-19
# VELO: ベクトルデータベースによるクラウドエッジコラボレーションLLM QoS最適化フレームワーク

VELO: A Vector Database-Assisted Cloud-Edge Collaborative LLM QoS Optimization Framework ( http://arxiv.org/abs/2406.13399v1 )

ライセンス: Link先を確認
Zhi Yao, Zhiqing Tang, Jiong Lou, Ping Shen, Weijia Jia, (参考訳) LLM(Large Language Model)は、様々な領域で広く利用されている。 ほとんどのLCMデプロイメントは、クラウドデータセンタ内で発生し、相当な応答遅延が発生し、高いコストが発生するため、ネットワークエッジのQuality of Services(QoS)に影響を与える。 LLM要求結果をエッジに格納するためにベクトルデータベースキャッシュを活用することで、同様の要求に関連する応答遅延やコストを大幅に軽減することができる。 本稿では,Vectorデータベースを利用したクラウド-Edge協調LLM QoS最適化(VELO)フレームワークを提案する。 まずVELOフレームワークを提案する。このフレームワークはベクトルデータベースを用いて,いくつかのLCM要求の結果をエッジにキャッシュし,その後の類似要求の応答時間を短縮する。 LLMの直接最適化から切り離されたVELOフレームワークは,LLMの内部構造を変更する必要はなく,多様なLLMに適用可能である。 その後,VELO フレームワーク上に構築した QoS 最適化問題をマルコフ決定プロセス (MDP) として定式化し,マルチエージェント強化学習 (MARL) に基づくアルゴリズムを考案し,クラウド上で LLM を要求するか,エッジでベクトルデータベースから直接結果を返すかを決定する。 さらに、要求特徴抽出と訓練の迅速化を図るため、MARLのポリシーネットワークを改良し、専門家によるデモンストレーションを統合する。 最後に,提案アルゴリズムを実エッジシステムに実装する。 LLMを用いたエッジユーザの遅延とリソース消費を同時に低減することにより,VELOフレームワークがユーザ満足度を大幅に向上することを確認した。

The Large Language Model (LLM) has gained significant popularity and is extensively utilized across various domains. Most LLM deployments occur within cloud data centers, where they encounter substantial response delays and incur high costs, thereby impacting the Quality of Services (QoS) at the network edge. Leveraging vector database caching to store LLM request results at the edge can substantially mitigate response delays and cost associated with similar requests, which has been overlooked by previous research. Addressing these gaps, this paper introduces a novel Vector database-assisted cloud-Edge collaborative LLM QoS Optimization (VELO) framework. Firstly, we propose the VELO framework, which ingeniously employs vector database to cache the results of some LLM requests at the edge to reduce the response time of subsequent similar requests. Diverging from direct optimization of the LLM, our VELO framework does not necessitate altering the internal structure of LLM and is broadly applicable to diverse LLMs. Subsequently, building upon the VELO framework, we formulate the QoS optimization problem as a Markov Decision Process (MDP) and devise an algorithm grounded in Multi-Agent Reinforcement Learning (MARL) to decide whether to request the LLM in the cloud or directly return the results from the vector database at the edge. Moreover, to enhance request feature extraction and expedite training, we refine the policy network of MARL and integrate expert demonstrations. Finally, we implement the proposed algorithm within a real edge system. Experimental findings confirm that our VELO framework substantially enhances user satisfaction by concurrently diminishing delay and resource consumption for edge users utilizing LLMs.
翻訳日:2024-06-21 20:12:53 公開日:2024-06-19
# 共振器QEDにおける間接測定による関節クビット観測

Joint qubit observables induced by indirect measurements in cavity QED ( http://arxiv.org/abs/2406.13403v1 )

ライセンス: Link先を確認
Kalle Raikisto, Kimmo Luoma, (参考訳) 量子力学の基本的な特徴は、何らかのノイズが加えられた場合にのみ、共同で測定できる観測可能なものが存在することである。 彼らの鋭いバージョンは互換性がないと言われている。 本研究は,間接的時間連続測定により誘導される時間連続継手量子ビット観測装置について検討する。 特に、量子ビットがキャビティ内の光のモードと相互作用し、キャビティから逃れる光が継続的に監視されるパラダイム的な状況について検討する。 監視方式のタイプを変更したり、キャビティの初期状態を調整したりすることで、キュービットオブザーバブルの特性を調整できることが判明した。 2つの直交四角形をホモダイニングすると、偏りのある可測キュービット可観測物の最適対が生成される。

A fundamental feature of quantum mechanics is that there are observables which can be measured jointly only when some noise is added to them. Their sharp versions are said to be incompatible. In this work we investigate time-continuous joint qubit observables induced by a indirect time-continuous measurements. In particular we study a paradigmatic situation where a qubit is interacting with a mode of light in a cavity and the light escaping the cavity is continuously monitored. We find that the properties of the qubit observables can be tuned by changing the type of the monitoring scheme or by tuning the initial state of the cavity. We observe that homodyning two orthogonal quadratures produces an optimal pair of biased jointly measurable qubit observables.
翻訳日:2024-06-21 20:12:53 公開日:2024-06-19
# SquidASMシミュレータを用いたノイズ量子ネットワークにおけるゲートテレポーテーション

Gate Teleportation in Noisy Quantum Networks with the SquidASM Simulator ( http://arxiv.org/abs/2406.13405v1 )

ライセンス: Link先を確認
Valter Uotila, (参考訳) 我々は、SquidASM量子ネットワークシミュレータを用いて、任意の2ビットクリフォードゲートとトフォリゲートをマルチノード量子ネットワークのコンテキスト内にテレポートするためのゲートテレポーテーションアルゴリズムを実装した。 本稿では,分散量子コンピューティング環境において大きな回路を実現するための重要なアプローチであるゲート切断を実現するために,ゲートテレポーテーション方式を用いる方法を示す。 テレポーテーションにおける補正操作は、任意の2量子クリフォードゲートに対して自動的に構築される。 CNOT,DCNOT,CZ,SWAP,Toffoliゲートのシミュレーション結果を示す。 Toffoli ゲートに対して、このゲートが非クリフォードであるため、補正操作がより複雑になるという違いを持つ同様のゲートテレポーテーションプロトコルを適用する。 量子チャネルとデバイスノイズレベルの異なる条件下でシミュレーションを行う。 シミュレーションは、実装されたアルゴリズムの堅牢性と有効性に関する貴重な洞察を与え、ノイズが主にアプリケーションの実行に影響を与える量子ネットワーク内の重要なコンポーネントを特定するのに役立ちます。

We implement the gate teleportation algorithm for teleporting arbitrary two-qubit Clifford gates and the Toffoli gate within the context of multi-node quantum networks, utilizing the SquidASM quantum network simulator. We show how a gate teleportation scheme can be used to implement gate cutting, which is an important approach to realize large circuits in distributed quantum computing environments. The correction operations in teleportation are automatically constructed for arbitrary two-qubit Clifford gates. We present simulation results for CNOT, DCNOT, CZ, SWAP, and Toffoli gates. For the Toffoli gate, we apply a similar gate teleportation protocol with the difference that the correction operation becomes more complex since the gate is non-Clifford. We perform the simulations under varying conditions of quantum channel and device noise levels. The simulations provide valuable insights into the robustness and efficacy of the implemented algorithms, and they assist in identifying the critical components within quantum networks where noise primarily affects the execution of applications.
翻訳日:2024-06-21 20:12:53 公開日:2024-06-19
# 光子数分解検出器を使わずに測定した窒化ケイ素マイクロ共振器からの励起光の光子数分布

Photon number distribution of squeezed light from a silicon nitride microresonator measured without photon number resolving detectors ( http://arxiv.org/abs/2406.13406v1 )

ライセンス: Link先を確認
Emanuele Brusaschi, Massimo Borghi, Marcello Bacchi, Marco Liscidini, Matteo Galli, Daniele Bajoni, (参考訳) 光子数分布(PND)の測定により、基本的および技術的関連性の非古典性の指標を抽出できるが、原理的には光子数分解能を持つ検出器(PNR)を用いる必要がある。 PNDは最大1.2光子/パルスで特徴づけられ、オンチップのスクイーズレベル6.2(2)dBとノイズ低減係数3.8(2)dBを抽出した。 PND はヒルベルト空間次元 6x6 までうまく再構成される。 光子数に基づく解析により,光子数相関を損なうスプリアス熱背景場の影響を特徴付けることができる。 パルスポンプの場合, 自己・相互位相変調が生成効率に与える影響を評価し, システムの主方程式の数値シミュレーションによる結果の検証を行った。

The measurement of the photon number distribution (PND) allows one to extract metrics of non-classicality of fundamental and technological relevance, but in principle it requires the use of detectors with photon number resolving (PNR) capabilities.In this work we reconstruct the PND of two-mode pulsed squeezed light generated from a silicon nitride microresonator using threshold detectors and variable optical attenuations. The PNDs are characterized up to 1.2 photons/pulse, through which we extracted an on-chip squeezing level of 6.2(2) dB and a noise reduction factor of -3.8(2) dB. The PNDs are successfully reconstructed up to an Hilbert space dimension of 6x6. The analysis performed on the photon-number basis allows us to characterize the influence of a spurious thermal background field that spoils the photon number correlations. We evaluate the impact of self and cross phase modulation on the generation efficiency in case of a pulsed pump, and validate the results through numerical simulations of the master equation of the system.
翻訳日:2024-06-21 20:12:53 公開日:2024-06-19
# SQLFixAgent: マルチエージェントコラボレーションによるセマンティックなSQL生成を目指して

SQLFixAgent: Towards Semantic-Accurate SQL Generation via Multi-Agent Collaboration ( http://arxiv.org/abs/2406.13408v1 )

ライセンス: Link先を確認
Jipeng Cen, Jiaxin Liu, Zhixu Li, Jingjing Wang, (参考訳) 微調整された大言語モデル(LLM)は、テキストからSQLへのパースにおいて文法的に有効なSQLを生成するのに優れていますが、クエリのセマンティックな正確性を保証するのに苦労し、ユーザの混乱とシステムのユーザビリティの低下につながります。 この課題に対処するために、誤ったSQLを検出し、修復するために設計された革新的なマルチエージェント協調フレームワークであるSQLFixAgentを紹介します。 私たちのフレームワークはコアエージェントであるSQLRefinerと、SQLReviewerとQueryCrafterの2つの補助エージェントで構成されています。 SQLReviewerエージェントは、ゴム製のアヒルデバッグメソッドを使用して、SQLステートメントとユーザクエリ間の潜在的なセマンティックミスマッチを特定する。 エラーが検出された場合、QueryCrafterエージェントは、微調整されたSQLToolを使用して、候補修正として複数のSQLステートメントを生成する。 その後、同様の修復検索と障害メモリのリフレクションを利用して、SQLRefinerエージェントは、候補から最も適したSQLステートメントを最終的な修復として選択する。 提案したフレームワークを5つのText-to-SQLベンチマークで評価した。 実験結果から,本手法はベースラインモデルの性能を継続的に向上し,特にBirdベンチマークの3倍以上の実行精度向上を実現していることがわかった。 当社のフレームワークは,他の高度なメソッドと比較してトークン効率も高く,競争力も向上しています。

While fine-tuned large language models (LLMs) excel in generating grammatically valid SQL in Text-to-SQL parsing, they often struggle to ensure semantic accuracy in queries, leading to user confusion and diminished system usability. To tackle this challenge, we introduce SQLFixAgent, an innovative multi-agent collaborative framework designed for detecting and repairing erroneous SQL. Our framework comprises a core agent, SQLRefiner, alongside two auxiliary agents: SQLReviewer and QueryCrafter. The SQLReviewer agent employs the rubber duck debugging method to identify potential semantic mismatches between SQL statement and user query. If the error is detected, the QueryCrafter agent generates multiple SQL statements as candidate repairs using a fine-tuned SQLTool. Subsequently, leveraging similar repair retrieval and failure memory reflexion, the SQLRefiner agent selects the most fitting SQL statement from the candidates as the final repair. We evaluated our proposed framework on five Text-to-SQL benchmarks. The experimental results show that our method consistently enhances the performance of the baseline model, specifically achieving an execution accuracy improvement of over 3\% on the Bird benchmark. Our framework also has a higher token efficiency compared to other advanced methods, making it more competitive.
翻訳日:2024-06-21 20:12:53 公開日:2024-06-19
# PetalView: 補助材料を用いたクロスビュー局所探索によるストリートビュー画像の微粒な位置と方位抽出

PetalView: Fine-grained Location and Orientation Extraction of Street-view Images via Cross-view Local Search with Supplementary Materials ( http://arxiv.org/abs/2406.13409v1 )

ライセンス: Link先を確認
Wenmiao Hu, Yichen Zhang, Yuxuan Liang, Xianjing Han, Yifang Yin, Hannes Kruppa, See-Kiong Ng, Roger Zimmermann, (参考訳) クロスビューマッチングによる衛星によるストリートビュー情報抽出は、1つまたは複数のジオレファレンス画像を用いて、所定のストリートビュー画像クエリの位置と方向情報を抽出するタスクを指す。 最近の研究は、位置情報(GPSなど)を中心にした1つの衛星画像によってカバーされた局所領域内で正確な情報を見つけるための新しい研究方向を開始した。 これは、複数の衛星候補による大規模な探索の後、スタンドアロンのソリューションまたは補完的なステップとして使用することができる。 しかし、これらの既存の作品には正確な初期向き(例えば、IMUからの角度)の事前が必要であり、また/または全ての可能なポーズを効率的に探索する必要はない。 効率的な探索を可能にするとともに,先行する角度の有無にかかわらず正確な予測を行うため,マルチスケール探索を行うPetalView抽出器を提案する。 PetalView抽出器は、2つの大きな異なるビューで同等のセマンティックな特徴を与え、マルチスケール検索戦略は、衛星画像を粗い粒度から細かい粒度まで効率的に検査し、サブメーターとサブ学位の精度の抽出を提供する。 さらに、先行する角度が与えられると、この情報を利用するための学習可能な事前アングルミキサーを提案する。 提案手法は,VIGORデータセット上で最高の性能を示し,位置推定に68.88%以内のリコールと1度(r@1d)21.10%以内のリコールで設定したKITTIデータセットテスト1の性能向上を実現した。

Satellite-based street-view information extraction by cross-view matching refers to a task that extracts the location and orientation information of a given street-view image query by using one or multiple geo-referenced satellite images. Recent work has initiated a new research direction to find accurate information within a local area covered by one satellite image centered at a location prior (e.g., from GPS). It can be used as a standalone solution or complementary step following a large-scale search with multiple satellite candidates. However, these existing works require an accurate initial orientation (angle) prior (e.g., from IMU) and/or do not efficiently search through all possible poses. To allow efficient search and to give accurate prediction regardless of the existence or the accuracy of the angle prior, we present PetalView extractors with multi-scale search. The PetalView extractors give semantically meaningful features that are equivalent across two drastically different views, and the multi-scale search strategy efficiently inspects the satellite image from coarse to fine granularity to provide sub-meter and sub-degree precision extraction. Moreover, when an angle prior is given, we propose a learnable prior angle mixer to utilize this information. Our method obtains the best performance on the VIGOR dataset and successfully improves the performance on KITTI dataset test 1 set with the recall within 1 meter (r@1m) for location estimation to 68.88% and recall within 1 degree (r@1d) 21.10% when no angle prior is available, and with angle prior achieves stable estimations at r@1m and r@1d above 70% and 21%, up to a 40-degree noise level.
翻訳日:2024-06-21 20:12:53 公開日:2024-06-19
# バックドアによる複合概念抽出

Composite Concept Extraction through Backdooring ( http://arxiv.org/abs/2406.13411v1 )

ライセンス: Link先を確認
Banibrata Ghosh, Haripriya Harikumar, Khoa D Doan, Svetha Venkatesh, Santu Rana, (参考訳) 例えば、"textquotedbl red car\textquotedbl"という概念を表す白い車や、"textquotedbl red\textquotedbl"という概念を表す赤いイチゴなどです。 本稿では,従来のバックドアアタックのテクニックを活用して,これらの概念をゼロショットで学習する複合概念エクストラクタ(CoCE)を提案する。 トリガベースのモデルバックドア機構を再利用することにより、対象物(eg , \textquotedbl car\textquotedbl )が対象物(eg , \textquotedbl red\textquotedbl )によって誘導される対象物(eg , \textquotedbl red\textquotedbl )の多様体における戦略的歪みを、対象物(textquotedbl red strawberry\textquotedbl )から生成し、歪みが対象物(ターゲット物)に選択的に影響することを保証する。 次に、この歪みをさらに洗練するためにコントラスト学習を用い、歪みに影響された物体を検出する方法が定式化されている。 異なるデータセットをまたいだ詳細な分析による広範囲な実験は、提案手法の有用性と適用性を示している。

Learning composite concepts, such as \textquotedbl red car\textquotedbl , from individual examples -- like a white car representing the concept of \textquotedbl car\textquotedbl{} and a red strawberry representing the concept of \textquotedbl red\textquotedbl -- is inherently challenging. This paper introduces a novel method called Composite Concept Extractor (CoCE), which leverages techniques from traditional backdoor attacks to learn these composite concepts in a zero-shot setting, requiring only examples of individual concepts. By repurposing the trigger-based model backdooring mechanism, we create a strategic distortion in the manifold of the target object (e.g., \textquotedbl car\textquotedbl ) induced by example objects with the target property (e.g., \textquotedbl red\textquotedbl ) from objects \textquotedbl red strawberry\textquotedbl , ensuring the distortion selectively affects the target objects with the target property. Contrastive learning is then employed to further refine this distortion, and a method is formulated for detecting objects that are influenced by the distortion. Extensive experiments with in-depth analysis across different datasets demonstrate the utility and applicability of our proposed approach.
翻訳日:2024-06-21 20:12:53 公開日:2024-06-19
# 実用的な行列乗算アルゴリズムの探索のためのテンソル分解と断熱量子計算

Tensor Decompositions and Adiabatic Quantum Computing for Discovering Practical Matrix Multiplication Algorithms ( http://arxiv.org/abs/2406.13412v1 )

ライセンス: Link先を確認
Valter Uotila, (参考訳) 量子コンピューティングと現代のテンソルベースコンピューティングは強いつながりを持ち、特にテンソルネットワークで量子計算をシミュレートすることで実証されている。 量子コンピューティングはテンソルベースの問題には適用されない。 テンソル分解を考慮し、実用的な行列乗算アルゴリズムの発見と量子コンピュータ上での分解を計算する2つのアルゴリズムの開発に焦点をあてる。 アルゴリズムは高次非制約バイナリ最適化(HUBO)問題として表現され、二次非制約バイナリ最適化(QUBO)問題に変換される。 我々の最初のアルゴリズムは、現在の量子デバイスで最適化問題を実現するために分解的である。 適切な初期点から、このアルゴリズムは、現在の量子アニールを用いて、有名なストラッセン行列乗法に対応するテンソル分解を発見する。 分解アルゴリズムは、検出されたテンソル分解に対して最小長を保証しないので、固定長分解を見つけることができる包括的アルゴリズムを開発する。 理論的には、最もよく知られた分解の長さよりも短い長さを固定することで、全体最適化問題の解がより高速な行列乗算アルゴリズムをもたらすことを保証できる。

Quantum computing and modern tensor-based computing have a strong connection, which is especially demonstrated by simulating quantum computations with tensor networks. The other direction is less studied: quantum computing is not often applied to tensor-based problems. Considering tensor decompositions, we focus on discovering practical matrix multiplication algorithms and develop two algorithms to compute decompositions on quantum computers. The algorithms are expressed as higher-order unconstrained binary optimization (HUBO) problems, which are translated into quadratic unconstrained binary optimization (QUBO) problems. Our first algorithm is decompositional to keep the optimization problem feasible for the current quantum devices. Starting from a suitable initial point, the algorithm discovers tensor decomposition corresponding to the famous Strassen matrix multiplication algorithm, utilizing the current quantum annealers. Since the decompositional algorithm does not guarantee minimal length for found tensor decompositions, we develop a holistic algorithm that can find fixed-length decompositions. Theoretically, by fixing a shorter length than the length for the best-known decomposition, we can ensure that the solution to the holistic optimization problem would yield faster matrix multiplication algorithms.
翻訳日:2024-06-21 20:12:53 公開日:2024-06-19
# 医用画像登録用リカレント推論装置

Recurrent Inference Machine for Medical Image Registration ( http://arxiv.org/abs/2406.13413v1 )

ライセンス: Link先を確認
Yi Zhang, Yidong Zhao, Hui Xue, Peter Kellman, Stefan Klein, Qian Tao, (参考訳) 複数の画像にまたがるボクセルのアライメントが質的あるいは定量的解析に必要とされる医療画像アプリケーションには,画像登録が不可欠である。 近年のディープニューラルネットワークと並列コンピューティングの進歩により、ディープラーニングベースの医療画像登録手法は、フレキシブルなモデリングと高速推論機能と競合するようになる。 しかし、従来の最適化に基づく登録方式と比較して、速度の優位性は推論時に登録性能を犠牲にする可能性がある。 さらに、ディープニューラルネットワークは大規模なトレーニングデータセットを理想的に要求し、最適化ベースのメソッドはトレーニング不要である。 登録精度とデータ効率を向上させるため,リカレント推論画像登録(RIIR)ネットワークと呼ばれる新しい画像登録手法を提案する。 RIIRは、メタラーニングによる登録問題の解法として反復的に定式化される。 RIIRは、最適化の更新規則を暗黙の正規化と明示的な勾配入力と組み合わせることで、精度とデータ効率の問題に対処する。 我々は、登録精度とトレーニングデータ効率の両面で、脳MRIおよび定量的心MRIデータセットに基づいてRIIRを広範囲に評価した。 実験の結果、RIIRはトレーニングデータのわずか5分の1の値であっても、さまざまなディープラーニングベースの手法より優れており、高いデータ効率を示していることがわかった。 メタラーニングのための再帰的推論フレームワークに導入された隠れ状態の重要付加価値について,アブレーション研究から重要な知見を得た。 提案するRIIRは、深層学習に基づく医用画像登録のための高効率なフレームワークを提供する。

Image registration is essential for medical image applications where alignment of voxels across multiple images is needed for qualitative or quantitative analysis. With recent advancements in deep neural networks and parallel computing, deep learning-based medical image registration methods become competitive with their flexible modelling and fast inference capabilities. However, compared to traditional optimization-based registration methods, the speed advantage may come at the cost of registration performance at inference time. Besides, deep neural networks ideally demand large training datasets while optimization-based methods are training-free. To improve registration accuracy and data efficiency, we propose a novel image registration method, termed Recurrent Inference Image Registration (RIIR) network. RIIR is formulated as a meta-learning solver to the registration problem in an iterative manner. RIIR addresses the accuracy and data efficiency issues, by learning the update rule of optimization, with implicit regularization combined with explicit gradient input. We evaluated RIIR extensively on brain MRI and quantitative cardiac MRI datasets, in terms of both registration accuracy and training data efficiency. Our experiments showed that RIIR outperformed a range of deep learning-based methods, even with only $5\%$ of the training data, demonstrating high data efficiency. Key findings from our ablation studies highlighted the important added value of the hidden states introduced in the recurrent inference framework for meta-learning. Our proposed RIIR offers a highly data-efficient framework for deep learning-based medical image registration.
翻訳日:2024-06-21 20:12:53 公開日:2024-06-19
# サブモジュール最適化のためのアーカイブベース単一目的進化アルゴリズム

Archive-based Single-Objective Evolutionary Algorithms for Submodular Optimization ( http://arxiv.org/abs/2406.13414v1 )

ライセンス: Link先を確認
Frank Neumann, Günter Rudolph, (参考訳) 制約付き部分モジュラ最適化問題は、多くのNPハード最適化問題を捉える際に、組合せ最適化の領域において重要な役割を果たす。 これまでのところ、多目的の定式化を用いたパレート最適化手法はこれらの問題に対処するのに成功し、一方単目的の定式化は局所最適化の存在により(1+1)$-EAのようなアルゴリズムの難しさを招いている。 我々は、制約付き部分モジュラー最大化問題の異なるクラスに対して証明可能な成功を収めた、初めての単目的アルゴリズムを紹介する。 我々のアルゴリズムは$(1+\lambda)$-EAと$(1+1)$-EAの変種であり、考慮された部分モジュラー問題に対処するために検索空間の実行可能な領域を漸進的に増加させる。

Constrained submodular optimization problems play a key role in the area of combinatorial optimization as they capture many NP-hard optimization problems. So far, Pareto optimization approaches using multi-objective formulations have been shown to be successful to tackle these problems while single-objective formulations lead to difficulties for algorithms such as the $(1+1)$-EA due to the presence of local optima. We introduce for the first time single-objective algorithms that are provably successful for different classes of constrained submodular maximization problems. Our algorithms are variants of the $(1+\lambda)$-EA and $(1+1)$-EA and increase the feasible region of the search space incrementally in order to deal with the considered submodular problems.
翻訳日:2024-06-21 20:12:53 公開日:2024-06-19
# LLMのFactual Confidence:電流推定器の信頼性とロバスト性について

Factual Confidence of LLMs: on Reliability and Robustness of Current Estimators ( http://arxiv.org/abs/2406.13415v1 )

ライセンス: Link先を確認
Matéo Mahaut, Laura Aina, Paula Czarnowska, Momchil Hardalov, Thomas Müller, Lluís Màrquez, (参考訳) 大規模言語モデル(LLM)は、その答えの事実において信頼できない傾向にある。 この問題に対処するため、NLP研究者はLLMの事実に対する信頼度を推定する様々な手法を提案している。 しかし、体系的な比較が欠如しているため、異なる手法が相互にどのように比較されるかは明らかでない。 このギャップを埋めるために,実感的信頼度の推定者の調査と実証的比較を行った。 我々は、事実検証と質問応答の両方をカバーし、公正な比較を可能にする実験的なフレームワークを定義する。 LLMの一連の実験は、トレーニングされた隠れ状態プローブが、重量データやトレーニングデータへのアクセスを犠牲にしながら、最も信頼性の高い信頼度推定を提供することを示している。 また,入力中の意味保存変動の下でのモデル行動の整合性を測定することにより,事実の信頼度をより深く評価する。 LLMの信頼性は意味論的に等価な入力に対して不安定であることが多く、モデルのパラメトリック知識の安定性を改善する余地があることが示唆される。 私たちのコードは(https://github.com/amazon-science/factual-confidence-of-llms)で利用可能です。

Large Language Models (LLMs) tend to be unreliable in the factuality of their answers. To address this problem, NLP researchers have proposed a range of techniques to estimate LLM's confidence over facts. However, due to the lack of a systematic comparison, it is not clear how the different methods compare to one another. To fill this gap, we present a survey and empirical comparison of estimators of factual confidence. We define an experimental framework allowing for fair comparison, covering both fact-verification and question answering. Our experiments across a series of LLMs indicate that trained hidden-state probes provide the most reliable confidence estimates, albeit at the expense of requiring access to weights and training data. We also conduct a deeper assessment of factual confidence by measuring the consistency of model behavior under meaning-preserving variations in the input. We find that the confidence of LLMs is often unstable across semantically equivalent inputs, suggesting that there is much room for improvement of the stability of models' parametric knowledge. Our code is available at (https://github.com/amazon-science/factual-confidence-of-llms).
翻訳日:2024-06-21 20:12:53 公開日:2024-06-19
# 加速フレーム内のパンチャラトナム・ベリー相に及ぼす熱浴の影響

Influence of thermal bath on Pancharatnam-Berry phase in an accelerated frame ( http://arxiv.org/abs/2406.13416v1 )

ライセンス: Link先を確認
Debasish Ghosh, Bibhas Ranjan Majhi, (参考訳) 均一に加速された原子はパンチャラトナム・ベリー相を量子状態に捕捉し、位相因子は背景量子場の真空変動に依存する。 磁場の熱的性質が誘導相にさらに影響を与えることを観察する。 興味深いことに、誘導相はウンルーと実際の熱浴の間の交換対称性を捉えている。 この観測は、ウンルー熱浴が本物の熱浴を模倣しているという主張をさらに支持している。 さらに, システムパラメータの一定値と高温では, 温度0の条件に比べて位相が向上する。 しかし、相を実験的に観察するために必要な温度は非常に高く、この方法でのウンルー効果の検出は現在の技術では不可能である。

A uniformly accelerated atom captures Pancharatnam-Berry phase in its quantum state and the phase factor depends on the vacuum fluctuation of the background quantum fields. We observe that the thermal nature of the fields further affects the induced phase. Interestingly the induced phase captures the exchange symmetry between the Unruh and real thermal baths. This observation further supports the claim that the Unruh thermal bath mimics a real thermal bath. Moreover for certain values of system parameters and at high temperature, the phase is enhanced compared to zero temperature situation. However the required temperature to observe the phase experimentally is so high that the detection of Unruh effect through this is not possible within the current technology.
翻訳日:2024-06-21 20:12:53 公開日:2024-06-19
# リモートセンシング画像変化検索とキャプションのためのマルチモーダルフレームワーク

Towards a multimodal framework for remote sensing image change retrieval and captioning ( http://arxiv.org/abs/2406.13424v1 )

ライセンス: Link先を確認
Roger Ferrod, Luigi Di Caro, Dino Ienco, (参考訳) 近年、マルチモーダルAIシステムとの自然言語インタラクションを容易にするために、画像、オーディオ、ビデオなどの他のモーダルとテキストを統合するマルチモーダルアプリケーションへの関心が高まっている。 標準モダリティを含むアプリケーションは広く研究されているが、リモートセンシング(RS)データなど、特定のデータモダリティについての調査は未だ行われていない。 環境保護、災害監視、土地計画など多くのRSデータの潜在的な応用にもかかわらず、利用可能なソリューションは主に分類、キャプション、検索のような特定のタスクに焦点を当てている。 これらのソリューションは、時間とともに同じ地理的領域に関する情報を体系的に提供できる機能など、RSデータのユニークな特徴を見落としていることが多い。 この機能は、基盤となるランドスケープの変化を継続的に監視することを可能にする。 このギャップに対処するために、コントラスト学習とLEVIR-CCデータセットを併用し、変化検出分析の文脈において、バイテンポラルRS画像ペアのための新しい基礎モデルを提案する。 コントラストエンコーダとキャプションデコーダを共同でトレーニングすることにより,両時間的変化検出の文脈でテキスト画像検索機能を付加すると同時に,最先端技術に匹敵するキャプション性能を維持できる。 ソースコードと事前訓練された重み付けを以下にリリースします。

Recently, there has been increasing interest in multimodal applications that integrate text with other modalities, such as images, audio and video, to facilitate natural language interactions with multimodal AI systems. While applications involving standard modalities have been extensively explored, there is still a lack of investigation into specific data modalities such as remote sensing (RS) data. Despite the numerous potential applications of RS data, including environmental protection, disaster monitoring and land planning, available solutions are predominantly focused on specific tasks like classification, captioning and retrieval. These solutions often overlook the unique characteristics of RS data, such as its capability to systematically provide information on the same geographical areas over time. This ability enables continuous monitoring of changes in the underlying landscape. To address this gap, we propose a novel foundation model for bi-temporal RS image pairs, in the context of change detection analysis, leveraging Contrastive Learning and the LEVIR-CC dataset for both captioning and text-image retrieval. By jointly training a contrastive encoder and captioning decoder, our model add text-image retrieval capabilities, in the context of bi-temporal change detection, while maintaining captioning performances that are comparable to the state of the art. We release the source code and pretrained weights at: https://github.com/rogerferrod/RSICRC.
翻訳日:2024-06-21 20:12:53 公開日:2024-06-19
# 連成入出力次元削減法:ゴール指向ベイズ実験設計と大域感度解析への応用

Coupled Input-Output Dimension Reduction: Application to Goal-oriented Bayesian Experimental Design and Global Sensitivity Analysis ( http://arxiv.org/abs/2406.13425v1 )

ライセンス: Link先を確認
Qiao Chen, Elise Arnaud, Ricardo Baptista, Olivier Zahm, (参考訳) 本研究では,高次元関数の入力空間と出力空間の次元を共同で削減する手法を提案する。 縮小された入力部分空間の選択は、どの出力部分空間が関連しているかに影響し、その逆も影響する。 従来の手法では、実際は2つを同時に削減するが、入力空間または出力空間の削減に重点を置いている。 我々の結合したアプローチは、自然に目的指向の次元の縮小をサポートします。 本稿では,特に目標指向センサ配置と目標指向感度分析を,最も重要な出力が選択された場合の次元縮小とみなすことができると考えている。 どちらのアプリケーションも、期待される情報ゲインやソボル指標のような高価な目的を持つ複雑な組合せ最適化問題を示す。 勾配に基づく境界を最適化することにより、いくつかの診断行列の最大の対角線成分として最も情報性の高いセンサと最も敏感なパラメータを決定できるので、組合せ最適化と客観的評価を回避できる。

We introduce a new method to jointly reduce the dimension of the input and output space of a high-dimensional function. Choosing a reduced input subspace influences which output subspace is relevant and vice versa. Conventional methods focus on reducing either the input or output space, even though both are often reduced simultaneously in practice. Our coupled approach naturally supports goal-oriented dimension reduction, where either an input or output quantity of interest is prescribed. We consider, in particular, goal-oriented sensor placement and goal-oriented sensitivity analysis, which can be viewed as dimension reduction where the most important output or, respectively, input components are chosen. Both applications present difficult combinatorial optimization problems with expensive objectives such as the expected information gain and Sobol indices. By optimizing gradient-based bounds, we can determine the most informative sensors and most sensitive parameters as the largest diagonal entries of some diagnostic matrices, thus bypassing the combinatorial optimization and objective evaluation.
翻訳日:2024-06-21 20:03:05 公開日:2024-06-19
# 論理モデルは本当に解釈可能か?

Are Logistic Models Really Interpretable? ( http://arxiv.org/abs/2406.13427v1 )

ライセンス: Link先を確認
Danial Dervovic, Freddy Lécué, Nicolás Marchesotti, Daniele Magazzeni, (参考訳) オープンで信頼性の高いAIモデルの需要は、モデルウェイトを広く公開することを指している。 これらのモデルウェイトの消費者は、提供された情報に従って行動しなければなりません。 とは言っても、最も単純なAI分類モデルの1つであるロジスティック回帰(LR)は、モデルの重みを扱いにくい解釈を持ち、LRを一般化された加法モデルに拡張する際の困難は大きい。 本研究は,ユーザスタディを通じて,熟練した参加者が,訓練されたパラメータから小さなLRモデルの動作を確実に再現できないことを示す。 これに対するアンチドートとして線形加法モデル (LAMs) を定義する。これは、シグモイドリンク関数を備えた任意の訓練された加法モデルを拡張し、再学習を必要としない最適の一方向線形近似である。 LAMはロジスティックモデルよりも解釈可能であり、調査参加者はLAMを用いたモデル推論タスクを、LRと同じ情報を与えられた場合よりもはるかに正確に解決できることが示されている。 さらに,LAM はROC-AUC やキャリブレーションの点で大きなパフォーマンス上のペナルティを被っていないことを示し,ロジスティックな財務モデルデータに対するロジスティックな対応について述べる。

The demand for open and trustworthy AI models points towards widespread publishing of model weights. Consumers of these model weights must be able to act accordingly with the information provided. That said, one of the simplest AI classification models, Logistic Regression (LR), has an unwieldy interpretation of its model weights, with greater difficulties when extending LR to generalised additive models. In this work, we show via a User Study that skilled participants are unable to reliably reproduce the action of small LR models given the trained parameters. As an antidote to this, we define Linearised Additive Models (LAMs), an optimal piecewise linear approximation that augments any trained additive model equipped with a sigmoid link function, requiring no retraining. We argue that LAMs are more interpretable than logistic models -- survey participants are shown to solve model reasoning tasks with LAMs much more accurately than with LR given the same information. Furthermore, we show that LAMs do not suffer from large performance penalties in terms of ROC-AUC and calibration with respect to their logistic counterparts on a broad suite of public financial modelling data.
翻訳日:2024-06-21 20:03:05 公開日:2024-06-19
# LOCCと共有絡みによる最大絡み合いの解消

Distinguishing a maximally entangled basis using LOCC and shared entanglement ( http://arxiv.org/abs/2406.13430v1 )

ライセンス: Link先を確認
Somshubhro Bandyopadhyay, Vincent Russo, (参考訳) 本稿では,LOCC(ローカル操作と古典通信)と資源として機能する部分的絡み合い状態との相違を考察する。 最適成功確率の正確な式を導出し、それが資源状態の完全絡み合った分数に対応することを発見する。 まず、LOCCを正部分置換(PPT)測定に置き換え、半定値プログラムの解として成功確率の上限を確立し、この上限がテレポーテーションベースのLOCCプロトコルによって達成されることを示す。 これはさらに、分離可能なPPT測定がLOCCに勝るものではないことを示唆している。

We consider the problem of distinguishing between the elements of a bipartite maximally entangled orthonormal basis using LOCC (local operations and classical communication) and a partially entangled state acting as a resource. We derive an exact formula for the optimum success probability and find that it corresponds to the fully entangled fraction of the resource state. The derivation consists of two steps: First, we consider a relaxation of the problem by replacing LOCC with positive-partial-transpose (PPT) measurements and establish an upper bound on the success probability as the solution of a semidefinite program, and then show that this upper bound is achieved by a teleportation-based LOCC protocol. This further implies that separable and PPT measurements provide no advantage over LOCC for this task.
翻訳日:2024-06-21 20:03:05 公開日:2024-06-19
# 離散的音声強調による子どもの音声認識

Children's Speech Recognition through Discrete Token Enhancement ( http://arxiv.org/abs/2406.13431v1 )

ライセンス: Link先を確認
Vrunda N. Sukhadia, Shammur Absar Chowdhury, (参考訳) 子どもの音声認識は、公開データの欠如が主な理由として、低リソースの課題と見なされている。 このようなデータ不足には、高価なデータ収集やアノテーションプロセス、データプライバシなど、いくつかの理由がある。 音声信号を機密情報を保持せず、言語情報と音響情報の両方をキャプチャする離散トークンに変換することは、プライバシー上の問題に対する解決策になり得る。 本研究では,ASRの性能を著しく低下させることなく,個々の音声トークンを幼児の音声認識システムに組み込むことを入力として検討する。 さらに、これらの離散ラベルを作成するためのシングルビューとマルチビュー戦略についても検討した。 さらに、未確認領域とナビティビティデータセットを用いて一般化能力のモデルを検証した。 その結果,子供用離散トークンASRは,約83%のパラメータでほぼ同等の性能を発揮することがわかった。

Children's speech recognition is considered a low-resource task mainly due to the lack of publicly available data. There are several reasons for such data scarcity, including expensive data collection and annotation processes, and data privacy, among others. Transforming speech signals into discrete tokens that do not carry sensitive information but capture both linguistic and acoustic information could be a solution for privacy concerns. In this study, we investigate the integration of discrete speech tokens into children's speech recognition systems as input without significantly degrading the ASR performance. Additionally, we explored single-view and multi-view strategies for creating these discrete labels. Furthermore, we tested the models for generalization capabilities with unseen domain and nativity dataset. Results reveal that the discrete token ASR for children achieves nearly equivalent performance with an approximate 83% reduction in parameters.
翻訳日:2024-06-21 20:03:05 公開日:2024-06-19
# グラディエント・ベース・トレーニングにおける差別的プライバシとアンラーニングの認定

Certificates of Differential Privacy and Unlearning for Gradient-Based Training ( http://arxiv.org/abs/2406.13433v1 )

ライセンス: Link先を確認
Matthew Wicker, Philip Sosnin, Adrianna Janik, Mark N. Müller, Adrian Weller, Calvin Tsay, (参考訳) 適切なデータスチュワードシップでは、モデル所有者がトレーニング中に使用する個人のデータのプライバシを保護する必要がある。 差分プライバシーによる匿名化や、匿名化されていない環境での未学習の使用によっても、プライバシ保証を提供するためのゴールドスタンダードのテクニックは、重大なパフォーマンス上のペナルティをもたらすか、現実的な保証を提供するには弱すぎる。 これは、差分プライバシーによって提供される保証が、どんな個人にとっても最悪のプライバシー漏洩であるという事実によるものである。 この研究は凸緩和と境界伝播に基づく新しいフレームワークを提供する。これは、特定の予測を公表することは、プライバシー保証が$\epsilon=0$を満たすか、あるいは未学習要求の対象となるデータに依存しない、正式な保証(証明)を計算することができる。 我々のフレームワークは、プライバシーと未学習の保証に対する新たな検証中心のアプローチを提供し、ユーザーの信頼をさらに強固にし、特定のメンバーシップ推論攻撃に対する堅牢性の正式な証明を提供し、潜在的に脆弱なレコードを特定し、現在のアンラーニングアプローチを強化するために使用することができる。 我々は,金融サービス,医用画像,自然言語処理などのタスクに対するアプローチの有効性を検証する。

Proper data stewardship requires that model owners protect the privacy of individuals' data used during training. Whether through anonymization with differential privacy or the use of unlearning in non-anonymized settings, the gold-standard techniques for providing privacy guarantees can come with significant performance penalties or be too weak to provide practical assurances. In part, this is due to the fact that the guarantee provided by differential privacy represents the worst-case privacy leakage for any individual, while the true privacy leakage of releasing the prediction for a given individual might be substantially smaller or even, as we show, non-existent. This work provides a novel framework based on convex relaxations and bounds propagation that can compute formal guarantees (certificates) that releasing specific predictions satisfies $\epsilon=0$ privacy guarantees or do not depend on data that is subject to an unlearning request. Our framework offers a new verification-centric approach to privacy and unlearning guarantees, that can be used to further engender user trust with tighter privacy guarantees, provide formal proofs of robustness to certain membership inference attacks, identify potentially vulnerable records, and enhance current unlearning approaches. We validate the effectiveness of our approach on tasks from financial services, medical imaging, and natural language processing.
翻訳日:2024-06-21 20:03:05 公開日:2024-06-19
# 次は何か? グラフィックデザインにおけるAI生成画像ツールの利用、課題、今後の方向性を探る

What's Next? Exploring Utilization, Challenges, and Future Directions of AI-Generated Image Tools in Graphic Design ( http://arxiv.org/abs/2406.13436v1 )

ライセンス: Link先を確認
Yuying Tang, Mariana Ciancia, Zhigang Wang, Ze Gao, (参考訳) コンピュータビジョンやディープラーニングといった人工知能の最近の進歩は、特に画像生成において、多くの生成AIプラットフォームの台頭につながっている。 しかし、グラフィックデザインにおけるAI生成画像ツールの適用については、広く研究されていない。 本研究は、グラフィックデザインにおけるAI生成画像ツールの現在の使用状況、課題、将来の機能的ニーズを理解するために、様々な経験レベルを持つ7人のデザイナーと半構造化インタビューを行った。 私たちの調査結果が示すように、AIツールはデザインにおける創造的なパートナとして機能し、人間の創造性を高め、戦略的洞察を提供し、チームのコラボレーションとコミュニケーションを促進する。 この発見は、エンジニアがグラフィックデザイナのニーズに合うように、これらのツールの最適化を支援することを目的とした、AI生成イメージツールの今後の開発のためのガイダンスを提供する。

Recent advancements in artificial intelligence, such as computer vision and deep learning, have led to the emergence of numerous generative AI platforms, particularly for image generation. However, the application of AI-generated image tools in graphic design has not been extensively explored. This study conducted semi-structured interviews with seven designers of varying experience levels to understand their current usage, challenges, and future functional needs for AI-generated image tools in graphic design. As our findings suggest, AI tools serve as creative partners in design, enhancing human creativity, offering strategic insights, and fostering team collaboration and communication. The findings provide guiding recommendations for the future development of AI-generated image tools, aimed at helping engineers optimize these tools to better meet the needs of graphic designers.
翻訳日:2024-06-21 20:03:05 公開日:2024-06-19
# 解釈チェックリストを用いた評価器LLMにおけるブラインドスポットの探索

Finding Blind Spots in Evaluator LLMs with Interpretable Checklists ( http://arxiv.org/abs/2406.13439v1 )

ライセンス: Link先を確認
Sumanth Doddapaneni, Mohammed Safi Ur Rahman Khan, Sshubam Verma, Mitesh M. Khapra, (参考訳) 大規模言語モデル(LLM)は、他のLLMのテキスト出力を評価するためにますます頼りになってきているため、リーダーボードや開発決定に影響を与える。 しかし、これらの評価の正確さと、誤解を招く結論の可能性を懸念している。 本研究では,テキスト生成タスクにおける評価器としてのLLMの有効性について検討する。 我々は,他のLLMの4つの重要な能力(事実の正確性,指示の追従,長文のコヒーレンス,推論の習熟度)を評価する上で,評価用LLMの習熟度を評価するために設計された新しいフレームワークであるFBIを提案する。 LLMが生成する回答に目標摂動を導入することで、これらの重要な機能の1つに明らかな影響を与え、評価器LLMがこれらの品質低下を検出できるかどうかを検証する。 22の摂動カテゴリをカバーする2400の摂動回答を作成することで、文献で一般的に用いられる5つのLLMの異なる評価戦略を用いて総合的な研究を行う。 以上の結果より, 平均50%以上の症例において, 品質低下の判定に失敗し, 現状のLCMでは重大な欠陥がみられた。 単問合せ評価とペア評価は顕著な限界を示し,参照ベース評価は比較的優れた性能を示した。 これらの結果は、現在の評価器LLMの信頼性の低い性質と、実用的な応用における慎重な実装の提唱を裏付けるものである。 コードとデータはhttps://github.com/AI4Bharat/FBIで公開されている。

Large Language Models (LLMs) are increasingly relied upon to evaluate text outputs of other LLMs, thereby influencing leaderboards and development decisions. However, concerns persist over the accuracy of these assessments and the potential for misleading conclusions. In this work, we investigate the effectiveness of LLMs as evaluators for text generation tasks. We propose FBI, a novel framework designed to examine the proficiency of Evaluator LLMs in assessing four critical abilities in other LLMs: factual accuracy, instruction following, coherence in long-form writing, and reasoning proficiency. By introducing targeted perturbations in answers generated by LLMs, that clearly impact one of these key capabilities, we test whether an Evaluator LLM can detect these quality drops. By creating a total of 2400 perturbed answers covering 22 perturbation categories, we conduct a comprehensive study using different evaluation strategies on five prominent LLMs commonly used as evaluators in the literature. Our findings reveal significant shortcomings in current Evaluator LLMs, which failed to identify quality drops in over 50\% of cases on average. Single-answer and pairwise evaluations demonstrated notable limitations, whereas reference-based evaluations showed comparatively better performance. These results underscore the unreliable nature of current Evaluator LLMs and advocate for cautious implementation in practical applications. Code and data are available at https://github.com/AI4Bharat/FBI.
翻訳日:2024-06-21 20:03:05 公開日:2024-06-19
# XAI法による深達度学習によるロバスト黒色腫の厚さ予測

Robust Melanoma Thickness Prediction via Deep Transfer Learning enhanced by XAI Techniques ( http://arxiv.org/abs/2406.13441v1 )

ライセンス: Link先を確認
Miguel Nogales, Begoña Acha, Fernando Alarcón, José Pereyra, Carmen Serrano, (参考訳) 本研究は,皮膚がんの診断および治療における重要な因子であるメラノーマの深さを決定するために,皮膚内視鏡像の分析に焦点をあてる。 顆粒層の上部から腫瘍浸潤の最も深い地点まで測定されたブレスロー深さは、黒色腫のステージングと治療決定の指針となる重要なパラメータである。 本研究の目的は,機械学習モデル,特に深層学習を用いたメラノーマ深度予測の改善と,メラノーマ深度と相関する画像特性の卒業可能性の解析である。 ISICやプライベートコレクションを含むさまざまなデータセットが使用され、合計で1162枚の画像が含まれている。 データセットは、堅牢なモデルトレーニングを保証するために結合され、バランスが取れた。 この研究は、事前訓練された畳み込みニューラルネットワーク(CNN)を利用した。 その結果, 従来の手法に比べて, モデルが大幅に改善された。 さらに、モデルの予測と実際のメラノーマの厚みの相関分析を行い、より高い厚みの値で改善する適度な相関を明らかにした。 主成分分析(PCA)による特徴可視化などの説明可能性手法は,メラノーマの深度の違いを識別し,データ分布とモデル挙動の洞察を与える,深い特徴の能力を示した。 本研究は,高度なトレーニング技術による最先端の分類結果の向上と,皮膚鏡像とメラノーマ厚みの関係をよりよく理解するために,データとモデル挙動の詳細な解析を行う。

This study focuses on analyzing dermoscopy images to determine the depth of melanomas, which is a critical factor in diagnosing and treating skin cancer. The Breslow depth, measured from the top of the granular layer to the deepest point of tumor invasion, serves as a crucial parameter for staging melanoma and guiding treatment decisions. This research aims to improve the prediction of the depth of melanoma through the use of machine learning models, specifically deep learning, while also providing an analysis of the possible existance of graduation in the images characteristics which correlates with the depth of the melanomas. Various datasets, including ISIC and private collections, were used, comprising a total of 1162 images. The datasets were combined and balanced to ensure robust model training. The study utilized pre-trained Convolutional Neural Networks (CNNs). Results indicated that the models achieved significant improvements over previous methods. Additionally, the study conducted a correlation analysis between model's predictions and actual melanoma thickness, revealing a moderate correlation that improves with higher thickness values. Explainability methods such as feature visualization through Principal Component Analysis (PCA) demonstrated the capability of deep features to distinguish between different depths of melanoma, providing insight into the data distribution and model behavior. In summary, this research presents a dual contribution: enhancing the state-of-the-art classification results through advanced training techniques and offering a detailed analysis of the data and model behavior to better understand the relationship between dermoscopy images and melanoma thickness.
翻訳日:2024-06-21 20:03:05 公開日:2024-06-19
# Dual-Phase Accelerated Prompt Optimization

Dual-Phase Accelerated Prompt Optimization ( http://arxiv.org/abs/2406.13443v1 )

ライセンス: Link先を確認
Muchen Yang, Moxin Li, Yongle Li, Zijun Chen, Chongming Gao, Junqi Zhang, Yangyang Li, Fuli Feng, (参考訳) グラディエントフリーなプロンプト最適化手法は,幅広いタスクにまたがるクローズドソース大規模言語モデル(LLM)の性能向上に大きく貢献している。 しかし、既存の手法は、高品質な迅速な初期化の重要性と効率的な最適化方向の同定を考慮し、良好な性能を得るためのかなりの最適化ステップをもたらす。 本稿では,低収束率の課題に取り組むために,迅速な最適化プロセスの高速化を目指す。 本稿では,タスク固有の情報を探索するための優れたメタインストラクションを採用して,高品質な初期プロンプトの生成から始まる2相アプローチを提案し,文レベルでのプロンプトを反復的に最適化し,従来のチューニング経験を活用して,プロンプト候補を拡張し,有効なプロンプトを受理する。 8つのデータセットの大規模な実験により提案手法の有効性が示され、5段階未満の最適化ステップでベースラインよりも一貫した精度向上が達成された。

Gradient-free prompt optimization methods have made significant strides in enhancing the performance of closed-source Large Language Models (LLMs) across a wide range of tasks. However, existing approaches make light of the importance of high-quality prompt initialization and the identification of effective optimization directions, thus resulting in substantial optimization steps to obtain satisfactory performance. In this light, we aim to accelerate prompt optimization process to tackle the challenge of low convergence rate. We propose a dual-phase approach which starts with generating high-quality initial prompts by adopting a well-designed meta-instruction to delve into task-specific information, and iteratively optimize the prompts at the sentence level, leveraging previous tuning experience to expand prompt candidates and accept effective ones. Extensive experiments on eight datasets demonstrate the effectiveness of our proposed method, achieving a consistent accuracy gain over baselines with less than five optimization steps.
翻訳日:2024-06-21 20:03:05 公開日:2024-06-19
# VDebugger: ビジュアルプログラムのデバッグに実行時のフィードバックを損なう

VDebugger: Harnessing Execution Feedback for Debugging Visual Programs ( http://arxiv.org/abs/2406.13444v1 )

ライセンス: Link先を確認
Xueqing Wu, Zongyu Lin, Songyan Zhao, Te-Lin Wu, Pan Lu, Nanyun Peng, Kai-Wei Chang, (参考訳) ビジュアルプログラムは、視覚的推論問題に対処するために、大きな言語モデルによって生成された実行可能なコードである。 複雑な質問を複数の推論ステップに分解し、各ステップで特別なモデルを実行して問題を解決する。 しかし,これらのプログラムは論理エラーを起こしやすいため,予備評価の結果,総エラーの58%がプログラム論理エラーによるものであることが判明した。 複雑なビジュアルプログラムのデバッグは、視覚的推論の大きなボトルネックである。 VDebuggerは、視覚プログラムのローカライズとデバッグを段階的に行うことで、視覚プログラムのローカライズとデバッグを訓練した、新しい評論家/リファイナフレームワークである。 VDebuggerは、詳細な実行フィードバックを活用してプログラムエラーを特定し、修正する。 トレーニングデータは、新しいマスク-ベストデコーディング技術を用いて、エラーを正しい視覚プログラムに注入する自動パイプラインを通じて生成される。 6つのデータセットの評価は、VDebuggerの有効性を示し、ダウンストリームタスクの精度が最大3.2%向上したことを示している。 さらなる研究は、VDebuggerが未確認のタスクに一般化する能力を示し、未確認のCOVRタスクに対して2.3%の顕著な改善をもたらしたことを示している。 コード、データ、モデルはhttps://github.com/shirley-wu/vdebugger/で公開されている。

Visual programs are executable code generated by large language models to address visual reasoning problems. They decompose complex questions into multiple reasoning steps and invoke specialized models for each step to solve the problems. However, these programs are prone to logic errors, with our preliminary evaluation showing that 58% of the total errors are caused by program logic errors. Debugging complex visual programs remains a major bottleneck for visual reasoning. To address this, we introduce VDebugger, a novel critic-refiner framework trained to localize and debug visual programs by tracking execution step by step. VDebugger identifies and corrects program errors leveraging detailed execution feedback, improving interpretability and accuracy. The training data is generated through an automated pipeline that injects errors into correct visual programs using a novel mask-best decoding technique. Evaluations on six datasets demonstrate VDebugger's effectiveness, showing performance improvements of up to 3.2% in downstream task accuracy. Further studies show VDebugger's ability to generalize to unseen tasks, bringing a notable improvement of 2.3% on the unseen COVR task. Code, data and models are made publicly available at https://github.com/shirley-wu/vdebugger/
翻訳日:2024-06-21 20:03:05 公開日:2024-06-19
# UNetにおける損失:未承認局所特徴による赤外線小ターゲット検出の改善

Lost in UNet: Improving Infrared Small Target Detection by Underappreciated Local Features ( http://arxiv.org/abs/2406.13445v1 )

ライセンス: Link先を確認
Wuzhou Quan, Wei Zhao, Weiming Wang, Haoran Xie, Fu Lee Wang, Mingqiang Wei, (参考訳) 多くの標的は、遠距離画像メカニズムのため、赤外線画像において非常に小さいことが多い。 UNetとその変種は、一般的な検出バックボーンネットワークとして、これらのローカル特徴を早期にダウンサンプルし、これらのローカル特徴の不可逆的な損失を引き起こし、赤外線画像における小さなターゲットの欠落と誤検出の両方を引き起こす。 提案するHintUは、様々なUNet方式で失われた局所的特徴を復元し、効果的な赤外小目標検出を行うための新しいネットワークである。 HintUには2つの重要な貢献がある。 第一に、"Hint"メカニズムを初めて導入し、すなわち、ターゲット位置の事前の知識を活用して、重要なローカル特徴を強調する。 第二に、メインストリームのUNetベースのアーキテクチャを改善して、ダウンサンプリング後もターゲットピクセルを保存する。 HintUは、さまざまなネットワーク(例えば、バニラUNet、UNet++、UIUNet、MiM+、HCFNet)の焦点を、無関係な背景ピクセルから、最初からより制限のある領域にシフトすることができる。 NUDT-SIRST、SIRSTv2、IRSTD1Kの3つのデータセットの実験結果は、HintUが既存のメソッドのパフォーマンスを1.88ミリ秒(RTX Titan)で向上させることを示した。 さらに、HintUの明示的な制約は、UNetベースのメソッドの一般化能力を高める。 コードはhttps://github.com/Wuzhou-Quan/HintUで入手できる。

Many targets are often very small in infrared images due to the long-distance imaging meachnism. UNet and its variants, as popular detection backbone networks, downsample the local features early and cause the irreversible loss of these local features, leading to both the missed and false detection of small targets in infrared images. We propose HintU, a novel network to recover the local features lost by various UNet-based methods for effective infrared small target detection. HintU has two key contributions. First, it introduces the "Hint" mechanism for the first time, i.e., leveraging the prior knowledge of target locations to highlight critical local features. Second, it improves the mainstream UNet-based architecture to preserve target pixels even after downsampling. HintU can shift the focus of various networks (e.g., vanilla UNet, UNet++, UIUNet, MiM+, and HCFNet) from the irrelevant background pixels to a more restricted area from the beginning. Experimental results on three datasets NUDT-SIRST, SIRSTv2 and IRSTD1K demonstrate that HintU enhances the performance of existing methods with only an additional 1.88 ms cost (on RTX Titan). Additionally, the explicit constraints of HintU enhance the generalization ability of UNet-based methods. Code is available at https://github.com/Wuzhou-Quan/HintU.
翻訳日:2024-06-21 20:03:05 公開日:2024-06-19
# 高確率ミニマックス下界

High-probability minimax lower bounds ( http://arxiv.org/abs/2406.13447v1 )

ライセンス: Link先を確認
Tianyi Ma, Kabir A. Verchand, Richard J. Samworth, (参考訳) ミニマックスリスクはしばしば、特定の統計手順を比較するための金の標準と見なされる。 しかし、最近、頑丈で重み付けされた推定問題で観測されたように、(ランダム)損失の予想に対する固有の減少は、その尾の振る舞いに関する情報のかなりの損失を伴う可能性がある。 このような損失を避けるため、ミニマックス量子化の概念を導入し、その量子化レベルへの依存を明確にする。 この目的のために、古典的なル・カム法とファノ法の高確率変種を開発するとともに、局所的なミニマックスリスクの下限をミニマックス量子化上の下限に変換する手法を開発する。 フレームワークのパワーを説明するため,本手法をいくつかの例に展開し,ロバスト平均推定および確率凸最適化の最近の結果と,共分散行列推定,疎線形回帰,非パラメトリック密度推定,等調回帰の新たな結果を得た。 我々の全体的なゴールは、ミニマックス量子化は統計問題の難易度をより細かく理解し、より一般に、これらの量に対する低い境界は、ユーザフレンドリーなツールによって得ることができる、と論じることである。

The minimax risk is often considered as a gold standard against which we can compare specific statistical procedures. Nevertheless, as has been observed recently in robust and heavy-tailed estimation problems, the inherent reduction of the (random) loss to its expectation may entail a significant loss of information regarding its tail behaviour. In an attempt to avoid such a loss, we introduce the notion of a minimax quantile, and seek to articulate its dependence on the quantile level. To this end, we develop high-probability variants of the classical Le Cam and Fano methods, as well as a technique to convert local minimax risk lower bounds to lower bounds on minimax quantiles. To illustrate the power of our framework, we deploy our techniques on several examples, recovering recent results in robust mean estimation and stochastic convex optimisation, as well as obtaining several new results in covariance matrix estimation, sparse linear regression, nonparametric density estimation and isotonic regression. Our overall goal is to argue that minimax quantiles can provide a finer-grained understanding of the difficulty of statistical problems, and that, in wide generality, lower bounds on these quantities can be obtained via user-friendly tools.
翻訳日:2024-06-21 20:03:05 公開日:2024-06-19
# モデル共有なしで資源を制限したトランスフォーマー育成への取り組み

Federating to Grow Transformers with Constrained Resources without Model Sharing ( http://arxiv.org/abs/2406.13450v1 )

ライセンス: Link先を確認
Shikun Shen, Yifei Zou, Yuan Yuan, Yanwei Zheng, Peng Li, Xiuzhen Cheng, Dongxiao Yu, (参考訳) 大規模モデルの高リソース消費は、リソース制約のあるユーザがカスタマイズされたトランスフォーマーを開発することを妨げます。 本稿では,複数の参加者が事前学習した小型モデルからトランスフォーマーを協調的にスケールするためのFed-Growというフェデレーションフレームワークについて考察する。 Fed-Growの下では、Dual-LiGO (Dual Linear Growth Operator)アーキテクチャが、事前訓練された小さなモデルをトランスフォーマーに拡張するのに役立つように設計されている。 Dual-LiGOでは、Local-LiGO部は、各種事前学習モデルによる異質性問題に対処するために使用され、Global-LiGO部は、事前訓練されたモデル、ローカルデータ、および参加者のトレーニングプロセスから暗黙的な知識を交換するために共有される。 モデル共有ではなく、Global-LiGOを共有することで、私たちのアプローチのプライバシが強化されます。 シミュレーションにおけるいくつかの最先端手法と比較して,提案手法は精度が高く,精度が良く,計算や通信における資源消費量も少ない。 我々の知る限り、これまでのモデルスケーリングの作業のほとんどは中央集権的であり、我々の研究は、ローカルデータやモデルの観点から保護されたユーザのプライバシを持つ、複数の事前訓練された異種モデルからトランスフォーマーを協調的に成長させた最初のものなのです。 当社のアプローチは,トランスフォーマーを広範囲に分散したシナリオに拡張し,大規模トランスフォーマーによるボーナスを享受できるように,リソース制約の少ないユーザに促すことを期待する。

The high resource consumption of large-scale models discourages resource-constrained users from developing their customized transformers. To this end, this paper considers a federated framework named Fed-Grow for multiple participants to cooperatively scale a transformer from their pre-trained small models. Under the Fed-Grow, a Dual-LiGO (Dual Linear Growth Operator) architecture is designed to help participants expand their pre-trained small models to a transformer. In Dual-LiGO, the Local-LiGO part is used to address the heterogeneity problem caused by the various pre-trained models, and the Global-LiGO part is shared to exchange the implicit knowledge from the pre-trained models, local data, and training process of participants. Instead of model sharing, only sharing the Global-LiGO strengthens the privacy of our approach. Compared with several state-of-the-art methods in simulation, our approach has higher accuracy, better precision, and lower resource consumption on computations and communications. To the best of our knowledge, most of the previous model-scaling works are centralized, and our work is the first one that cooperatively grows a transformer from multiple pre-trained heterogeneous models with the user privacy protected in terms of local data and models. We hope that our approach can extend the transformers to the broadly distributed scenarios and encourage more resource-constrained users to enjoy the bonus taken by the large-scale transformers.
翻訳日:2024-06-21 20:03:05 公開日:2024-06-19
# 量子ネットワーク:マルチパーティ・エンタングルメントからハイパーグラフ・イマージョンへ

Quantum Networks: from Multipartite Entanglement to Hypergraph Immersion ( http://arxiv.org/abs/2406.13452v1 )

ライセンス: Link先を確認
Yu Tian, Yuefei Liu, Xiangyi Meng, (参考訳) 量子情報に特有の高次相互作用であるマルチパーティ・エンタングルメントは、量子ネットワーク(QN)アプリケーションにおいて、バイパート・エンタングルメントよりも様々な利点を提供する。 QNにおけるリモートパーティ間のマルチパーティの絡み合いを確立するには、既存の絡み合いリンクを犠牲にしてQNトポロジを不可逆的に変換する絡み合いルーティングが必要である。 ここでは,QNを絡み合うルーティングによって,位相的に別のQNに変換できるかどうかという問題に対処する。 我々の重要な結果は、マルチパーティ・エンタングルメント・ルーティングから、ハイパーグラフに拡張されたナッシュ・ウィリアムズのグラフ浸漬問題への正確なマッピングである。 この一般化されたハイパーグラフの浸漬問題はQNトポロジ間の部分順序を導入し、あるトポロジ変換を前もって他のトポロジ変換を許容し、QNにおける高階ネットワークトポロジの設計と操作に関する明確な洞察を提供する。

Multipartite entanglement, a higher-order interaction unique to quantum information, offers various advantages over bipartite entanglement in quantum network (QN) applications. Establishing multipartite entanglement across remote parties in QN requires entanglement routing, which irreversibly transforms the QN topology at the cost of existing entanglement links. Here, we address the question of whether a QN can be topologically transformed into another via entanglement routing. Our key result is an exact mapping from multipartite entanglement routing to Nash-Williams's graph immersion problem, extended to hypergraphs. This generalized hypergraph immersion problem introduces a partial order between QN topologies, permitting certain topological transformations while precluding others, offering discerning insights into the design and manipulation of higher-order network topologies in QNs.
翻訳日:2024-06-21 20:03:05 公開日:2024-06-19
# EvTexture: ビデオ超解像のためのイベント駆動型テクスチャ強化

EvTexture: Event-driven Texture Enhancement for Video Super-Resolution ( http://arxiv.org/abs/2406.13457v1 )

ライセンス: Link先を確認
Dachun Kai, Jiayao Lu, Yueyi Zhang, Xiaoyan Sun, (参考訳) イベントベースの視覚は、高時間分解能や高ダイナミックレンジなどの独特の特徴により、注目されている。 近年、ビデオ超解像(VSR)において、流れの推定と時間的アライメントを高めるために用いられている。 本稿では, 動作学習ではなく, イベント信号を用いてテクスチャ強調を行う最初のVSR手法を提案する。 我々の手法はEvTextureと呼ばれ、VSRのテクスチャ領域をよりよく復元するためにイベントの高周波詳細を利用する。 EvTextureでは、新しいテクスチャ拡張ブランチが提示されます。 さらに,テクスチャ復元のための高時間分解能イベント情報を段階的に探索する反復的テクスチャ拡張モジュールを導入する。 これにより、複数のイテレーションにわたるテクスチャ領域の段階的な洗練が可能になり、より正確でリッチな高解像度のディテールが得られる。 実験の結果,EvTextureは4つのデータセットで最先端のパフォーマンスを実現していることがわかった。 リッチなテクスチャを持つVid4データセットでは,最近のイベントベース手法と比較して最大4.67dBのゲインが得られる。 コード:https://github.com/DachunKai/EvTexture.com

Event-based vision has drawn increasing attention due to its unique characteristics, such as high temporal resolution and high dynamic range. It has been used in video super-resolution (VSR) recently to enhance the flow estimation and temporal alignment. Rather than for motion learning, we propose in this paper the first VSR method that utilizes event signals for texture enhancement. Our method, called EvTexture, leverages high-frequency details of events to better recover texture regions in VSR. In our EvTexture, a new texture enhancement branch is presented. We further introduce an iterative texture enhancement module to progressively explore the high-temporal-resolution event information for texture restoration. This allows for gradual refinement of texture regions across multiple iterations, leading to more accurate and rich high-resolution details. Experimental results show that our EvTexture achieves state-of-the-art performance on four datasets. For the Vid4 dataset with rich textures, our method can get up to 4.67dB gain compared with recent event-based methods. Code: https://github.com/DachunKai/EvTexture.
翻訳日:2024-06-21 20:03:05 公開日:2024-06-19
# エンコーダ対デコーダ:多言語NLUタスクにおけるエンコーダとデコーダ言語モデルの比較分析

Encoder vs Decoder: Comparative Analysis of Encoder and Decoder Language Models on Multilingual NLU Tasks ( http://arxiv.org/abs/2406.13469v1 )

ライセンス: Link先を確認
Dan Saattrup Nielsen, Kenneth Enevoldsen, Peter Schneider-Kamp, (参考訳) 本稿では,多言語自然言語理解(NLU)タスクにおけるエンコーダとデコーダ言語モデルの性能について考察する。 当初エンコーダモデルの評価に制限されていたScandEvalベンチマークに基づいて、評価フレームワークを拡張してデコーダモデルを含める。 NLUタスク上でデコーダモデルを評価する手法を導入し,デンマーク語,スウェーデン語,ノルウェー語,アイスランド語,フェロー語,ドイツ語,オランダ語,英語の言語に適用する。 実験と分析を通じて,エンコーダとデコーダモデルの比較性能,NLUタスクタイプの影響,言語リソース間の差異など,重要な研究課題に対処する。 この結果から,デコーダモデルでは,異なるタスクや言語間でニュアンスを観測することで,エンコーダモデルよりもはるかに優れたNLU性能が得られることがわかった。 さらに,デコーダとタスク性能の相関性について,UMAP解析を用いて検討し,デコーダとエンコーダモデルのユニークな機能に光を当てる。 本研究は,NLUタスクにおける言語モデルパラダイムのより深い理解に寄与し,多言語環境におけるモデル選択と評価に有用な知見を提供する。

This paper explores the performance of encoder and decoder language models on multilingual Natural Language Understanding (NLU) tasks, with a broad focus on Germanic languages. Building upon the ScandEval benchmark, which initially was restricted to evaluating encoder models, we extend the evaluation framework to include decoder models. We introduce a method for evaluating decoder models on NLU tasks and apply it to the languages Danish, Swedish, Norwegian, Icelandic, Faroese, German, Dutch, and English. Through a series of experiments and analyses, we address key research questions regarding the comparative performance of encoder and decoder models, the impact of NLU task types, and the variation across language resources. Our findings reveal that decoder models can achieve significantly better NLU performance than encoder models, with nuances observed across different tasks and languages. Additionally, we investigate the correlation between decoders and task performance via a UMAP analysis, shedding light on the unique capabilities of decoder and encoder models. This study contributes to a deeper understanding of language model paradigms in NLU tasks and provides valuable insights for model selection and evaluation in multilingual settings.
翻訳日:2024-06-21 19:53:21 公開日:2024-06-19
# 雪のシーン, クリーア検出: 逆気象環境における交通光検出のためのロバストモデル

Snowy Scenes,Clear Detections: A Robust Model for Traffic Light Detection in Adverse Weather Conditions ( http://arxiv.org/abs/2406.13473v1 )

ライセンス: Link先を確認
Shivank Garg, Abhishek Baghel, Amit Agarwal, Durga Toshniwal, (参考訳) 自動運転車と高度運転支援システム(ADAS)の台頭により、すべての気象条件における信頼性の高い物体検出が安全と効率に不可欠である。 雪、雨、霧といった逆の天候は、現在の検知システムに大きな課題をもたらし、しばしば失敗と潜在的な安全リスクをもたらす。 本稿では、このような条件下での物体検出を改善するために設計された新しいフレームワークとパイプラインを紹介し、悪天候によるドメインシフトによって従来の手法がしばしば失敗する交通信号検出に焦点をあてる。 既存の手法の限界を包括的に分析する。 提案するパイプラインは,雪,雨,霧の検知精度を著しく向上させる。 その結果、平均IoUとF1のスコアは、素早い微調整に比べて40.8%改善し、人工雪のトレーニングや雨画像のテストなどのドメインシフトシナリオでは22.4%向上した。

With the rise of autonomous vehicles and advanced driver-assistance systems (ADAS), ensuring reliable object detection in all weather conditions is crucial for safety and efficiency. Adverse weather like snow, rain, and fog presents major challenges for current detection systems, often resulting in failures and potential safety risks. This paper introduces a novel framework and pipeline designed to improve object detection under such conditions, focusing on traffic signal detection where traditional methods often fail due to domain shifts caused by adverse weather. We provide a comprehensive analysis of the limitations of existing techniques. Our proposed pipeline significantly enhances detection accuracy in snow, rain, and fog. Results show a 40.8% improvement in average IoU and F1 scores compared to naive fine-tuning and a 22.4% performance increase in domain shift scenarios, such as training on artificial snow and testing on rain images.
翻訳日:2024-06-21 19:53:21 公開日:2024-06-19
# バックプロパゲーションを伴わない注意型後学習量子化

Attention-aware Post-training Quantization without Backpropagation ( http://arxiv.org/abs/2406.13474v1 )

ライセンス: Link先を確認
Junhan Kim, Ho-young Kim, Eulrang Cho, Chungman Lee, Joonyoung Kim, Yongkweon Jeon, (参考訳) 量子化は、リソース制約のあるデバイスに大規模言語モデル(LLM)をデプロイするための有望なソリューションである。 しかし、既存の量子化アプローチは、ポストトレーニング量子化(PTQ)や量子化認識訓練(QAT)によらず、勾配に基づく最適化に依存している。 このオーバーヘッドは、最近提案されたバックプロパゲーションフリーのPTQメソッドによって軽減することができるが、層間依存関係の考慮が欠如しているため、その性能は若干制限されている。 本論文では,バックプロパゲーションに頼らずに層間依存関係を考慮した新しいPTQアルゴリズムを提案する。 基本的な概念は注意を意識したヘッセン行列の開発であり、注意モジュール内の層間依存関係の考慮を容易にする。 大規模な実験により,提案アルゴリズムは従来のPTQ法,特に低ビット幅において著しく優れていた。

Quantization is a promising solution for deploying large-scale language models (LLMs) on resource-constrained devices. Existing quantization approaches, however, rely on gradient-based optimization, regardless of it being post-training quantization (PTQ) or quantization-aware training (QAT), which becomes problematic for hyper-scale LLMs with billions of parameters. This overhead can be alleviated via recently proposed backpropagation-free PTQ methods; however, their performance is somewhat limited by their lack of consideration of inter-layer dependencies. In this paper, we thus propose a novel PTQ algorithm that considers inter-layer dependencies without relying on backpropagation. The fundamental concept involved is the development of attention-aware Hessian matrices, which facilitates the consideration of inter-layer dependencies within the attention module. Extensive experiments demonstrate that the proposed algorithm significantly outperforms conventional PTQ methods, particularly for low bit-widths.
翻訳日:2024-06-21 19:53:21 公開日:2024-06-19
# LLMはゼロショットコンテクスト対応同時翻訳機である

LLMs Are Zero-Shot Context-Aware Simultaneous Translators ( http://arxiv.org/abs/2406.13476v1 )

ライセンス: Link先を確認
Roman Koshkin, Katsuhito Sudoh, Satoshi Nakamura, (参考訳) トランスフォーマーの出現は機械翻訳の進歩を加速させた。 より最近の大きな言語モデル(LLM)は、翻訳を含む幅広い言語タスクにおいて、その汎用性と強力なパフォーマンスのおかげで注目を浴びている。 ここでは、オープンソースのLLMが、同時機械翻訳(SiMT)タスクにおける最先端のベースラインと同等以上のパフォーマンスを示す。 また,LLMでは容易な最小背景情報の注入は,特に技術的課題において,さらなる性能向上をもたらすことを示す。 これは、資源集約的なトレーニングや微調整を必要としない、多言語、文脈認識、用語的に正確なSiMTシステムを次世代に構築するLLMの可能性を浮き彫りにしている。

The advent of transformers has fueled progress in machine translation. More recently large language models (LLMs) have come to the spotlight thanks to their generality and strong performance in a wide range of language tasks, including translation. Here we show that open-source LLMs perform on par with or better than some state-of-the-art baselines in simultaneous machine translation (SiMT) tasks, zero-shot. We also demonstrate that injection of minimal background information, which is easy with an LLM, brings further performance gains, especially on challenging technical subject-matter. This highlights LLMs' potential for building next generation of massively multilingual, context-aware and terminologically accurate SiMT systems that require no resource-intensive training or fine-tuning.
翻訳日:2024-06-21 19:53:21 公開日:2024-06-19
# 低加速度における原子スペクトルの強い非慣性放射シフト

Strong Noninertial Radiative Shifts in Atomic Spectra at Low Accelerations ( http://arxiv.org/abs/2406.13481v1 )

ライセンス: Link先を確認
Navdeep Arya, D. Jaffino Stargen, Kinjalk Lochan, Sandeep K. Goyal, (参考訳) 様々な環境で加速検出器の様々な特性を調査する多くの提案にもかかわらず、アンルー効果の検出は、達成可能な加速における典型的に弱い信号のために難しいままである。 自由空間で加速される周波数ギャップ$\omega_0$の原子の場合、遷移速度や放射エネルギーシフトのような大きな加速による特性の変化は、$\omega_0 c$の加速度を必要とする。 本稿では, 監視対象のシステム特性の司法的選択によって, フィールド状態の密度が好適に変化した場合について述べる。 筒内における無質量量子スカラー場に結合した慣性及び一様加速原子の放射エネルギー準位シフトについて検討した。 一様加速された原子は慣性真空中で熱相関を経験し、放射シフトはそれに応じて応答することが期待される。 本研究では, エネルギーシフトに対する非慣性寄与を, 筒内空洞内におけるフィールドモードの密度を適切に調整することにより, 慣性寄与に対して分離し, 著しく高めることができることを示す。 さらに、放射エネルギーシフトのモニタリングは、遷移速度と比較して、より強い純粋非慣性信号の受信を可能にすることを実証する。 キャビティの半径が$R$で、相対精度が$\delta R/R_{0} \sim 10^{-7}$であれば、実験可能な小さな加速(a \sim 10^{-9} \omega_{0} c$)で50倍のエネルギーシフトが得られる。 慣性原子の放射シフトが既に高精度に測定されていることを考えると、放射エネルギー準位シフトは現在の技術でウンルー熱度を検出するための有望な観測可能であると論じる。

Despite numerous proposals investigating various properties of accelerated detectors in different settings, detecting the Unruh effect remains challenging due to the typically weak signal at achievable accelerations. For an atom with frequency gap $\omega_0$, accelerated in free space, significant acceleration-induced modification of properties like transition rates and radiative energy shifts requires accelerations of the order of $\omega_0 c$. In this paper, we make the case for a suitably modified density of field states to be complemented by a judicious selection of the system property to be monitored. We study the radiative energy-level shift in inertial and uniformly accelerated atoms coupled to a massless quantum scalar field inside a cylindrical cavity. Uniformly accelerated atoms experience thermal correlations in the inertial vacuum, and the radiative shifts are expected to respond accordingly. We show that the noninertial contribution to the energy shift can be isolated and significantly enhanced relative to the inertial contribution by suitably modifying the density of field modes inside a cylindrical cavity. Moreover, we demonstrate that monitoring the radiative energy shift, as compared to transition rates, allows us to reap a stronger purely-noninertial signal. We find that a purely-noninertial radiative shift as large as 50 times the inertial energy shift can be obtained at small, experimentally achievable accelerations ($ a \sim 10^{-9} \omega_{0} c$) if the cavity's radius $R$ is specified with a relative precision of $\delta R/R_{0} \sim 10^{-7}$. Given that radiative shifts for inertial atoms have already been measured with high accuracy, we argue that the radiative energy-level shift is a promising observable for detecting Unruh thermality with current technology.
翻訳日:2024-06-21 19:53:21 公開日:2024-06-19
# 未知分布をもつ長期投資における平均変動ポートフォリオ選択:オンライン推定、曖昧性に基づくリスク回避、アルゴリズムの普遍性

Mean-Variance Portfolio Selection in Long-Term Investments with Unknown Distribution: Online Estimation, Risk Aversion under Ambiguity, and Universality of Algorithms ( http://arxiv.org/abs/2406.13486v1 )

ライセンス: Link先を確認
Duy Khanh Lam, (参考訳) 平均変数ポートフォリオを構築するための標準的なアプローチでは、収集されたサンプルを使用してモデルのパラメータを推定する。 しかし、将来のデータの分布はトレーニングセットと似ていないため、推定ポートフォリオのアウト・オブ・サンプルのパフォーマンスは真のパラメータで導かれたものよりも悪いため、より良い見積もりのためにいくつかの革新がもたらされている。 本稿では, 時間的側面のないデータを扱う代わりに, 時間とともにデータを徐々に, 連続的に明らかにする視点を採用する。 元のモデルは,任意の統計的仮定から解放されたオンライン学習フレームワークに再キャストされ,経験的有用性,シャープ比,成長率を漸近的に達成するような逐次的ポートフォリオの動的戦略を提案する。 将来のデータの分布が正常な場合、リスク回避のキャリブレーションにより、効率的なフロンティアに沿ってポートフォリオを持ち上げることにより、富の成長率が向上することを示す。 リスク回避は適切に決められないため、時間とともにこの係数を更新する別のアルゴリズムは、真の係数に付随する最適な経験的シャープ比または成長速度に近づくダイナミック戦略を形成する。 これらの戦略の性能は、特定の確率的市場において普遍的に保証されている。 さらに、静止市場やエルゴード市場においては、投資中の過去の市場情報に基づくいわゆるベイズ戦略は、実証的効用、シャープ比、成長率の観点からは、条件分布に依存しないような提案された戦略よりも、ほぼ確実には機能しない。

The standard approach for constructing a Mean-Variance portfolio involves estimating parameters for the model using collected samples. However, since the distribution of future data may not resemble that of the training set, the out-of-sample performance of the estimated portfolio is worse than one derived with true parameters, which has prompted several innovations for better estimation. Instead of treating the data without a timing aspect as in the common training-backtest approach, this paper adopts a perspective where data gradually and continuously reveal over time. The original model is recast into an online learning framework, which is free from any statistical assumptions, to propose a dynamic strategy of sequential portfolios such that its empirical utility, Sharpe ratio, and growth rate asymptotically achieve those of the true portfolio, derived with perfect knowledge of the future data. When the distribution of future data has a normal shape, the growth rate of wealth is shown to increase by lifting the portfolio along the efficient frontier through the calibration of risk aversion. Since risk aversion cannot be appropriately predetermined, another proposed algorithm updating this coefficient over time forms a dynamic strategy approaching the optimal empirical Sharpe ratio or growth rate associated with the true coefficient. The performance of these proposed strategies is universally guaranteed under specific stochastic markets. Furthermore, in stationary and ergodic markets, the so-called Bayesian strategy utilizing true conditional distributions, based on observed past market information during investment, almost surely does not perform better than the proposed strategies in terms of empirical utility, Sharpe ratio, or growth rate, which, in contrast, do not rely on conditional distributions.
翻訳日:2024-06-21 19:53:21 公開日:2024-06-19
# ガウス乱ファジィ数に基づく明らかな時間-時間予測モデル

An evidential time-to-event prediction model based on Gaussian random fuzzy numbers ( http://arxiv.org/abs/2406.13487v1 )

ライセンス: Link先を確認
Ling Huang, Yucheng Xing, Thierry Denoeux, Mengling Feng, (参考訳) 検閲データを用いた時間-時間予測のための明らかなモデルを提案する。 このモデルでは、事象時間の不確実性は、ガウス確率分布とガウス確率分布の両方を一般化し、関連する信念関数を持つ実線のランダムファジィ部分集合であるガウス確率ファジィ数によって定量化される。 我々の手法は、基礎となる時間-時間分布について最小限の仮定を行う。 このモデルは、正規データと検閲データの両方を考慮に入れた一般化された負のログ様関数を最小化することで適合する。 2つの実世界のデータセットの比較実験は、最先端のモデルと比較して、我々のモデルの非常に優れた性能を示している。

We introduce an evidential model for time-to-event prediction with censored data. In this model, uncertainty on event time is quantified by Gaussian random fuzzy numbers, a newly introduced family of random fuzzy subsets of the real line with associated belief functions, generalizing both Gaussian random variables and Gaussian possibility distributions. Our approach makes minimal assumptions about the underlying time-to-event distribution. The model is fit by minimizing a generalized negative log-likelihood function that accounts for both normal and censored data. Comparative experiments on two real-world datasets demonstrate the very good performance of our model as compared to the state-of-the-art.
翻訳日:2024-06-21 19:53:21 公開日:2024-06-19
# ほぼ同変のニューラルプロセス

Approximately Equivariant Neural Processes ( http://arxiv.org/abs/2406.13488v1 )

ライセンス: Link先を確認
Matthew Ashman, Cristiana Diaconu, Adrian Weller, Wessel Bruinsma, Richard E. Turner, (参考訳) 等価なディープラーニングアーキテクチャは、学習問題の対称性を利用して、ニューラルネットワークベースのモデルのサンプル効率と一般化する能力を改善する。 しかし、実世界のデータをモデル化する場合、学習問題は必ずしも同変ではなく、概ね同変であることが多い。 例えば、気象観測所の観測から地球温度場を推定する際、山岳地帯の地形的特徴は、山間部翻訳の等式である。 これらのシナリオでは、データ駆動方式で、正確に同値から柔軟に逸脱できるアーキテクチャを構築することが望ましい。 本稿では、既存の同変アーキテクチャを用いて、これを実現するための一般的なアプローチを開発する。 我々のアプローチは対称性群とモデルアーキテクチャの選択に非依存であり、広く適用できる。 我々は、メタラーニングモデルの一般的なファミリーであるニューラルプロセス(NP)におけるほぼ同変アーキテクチャの利用を検討する。 提案手法が多くの合成および実世界の回帰実験において有効であることを示し、ほぼ同変NPモデルがそれらの非同変NPモデルと厳密に同変NPモデルの両方より優れていることを示した。

Equivariant deep learning architectures exploit symmetries in learning problems to improve the sample efficiency of neural-network-based models and their ability to generalise. However, when modelling real-world data, learning problems are often not exactly equivariant, but only approximately. For example, when estimating the global temperature field from weather station observations, local topographical features like mountains break translation equivariance. In these scenarios, it is desirable to construct architectures that can flexibly depart from exact equivariance in a data-driven way. In this paper, we develop a general approach to achieving this using existing equivariant architectures. Our approach is agnostic to both the choice of symmetry group and model architecture, making it widely applicable. We consider the use of approximately equivariant architectures in neural processes (NPs), a popular family of meta-learning models. We demonstrate the effectiveness of our approach on a number of synthetic and real-world regression experiments, demonstrating that approximately equivariant NP models can outperform both their non-equivariant and strictly equivariant counterparts.
翻訳日:2024-06-21 19:53:21 公開日:2024-06-19
# ロバストアグリゲーションにおけるベースレート無視の意外なメリット

The Surprising Benefits of Base Rate Neglect in Robust Aggregation ( http://arxiv.org/abs/2406.13490v1 )

ライセンス: Link先を確認
Yuqing Kong, Shu Wang, Ying Wang, (参考訳) ロバストアグリゲーションは、専門家の情報構造を知らない複数の専門家の予測を統合する。 以前の研究では、専門家はベイジアンであると仮定し、その信号に基づいて完全な後部座席として予測する。 しかし、現実世界の専門家は、しばしばベイズ的推論から体系的に逸脱する。 私たちの仕事は、基準レートを無視する傾向のある専門家を考慮に入れています。 ある程度のベースレートの無視は、堅牢な予測アグリゲーションに役立ちます。 具体的には,2人の専門家による予測集約問題について考察する。 以前の作業とは異なり、ベースレートの無視を示す専門家をモデル化し、ベースレート情報を$\lambda\in[0,1]$に組み込んで、$\lambda=0$が完全な無知を示し、$\lambda=1$が完全ベイズ更新であることを示す。 アグリゲータのパフォーマンスを評価するために,Arieli et al (2018) の最悪の後悔モデルを採用する。 我々の結果は、$\lambda$の関数として、後悔の驚くべきV字形を明らかにします。 つまり、ベースレートが$\lambda<1$の中間値の予測は、$\lambda=1$の完全なベイズの後続値よりも、反故意に低い後悔につながる可能性がある。 また、未知の$\lambda$に対して、後悔の少ない新しいアグリゲータを提案する。 最後に,ベースレートの無視モデルを検証し,各種アグリゲータの性能を評価するための実験的検討を行った。

Robust aggregation integrates predictions from multiple experts without knowledge of the experts' information structures. Prior work assumes experts are Bayesian, providing predictions as perfect posteriors based on their signals. However, real-world experts often deviate systematically from Bayesian reasoning. Our work considers experts who tend to ignore the base rate. We find that a certain degree of base rate neglect helps with robust forecast aggregation. Specifically, we consider a forecast aggregation problem with two experts who each predict a binary world state after observing private signals. Unlike previous work, we model experts exhibiting base rate neglect, where they incorporate the base rate information to degree $\lambda\in[0,1]$, with $\lambda=0$ indicating complete ignorance and $\lambda=1$ perfect Bayesian updating. To evaluate aggregators' performance, we adopt Arieli et al. (2018)'s worst-case regret model, which measures the maximum regret across the set of considered information structures compared to an omniscient benchmark. Our results reveal the surprising V-shape of regret as a function of $\lambda$. That is, predictions with an intermediate incorporating degree of base rate $\lambda<1$ can counter-intuitively lead to lower regret than perfect Bayesian posteriors with $\lambda=1$. We additionally propose a new aggregator with low regret robust to unknown $\lambda$. Finally, we conduct an empirical study to test the base rate neglect model and evaluate the performance of various aggregators.
翻訳日:2024-06-21 19:53:21 公開日:2024-06-19
# バイパルタイト境界の絡み合い

Bipartite Bound Entanglement ( http://arxiv.org/abs/2406.13491v1 )

ライセンス: Link先を確認
Beatrix C Hiesmayr, Christopher Popp, Tobias C. Sutter, (参考訳) 境界エンタングルメントは、蒸留には使用できない特別な量子エンタングルメントの形式であり、すなわち、任意のエンタングルド状態のコピーを、ほぼ最大エンタングルド状態のより小さな数に局所的に変換する。 量子資源の本質的な不可逆性を示唆するこの現象は、現在の絡み合いの理論におけるギャップを浮き彫りにする。 本総説では,二部構造境界絡みに関する重要な知見について概説する。 我々は、多くの量子情報処理タスクに高い関連性を持つ有限次元のシステムに焦点をあてる。 量子情報理論と量子情報処理の様々な側面と結合する有界絡みの性質を解明する。 この論文は、有界な絡み合った状態の理解、特にその検出と特徴がまだ完全には開発されていない領域を照らすものである。 本稿は、この現象についてさらなる研究の必要性を強調し、関連するオープンな疑問を裏付けることによって、自然界における絡み合いの理解と、このリソースが量子テクノロジーの応用にどのように効果的に利用できるかを明らかにすることを目的としている。

Bound entanglement is a special form of quantum entanglement that cannot be used for distillation, i.e., the local transformation of copies of arbitrarily entangled states into a smaller number of approximately maximally entangled states. Implying an inherent irreversibility of quantum resources, this phenomenon highlights the gaps in our current theory of entanglement. This review provides a comprehensive exploration of the key findings on bipartite bound entanglement. We focus on systems of finite dimensions, an area of high relevance for many quantum information processing tasks. We elucidate the properties of bound entanglement and its interconnections with various facets of quantum information theory and quantum information processing. The article illuminates areas where our understanding of bound entangled states, particularly their detection and characterization, is yet to be fully developed. By highlighting the need for further research into this phenomenon and underscoring relevant open questions, this article invites researchers to unravel its relevance for our understanding of entanglement in Nature and how this resource can most effectively be used for applications in quantum technology.
翻訳日:2024-06-21 19:53:21 公開日:2024-06-19
# 量子ルータの多重化戦略

Multipartite multiplexing strategies for quantum routers ( http://arxiv.org/abs/2406.13492v1 )

ライセンス: Link先を確認
Julia A. Kunzelmann, Hermann Kampermann, Dagmar Bruß, (参考訳) 本研究は,通信ネットワークにおける量子ルータの重要な役割について検討し,メモリと多重化戦略を用いた効率の向上について検討する。 Abruzzo et al (2013) が量子リピータの有限範囲多重化のために導入したバイパルタイト構成により、我々はこの研究をルータを中心局とするN-パルタイトネットワークに拡張する。 提案手法は,異なるNのルータレートを計算し,多重化による改善を解析し,秘密鍵レートを三部ネットワークの明示的な結果で解析する。 GHZ測定の戦略的キュービット選択を調べたところ、一定回数のラウンド後にキュービットを除去するためにカットオフを用いることで、最小数のストレージラウンドと連続的にキュービットを結合させることで、最適な秘密鍵レートが得られることがわかった。

This work explores the important role of quantum routers in communication networks and investigates the increase in efficiency using memories and multiplexing strategies. Motivated by the bipartite setup introduced by Abruzzo et al. (2013) for finite-range multiplexing in quantum repeaters, we extend the study to an N-partite network with a router as a central station. We present a general protocol for N parties after defining the underlying matching problem and we calculate the router rate for different N. We analyze the improvement due to multiplexing, and analyze the secret key rate with explicit results for the tripartite network. Investigating strategic qubit selection for the GHZ measurements, we show that using cutoffs to remove qubits after a certain number of rounds and consistently combining qubits with the lowest number of storage rounds leads to an optimal secret key rate.
翻訳日:2024-06-21 19:53:21 公開日:2024-06-19
# 変圧器ニューラルプロセスを用いたインコンテキストインコンテキスト学習

In-Context In-Context Learning with Transformer Neural Processes ( http://arxiv.org/abs/2406.13493v1 )

ライセンス: Link先を確認
Matthew Ashman, Cristiana Diaconu, Adrian Weller, Richard E. Turner, (参考訳) ニューラル・プロセス(NP)は、メタ・データセットの各データセットがサンプリングされる基底構造確率過程の後方予測マップを近似しようとするメタ・ラーニング・モデルの強力なファミリーである。 実践者が興味のあるデータセットにアクセスする以外に、類似点を共有する他のデータセットにもアクセスできるケースが多数ある。 この場合、これらのデータセットをNPに統合することで予測を改善することができる。 この機能をNPに装備し、このパラダイムをコンテキスト内学習として記述する。 畳み込み条件NP(ConvCNP)やトランスフォーマーニューラルプロセス(TNP)といった標準NPアーキテクチャは、単一のデータセットでのみ条件を指定できるため、コンテキスト内学習ができない。 In-context in-context learning pseudo-token TNP (ICICL-TNP)を開発した。 ICICL-TNPはPT-TNPのファミリの上に構築されており、これは擬似トークンベースのトランスフォーマーアーキテクチャを利用して、通常のトランスフォーマーアーキテクチャに関連する2次計算複雑性をサイドステップする。 ICICL-TNPは、データセットの集合とデータセットの集合の両方を条件付けし、コンテキスト内での学習を可能にする。 複数の実験において,文脈内学習の重要性とICICL-TNPの有効性を実証した。

Neural processes (NPs) are a powerful family of meta-learning models that seek to approximate the posterior predictive map of the ground-truth stochastic process from which each dataset in a meta-dataset is sampled. There are many cases in which practitioners, besides having access to the dataset of interest, may also have access to other datasets that share similarities with it. In this case, integrating these datasets into the NP can improve predictions. We equip NPs with this functionality and describe this paradigm as in-context in-context learning. Standard NP architectures, such as the convolutional conditional NP (ConvCNP) or the family of transformer neural processes (TNPs), are not capable of in-context in-context learning, as they are only able to condition on a single dataset. We address this shortcoming by developing the in-context in-context learning pseudo-token TNP (ICICL-TNP). The ICICL-TNP builds on the family of PT-TNPs, which utilise pseudo-token-based transformer architectures to sidestep the quadratic computational complexity associated with regular transformer architectures. Importantly, the ICICL-TNP is capable of conditioning on both sets of datapoints and sets of datasets, enabling it to perform in-context in-context learning. We demonstrate the importance of in-context in-context learning and the effectiveness of the ICICL-TNP in a number of experiments.
翻訳日:2024-06-21 19:53:21 公開日:2024-06-19
# 制約自由意志下における量子ステアリング

Quantum steering under constrained free-will ( http://arxiv.org/abs/2406.13494v1 )

ライセンス: Link先を確認
Abhishek Sadhu, Siddhartha Das, (参考訳) 量子ステアリング(quantum steering)は、あるパーティの測定が別のパーティの状態を遠隔で変化させるような二部量子相関の一種である。 逆のシナリオでは、当事者の計測設定の選択にバイアスをもたらす隠れ変数が存在する可能性がある。 しかし、隠れた変数にアクセスできないオブザーバは、このバイアスに気づいていない。 この研究の主な焦点は、当事者が自由に測定設定を選択することを前提に、量子ステアリングを分析することである。 そこで我々は,相手が選択した測定設定が相手に偏りがある,測定依存(MD-)ステアリングのシナリオを紹介した。 このようなシナリオでは、MD-ステアブル相関のテストに不等式のクラスを提示する。 さらに、量子極端挙動からランダム性を証明する上で、そのような不等式に違反することの意味についても論じる。 また, MD-steerable と MD-insteerable の混合物としてアセンブラを調製し, MD-steerable と MD-insteerable を混合したアセンブラを調製する。

Quantum steering is a kind of bipartite quantum correlations where one party's measurement remotely alters the state of another party. In an adversarial scenario, there could be a hidden variable introducing a bias in the choice of measurement settings of the parties. However, observers without access to the hidden variable are unaware of this bias. The main focus of this work is to analyze quantum steering without assuming that the parties freely choose their measurement settings. For this, we introduce the measurement-dependent (MD-)steering scenario where the measurement settings chosen by the parties are biased by an adversary. In such a scenario, we present a class of inequalities to test for MD-steerable correlations. Further, we discuss the implications of violating such inequalities in certifying randomness from quantum extremal behaviors. We also assume that an adversary might prepare an assemblage as a mixture of MD-steerable and MD-unsteerable assemblages and provide a bound on the measurement dependence for the observed correlation to remain MD-steerable.
翻訳日:2024-06-21 19:53:21 公開日:2024-06-19
# DF40:次世代ディープフェイク検出に向けて

DF40: Toward Next-Generation Deepfake Detection ( http://arxiv.org/abs/2406.13495v1 )

ライセンス: Link先を確認
Zhiyuan Yan, Taiping Yao, Shen Chen, Yandan Zhao, Xinghe Fu, Junwei Zhu, Donghao Luo, Li Yuan, Chengjie Wang, Shouhong Ding, Yunsheng Wu, (参考訳) 我々は,現在のディープフェイク検出分野を次世代に革命させるため,新しい総合ベンチマークを提案する。 既存の研究は、ある特定のデータセット(例えば、FF++)上の検出器をトレーニングし、他の一般的なディープフェイクデータセットでそれらをテストすることで、トップノッチ検出アルゴリズムとモデルを識別する。 このプロトコルは、しばしばSoTA検出器をナビゲートするための「金のコンパス」と見なされる。 しかし、これらの「勝者」は現実の世界に潜む無数の現実的で多様なディープフェイクに取り組むために真に応用できるのだろうか? もしそうでなければ、このギャップにどんな要因が寄与するのか? 本研究では,(1)偽造多様性:ディープフェイク技術は顔偽造(顔の洗面と顔の再現)と全画像合成(AIGC)の両方で一般的に呼ばれる。 既存のデータセットのほとんどは部分的な型のみを含み、限定されたフォージェリメソッドが実装されている。 (2) フォージェリリアリズム: 支配的なトレーニングデータセットであるFF++は、過去5年間の古いフォージェリテクニックを含んでいる。 これらの偽造品の「ホットスキル」は、現在のSoTAディープフェイクの有効検出の保証を困難にしている。(3)評価プロトコル:ほとんどの検出作業は、フェイススワッピングのみの1タイプ、例えばトレーニングとテストを行い、ユニバーサルディープフェイク検出器の開発を妨げている。 このジレンマに対処するため,40種類の異なるディープフェイク技術からなるDF40という,高度に多様な大規模ディープフェイクデータセットを構築した。 次に,4つの標準評価プロトコルと7つの代表検出器を用いて総合評価を行い,2000以上の評価を行った。 これらの評価を通じて、様々な観点から分析し、この分野に寄与する新たな洞察力のある12の発見につながった。 また、これまで未調査だった5つの研究質問を公開して、今後の研究に刺激を与えています。

We propose a new comprehensive benchmark to revolutionize the current deepfake detection field to the next generation. Predominantly, existing works identify top-notch detection algorithms and models by adhering to the common practice: training detectors on one specific dataset (e.g., FF++) and testing them on other prevalent deepfake datasets. This protocol is often regarded as a "golden compass" for navigating SoTA detectors. But can these stand-out "winners" be truly applied to tackle the myriad of realistic and diverse deepfakes lurking in the real world? If not, what underlying factors contribute to this gap? In this work, we found the dataset (both train and test) can be the "primary culprit" due to: (1) forgery diversity: Deepfake techniques are commonly referred to as both face forgery (face-swapping and face-reenactment) and entire image synthesis (AIGC). Most existing datasets only contain partial types, with limited forgery methods implemented; (2) forgery realism: The dominant training dataset, FF++, contains old forgery techniques from the past five years. "Honing skills" on these forgeries makes it difficult to guarantee effective detection of nowadays' SoTA deepfakes; (3) evaluation protocol: Most detection works perform evaluations on one type, e.g., train and test on face-swapping only, which hinders the development of universal deepfake detectors. To address this dilemma, we construct a highly diverse and large-scale deepfake dataset called DF40, which comprises 40 distinct deepfake techniques. We then conduct comprehensive evaluations using 4 standard evaluation protocols and 7 representative detectors, resulting in over 2,000 evaluations. Through these evaluations, we analyze from various perspectives, leading to 12 new insightful findings contributing to the field. We also open up 5 valuable yet previously underexplored research questions to inspire future works.
翻訳日:2024-06-21 19:53:21 公開日:2024-06-19
# 意味的強調Few-shotオブジェクト検出

Semantic Enhanced Few-shot Object Detection ( http://arxiv.org/abs/2406.13498v1 )

ライセンス: Link先を確認
Zheng Wang, Yingjie Gao, Qingjie Liu, Yunhong Wang, (参考訳) 注釈付きインスタンスに制限のある新規なオブジェクトを検出することを目的としているFSOD(Few-shot Object Detection)は,近年大きく進歩している。 しかし、既存の手法は依然としてバイアスのある表現に悩まされている。 微調整の間、新しいクラスは類似の基底クラスからの知識を利用して独自の特徴分布を構築し、分類の混乱と性能劣化を引き起こす。 これらの課題に対処するために,セマンティック埋め込みを利用してより優れた検出を行う,微調整ベースのFSODフレームワークを提案する。 提案手法では,視覚特徴をクラス名埋め込みに整合させ,線形分類器を意味的類似性分類器に置き換える。 我々の手法は、各領域の提案に対して、対応するクラス埋め込みに収束するように訓練する。 さらに,視覚言語コミュニケーションを強化するためのマルチモーダル機能融合を導入し,新しいクラスがよく訓練された類似のベースクラスから明示的にサポートを引き出せるようにした。 クラス混同を防止するため,類似クラスに限らず適応的にマージン損失を付与するセマンティック・アウェア・マックスマージン損失を提案する。 その結果,各新規クラスは,類似の基底クラスと混同されることなく,コンパクトな特徴空間を構築できることがわかった。 パスカルVOCおよびMS COCOの広範囲な実験により,本法の有用性が示された。

Few-shot object detection~(FSOD), which aims to detect novel objects with limited annotated instances, has made significant progress in recent years. However, existing methods still suffer from biased representations, especially for novel classes in extremely low-shot scenarios. During fine-tuning, a novel class may exploit knowledge from similar base classes to construct its own feature distribution, leading to classification confusion and performance degradation. To address these challenges, we propose a fine-tuning based FSOD framework that utilizes semantic embeddings for better detection. In our proposed method, we align the visual features with class name embeddings and replace the linear classifier with our semantic similarity classifier. Our method trains each region proposal to converge to the corresponding class embedding. Furthermore, we introduce a multimodal feature fusion to augment the vision-language communication, enabling a novel class to draw support explicitly from well-trained similar base classes. To prevent class confusion, we propose a semantic-aware max-margin loss, which adaptively applies a margin beyond similar classes. As a result, our method allows each novel class to construct a compact feature space without being confused with similar base classes. Extensive experiments on Pascal VOC and MS COCO demonstrate the superiority of our method.
翻訳日:2024-06-21 19:53:21 公開日:2024-06-19
# GraphMU: 機械学習によるグラフニューラルネットワークのロバスト性修復

GraphMU: Repairing Robustness of Graph Neural Networks via Machine Unlearning ( http://arxiv.org/abs/2406.13499v1 )

ライセンス: Link先を確認
Tao Wu, Xinwen Cao, Chao Wang, Shaojie Qiao, Xingping Xian, Lin Yuan, Canyixing Cui, Yanbing Liu, (参考訳) グラフニューラルネットワーク(GNN)は、様々な分野で大きな応用可能性を示している。 しかし、GNNは依然として敵の攻撃に弱い。 GNNにおける多くの敵防衛手法が,敵攻撃の問題に対処するために提案されている。 しかし、これらの方法は毒を盛る前に防御としてしか機能しないが、毒を盛ったGNNの修復はできない。 したがって, 中毒性GNNの修復法が緊急に必要である。 本稿では,GNNのモデル修復という新しい概念を導入することで,このギャップを解消する。 我々は,グラフニューラルネットワークのロバストネスをマシン・アンラーニング(GraphMU)によって修復する修復フレームワークを提案する。 また,本手法が特定の有毒データを効果的に忘れないように,未学習の検証手法も導入する。 GraphMUの有効性を評価するため、利用可能な摂動情報に基づく3つの微調整サブグラフ構築シナリオを探索する。 (i)摂動率として知られる (二)摂動の完全な知識を知ること、及び 三 摂動の知識を知らないこと。 4つの引用データセットと4つの敵攻撃シナリオにまたがる広範囲な実験により、GraphMUが有毒なGNNの性能を効果的に回復できることが実証された。

Graph Neural Networks (GNNs) have demonstrated significant application potential in various fields. However, GNNs are still vulnerable to adversarial attacks. Numerous adversarial defense methods on GNNs are proposed to address the problem of adversarial attacks. However, these methods can only serve as a defense before poisoning, but cannot repair poisoned GNN. Therefore, there is an urgent need for a method to repair poisoned GNN. In this paper, we address this gap by introducing the novel concept of model repair for GNNs. We propose a repair framework, Repairing Robustness of Graph Neural Networks via Machine Unlearning (GraphMU), which aims to fine-tune poisoned GNN to forget adversarial samples without the need for complete retraining. We also introduce a unlearning validation method to ensure that our approach effectively forget specified poisoned data. To evaluate the effectiveness of GraphMU, we explore three fine-tuned subgraph construction scenarios based on the available perturbation information: (i) Known Perturbation Ratios, (ii) Known Complete Knowledge of Perturbations, and (iii) Unknown any Knowledge of Perturbations. Our extensive experiments, conducted across four citation datasets and four adversarial attack scenarios, demonstrate that GraphMU can effectively restore the performance of poisoned GNN.
翻訳日:2024-06-21 19:43:36 公開日:2024-06-19
# ManWav:最初のManchu ASRモデル

ManWav: The First Manchu ASR Model ( http://arxiv.org/abs/2406.13502v1 )

ライセンス: Link先を確認
Jean Seo, Minha Kang, Sungjoo Byun, Sangah Lee, (参考訳) 本研究は,高資源言語と低資源言語の間の自動音声認識(ASR)研究において,特に危惧言語である満洲に焦点をあてる。 満州は、最先端技術にアクセスする際の言語コミュニティの限界が直面する課題を実証している。 先駆的な取り組みとして、Wav2Vec2-XLSR-53を活用して、最初のManchu ASRモデルManWavを紹介する。 最初の満州ASRの結果は、特に我々の拡張現実データでトレーニングされた場合、有望である。 Wav2Vec2-XLSR-53の強化データによる微調整は、オリジナルのデータで微調整された同じベースモデルと比較して、CERの0.02滴、WERの0.13滴の微調整を示している。

This study addresses the widening gap in Automatic Speech Recognition (ASR) research between high resource and extremely low resource languages, with a particular focus on Manchu, a critically endangered language. Manchu exemplifies the challenges faced by marginalized linguistic communities in accessing state-of-the-art technologies. In a pioneering effort, we introduce the first-ever Manchu ASR model ManWav, leveraging Wav2Vec2-XLSR-53. The results of the first Manchu ASR is promising, especially when trained with our augmented data. Wav2Vec2-XLSR-53 fine-tuned with augmented data demonstrates a 0.02 drop in CER and 0.13 drop in WER compared to the same base model fine-tuned with original data.
翻訳日:2024-06-21 19:43:36 公開日:2024-06-19
# 一般計量および非計量構造のスケーラブルな非教師なしアライメント

Scalable unsupervised alignment of general metric and non-metric structures ( http://arxiv.org/abs/2406.13507v1 )

ライセンス: Link先を確認
Sanketh Vedula, Valentino Maiorca, Lorenzo Basile, Francesco Locatello, Alex Bronstein, (参考訳) 異なるドメインからのデータのアライメントは、非常に異なる領域にわたる幅広いアプリケーションを持つ機械学習において、基本的な問題である。 数学的には、この問題は距離のような対量の不一致の最小化として定式化することができ、グロモフ=ハウスドルフとグロモフ=ワッサーシュタイン距離に関係している。 計算学的には、NPハードであることが知られている二次代入問題(QAP)である。 以前の研究は、列列のエントロピーやローランクの正規化でQAPを直接解こうとしたが、これはわずかにサイズの入力に対してのみ計算的に抽出可能であり、整列しているドメインに関連する限られた帰納バイアスのみをエンコードする。 離散Gromov-Wasserstein問題として定式化された計量構造のアライメントを考察し、QAPを直接解く代わりに、QAPの最小値である解である関連するよく計算可能な線形代入問題(LAP)を学ぶことを提案する。 また、このフレームワークを、微分可能なランクによる一般的な非メトリックな相違点に柔軟に拡張することを示す。 単一セルマルチオミクスとニューラル潜在空間からの合成および実データセットに対する我々のアプローチを広範に評価し、概念的かつ計算学的に単純でありながら最先端の性能を達成する。

Aligning data from different domains is a fundamental problem in machine learning with broad applications across very different areas, most notably aligning experimental readouts in single-cell multiomics. Mathematically, this problem can be formulated as the minimization of disagreement of pair-wise quantities such as distances and is related to the Gromov-Hausdorff and Gromov-Wasserstein distances. Computationally, it is a quadratic assignment problem (QAP) that is known to be NP-hard. Prior works attempted to solve the QAP directly with entropic or low-rank regularization on the permutation, which is computationally tractable only for modestly-sized inputs, and encode only limited inductive bias related to the domains being aligned. We consider the alignment of metric structures formulated as a discrete Gromov-Wasserstein problem and instead of solving the QAP directly, we propose to learn a related well-scalable linear assignment problem (LAP) whose solution is also a minimizer of the QAP. We also show a flexible extension of the proposed framework to general non-metric dissimilarities through differentiable ranks. We extensively evaluate our approach on synthetic and real datasets from single-cell multiomics and neural latent spaces, achieving state-of-the-art performance while being conceptually and computationally simple.
翻訳日:2024-06-21 19:43:36 公開日:2024-06-19
# 構造化環境と強く結合したオープン量子系の温度管理

Managing Temperature in Open Quantum Systems Strongly Coupled with Structured Environments ( http://arxiv.org/abs/2406.13512v1 )

ライセンス: Link先を確認
Brieuc Le Dé, Amine Jaouadi, Etienne Mangaud, Alex W. Chin, Michèle Desouter-Lecomte, (参考訳) 非摂動的非マルコフ開量子系では、階層的な運動方程式(HEOM)で低温に達するか、ヒルベルト空間における直交多項式(T-TEDOPA)による熱化された時間進化密度作用素で高温に達する。 環境をモデル化する様々な方法を比較します。 温度依存性スペクトル密度とも呼ばれる風呂相関関数のフーリエ変換のサンプリングは非常に有効であることが証明された。 T-TEDOPA (Tamascelli et al Phys)。 レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・ 123, 090402 (2019) は正および負の周波数を持つ発振器の線形鎖を使用し、HEOM は温度依存スペクトル密度 (Xu et al Phys) の最適化された合理的分解の複素極に基づいている。 レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・ 129, 230601(2022年)。 温度依存性のスペクトル密度とボース関数の極を別々に置き換えることは、低温でのボース極の大量発生による問題が回避される場合の代替手段である。 2つの例はHEOMとT-TEDOPAのアプローチの有効性を示している。 フェニレンエチニレン二量体のアブイニトロデータからキャリブレーションした線形ビブロニックモデルにおいて, 連続スペクトル密度または分子内振動子のみを用いて, T-TEDOPAの有限温度での力学シミュレーションの効率を示す。

In non-perturbative non-Markovian open quantum systems, reaching either low temperatures with the hierarchical equations of motion (HEOM) or high temperatures with the Thermalized Time Evolving Density Operator with Orthogonal Polynomials (T-TEDOPA) formalism in Hilbert space remains challenging. We compare different manners of modeling the environment. Sampling the Fourier transform of the bath correlation function, also called temperature dependent spectral density, proves to be very effective. T-TEDOPA (Tamascelli et al. Phys. Rev. Lett. 123, 090402 (2019)) uses a linear chain of oscillators with positive and negative frequencies while HEOM is based on the complex poles of an optimized rational decomposition of the temperature dependent spectral density (Xu et al. Phys. Rev. Lett. 129, 230601 (2022)). Resorting to the poles of the temperature independent spectral density and of the Bose function separately is an alternative when the problem due to the huge number of the Bose poles at low temperature is circumvented. Two examples illustrate the effectiveness of the HEOM and T-TEDOPA approaches: a benchmark pure dephasing case and a two-bath model simulating dynamics of excited electronic states coupled through a conical intersection. We show the efficiency of T-TEDOPA to simulate dynamics at a finite temperature by using either continuous spectral densities or only all the intramolecular oscillators of a linear vibronic model calibrated from ab initio data of a phenylene ethynylene dimer.
翻訳日:2024-06-21 19:43:36 公開日:2024-06-19
# ローカルな秩序のないネットワーク

Locally orderless networks ( http://arxiv.org/abs/2406.13514v1 )

ライセンス: Link先を確認
Jon Sporring, Peidi Xu, Jiahao Lu, François Lauze, Sune Darkner, (参考訳) 本稿では、局所秩序のないネットワーク(LON)とその理論基盤として、畳み込みニューラルネットワーク(CNN)、スケール空間ヒストグラム、測定理論について述べる。 鍵となる要素は、バイアスの正規サンプリングと活性化関数の微分である。 原型単層ネットワーク上でのLON,CNN,スケール空間ヒストグラムを比較した。 LON と CNN が相互にエミュレートし、LON が計算可能な関数の集合を Squaring などの非線形関数に拡張する方法を示す。 我々は,CNN上のLONの性能向上を示す単純なネットワークを,勾配の2乗を推定し,形状面積と周長を回帰し,その結果に対する個々の画素の影響を説明する。

We present Locally Orderless Networks (LON) and its theoretic foundation which links it to Convolutional Neural Networks (CNN), to Scale-space histograms, and measurement theory. The key elements are a regular sampling of the bias and the derivative of the activation function. We compare LON, CNN, and Scale-space histograms on prototypical single-layer networks. We show how LON and CNN can emulate each other, how LON expands the set of functionals computable to non-linear functions such as squaring. We demonstrate simple networks which illustrate the improved performance of LON over CNN on simple tasks for estimating the gradient magnitude squared, for regressing shape area and perimeter lengths, and for explainability of individual pixels' influence on the result.
翻訳日:2024-06-21 19:43:36 公開日:2024-06-19
# MVSBoost: 効率的なポイントクラウドベースの3D再構成

MVSBoost: An Efficient Point Cloud-based 3D Reconstruction ( http://arxiv.org/abs/2406.13515v1 )

ライセンス: Link先を確認
Umair Haroon, Ahmad AlMughrabi, Ricardo Marques, Petia Radeva, (参考訳) 拡張現実や仮想現実、医用画像、映画特殊効果など、様々な応用において、効率的で正確な3D再構成が不可欠である。 従来のMulti-View Stereo(MVS)システムはこれらのアプリケーションでは基本的だが、暗黙の3次元シーンモデリングでニューラルな暗黙の場を使用することで、複雑なトポロジや連続した表面を扱う新たな可能性が導入されている。 しかし、ニューラルな暗黙のフィールドは、しばしば計算の非効率さ、過度な適合、データ品質への強い依存に悩まされ、その実用性は制限される。 本稿では、マルチビュー360度画像と、Structure from Motion (SfM)によるロバストカメラポーズ推定と、点雲の密度化、メッシュ再構成、テクスチャ化のための高度な画像処理を統合したMVSフレームワークを提案する。 提案手法は従来の MVS 手法を大幅に改善し,リアルタイム合成360 データセット上での Chamfer 距離測定を用いて,精度と精度が向上した。 開発したMVS技術は、3次元再構成の細部と明度を高め、複雑なシーン再構成において優れた計算効率とロバスト性を示し、オクルージョンと様々な視点を効果的に扱う。 これらの改善は、MVSフレームワークが、特にリアルタイム処理とスケーラビリティを必要とするシナリオにおいて、現在の最先端のニューラル暗黙のフィールドメソッドと競合し、さらに超える可能性があることを示唆している。

Efficient and accurate 3D reconstruction is crucial for various applications, including augmented and virtual reality, medical imaging, and cinematic special effects. While traditional Multi-View Stereo (MVS) systems have been fundamental in these applications, using neural implicit fields in implicit 3D scene modeling has introduced new possibilities for handling complex topologies and continuous surfaces. However, neural implicit fields often suffer from computational inefficiencies, overfitting, and heavy reliance on data quality, limiting their practical use. This paper presents an enhanced MVS framework that integrates multi-view 360-degree imagery with robust camera pose estimation via Structure from Motion (SfM) and advanced image processing for point cloud densification, mesh reconstruction, and texturing. Our approach significantly improves upon traditional MVS methods, offering superior accuracy and precision as validated using Chamfer distance metrics on the Realistic Synthetic 360 dataset. The developed MVS technique enhances the detail and clarity of 3D reconstructions and demonstrates superior computational efficiency and robustness in complex scene reconstruction, effectively handling occlusions and varying viewpoints. These improvements suggest that our MVS framework can compete with and potentially exceed current state-of-the-art neural implicit field methods, especially in scenarios requiring real-time processing and scalability.
翻訳日:2024-06-21 19:43:36 公開日:2024-06-19
# 単一粒子および多粒子量子特性を用いた非ハーモニティの量子化

Quantifying non-Hermiticity using single- and many-particle quantum properties ( http://arxiv.org/abs/2406.13517v1 )

ライセンス: Link先を確認
Soumik Bandyopadhyay, Philipp Hauke, Sudipto Singha Roy, (参考訳) 量子系の非エルミート的パラダイムは、エルミート的パラダイムとは大きく異なる有能な特徴を示す。 本研究では,H_{\mathrm{nh}}$(右アンサンブル)とHermitian conjugate,$H_{\mathrm{nh}}^{\dagger}$(左アンサンブル)の量子アンサンブルの進化の差に着目した。 単体および多粒子量子特性に対して、これらの左右のアンサンブルの(dis-)相似性を定量化する形式論を提案する。 このような比較によって、非ハーモニティがハミルトンから物理的に観測可能な性質に変換される範囲を測定することができる。 まず、不完全ベル状態の集合を用いて非エルミート的ハミルトニアンを構成し、ハミルトニアンの非ハーモニティがオブザーバブルのレベルで非ハーモニティに自動的に従わないことを示す。 第二に、量子多体ハミルトニアンとして非対称ホッピングを用いた相互作用する波多野-ネルソンモデルについて検討する。 興味深いことに、ハミルトニアン、シングル粒子、および多粒子量子特性に対して非ハーモニティの測度が互いに独立に振る舞う状況を特定する。 したがって、非ハーミティティーの異なる概念は、異なる物理的シナリオで有用となる。 さらに,提案手法はモデルがParity-Time(PT)対称性を破る遷移を示すことを示す。 我々の発見は、非エルミート量子多体系の新しいエキゾチック量子相の公表や、量子技術のための資源豊富な状態の準備に役立てることができる。

The non-Hermitian paradigm of quantum systems displays salient features drastically different from Hermitian counterparts. In this work, we focus on one such aspect, the difference of evolving quantum ensembles under $H_{\mathrm{nh}}$ (right ensemble) versus its Hermitian conjugate, $H_{\mathrm{nh}}^{\dagger}$ (left ensemble). We propose a formalism that quantifies the (dis-)similarity of these right and left ensembles, for single- as well as many-particle quantum properties. Such a comparison gives us a scope to measure the extent to which non-Hermiticity gets translated from the Hamiltonian into physically observable properties. We test the formalism in two cases: First, we construct a non-Hermitian Hamiltonian using a set of imperfect Bell states, showing that the non-Hermiticity of the Hamiltonian does not automatically comply with the non-Hermiticity at the level of observables. Second, we study the interacting Hatano--Nelson model with asymmetric hopping as a paradigmatic quantum many-body Hamiltonian. Interestingly, we identify situations where the measures of non-Hermiticity computed for the Hamiltonian, for single-, and for many-particle quantum properties behave distinctly from each other. Thus, different notions of non-Hermiticity can become useful in different physical scenarios. Furthermore, we demonstrate that the measures can mark the model's Parity--Time (PT) symmetry-breaking transition. Our findings can be instrumental in unveiling new exotic quantum phases of non-Hermitian quantum many-body systems as well as in preparing resourceful states for quantum technologies.
翻訳日:2024-06-21 19:43:36 公開日:2024-06-19
# 4K4DGen:4K解像度でパノラマ4D生成

4K4DGen: Panoramic 4D Generation at 4K Resolution ( http://arxiv.org/abs/2406.13527v1 )

ライセンス: Link先を確認
Renjie Li, Panwang Pan, Bangbang Yang, Dejia Xu, Shijie Zhou, Xuanyang Zhang, Zeming Li, Achuta Kadambi, Zhangyang Wang, Zhiwen Fan, (参考訳) 仮想現実と拡張現実(VR/AR)技術の興隆により、高品質で没入的でダイナミックな環境の構築に対する需要が高まっている。 しかし、既存の生成技術は、動的オブジェクトのみにフォーカスするか、単一の視点の画像からアウトパインティングを行うかのいずれかであり、VR/ARアプリケーションのニーズを満たしていない。 本研究では,単一パノラマを没入型4D体験に高めるという課題に取り組む。 初めて、4K解像度で360度視野を持つ全方位動的シーンを生成する能力を示し、没入感のあるユーザエクスペリエンスを提供する。 提案手法では,実時間探索のための効率的なスプレイティング手法を用いて,自然シーンのアニメーションを容易にし,4次元ガウスの集合を最適化するパイプラインを提案する。 シーンスケールのアノテートされた4Dデータやモデル,特にパノラマ形式でのパノラマデノイザの欠如を克服するために,360度画像に一貫したアニメーション化に先立って汎用的な2D拡散を適用するパノラマデノイザを提案する。 その後,空間的・時間的整合性を維持しつつ,パノラマ映像を4次元没入環境に高める。 パノラマ領域の2次元モデルからパノラマ領域への事前知識の伝達と空間的外観と幾何正則化による4次元リフトによる4次元リフトの実現により,パノラマから4次元への高品質な生成を初めて達成した(4096$\times$2048)。 プロジェクトのWebサイトはhttps://4k4dgen.github.ioにある。

The blooming of virtual reality and augmented reality (VR/AR) technologies has driven an increasing demand for the creation of high-quality, immersive, and dynamic environments. However, existing generative techniques either focus solely on dynamic objects or perform outpainting from a single perspective image, failing to meet the needs of VR/AR applications. In this work, we tackle the challenging task of elevating a single panorama to an immersive 4D experience. For the first time, we demonstrate the capability to generate omnidirectional dynamic scenes with 360-degree views at 4K resolution, thereby providing an immersive user experience. Our method introduces a pipeline that facilitates natural scene animations and optimizes a set of 4D Gaussians using efficient splatting techniques for real-time exploration. To overcome the lack of scene-scale annotated 4D data and models, especially in panoramic formats, we propose a novel Panoramic Denoiser that adapts generic 2D diffusion priors to animate consistently in 360-degree images, transforming them into panoramic videos with dynamic scenes at targeted regions. Subsequently, we elevate the panoramic video into a 4D immersive environment while preserving spatial and temporal consistency. By transferring prior knowledge from 2D models in the perspective domain to the panoramic domain and the 4D lifting with spatial appearance and geometry regularization, we achieve high-quality Panorama-to-4D generation at a resolution of (4096 $\times$ 2048) for the first time. See the project website at https://4k4dgen.github.io.
翻訳日:2024-06-21 19:43:36 公開日:2024-06-19
# SALI: 大腸内視鏡的ポリプセグメンテーションのための短期的アライメントと長期的インタラクションネットワーク

SALI: Short-term Alignment and Long-term Interaction Network for Colonoscopy Video Polyp Segmentation ( http://arxiv.org/abs/2406.13532v1 )

ライセンス: Link先を確認
Qiang Hu, Zhenyu Yi, Ying Zhou, Fang Peng, Mei Liu, Qiang Li, Zhiwei Wang, (参考訳) 大腸内視鏡ビデオは直腸癌診断のためのポリープセグメンテーションにおいてより豊かな情報を提供する。 しかし、内視鏡の高速移動とクローズアップ観測により、現在の手法は大きな空間的不整合と連続的な低品質フレームに悩まされ、分割精度が制限される。 この文脈では、隣接する特徴の一貫性を高め、信頼性の高いポリプ表現を再構築することにより、ロバストなビデオポリプセグメンテーションに焦点を当てる。 そこで本研究では,短期調整モジュール (SAM) と長期インタラクションモジュール (LIM) のハイブリッドであるSALIネットワークを提案する。 SAMは、変形可能な畳み込みによって隣接するフレームの空間的整列性を学び、さらに調和してより安定した短期ポリプ表現をキャプチャする。 低品質のフレームの場合、LIMは過去のポリプ表現を長期記憶バンクとして保存し、現在のセグメンテーションのためにより信頼性の高いポリプ機能をインタラクティブに再構築するためのレトロスペクティブ関係を探る。 SAMとLIMを組み合わせることで、ビデオセグメンテーションのSALIネットワークは、空間的変動と低視覚的手がかりに対して大きな堅牢性を示す。 大規模なSUNSEGのベンチマークでは、4つのテストサブセットに対して、Diceを2.1%、2.5%、4.1%、および1.9%改善することで、SALIが現在の最先端よりも優れていることが検証されている。 コードはhttps://github.com/Scatteredrain/SALIにある。

Colonoscopy videos provide richer information in polyp segmentation for rectal cancer diagnosis. However, the endoscope's fast moving and close-up observing make the current methods suffer from large spatial incoherence and continuous low-quality frames, and thus yield limited segmentation accuracy. In this context, we focus on robust video polyp segmentation by enhancing the adjacent feature consistency and rebuilding the reliable polyp representation. To achieve this goal, we in this paper propose SALI network, a hybrid of Short-term Alignment Module (SAM) and Long-term Interaction Module (LIM). The SAM learns spatial-aligned features of adjacent frames via deformable convolution and further harmonizes them to capture more stable short-term polyp representation. In case of low-quality frames, the LIM stores the historical polyp representations as a long-term memory bank, and explores the retrospective relations to interactively rebuild more reliable polyp features for the current segmentation. Combing SAM and LIM, the SALI network of video segmentation shows a great robustness to the spatial variations and low-visual cues. Benchmark on the large-scale SUNSEG verifies the superiority of SALI over the current state-of-the-arts by improving Dice by 2.1%, 2.5%, 4.1% and 1.9%, for the four test sub-sets, respectively. Codes are at https://github.com/Scatteredrain/SALI.
翻訳日:2024-06-21 19:43:36 公開日:2024-06-19
# DRACO: 継続的Row-Stochasticネットワーク行列による分散非同期フェデレーション学習

DRACO: Decentralized Asynchronous Federated Learning over Continuous Row-Stochastic Network Matrices ( http://arxiv.org/abs/2406.13533v1 )

ライセンス: Link先を確認
Eunjeong Jeong, Marios Kountouris, (参考訳) スマートモノのインターネット(IoT)やエッジAIといった最近の発展と新たなユースケースは、完全に分散された(サーバーレス)ネットワーク上でのニューラルネットワークのトレーニングに大きな関心を喚起している。 分散学習の大きな課題の1つは、データ分散やポリシーの更新に関して各エージェントに適用される強い仮定に頼ることなく、安定した収束を確保することである。 これらの問題に対処するために,DRACOを提案する。DRACOは,連続的な通信を活用することで,行確率ゴシップ無線ネットワーク上での非同期確率勾配Descent(SGD)を分散化する新しい手法である。 本手法により、分散ネットワーク内のエッジデバイスが、連続したタイムラインに沿って局所的なトレーニングやモデル交換を行うことができ、同期タイミングの必要性を排除できる。 このアルゴリズムはまた、通信と計算スケジュールを分離する特定の技術を備えており、すべてのユーザに対して完全な自律性と、ストラグラーに対する管理可能な命令を付与する。 総合的な収束分析を通じて、分散最適化における非同期および自律的参加の利点を強調した。 我々の数値実験は提案手法の有効性を裏付けるものである。

Recent developments and emerging use cases, such as smart Internet of Things (IoT) and Edge AI, have sparked considerable interest in the training of neural networks over fully decentralized (serverless) networks. One of the major challenges of decentralized learning is to ensure stable convergence without resorting to strong assumptions applied for each agent regarding data distributions or updating policies. To address these issues, we propose DRACO, a novel method for decentralized asynchronous Stochastic Gradient Descent (SGD) over row-stochastic gossip wireless networks by leveraging continuous communication. Our approach enables edge devices within decentralized networks to perform local training and model exchanging along a continuous timeline, thereby eliminating the necessity for synchronized timing. The algorithm also features a specific technique of decoupling communication and computation schedules, which empowers complete autonomy for all users and manageable instructions for stragglers. Through a comprehensive convergence analysis, we highlight the advantages of asynchronous and autonomous participation in decentralized optimization. Our numerical experiments corroborate the efficacy of the proposed technique.
翻訳日:2024-06-21 19:43:36 公開日:2024-06-19
# 病理組織学における安全なデータ共有のための画像蒸留

Image Distillation for Safe Data Sharing in Histopathology ( http://arxiv.org/abs/2406.13536v1 )

ライセンス: Link先を確認
Zhe Li, Bernhard Kainz, (参考訳) 病理組織学は、臨床医が正確な診断を行い、疾患の予後を判断し、適切な治療戦略を立案するのに役立つ。 深層学習技術が医療分野で成功していることが証明されるにつれ、主な課題はデータ可用性の制限とデータ共有とプライバシに関する懸念である。 フェデレートラーニングは、モデルをローカルにトレーニングし、サーバー上のパラメータを更新することで、この問題に対処している。 しかし、ドメインシフトやバイアスといった問題は持続し、全体的なパフォーマンスに影響を与える。 データセットの蒸留は、これらの課題を克服するための別のアプローチを示す。 それは、制約なしに共有できる必須情報をカプセル化する小さな合成データセットを作成することを含む。 現在, このパラダイムは, 非可読性表現のみを生成し, 下流学習タスクでは不十分な性能を示すため, 実行不可能である。 我々は,潜在拡散モデルを訓練し,少数の可読性合成画像を用いた新しい蒸留合成データセットを構築した。 最大情報合成画像の選択は、表現空間のグラフコミュニティ解析によって行われる。 合成蒸留データに基づいて訓練された下流分類モデルと実データで訓練されたモデルとを比較検討し,実用化に適した性能を得た。

Histopathology can help clinicians make accurate diagnoses, determine disease prognosis, and plan appropriate treatment strategies. As deep learning techniques prove successful in the medical domain, the primary challenges become limited data availability and concerns about data sharing and privacy. Federated learning has addressed this challenge by training models locally and updating parameters on a server. However, issues, such as domain shift and bias, persist and impact overall performance. Dataset distillation presents an alternative approach to overcoming these challenges. It involves creating a small synthetic dataset that encapsulates essential information, which can be shared without constraints. At present, this paradigm is not practicable as current distillation approaches only generate non human readable representations and exhibit insufficient performance for downstream learning tasks. We train a latent diffusion model and construct a new distilled synthetic dataset with a small number of human readable synthetic images. Selection of maximally informative synthetic images is done via graph community analysis of the representation space. We compare downstream classification models trained on our synthetic distillation data to models trained on real data and reach performances suitable for practical application.
翻訳日:2024-06-21 19:43:36 公開日:2024-06-19
# 実行フィードバックによるセルフプレイ:大規模言語モデルの指示追従能力の向上

Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models ( http://arxiv.org/abs/2406.13542v1 )

ライセンス: Link先を確認
Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, Jingren Zhou, (参考訳) 大規模言語モデル(LLM)のコア機能のひとつは、自然言語命令に従うことだ。 しかし、手動のアノテーションを使わずにLLMの複雑な命令追従能力を高めるために、高品質なトレーニングデータを自動的に構築するという問題は未解決のままである。 本稿では,命令追従学習データを自動的に生成する最初のスケーラブルで信頼性の高い手法であるAutoIFを紹介する。 AutoIFは命令追従データ品質の検証をコード検証に変換し、命令を生成するためにLCM、命令応答の正しさをチェックするための対応するコード、コードの正しさを検証するための単体テストサンプルを生成する。 そして、実行フィードバックに基づく拒否サンプリングにより、監視された微調整(SFT)と人間フィードバック(RLHF)トレーニングからの強化学習のためのデータを生成することができる。 AutoIFは、SFT、オフラインDPO、オンラインDPOの3つのトレーニングアルゴリズムにおいて、自己調整と強弱蒸留設定において、トップオープンソースLLM、Qwen2、LLaMA3に適用することで、大幅な改善を実現している。 私たちのコードはhttps://github.com/QwenLM/AutoIF.comで公開されています。

One core capability of large language models (LLMs) is to follow natural language instructions. However, the issue of automatically constructing high-quality training data to enhance the complex instruction-following abilities of LLMs without manual annotation remains unresolved. In this paper, we introduce AutoIF, the first scalable and reliable method for automatically generating instruction-following training data. AutoIF transforms the validation of instruction-following data quality into code verification, requiring LLMs to generate instructions, the corresponding code to check the correctness of the instruction responses, and unit test samples to verify the code's correctness. Then, execution feedback-based rejection sampling can generate data for Supervised Fine-Tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF) training. AutoIF achieves significant improvements across three training algorithms, SFT, Offline DPO, and Online DPO, when applied to the top open-source LLMs, Qwen2 and LLaMA3, in self-alignment and strong-to-weak distillation settings. Our code is publicly available at https://github.com/QwenLM/AutoIF.
翻訳日:2024-06-21 19:43:36 公開日:2024-06-19
# IoTのためのサイバー脅威インテリジェンスを目指して

Towards Cyber Threat Intelligence for the IoT ( http://arxiv.org/abs/2406.13543v1 )

ライセンス: Link先を確認
Alfonso Iacovazzi, Han Wang, Ismail Butun, Shahid Raza, (参考訳) デジタル化の進展と重要な分野での活用には、組織の脅威軽減戦略におけるサイバー脅威の発生と評価に関する情報を含める必要がある。 このサイバー脅威インテリジェンス(CTI、サイバー脅威インテリジェンス)は、国家や産業のインフラにとってますます重要、あるいは必要となってきている。 現在のCTIソリューションは、低消費電力IoTデバイスからの脅威情報の共有には適していない。 本稿では,今日利用可能なCTIフレームワークとCTI交換プラットフォームに関する分類と分析について述べる。 カスタマイズされたIoT環境に焦点を当てた、MISPのThreat Intelligence Sharing Platformに依存する、新たなCTIアーキテクチャを提案する。 また、新しい軽量エンコーディングと暗号化ソリューションを使用して、低消費電力のIoTデバイス向けに最適化された、CTIデータモデリングで採用されている最も顕著な標準の1つであるSTIX(smallSTIX)のカスタマイズ版も導入している。 提案されたCTIアーキテクチャは、IoTネットワーク、特に厳しい、敵対的な環境で働くものを保護する上で、非常に有益である。

With the proliferation of digitization and its usage in critical sectors, it is necessary to include information about the occurrence and assessment of cyber threats in an organization's threat mitigation strategy. This Cyber Threat Intelligence (CTI) is becoming increasingly important, or rather necessary, for critical national and industrial infrastructures. Current CTI solutions are rather federated and unsuitable for sharing threat information from low-power IoT devices. This paper presents a taxonomy and analysis of the CTI frameworks and CTI exchange platforms available today. It proposes a new CTI architecture relying on the MISP Threat Intelligence Sharing Platform customized and focusing on IoT environment. The paper also introduces a tailored version of STIX (which we call tinySTIX), one of the most prominent standards adopted for CTI data modeling, optimized for low-power IoT devices using the new lightweight encoding and cryptography solutions. The proposed CTI architecture will be very beneficial for securing IoT networks, especially the ones working in harsh and adversarial environments.
翻訳日:2024-06-21 19:43:36 公開日:2024-06-19
# グラフニューラルネットワークを学習して、さまざまな属性を学習する

One Fits All: Learning Fair Graph Neural Networks for Various Sensitive Attributes ( http://arxiv.org/abs/2406.13544v1 )

ライセンス: Link先を確認
Yuchang Zhu, Jintang Li, Yatao Bian, Zibin Zheng, Liang Chen, (参考訳) 近年の研究では、グラフニューラルネットワーク(GNN)において、人種や年齢などのセンシティブな属性によって分類された特定の保護されたグループに対して差別的な予測を行う、公平性の問題が強調されている。 GNNの公平性を高めるための様々な取り組みは大きな進歩を遂げてきたが、これらのアプローチは特定の機密属性に合わせて調整されることが多い。 結果として、機密属性要求の変化に対応するために、スクラッチからモデルを再トレーニングする必要があるため、計算コストが高い。 この問題についてより深い知見を得るため、因果モデリングの観点からグラフフェアネス問題にアプローチし、センシティブな属性によって引き起こされる共起効果を根本原因とみなす。 この観察に動機づけられて、不変学習の観点からグラフの公正性問題を定式化し、環境間の不変表現を学習することを目的とした。 そこで本研究では,FairINVという不変学習に基づくグラフフェアネスフレームワークを提案する。 具体的には、FairINVはセンシティブな属性分割を取り入れ、ラベルと各種のセンシティブな属性の間の急激な相関を排除して、公正なGNNを訓練する。 いくつかの実世界のデータセットの実験結果から、FairINVは最先端のフェアネスアプローチを著しく上回り、その効果を裏付けることが示された。 私たちのコードは、https://github.com/ZzoomD/FairINV/.comから入手可能です。

Recent studies have highlighted fairness issues in Graph Neural Networks (GNNs), where they produce discriminatory predictions against specific protected groups categorized by sensitive attributes such as race and age. While various efforts to enhance GNN fairness have made significant progress, these approaches are often tailored to specific sensitive attributes. Consequently, they necessitate retraining the model from scratch to accommodate changes in the sensitive attribute requirement, resulting in high computational costs. To gain deeper insights into this issue, we approach the graph fairness problem from a causal modeling perspective, where we identify the confounding effect induced by the sensitive attribute as the underlying reason. Motivated by this observation, we formulate the fairness problem in graphs from an invariant learning perspective, which aims to learn invariant representations across environments. Accordingly, we propose a graph fairness framework based on invariant learning, namely FairINV, which enables the training of fair GNNs to accommodate various sensitive attributes within a single training session. Specifically, FairINV incorporates sensitive attribute partition and trains fair GNNs by eliminating spurious correlations between the label and various sensitive attributes. Experimental results on several real-world datasets demonstrate that FairINV significantly outperforms state-of-the-art fairness approaches, underscoring its effectiveness. Our code is available via: https://github.com/ZzoomD/FairINV/.
翻訳日:2024-06-21 19:43:36 公開日:2024-06-19
# 量子波の最適拡散焦点

Optimal Diffractive Focusing of Quantum Waves ( http://arxiv.org/abs/2406.13545v1 )

ライセンス: Link先を確認
Maxim A. Efremov, Felix Hufnagel, Hugo Larocque, Wolfgang P. Schleich, Ebrahim Karimi, (参考訳) 光パラ軸波方程式とシュリンガー方程式とのよく知られた類似性に従い、位相成分を使わずに1次元と2次元に集中する最適実数値波動関数を導出する。 最適波動の集束パラメータとフレネルゾーンのような他の微分集束アプローチの集束パラメータを比較して対比する。 さらに, 反射型および透過型液晶素子を用いた光ビームの集束特性を実験的に実証した。 この結果は、X線、THz放射、電子ビームなど、位相要素が実装が困難な波に焦点を合わせるための代替の方向を提供する。

Following the familiar analogy between the optical paraxial wave equation and the Schr\"odinger equation, we derive the optimal, real-valued wave function for focusing in one and two space dimensions without the use of any phase component. We compare and contrast the focusing parameters of the optimal waves with those of other diffractive focusing approaches, such as Fresnel zones. Moreover, we experimentally demonstrate these focusing properties on optical beams using both reflective and transmissive liquid crystal devices. Our results provide an alternative direction for focusing waves where phase elements are challenging to implement, such as for X-rays, THz radiation, and electron beams.
翻訳日:2024-06-21 19:43:36 公開日:2024-06-19
# ModSec-Learn: マシンラーニングによるModSecurityの強化

ModSec-Learn: Boosting ModSecurity with Machine Learning ( http://arxiv.org/abs/2406.13547v1 )

ライセンス: Link先を確認
Christian Scano, Giuseppe Floris, Biagio Montaruli, Luca Demetrio, Andrea Valenza, Luca Compagna, Davide Ariu, Luca Piras, Davide Balzarotti, Battista Biggio, (参考訳) ModSecurityはOWASP Foundationによってメンテナンスされている標準のオープンソースWeb Application Firewall(WAF)として広く認識されている。 悪質なリクエストをコアルールセット(CRS)にマッチさせて検出し、よく知られた攻撃パターンを特定する。 各ルールは、対応する攻撃の重大度に基づいて、手動でウェイトを割り当て、マッチしたルールの重みの合計が所定のしきい値を超えた場合、要求はブロックされる。 しかし、検出はヒューリスティックにのみ依存し、保護するアプリケーションにカスタマイズされないため、この戦略はWeb攻撃に対してほとんど効果がないと我々は主張する。 本研究では,CRSルールを入力として使用する機械学習モデルを提案することで,この問題を克服する。 トレーニングを通じてModSec-Learnは、予測に対する各CRSルールのコントリビューションをチューニングできるため、Webアプリケーションに対する重症度レベルを保護できる。 実験の結果,ModSec-Learnは検出と偽陽性率のトレードオフを著しく改善することがわかった。 最後に,CRS規則の30%以上を破棄することにより,スパース正規化が推論時に関係するルールの数を減らせるかを分析する。 オープンソースコードとデータセットは、https://github.com/pralab/modsec-learnとhttps://github.com/pralab/http-traffic-datasetで公開しています。

ModSecurity is widely recognized as the standard open-source Web Application Firewall (WAF), maintained by the OWASP Foundation. It detects malicious requests by matching them against the Core Rule Set (CRS), identifying well-known attack patterns. Each rule is manually assigned a weight based on the severity of the corresponding attack, and a request is blocked if the sum of the weights of matched rules exceeds a given threshold. However, we argue that this strategy is largely ineffective against web attacks, as detection is only based on heuristics and not customized on the application to protect. In this work, we overcome this issue by proposing a machine-learning model that uses the CRS rules as input features. Through training, ModSec-Learn is able to tune the contribution of each CRS rule to predictions, thus adapting the severity level to the web applications to protect. Our experiments show that ModSec-Learn achieves a significantly better trade-off between detection and false positive rates. Finally, we analyze how sparse regularization can reduce the number of rules that are relevant at inference time, by discarding more than 30% of the CRS rules. We release our open-source code and the dataset at https://github.com/pralab/modsec-learn and https://github.com/pralab/http-traffic-dataset, respectively.
翻訳日:2024-06-21 19:33:52 公開日:2024-06-19
# アンラーニングによる言語モデルにおける社会的バイアスの緩和

Mitigating Social Biases in Language Models through Unlearning ( http://arxiv.org/abs/2406.13551v1 )

ライセンス: Link先を確認
Omkar Dige, Diljot Singh, Tsz Fung Yau, Qixuan Zhang, Borna Bolandraftar, Xiaodan Zhu, Faiza Khan Khattak, (参考訳) 言語モデル(LM)におけるバイアスの緩和は、LMが広く展開されているため、重大な問題となっている。 データ前処理や言語モデルの微調整、時間を要するタスク、計算に要求されるタスクなど、多くのアプローチが生まれています。 その結果、機械学習技術への関心が高まっており、計算コストの低い既存の訓練済みモデルや微調整済みモデルの望ましくない振る舞いの忘れを誘発する能力がある。 本研究では,(1)デコーダモデルに適用されたコントラスト・グラディエント・アンラーニング(PCGU)と(2)タスクベクトルによる否定という2つの未学習手法を探索し,LLaMA-2 や OPT のような最先端かつオープンソースのLMにおける社会的バイアスを低減する。 また,大規模モデルを対象とした分散PCGUを実装した。 定量的および定性的な分析を通じて、タスクベクトル法による否定はPCGUよりも性能の低下とパープレキシティが最小限に抑えられることが実証的に示されている。 LLaMA-27Bでは、タスクベクトルによる否定はバイアススコアを11.8%削減する

Mitigating bias in language models (LMs) has become a critical problem due to the widespread deployment of LMs. Numerous approaches revolve around data pre-processing and fine-tuning of language models, tasks that can be both time-consuming and computationally demanding. Consequently, there is a growing interest in machine unlearning techniques given their capacity to induce the forgetting of undesired behaviors of the existing pre-trained or fine-tuned models with lower computational cost. In this work, we explore two unlearning methods, (1) Partitioned Contrastive Gradient Unlearning (PCGU) applied on decoder models and (2) Negation via Task Vector, to reduce social biases in state-of-the-art and open-source LMs such as LLaMA-2 and OPT. We also implement distributed PCGU for large models. It is empirically shown, through quantitative and qualitative analyses, that negation via Task Vector method outperforms PCGU in debiasing with minimum deterioration in performance and perplexity of the models. On LLaMA-27B, negation via Task Vector reduces the bias score by 11.8%
翻訳日:2024-06-21 19:33:52 公開日:2024-06-19
# Standardness Fogs の意味:標準データセットのインフォームド使用に関する立場

Standardness Fogs Meaning: A Position Regarding the Informed Usage of Standard Datasets ( http://arxiv.org/abs/2406.13552v1 )

ライセンス: Link先を確認
Tim Cech, Ole Wegen, Daniel Atzberger, Rico Richter, Willy Scheibel, Jürgen Döllner, (参考訳) 標準データセットは機械学習モデルのトレーニングと評価に頻繁に使用される。 しかし、これらのデータセットの標準性について仮定すると、ラベルがそれぞれのユースケースの派生したカテゴリとどのように一致しているかについての詳細な議論が欠如している。 言い換えれば、データセットの標準化は一貫性と適用性を損なうように思えるため、マシンラーニングモデルの信頼性を損なうことになる。 本研究では,可視化による地上理論と仮説検証を,標準データセットのユースケース,派生カテゴリ,ラベルの一致を評価する手法として採用することを提案する。 このアプローチを実証するために、20のNewsgroupsデータセットとMNISTデータセットに適用する。 20のNewsgroupsデータセットに対して、ラベルが不正確であることを実証する。 したがって、機械学習モデルは、派生したカテゴリの有意義な抽象化を学ばず、高い精度で結論を導き出すことができない。 MNISTデータセットでは,ラベルが適切に定義されていることを実証する。 MNISTデータセットの場合のように、データセットの標準化の概念は、ユースケース、派生カテゴリ、およびクラスラベルが一致していることを意味すると結論付けている。 これは意味のある抽象化を学ぶために必要であり、従って機械学習モデルの信頼性を向上させるために必要である、と私たちは主張する。

Standard datasets are frequently used to train and evaluate Machine Learning models. However, the assumed standardness of these datasets leads to a lack of in-depth discussion on how their labels match the derived categories for the respective use case. In other words, the standardness of the datasets seems to fog coherency and applicability, thus impeding the trust in Machine Learning models. We propose to adopt Grounded Theory and Hypotheses Testing through Visualization as methods to evaluate the match between use case, derived categories, and labels of standard datasets. To showcase the approach, we apply it to the 20 Newsgroups dataset and the MNIST dataset. For the 20 Newsgroups dataset, we demonstrate that the labels are imprecise. Therefore, we argue that neither a Machine Learning model can learn a meaningful abstraction of derived categories nor one can draw conclusions from achieving high accuracy. For the MNIST dataset, we demonstrate how the labels can be confirmed to be defined well. We conclude that a concept of standardness of a dataset implies that there is a match between use case, derived categories, and class labels, as in the case of the MNIST dataset. We argue that this is necessary to learn a meaningful abstraction and, thus, improve trust in the Machine Learning model.
翻訳日:2024-06-21 19:33:52 公開日:2024-06-19
# 国連総会の採鉱について

Mining United Nations General Assembly Debates ( http://arxiv.org/abs/2406.13553v1 )

ライセンス: Link先を確認
Mateusz Grzyb, Mateusz Krzyziński, Bartłomiej Sobieski, Mikołaj Spytek, Bartosz Pieliński, Daniel Dan, Anna Wróblewska, (参考訳) 本研究は,国連総会(UNGA)における自然言語処理(NLP)技術の適用について検討する。 NLPを使用することで、大量のテキストデータの効率的な処理と分析が可能になり、セマンティックパターン、感情分析、トピックモデリングの抽出が可能になる。 我々のゴールは、包括的なデータセットとツール(説明統計と自動的に抽出されるトピック)を提供することで、政治科学者が国際関係についての洞察を導き、国際外交談話の微妙な理解を得る機会を得ることです。

This project explores the application of Natural Language Processing (NLP) techniques to analyse United Nations General Assembly (UNGA) speeches. Using NLP allows for the efficient processing and analysis of large volumes of textual data, enabling the extraction of semantic patterns, sentiment analysis, and topic modelling. Our goal is to deliver a comprehensive dataset and a tool (interface with descriptive statistics and automatically extracted topics) from which political scientists can derive insights into international relations and have the opportunity to have a nuanced understanding of global diplomatic discourse.
翻訳日:2024-06-21 19:33:52 公開日:2024-06-19
# BiLD: 大規模言語モデルの蒸留における双方向ログの差分

BiLD: Bi-directional Logits Difference Loss for Large Language Model Distillation ( http://arxiv.org/abs/2406.13555v1 )

ライセンス: Link先を確認
Minchong Li, Feng Zhou, Xiaohui Song, (参考訳) 近年,大規模言語モデル(LLM)は,自然言語処理(NLP)タスクにまたがる例外的な機能を示している。 しかしながら、このような印象的なパフォーマンスは、パラメータサイズが大きくなるというトレードオフによってもたらされることが多く、広く展開する上で大きな課題を招きます。 知識蒸留(KD)は、大きな教師モデルからより小さな学生モデルに知識を移すことによって解を提供する。 本稿では,LLMのロージットレベルでのタスク特異的蒸留について検討する。 本研究により, 微調整LDMのロジットは, 視覚モデルよりも極端に長い尾分布を示し, 長い尾に隠れた「ノイズ」が蒸留性能に影響を及ぼすことが明らかとなった。 さらに、既存のロジット蒸留法は、ロジットの内部ランキング情報を効果的に活用するのに苦労することが多い。 これらの問題に対処するために,双方向ロジット差分(BiLD)の損失を提案する。 BiLD損失は、教師と学生のロジットのトップ$kだけを利用して、ロングテールノイズをフィルタリングし、ロジットの違いを構築することで、内部ロジットランキング情報を活用する。 BiLD損失を評価するために,2種類のLLMを用いて13のデータセットの総合的な実験を行った。 以上の結果より, BiLD の損失は, 上位8ロジットのみであり, 監督的微調整 (SFT) , バニラKL の損失, NLP および CV フィールドからの5つの蒸留方法よりも優れていた。

In recent years, large language models (LLMs) have shown exceptional capabilities across various natural language processing (NLP) tasks. However, such impressive performance often comes with the trade-off of an increased parameter size, posing significant challenges for widespread deployment. Knowledge distillation (KD) provides a solution by transferring knowledge from a large teacher model to a smaller student model. In this paper, we explore the task-specific distillation of LLMs at the logit level. Our investigation reveals that the logits of fine-tuned LLMs exhibit a more extreme long-tail distribution than those from vision models, with hidden "noise" in the long tail affecting distillation performance. Furthermore, existing logits distillation methods often struggle to effectively utilize the internal ranking information from the logits. To address these, we propose the Bi-directional Logits Difference (BiLD) loss. The BiLD loss filters out the long-tail noise by utilizing only top-$k$ teacher and student logits, and leverages the internal logits ranking information by constructing logits differences. To evaluate BiLD loss, we conduct comprehensive experiments on 13 datasets using two types of LLMs. Our results show that the BiLD loss, with only the top-8 logits, outperforms supervised fine-tuning (SFT), vanilla KL loss, and five other distillation methods from both NLP and CV fields.
翻訳日:2024-06-21 19:33:52 公開日:2024-06-19
# ソーシャルメディアデータとマスクド言語モデルにおけるソーシャル・バイアスの短期的変動の評価

Evaluating Short-Term Temporal Fluctuations of Social Biases in Social Media Data and Masked Language Models ( http://arxiv.org/abs/2406.13556v1 )

ライセンス: Link先を確認
Yi Zhou, Danushka Bollegala, Jose Camacho-Collados, (参考訳) 性別や人種的偏見などの社会的偏見は、マスケッド言語モデル(MLM)を含む言語モデル(LM)で報告されている。 MLMは、時間とともに収集される追加データの増加で継続的に訓練されているので、重要な疑問は、MLMで符号化された社会的バイアスが時間とともにどのように変化するかである。 特に、ソーシャルメディア利用者数は指数関数的に増加し続けており、ソーシャルメディアデータに特化して訓練されたMLMにとって、その社会的バイアス(もしあれば)が時間の経過とともに増幅されるかどうかという懸念は妥当である。 この問題を経験的に分析するために、コーパスの時系列順序の時間スナップショットに基づいて事前訓練した一連のMLMを用いる。 分析の結果,すべてのMLMには社会的偏見が存在するものの,ほとんどの社会的偏見は時間とともに(例外を除いて)比較的安定していることが明らかとなった。 MLMの社会的バイアスに影響を与えるメカニズムをより深く理解するために,MLMの訓練に使用される時間的コーパスを分析した。 以上の結果から, 男性など一部の集団は, トレーニングコーパス上の女性など, 他者よりも高い嗜好を得ていることが示唆された。

Social biases such as gender or racial biases have been reported in language models (LMs), including Masked Language Models (MLMs). Given that MLMs are continuously trained with increasing amounts of additional data collected over time, an important yet unanswered question is how the social biases encoded with MLMs vary over time. In particular, the number of social media users continues to grow at an exponential rate, and it is a valid concern for the MLMs trained specifically on social media data whether their social biases (if any) would also amplify over time. To empirically analyse this problem, we use a series of MLMs pretrained on chronologically ordered temporal snapshots of corpora. Our analysis reveals that, although social biases are present in all MLMs, most types of social bias remain relatively stable over time (with a few exceptions). To further understand the mechanisms that influence social biases in MLMs, we analyse the temporal corpora used to train the MLMs. Our findings show that some demographic groups, such as male, obtain higher preference over the other, such as female on the training corpora constantly.
翻訳日:2024-06-21 19:33:52 公開日:2024-06-19
# 大規模言語モデルによる旅行選択モデルの実現--Prompt-Learningアプローチ

Enhancing Travel Choice Modeling with Large Language Models: A Prompt-Learning Approach ( http://arxiv.org/abs/2406.13558v1 )

ライセンス: Link先を確認
Xuehao Zhai, Hanlin Tian, Lintong Li, Tianyu Zhao, (参考訳) 旅行選択分析は、知的交通システム(ITS)における適切な交通政策とレコメンデーションシステムを開発するために、個々の旅行行動を理解するために不可欠である。 広範な研究にもかかわらず、この領域は2つの重要な課題に直面している。 イ 限られた調査データによるモデリング及び ロ 高いモデル説明可能性及び精度を同時に達成すること。 本稿では,予測精度を大幅に向上させ,個々の予測に対して明確な説明を提供する,プロンプト学習に基づく大規模言語モデル(LLM)フレームワークを提案する。 このフレームワークには、入力変数をテキスト形式に変換すること、オブジェクトに似たデモを構築すること、これらを十分に訓練されたLLMに適用すること、の3つの主要なステップが含まれている。 スイスで収集されたLondon Passenger Mode Choice(LPMC)とOptima-Mode(Optima-Mode)の2つの選択肢データセットを用いて,フレームワークの有効性を検証した。 その結果,LLMは人々の選択を予測する上で,最先端のディープラーニング手法や個別選択モデルよりも優れていたことが示唆された。 さらに,LLMフレームワークが個々のレベルで理解し易く明示的な説明を生成する方法について解説する。

Travel choice analysis is crucial for understanding individual travel behavior to develop appropriate transport policies and recommendation systems in Intelligent Transportation Systems (ITS). Despite extensive research, this domain faces two critical challenges: a) modeling with limited survey data, and b) simultaneously achieving high model explainability and accuracy. In this paper, we introduce a novel prompt-learning-based Large Language Model(LLM) framework that significantly improves prediction accuracy and provides explicit explanations for individual predictions. This framework involves three main steps: transforming input variables into textual form; building of demonstrations similar to the object, and applying these to a well-trained LLM. We tested the framework's efficacy using two widely used choice datasets: London Passenger Mode Choice (LPMC) and Optima-Mode collected in Switzerland. The results indicate that the LLM significantly outperforms state-of-the-art deep learning methods and discrete choice models in predicting people's choices. Additionally, we present a case of explanation illustrating how the LLM framework generates understandable and explicit explanations at the individual level.
翻訳日:2024-06-21 19:33:52 公開日:2024-06-19
# Solarcast-ML: 太陽エネルギー生産のためのノードグラフCast拡張

Solarcast-ML: Per Node GraphCast Extension for Solar Energy Production ( http://arxiv.org/abs/2406.13559v1 )

ライセンス: Link先を確認
Cale Colony, Razan Andigani, (参考訳) このプロジェクトは、太陽エネルギー生産予測機能を統合することで、グローバル気象予報のための最先端グラフニューラルネットワーク(GNN)であるGraphCastモデルの拡張を示す。 提案手法は、GraphCastが生成した天気予報を利用して、ニューラルネットワークモデルを用いて、様々な気象条件に基づいて実際の太陽出力と潜在的な太陽出力の比率を予測する。 モデルアーキテクチャは、気象特性(温度、湿度、露点、風速、雨量、気圧、高度)に対応する入力層と、ReLUを活性化した2つの隠れ層と、太陽放射を予測する出力層から構成される。 このモデルは平均的な絶対誤差損失関数とAdamOptimatorを使って訓練されている。 その結果, 太陽放射の正確な予測, 収束挙動, トレーニング損失の低減, および太陽放射パターンの正確な予測が, 気象条件と太陽放射の関係の学習に有効であることを示唆した。 太陽エネルギー生産予測とGraphCastの統合は、再生可能エネルギーセクターにとって貴重な洞察を与え、予想される太陽エネルギー生産に基づいてより良い計画と意思決定を可能にする。 将来の研究は、さらなるモデルの改良、追加の気象変数の導入、および他の再生可能エネルギー源への拡張を探求する可能性がある。

This project presents an extension to the GraphCast model, a state-of-the-art graph neural network (GNN) for global weather forecasting, by integrating solar energy production forecasting capabilities. The proposed approach leverages the weather forecasts generated by GraphCast and trains a neural network model to predict the ratio of actual solar output to potential solar output based on various weather conditions. The model architecture consists of an input layer corresponding to weather features (temperature, humidity, dew point, wind speed, rain, barometric pressure, and altitude), two hidden layers with ReLU activations, and an output layer predicting solar radiation. The model is trained using a mean absolute error loss function and Adam optimizer. The results demonstrate the model's effectiveness in accurately predicting solar radiation, with its convergence behavior, decreasing training loss, and accurate prediction of solar radiation patterns suggesting successful learning of the underlying relationships between weather conditions and solar radiation. The integration of solar energy production forecasting with GraphCast offers valuable insights for the renewable energy sector, enabling better planning and decision-making based on expected solar energy production. Future work could explore further model refinements, incorporation of additional weather variables, and extension to other renewable energy sources.
翻訳日:2024-06-21 19:33:52 公開日:2024-06-19
# 語彙的に接頭したサブワードセグメンテーション

Lexically Grounded Subword Segmentation ( http://arxiv.org/abs/2406.13560v1 )

ライセンス: Link先を確認
Jindřich Libovický, Jindřich Helcl, (参考訳) トークン化とサブワードセグメンテーションの3つの革新を提示する。 まず,Morfessorを用いた教師なし形態素解析を事前学習に用いることを提案する。 第二に、単語埋め込み空間に接地したサブワード埋め込みを得るための代数的手法を提案する。 そこで本研究では,埋め込みを用いた単語分割アルゴリズムを設計し,語彙的意味を考慮した手法を提案する。 第3に,単語ビッグラムモデルに基づく効率的なセグメンテーションアルゴリズムを導入し,語彙的に認識されたセグメンテーション手法を初期化することにより,推論時にMorfessorや大きな埋め込みテーブルを用いることを避ける。 提案手法を2つの内在的指標を用いて評価し、その性能を2つの下流タスク(音声のタグ付けと機械翻訳)で測定する。 実験により, 形態素境界におけるセグメンテーション精度を評価し, 8言語でのR'enyi効率を向上させることにより, セグメンテーションのモルフォロジー的妥当性を著しく向上した。 提案手法は自動翻訳品質に大きな影響を与えないが,音声のタグ付けにおける形態的タスクにおいて,一貫した性能向上が観察される。

We present three innovations in tokenization and subword segmentation. First, we propose to use unsupervised morphological analysis with Morfessor as pre-tokenization. Second, we present an algebraic method for obtaining subword embeddings grounded in a word embedding space. Based on that, we design a novel subword segmentation algorithm that uses the embeddings, ensuring that the procedure considers lexical meaning. Third, we introduce an efficient segmentation algorithm based on a subword bigram model that can be initialized with the lexically aware segmentation method to avoid using Morfessor and large embedding tables at inference time. We evaluate the proposed approaches using two intrinsic metrics and measure their performance on two downstream tasks: part-of-speech tagging and machine translation. Our experiments show significant improvements in the morphological plausibility of the segmentation when evaluated using segmentation precision on morpheme boundaries and improved R\'enyi efficiency in 8 languages. Although the proposed tokenization methods do not have a large impact on automatic translation quality, we observe consistent performance gains in the arguably more morphological task of part-of-speech tagging.
翻訳日:2024-06-21 19:33:52 公開日:2024-06-19
# AIは楽しいか?HumorDB:グラフィカルユーモアを調査するためのデータセットとベンチマーク

Is AI fun? HumorDB: a curated dataset and benchmark to investigate graphical humor ( http://arxiv.org/abs/2406.13564v1 )

ライセンス: Link先を確認
Veedant Jain, Felipe dos Santos Alves Feitosa, Gabriel Kreiman, (参考訳) コンピュータビジョンの大幅な進歩にもかかわらず、複雑なシーン、特にユーモアにかかわるシーンを理解することは大きな課題である。 本稿では,視覚的ユーモア理解を促進するために設計された,画像のみのデータセットであるHumorDBを紹介する。 HumorDBは、厳密にキュレートされたイメージペアと、コントラストのあるユーモア評価で構成され、ユーモアを誘発する微妙な視覚的手がかりを強調し、潜在的なバイアスを緩和する。 このデータセットは、二分分類(Funny or Not Funny)、範囲回帰(Funiness on a scale to 1 to 10)、対比較タスク(Which Image is Funnier?)による評価を可能にし、ユーモア知覚の主観的性質を効果的に捉える。 最初の実験では、視覚のみのモデルでは苦労するが、視覚言語モデル、特に大きな言語モデルを利用するモデルは、有望な結果を示す。 HumorDBはまた、強力な大規模マルチモーダルモデルのための貴重なゼロショットベンチマークとしての可能性を示している。 CC BY 4.0ライセンスの下で、データセットとコードをオープンソースにしています。

Despite significant advancements in computer vision, understanding complex scenes, particularly those involving humor, remains a substantial challenge. This paper introduces HumorDB, a novel image-only dataset specifically designed to advance visual humor understanding. HumorDB consists of meticulously curated image pairs with contrasting humor ratings, emphasizing subtle visual cues that trigger humor and mitigating potential biases. The dataset enables evaluation through binary classification(Funny or Not Funny), range regression(funniness on a scale from 1 to 10), and pairwise comparison tasks(Which Image is Funnier?), effectively capturing the subjective nature of humor perception. Initial experiments reveal that while vision-only models struggle, vision-language models, particularly those leveraging large language models, show promising results. HumorDB also shows potential as a valuable zero-shot benchmark for powerful large multimodal models. We open-source both the dataset and code under the CC BY 4.0 license.
翻訳日:2024-06-21 19:33:52 公開日:2024-06-19
# 画像の汎用化とロバスト化のための多視点画素コントラストの探索

Exploring Multi-view Pixel Contrast for General and Robust Image Forgery Localization ( http://arxiv.org/abs/2406.13565v1 )

ライセンス: Link先を確認
Zijie Lou, Gang Cao, Kun Guo, Haochen Zhu, Lifang Yu, (参考訳) 画像中の改ざん領域を分割することを目的とした画像フォージェリローカライゼーションは,基本的なデジタル法医学的課題である。 深層学習に基づく法医学的な手法は印象的な結果を得たが、特徴空間における画素間の関係を完全に活用することなく、直接ピクセル間マッピングを学習する。 このような欠点に対処するために,画像フォージェリローカライゼーションのためのMPC(Multi-view Pixel-wise Contrastive Algorithm)を提案する。 具体的には,まず背骨ネットワークを教師付きコントラスト損失で事前訓練し,画像内・クロススケール・クロスモダリティの観点から画素関係をモデル化する。 これはクラス内のコンパクト性とクラス間の分離性を高めることを目的としている。 次に、クロスエントロピー損失を用いてローカライゼーションヘッドを微調整し、ピクセルローカライザを改良する。 MPCは、既存のイメージフォージェリーローカライゼーションアルゴリズムと包括的で公正な比較を行うために、3つの異なるスケールトレーニングデータセットでトレーニングされている。 小規模,中規模,大規模のトレーニングデータセットに対する大規模な実験により,提案したMPCは,最先端技術よりも高度な一般化性能とポストプロセッシングに対する堅牢性を実現することが示された。 コードはhttps://github.com/multimediaFor/MPC.comで入手できる。

Image forgery localization, which aims to segment tampered regions in an image, is a fundamental yet challenging digital forensic task. While some deep learning-based forensic methods have achieved impressive results, they directly learn pixel-to-label mappings without fully exploiting the relationship between pixels in the feature space. To address such deficiency, we propose a Multi-view Pixel-wise Contrastive algorithm (MPC) for image forgery localization. Specifically, we first pre-train the backbone network with the supervised contrastive loss to model pixel relationships from the perspectives of within-image, cross-scale and cross-modality. That is aimed at increasing intra-class compactness and inter-class separability. Then the localization head is fine-tuned using the cross-entropy loss, resulting in a better pixel localizer. The MPC is trained on three different scale training datasets to make a comprehensive and fair comparison with existing image forgery localization algorithms. Extensive experiments on the small, medium and large scale training datasets show that the proposed MPC achieves higher generalization performance and robustness against post-processing than the state-of-the-arts. Code will be available at https://github.com/multimediaFor/MPC.
翻訳日:2024-06-21 19:33:52 公開日:2024-06-19
# スパイキングネットワークにおける効果的な強化学習のためのトラペゾイダルグラディエントDescent

Trapezoidal Gradient Descent for Effective Reinforcement Learning in Spiking Networks ( http://arxiv.org/abs/2406.13568v1 )

ライセンス: Link先を確認
Yuhao Pan, Xiucheng Wang, Nan Cheng, Qi Qiu, (参考訳) 人工知能技術の急速な発展により、強化学習の分野は理論と実践の両方において継続的なブレークスルーを達成してきた。 しかし、従来の強化学習アルゴリズムは環境との相互作用において高エネルギー消費を伴っていることが多い。 深層ニューラルネットワークに匹敵する低エネルギー消費特性と性能を備えたスパイキングニューラルネットワーク(SNN)は、広く注目を集めている。 強化学習の実践的応用の省エネを図るため,Pop-SAN と MDC-SAN のアルゴリズムが提案されている。 それにもかかわらず、これらのアルゴリズムはトレーニングプロセス中にスパイクネットワークを近似するために長方形関数を用いており、結果として感度が低くなり、SNNのトレーニング効率が向上する余地が示される。 そこで本研究では,スパイクネットワークの代替として,従来の安定した学習状態を保ちつつ,様々な信号力学下でのモデルの適応性と応答感度を向上させることを目的とした,タペソジカル近似勾配法を提案する。 シミュレーションの結果,改良されたアルゴリズムは,スパイクネットワークを置き換えるために台形近似勾配を用いて,元のアルゴリズムと比較して収束速度と性能が向上し,訓練安定性が良好であることがわかった。

With the rapid development of artificial intelligence technology, the field of reinforcement learning has continuously achieved breakthroughs in both theory and practice. However, traditional reinforcement learning algorithms often entail high energy consumption during interactions with the environment. Spiking Neural Network (SNN), with their low energy consumption characteristics and performance comparable to deep neural networks, have garnered widespread attention. To reduce the energy consumption of practical applications of reinforcement learning, researchers have successively proposed the Pop-SAN and MDC-SAN algorithms. Nonetheless, these algorithms use rectangular functions to approximate the spike network during the training process, resulting in low sensitivity, thus indicating room for improvement in the training effectiveness of SNN. Based on this, we propose a trapezoidal approximation gradient method to replace the spike network, which not only preserves the original stable learning state but also enhances the model's adaptability and response sensitivity under various signal dynamics. Simulation results show that the improved algorithm, using the trapezoidal approximation gradient to replace the spike network, achieves better convergence speed and performance compared to the original algorithm and demonstrates good training stability.
翻訳日:2024-06-21 19:33:52 公開日:2024-06-19
# 連邦学習における復興攻撃の指標としてのベイズの能力

Bayes' capacity as a measure for reconstruction attacks in federated learning ( http://arxiv.org/abs/2406.13569v1 )

ライセンス: Link先を確認
Sayan Biswas, Mark Dras, Pedro Faustini, Natasha Fernandes, Annabelle McIver, Catuscia Palamidessi, Parastoo Sadeghi, (参考訳) マシンラーニングコミュニティ内では、再構築攻撃が主要な関心事の攻撃であり、プライバシ保護を念頭に設計されたフェデレーション学習においても特定されている。 連合学習では,確率勾配降下時の重み更新の観測から,機械学習アーキテクチャの知識を持つ敵が,学習要素の正確な値を推定できることが示されている。 これらの脅威に応えて、プライバシーコミュニティはDP-SGDと呼ばれる確率勾配降下アルゴリズムにおける差分プライバシーの使用を推奨している。 しかし、復興攻撃に対する効果的な対策として、まだ正式には確立されていない。 本稿では,定量的情報フローの情報理論フレームワークを用いて,再構成脅威モデルを定式化する。 本研究では,シブソンの次数無限性の相互情報に関連するベイズの能力が,DP-SGDアルゴリズムの漏洩を,再構成攻撃の実施に関心のある敵に対して厳密な上限を示すことを示す。 本研究では,再建の脅威に対するメカニズムの比較において,この手法の有効性を示す実験結果を提供する。

Within the machine learning community, reconstruction attacks are a principal attack of concern and have been identified even in federated learning, which was designed with privacy preservation in mind. In federated learning, it has been shown that an adversary with knowledge of the machine learning architecture is able to infer the exact value of a training element given an observation of the weight updates performed during stochastic gradient descent. In response to these threats, the privacy community recommends the use of differential privacy in the stochastic gradient descent algorithm, termed DP-SGD. However, DP has not yet been formally established as an effective countermeasure against reconstruction attacks. In this paper, we formalise the reconstruction threat model using the information-theoretic framework of quantitative information flow. We show that the Bayes' capacity, related to the Sibson mutual information of order infinity, represents a tight upper bound on the leakage of the DP-SGD algorithm to an adversary interested in performing a reconstruction attack. We provide empirical results demonstrating the effectiveness of this measure for comparing mechanisms against reconstruction threats.
翻訳日:2024-06-21 19:33:52 公開日:2024-06-19
# ゼロロス多重化のための絡み合い源と量子メモリ解析

Entanglement source and quantum memory analysis for zero added-loss multiplexing ( http://arxiv.org/abs/2406.13572v1 )

ライセンス: Link先を確認
Jeffrey H. Shapiro, Michael G. Raymer, Clark Embleton, Franco N. C. Wong, Brian J. Smith, (参考訳) 高速で高忠実な絡み合い分布は、量子インターネットの作成には不可欠であるが、近年のファイバーおよび衛星ベースの絡み合い分布の成果は、必要なものよりもはるかに少ない。 Chen et al [Phys. Appl. 19, 054209 (2023)] はゼロロス多重化 (ZALM) によるエンタングルメント分配率を劇的に向上させる手段を提案した。 ZALMの量子送信機は、一対のサニャック構成の自発パラメトリックダウンコンバータ(SPDC)、高密度波長分割多重化(DWDM)フィルタリングによるチャネル化、およびベル状態測定(BSM)を用いて、周波数多重化二光子のほぼ決定論的、重畳された源を実現する。 それぞれのバイフォトンは、アリスとボブに、その周波数チャネルと隠蔽された絡み合った状態を特定する古典的なメッセージで送信される。 量子受信機はDWDMフィルタとモード変換を使用して、受信した2光子をキャビティ内色中心量子メモリに接続する。 本稿では、ZALMのSPDC、部分BSM、アリスとボブの量子メモリのロードについて深く研究する。 これはSPDCソースと量子メモリの密度演算子を導出し、偏光束縛された双光子とロードされた量子メモリの両方に対して、シェラルディング確率、シェラルディング効率、フィリティを評価できるようにし、ZALM性能を最適化するためのパラメータ空間の探索を可能にする。 最適化解析がなくても、Alice と Bob に送信されたバイフォトンが高純度であることを保証するために、ほぼ分離可能なチャネル化バイフォトン波動関数を実現する必要があること、そしてAlice と Bob の時間モードコンバータに搭載されたプレミアムが、受信したバイフォトン状態がキャビティ内色中心に忠実に転送されることを保証するために、狭帯域のプッシュプルメモリローディングを可能にすることを、ZALM アーキテクチャの2つの重要な特徴を既に示している。

High-rate, high-fidelity entanglement distribution is essential to the creation of a quantum internet, but recent achievements in fiber and satellite-based entanglement distribution fall far short of what is needed. Chen et al. [Phys. Rev. Appl. 19, 054209 (2023)] proposed a means for dramatically increasing entanglement-distribution rates via zero added-loss multiplexing (ZALM). ZALM's quantum transmitter employs a pair of Sagnac-configured spontaneous parametric downconverters (SPDCs), channelization via dense wavelength-division multiplexing (DWDM) filtering, and partial Bell-state measurements (BSMs) to realize a near-deterministic, heralded source of frequency-multiplexed polarization-entangled biphotons. Each biphoton is transmitted to Alice and Bob with a classical message identifying its frequency channel and the heralded entangled state. Their quantum receivers use DWDM filtering and mode conversion to interface their received biphotons to intra-cavity color-center quantum memories. This paper delves deeply into ZALM's SPDCs, partial-BSMs, and loading of Alice and Bob's quantum memories. It derives the density operators for the SPDC sources and the quantum memories, allowing heralding probability, heralding efficiency, and fidelity to be evaluated for both the polarization-entangled biphotons and the loaded quantum memories, thus enabling exploration of the parameter space for optimizing ZALM performance. Even without optimization analysis, the paper already demonstrates two critical features of the ZALM architecture: the necessity of achieving a near-separable channelized biphoton wave function to ensure the biphoton sent to Alice and Bob is of high purity; and the premium placed on Alice and Bob's temporal-mode converters' enabling narrowband push-pull memory loading to ensure the arriving biphoton's state is faithfully transferred to the intra-cavity color centers.
翻訳日:2024-06-21 19:33:52 公開日:2024-06-19
# ディープ・アテンティブ・ノイズ・ラーニングによるローカライゼーションを生かしたトラスト映像

Trusted Video Inpainting Localization via Deep Attentive Noise Learning ( http://arxiv.org/abs/2406.13576v1 )

ライセンス: Link先を確認
Zijie Lou, Gang Cao, Man Lin, (参考訳) 近年,デジタルビデオの塗布技術は深層学習によって大幅に改善されている。 塗装はもともと損傷箇所を修復するために設計されたが、偽のシーンや事実を作成するために重要なオブジェクトを削除する悪質な操作としても使用できる。 そのため、彩色された地域を盲目的に識別することが重要である。 本稿では,堅牢性と一般化性に優れたTrusted Video Inpainting Localization Network(TruVIL)を提案する。 高周波ノイズが着色した領域を効果的に露呈するのを観察し,複数段階の深層雑音学習を設計し,着色した痕跡を捕捉する。 まず,3次元ハイパス(HP3D)層に基づくマルチスケールノイズ抽出モジュールを用いて,入力RGBフレームからノイズモダリティを生成する。 そして、これらの2つの相補的モダリティ間の相関関係を、相互特徴学習を容易にするために、相互モダリティ注意融合モジュールにより探索する。 最後に、減衰雑音復号モジュールによって空間的詳細を選択的に拡張し、ネットワークのローカライゼーション性能を高める。 また、十分なトレーニングサンプルを作成するために、すべてのフレームに対してピクセルレベルのアノテーションを付加した2500本のビデオのフレームレベルのビデオオブジェクトセグメンテーションデータセットを構築した。 TruVILの優位性は, 最先端技術と比較して, 広範囲な実験により検証された。 特に,映像の定量的および定性的評価により,提案したTruVILの顕著なロバスト性および一般化能力が検証された。 コードとデータセットはhttps://github.com/multimediaFor/TruVILで入手できる。

Digital video inpainting techniques have been substantially improved with deep learning in recent years. Although inpainting is originally designed to repair damaged areas, it can also be used as malicious manipulation to remove important objects for creating false scenes and facts. As such it is significant to identify inpainted regions blindly. In this paper, we present a Trusted Video Inpainting Localization network (TruVIL) with excellent robustness and generalization ability. Observing that high-frequency noise can effectively unveil the inpainted regions, we design deep attentive noise learning in multiple stages to capture the inpainting traces. Firstly, a multi-scale noise extraction module based on 3D High Pass (HP3D) layers is used to create the noise modality from input RGB frames. Then the correlation between such two complementary modalities are explored by a cross-modality attentive fusion module to facilitate mutual feature learning. Lastly, spatial details are selectively enhanced by an attentive noise decoding module to boost the localization performance of the network. To prepare enough training samples, we also build a frame-level video object segmentation dataset of 2500 videos with pixel-level annotation for all frames. Extensive experimental results validate the superiority of TruVIL compared with the state-of-the-arts. In particular, both quantitative and qualitative evaluations on various inpainted videos verify the remarkable robustness and generalization ability of our proposed TruVIL. Code and dataset will be available at https://github.com/multimediaFor/TruVIL.
翻訳日:2024-06-21 19:33:52 公開日:2024-06-19
# 熱音響貯留層が引き起こす遺伝子多部構造の絡み合い

Genuine Multipartite Entanglement induced by a Thermal Acoustic Reservoir ( http://arxiv.org/abs/2406.13577v1 )

ライセンス: Link先を確認
Qing-Yang Qiu, Zhi-Guang Lu, Qiongyi He, Ying Wu, Xin-You Lü, (参考訳) GME(Genuine multipartite entanglement)は、量子-古典遷移の研究において基礎的な関心を持つだけでなく、普遍量子コンピューティングや量子ネットワークの実現にも不可欠である。 そこで本研究では,NLC共振器の線形鎖における多粒子絡み合い(ME)のダイナミクスについて検討する。 システム進化の正確な解析解を提示することにより、離散変数と連続変数の絡み合いを含む非ガウス ME の周期的生成を予測する。 興味深いことに、システムは熱浴中であってもGMEが得られる。 この機構は周波数コム構造を有する特殊な音響環境に依存している。 さらに重要なことは、提案したモデルにより、高忠実度で典型的なGHZ状態である絡み合った多部猫状態(MCS)を周期的に生成することも可能である。 この研究はMEの分野を根本的に拡張し、耐熱ノイズ耐性量子情報処理と多体量子シミュレーションの実装に広く応用されている。

Genuine multipartite entanglement (GME) is not only fundamental interesting for the study of quantum-to-classical transition, but also is essential for realizing universal quantum computing and quantum networks. Here we investigate the multipartite entanglement (ME) dynamics in a linear chain of N LC resonators interacting optomechanically with a common thermal acoustic reservoir. By presenting the exact analytical solutions of system evolution, we predict the periodic generation of non-Gaussian ME, including the discrete and continuous variables entanglement. Interestingly, the GME is obtained even though the system is in a heat bath. The mechanism relies on the special acoustic environment featuring frequency comb structure. More importantly, our proposed model also allows the periodic generation of entangled multipartite cat states (MCSs), i.e., a typical GHZ state, with high fidelity. This work fundamentally broadens the fields of ME, and have wide applications in implementing thermal-noise-resistant quantum information processing and many-body quantum simulation.
翻訳日:2024-06-21 19:24:08 公開日:2024-06-19
# 検索事前学習と知識グラフの統合による複数項目質問に対するディトラクタ生成の強化

Enhancing Distractor Generation for Multiple-Choice Questions with Retrieval Augmented Pretraining and Knowledge Graph Integration ( http://arxiv.org/abs/2406.13578v1 )

ライセンス: Link先を確認
Han-Cheng Yu, Yu-An Shih, Kin-Man Law, Kai-Yu Hsieh, Yu-Chen Cheng, Hsin-Chih Ho, Zih-An Lin, Wen-Chuan Hsu, Yao-Chung Fan, (参考訳) 本稿では,複数質問に対する注意散布器生成(DG)の課題に取り組む。 本研究は2つの重要な設計を紹介する。 まず、DGの下流タスクとより密に整合させるために、事前訓練の言語モデルを精細化することを含む、拡張事前訓練のtextit{retrievalを提案する。 次に,DGの性能向上を目的とした知識グラフの統合について検討する。 ベンチマークデータセットによる実験により、我々のモデルは最先端の結果を大きく上回っていることが示された。 我々の最高のパフォーマンスモデルは、MCQデータセットで14.80から16.47、Sciqデータセットで15.92から16.50までF1@3スコアを前進させる。

In this paper, we tackle the task of distractor generation (DG) for multiple-choice questions. Our study introduces two key designs. First, we propose \textit{retrieval augmented pretraining}, which involves refining the language model pretraining to align it more closely with the downstream task of DG. Second, we explore the integration of knowledge graphs to enhance the performance of DG. Through experiments with benchmarking datasets, we show that our models significantly outperform the state-of-the-art results. Our best-performing model advances the F1@3 score from 14.80 to 16.47 in MCQ dataset and from 15.92 to 16.50 in Sciq dataset.
翻訳日:2024-06-21 19:24:08 公開日:2024-06-19
# 非ラベルデータを用いた南アフリカ産鳥類の自動音響モニタリング

Automated Bioacoustic Monitoring for South African Bird Species on Unlabeled Data ( http://arxiv.org/abs/2406.13579v1 )

ライセンス: Link先を確認
Michael Doell, Dominik Kuehn, Vanessa Suessle, Matthew J. Burnett, Colleen T. Downs, Andreas Weinmann, Elke Hergenroether, (参考訳) パッシブ・アコースティック・モニタリング(PAM)記録に基づく生物多様性モニタリングの分析は, 記録中の背景雑音の存在により, 時間がかかり, 課題となる。 既存の音響イベント検出(SED)モデルは、特定の鳥類種にのみ適用され、さらにラベル付きデータを必要とするモデルの開発が進められた。 開発されたフレームワークは、選択された鳥類種に対して利用可能なプラットフォームからラベル付きデータを自動抽出する。 ラベル付きデータは、環境音やノイズを含む録音に埋め込まれ、畳み込みリカレントニューラルネットワーク(CRNN)モデルのトレーニングに使用された。 都会のKwaZulu-Natalの生息域で記録された未処理の実環境データを用いて,そのモデルを評価した。 適応SED-CRNNモデルはF1スコア0.73に達し、ノイズの多い実世界の条件下で効率を実証した。 選択された鳥類種に対するラベル付きデータを自動的に抽出する手法は、将来の保全プロジェクトのために、他の種や生息地へのPAMの適応を容易にすることを可能にする。

Analyses for biodiversity monitoring based on passive acoustic monitoring (PAM) recordings is time-consuming and challenged by the presence of background noise in recordings. Existing models for sound event detection (SED) worked only on certain avian species and the development of further models required labeled data. The developed framework automatically extracted labeled data from available platforms for selected avian species. The labeled data were embedded into recordings, including environmental sounds and noise, and were used to train convolutional recurrent neural network (CRNN) models. The models were evaluated on unprocessed real world data recorded in urban KwaZulu-Natal habitats. The Adapted SED-CRNN model reached a F1 score of 0.73, demonstrating its efficiency under noisy, real-world conditions. The proposed approach to automatically extract labeled data for chosen avian species enables an easy adaption of PAM to other species and habitats for future conservation projects.
翻訳日:2024-06-21 19:24:08 公開日:2024-06-19
# 連続的医用画像分割のための低域混合技術

Low-Rank Mixture-of-Experts for Continual Medical Image Segmentation ( http://arxiv.org/abs/2406.13583v1 )

ライセンス: Link先を確認
Qian Chen, Lei Zhu, Hangzhou He, Xinliang Zhang, Shuang Zeng, Qiushi Ren, Yanye Lu, (参考訳) 医用画像セグメンテーション分野における継続学習(CL)タスクの第一の目的は、「破滅的な忘れ」問題を解決することであり、モデルは新しいカテゴリ(クラスレベル)やタスク(タスクレベル)に拡張された際に、以前に学習した特徴を完全に忘れることである。 プライバシー保護のため、歴史的なデータラベルはアクセスできない。 一般的な連続学習手法は、学習した特徴を記憶させるためにモデルを強制するために、古いデータセットの擬似ラベルを生成することに重点を置いている。 しかし、誤った擬似ラベルは学習した特徴を損なう可能性があり、モデルが古いタスクで訓練されるほど、モデルは新しいタスクで実行する貧弱になるという新たな問題を引き起こす可能性がある。 この問題を回避するため,新たなタスクやカテゴリを扱うために,データ固有のMixture of Experts(MoE)構造を導入し,従来のタスクのネットワークパラメータが影響を受けないか,最小限の影響しか与えないネットワークを提案する。 追加構造の導入によるメモリコストの増大を克服するため,メモリコストを大幅に削減する低ランク戦略を提案する。 クラスレベルおよびタスクレベルの連続学習課題に対して,本手法の有効性を検証した。 複数のデータセットに対する大規模な実験は、我々のモデルが他のすべての方法より優れていることを示している。

The primary goal of continual learning (CL) task in medical image segmentation field is to solve the "catastrophic forgetting" problem, where the model totally forgets previously learned features when it is extended to new categories (class-level) or tasks (task-level). Due to the privacy protection, the historical data labels are inaccessible. Prevalent continual learning methods primarily focus on generating pseudo-labels for old datasets to force the model to memorize the learned features. However, the incorrect pseudo-labels may corrupt the learned feature and lead to a new problem that the better the model is trained on the old task, the poorer the model performs on the new tasks. To avoid this problem, we propose a network by introducing the data-specific Mixture of Experts (MoE) structure to handle the new tasks or categories, ensuring that the network parameters of previous tasks are unaffected or only minimally impacted. To further overcome the tremendous memory costs caused by introducing additional structures, we propose a Low-Rank strategy which significantly reduces memory cost. We validate our method on both class-level and task-level continual learning challenges. Extensive experiments on multiple datasets show our model outperforms all other methods.
翻訳日:2024-06-21 19:24:08 公開日:2024-06-19
# 周波数マスキングを用いた時系列モデルの記述

Explaining time series models using frequency masking ( http://arxiv.org/abs/2406.13584v1 )

ライセンス: Link先を確認
Thea Brüsch, Kristoffer K. Wickstrøm, Mikkel N. Schmidt, Tommy S. Alstrøm, Robert Jenssen, (参考訳) 時系列データは、医療、金融、気候など多くの重要な領域を記述する上で、基本的に重要である。 これらの領域でeXplainable AI(XAI)を開発するには、時系列で有能な情報を説明する必要がある。 正当性マップを得るための現在の方法は、生の入力空間における局所的な情報を仮定する。 本稿では,複数の時系列の有意な情報が周波数領域に局所化される傾向にあることを論じる。 本稿では、FreqRISEを提案する。FreqRISEは、マスキングに基づく手法を用いて、複数のタスクにおいて最高のパフォーマンスを示す周波数領域と時間周波数領域の説明を生成する。

Time series data is fundamentally important for describing many critical domains such as healthcare, finance, and climate, where explainable models are necessary for safe automated decision-making. To develop eXplainable AI (XAI) in these domains therefore implies explaining salient information in the time series. Current methods for obtaining saliency maps assumes localized information in the raw input space. In this paper, we argue that the salient information of a number of time series is more likely to be localized in the frequency domain. We propose FreqRISE, which uses masking based methods to produce explanations in the frequency and time-frequency domain, which shows the best performance across a number of tasks.
翻訳日:2024-06-21 19:24:08 公開日:2024-06-19
# Ethereum 1.0によるMEVエコシステムの進化

MEV Ecosystem Evolution From Ethereum 1.0 ( http://arxiv.org/abs/2406.13585v1 )

ライセンス: Link先を確認
Rasheed, Yash Chaurasia, Parth Desai, Sujit Gujar, (参考訳) スマートコントラクトは、さまざまな参加者が金融活動に従事しているブロックチェーンエコシステム内の分散金融(DeFi)マーケットプレイスの出現につながった。 従来の金融では、例えば、市場不効率から価値を創出するための仲裁や、特権的な役割を持つ参加者に対して価値を抽出する事前提案など、価値を創出する可能性がある。 このような機会は -- DeFiでプログラムで検索できる。 文献では、最大抽出可能値(MEV)として知られている。 この調査では、まず、このような機会がいかに利益をもたらすかを示す。 次に、このような機会を捉えようとするプロトコル追従参加者が、ブロックチェーンのパフォーマンスと、ブロックチェーンが基盤とする分散化、透明性、信頼性のコアテテットを妨害する恐れがある方法について論じる。 そして、これらの問題とこれらのソリューションがもたらした問題に対処するために、過去にコミュニティが行った様々な試みを説明します。 最後に、すべてのDeFi参加者に公正な市場を提供するために、信頼の欠如と分散化を回復しようとする研究の現状を概観する。

Smart contracts led to the emergence of the decentralized finance (DeFi) marketplace within blockchain ecosystems, where diverse participants engage in financial activities. In traditional finance, there are possibilities to create values, e.g., arbitrage offers to create value from market inefficiencies or front-running offers to extract value for the participants having privileged roles. Such opportunities are readily available -- searching programmatically in DeFi. It is commonly known as Maximal Extractable Value (MEV) in the literature. In this survey, first, we show how lucrative such opportunities can be. Next, we discuss how protocol-following participants trying to capture such opportunities threaten to sabotage blockchain's performance and the core tenets of decentralization, transparency, and trustlessness that blockchains are based on. Then, we explain different attempts by the community in the past to address these issues and the problems introduced by these solutions. Finally, we review the current state of research trying to restore trustlessness and decentralization to provide all DeFi participants with a fair marketplace.
翻訳日:2024-06-21 19:24:08 公開日:2024-06-19
# サブモジュール型参加型予算編成

Submodular Participatory Budgeting ( http://arxiv.org/abs/2406.13586v1 )

ライセンス: Link先を確認
Jing Yuan, Shaojie Tang, (参考訳) 参加型予算編成(Participatory budgeting)とは、個人の嗜好を収集・集約することで公共資源を割り当てる慣習である。 この分野での既存の研究の多くは、各個人が各候補プロジェクトのプライベートユーティリティを保有する付加ユーティリティ機能を前提としており、資金提供されたプロジェクトの総ユーティリティは、単にすべてのプロジェクトのユーティリティの総和である。 この仮定が現実に常に成り立つとは限らないと我々は主張する。 例えば、同じ地区に2つの遊び場を建設することは、必ずしも1つの遊び場を建設するのに2倍の利点をもたらすとは限らない。 これを解決するために,各個人の実用関数が予算プロジェクトよりも単調かつ部分モジュラー関数であることを仮定して,部分モジュラー参加予算問題を提案することにより,既存の研究を拡張した。 本稿では,<emph{ rank-by-marginal-values>,<emph{ rank-by-values>,<emph{ rank-by-values>,<emph{threshold approval vote}の3つの選好選好法を提案し,歪みの観点から評価を行った。 特に、実用関数が加法的であれば、閾値承認投票用に設計されたアグリゲーションルールは、最先端のアプローチよりも歪みがよい。

Participatory budgeting refers to the practice of allocating public resources by collecting and aggregating individual preferences. Most existing studies in this field often assume an additive utility function, where each individual holds a private utility for each candidate project, and the total utility of a set of funded projects is simply the sum of the utilities of all projects. We argue that this assumption does not always hold in reality. For example, building two playgrounds in the same neighborhood does not necessarily lead to twice the utility of building a single playground. To address this, we extend the existing study by proposing a submodular participatory budgeting problem, assuming that the utility function of each individual is a monotone and submodular function over funded projects. We propose and examine three preference elicitation methods, including \emph{ranking-by-marginal-values}, \emph{ranking-by-values} and \emph{threshold approval votes}, and analyze their performances in terms of distortion. Notably, if the utility function is addicative, our aggregation rule designed for threshold approval votes achieves a better distortion than the state-of-the-art approach.
翻訳日:2024-06-21 19:24:08 公開日:2024-06-19
# CNNを用いた四足動物用フランク予測器

CNN Based Flank Predictor for Quadruped Animal Species ( http://arxiv.org/abs/2406.13588v1 )

ライセンス: Link先を確認
Vanessa Suessle, Marco Heurich, Colleen T. Downs, Andreas Weinmann, Elke Hergenroether, (参考訳) 視覚的な体格を持つ動物の側面の左右の非対称性は、個体をユニークに識別し、人口推定のようなタスクを複雑にする。 動物の視界上の情報を自動的に生成すると、個人識別の精度が向上する。 本研究では、一般的なCNN画像分類アーキテクチャを用いたトランスファーラーニングを用いて、画像中の四重化哺乳類の視線側面を予測する側面予測器を訓練した。 動物ポーズ推定のためにラベル付けされた既存のデータセットから,データラベルを自動的に抽出する。 モデルのトレーニングは2段階に分けて行いました。 発達したモデルは、未知の環境と未知の環境において、異なる未知の四つ組種の異なるシナリオで評価された。 実世界のシナリオとして、バイエルン森林国立公園のカメラトラップから手動でEurasian lynx(Lynx lynx)とラベル付けしたデータセットを用いて、モデルを評価した。 EfficientNetV2のバックボーンで訓練された最良のモデルは、複雑な生息地において未知の種であるlynxに対して88.70%の精度を達成した。

The bilateral asymmetry of flanks of animals with visual body marks that uniquely identify an individual, complicates tasks like population estimations. Automatically generated additional information on the visible side of the animal would improve the accuracy for individual identification. In this study we used transfer learning on popular CNN image classification architectures to train a flank predictor that predicts the visible flank of quadruped mammalian species in images. We automatically derived the data labels from existing datasets originally labeled for animal pose estimation. We trained the models in two phases with different degrees of retraining. The developed models were evaluated in different scenarios of different unknown quadruped species in known and unknown environments. As a real-world scenario, we used a dataset of manually labeled Eurasian lynx (Lynx lynx) from camera traps in the Bavarian Forest National Park to evaluate the model. The best model, trained on an EfficientNetV2 backbone, achieved an accuracy of 88.70 % for the unknown species lynx in a complex habitat.
翻訳日:2024-06-21 19:24:08 公開日:2024-06-19
# GraphKAN: Graph Kolmogorov Arnold Networksによる機能抽出の強化

GraphKAN: Enhancing Feature Extraction with Graph Kolmogorov Arnold Networks ( http://arxiv.org/abs/2406.13597v1 )

ライセンス: Link先を確認
Fan Zhang, Xin Zhang, (参考訳) 膨大な数のアプリケーションには、非ユークリッド空間に埋め込まれた基礎となる関係を持つデータが含まれる。 グラフニューラルネットワーク(GNN)は、グラフ内の依存関係をキャプチャして特徴を抽出するために使用される。 基本性能にもかかわらず、多層パーセプトロン(MLP)と固定活性化関数は情報損失による特徴抽出を阻害すると主張している。 Kolmogorov Arnold Networks (KANs) にインスパイアされた私たちは,kans による GNN の最初の試みを行う。 我々はMLPとアクティベーション機能を廃止し、代わりに機能抽出にkansを使用しました。 実験はGraphKANの有効性を実証し、強力なツールとしてkansの可能性を強調した。 コードはhttps://github.com/Ryanfzhang/GraphKan.comで入手できる。

Massive number of applications involve data with underlying relationships embedded in non-Euclidean space. Graph neural networks (GNNs) are utilized to extract features by capturing the dependencies within graphs. Despite groundbreaking performances, we argue that Multi-layer perceptrons (MLPs) and fixed activation functions impede the feature extraction due to information loss. Inspired by Kolmogorov Arnold Networks (KANs), we make the first attempt to GNNs with KANs. We discard MLPs and activation functions, and instead used KANs for feature extraction. Experiments demonstrate the effectiveness of GraphKAN, emphasizing the potential of KANs as a powerful tool. Code is available at https://github.com/Ryanfzhang/GraphKan.
翻訳日:2024-06-21 19:24:08 公開日:2024-06-19
# Oddsの定義 - Solana氏の予想外のレジリエンス - 開発者が直面したセキュリティ問題

Defying the Odds: Solana's Unexpected Resilience in Spite of the Security Challenges Faced by Developers ( http://arxiv.org/abs/2406.13599v1 )

ライセンス: Link先を確認
Sébastien Andreina, Tobias Cloosters, Lucas Davi, Jens-Rene Giesen, Marco Gutfleisch, Ghassan Karame, Alena Naiakshina, Houda Naji, (参考訳) Solanaは、分散アプリケーションをデプロイする最も人気のあるブロックチェーンプラットフォームのひとつとして、かなりの注目を集めた。 しかしEthereumと比較して、Solanaのスマートコントラクト開発者がセキュリティをどのように扱うのか、どのような課題に直面しているのか、これがエコシステム全体のセキュリティに与える影響について、研究の欠如を観察しています。 そこで我々は,90分間のSolanaスマートコントラクトコードレビュータスクと,35人の参加者によるSolanaプラットフォームに関する総合的な調査を行った。 私たちの調査によると、コードレビュータスクで重要なセキュリティ脆弱性を検出できた人は誰もおらず、参加者の83%が脆弱なスマートコントラクトをリリースする可能性が高い。 我々の研究は、Solanaスマートコントラクト開発における開発者の課題の根本原因にも光を当て、より良いセキュリティガイダンスとリソースの必要性を示唆しています。 このような課題にも拘わらず、現在デプロイされているSolanaスマートコントラクトの自動分析では、脆弱性(特に開発者調査で最も難しいと指摘しているもの)の頻度が0.3%未満であることを驚くほど示唆しています。 この反直感的なレジリエンスの原因を探り、AnchorのようなフレームワークがSolana開発者がセキュアなコントラクトをデプロイするのを支援していることを示す。

Solana gained considerable attention as one of the most popular blockchain platforms for deploying decentralized applications. Compared to Ethereum, however, we observe a lack of research on how Solana smart contract developers handle security, what challenges they encounter, and how this affects the overall security of the ecosystem. To address this, we conducted the first comprehensive study on the Solana platform consisting of a 90-minute Solana smart contract code review task with 35 participants followed by interviews with a subset of seven participants. Our study shows, quite alarmingly, that none of the participants could detect all important security vulnerabilities in a code review task and that 83% of the participants are likely to release vulnerable smart contracts. Our study also sheds light on the root causes of developers' challenges with Solana smart contract development, suggesting the need for better security guidance and resources. In spite of these challenges, our automated analysis on currently deployed Solana smart contracts surprisingly suggests that the prevalence of vulnerabilities - especially those pointed out as the most challenging in our developer study - is below 0.3%. We explore the causes of this counter-intuitive resilience and show that frameworks, such as Anchor, are aiding Solana developers in deploying secure contracts.
翻訳日:2024-06-21 19:24:08 公開日:2024-06-19
# CoDreamer: コミュニケーションベースの分散世界モデル

CoDreamer: Communication-Based Decentralised World Models ( http://arxiv.org/abs/2406.13600v1 )

ライセンス: Link先を確認
Edan Toledo, Amanda Prorok, (参考訳) サンプル効率は強化学習において重要な課題である。 モデルベースのRLは、ソリューションとして登場したが、そのアプリケーションは、主に単一エージェントのシナリオに限られている。 本研究では,マルチエージェント環境のためのDreamerアルゴリズムの拡張であるCoDreamerを紹介する。 CoDreamerはグラフニューラルネットワークを2レベル通信システムとして利用し、部分観測可能性やエージェント間の協調といった課題に対処する。 コミュニケーションは、学習された世界のモデルと、各エージェントの学習されたポリシーの中で別々に利用され、モデリングとタスク解決を強化する。 我々は,CoDreamerがDreamerの素質的応用よりも表現力が高く,多様なマルチエージェント環境におけるベースライン手法よりも優れていることを示す。

Sample efficiency is a critical challenge in reinforcement learning. Model-based RL has emerged as a solution, but its application has largely been confined to single-agent scenarios. In this work, we introduce CoDreamer, an extension of the Dreamer algorithm for multi-agent environments. CoDreamer leverages Graph Neural Networks for a two-level communication system to tackle challenges such as partial observability and inter-agent cooperation. Communication is separately utilised within the learned world models and within the learned policies of each agent to enhance modelling and task-solving. We show that CoDreamer offers greater expressive power than a naive application of Dreamer, and we demonstrate its superiority over baseline methods across various multi-agent environments.
翻訳日:2024-06-21 19:24:08 公開日:2024-06-19
# Rootは、クラウドエッジコラボレーション環境におけるマイクロサービスシステムのローカライズの原因となる

Root Cause Localization for Microservice Systems in Cloud-edge Collaborative Environments ( http://arxiv.org/abs/2406.13604v1 )

ライセンス: Link先を確認
Yuhan Zhu, Jian Wang, Bing Li, Xuxian Tang, Hao Li, Neng Zhang, Yuqi Zhao, (参考訳) クラウドネイティブなテクノロジの開発により、マイクロサービスベースのソフトウェアシステムは、障害発生時の根本原因を正確にローカライズする上で、課題に直面します。 さらに、クラウドとエッジのコラボレーティブ環境は、不安定なネットワークやネットワークセグメント間の高いレイテンシなど、さらなる困難をもたらす。 クラウドエッジのコラボレーティブ環境におけるマイクロサービスの根本原因を正確に特定することは、緊急の問題となっている。 本稿では,クラウドエッジ協調環境におけるカーネルとアプリケーションレベルで根本原因をピンポイントする新しいアプローチであるMicroCERCLを提案する。 私たちの重要な洞察は、障害は、不安定性と高いレイテンシを特徴とする、クラウドとエッジの協調環境において、直接の呼び出しと間接的なリソース競合依存関係を通じて伝播する、ということです。 これは、複数のマイクロサービスシステムを同時に含むハイブリッドデプロイメントにおいて、さらに複雑になるでしょう。 この知見を利用して、カーネルレベルの根本原因のローカライズを優先するために、カーネルレベルのログから有効な内容を抽出する。 さらに、異種動的トポロジスタックを構築し、グラフニューラルネットワークモデルをトレーニングし、履歴データに頼ることなく、アプリケーションレベルの根本原因を正確にローカライズする。 特に、私たちは、クラウドとエッジのコラボレーション環境(私たちの知る中で最大の、最も複雑な)における、最初のベンチマークハイブリッドデプロイメントマイクロサービスシステムをリリースしました。 ベンチマークから収集したデータセットで行った実験によると、MicroCERCLはそのような環境でマイクロサービスシステムの根本原因を正確にローカライズすることができ、少なくともトップ1の精度で24.1%の精度で最先端のアプローチを大幅に上回っている。

With the development of cloud-native technologies, microservice-based software systems face challenges in accurately localizing root causes when failures occur. Additionally, the cloud-edge collaborative environment introduces more difficulties, such as unstable networks and high latency across network segments. Accurately identifying the root cause of microservices in a cloud-edge collaborative environment has thus become an urgent problem. In this paper, we propose MicroCERCL, a novel approach that pinpoints root causes at the kernel and application level in the cloud-edge collaborative environment. Our key insight is that failures propagate through direct invocations and indirect resource-competition dependencies in a cloud-edge collaborative environment characterized by instability and high latency. This will become more complex in the hybrid deployment that simultaneously involves multiple microservice systems. Leveraging this insight, we extract valid contents from kernel-level logs to prioritize localizing the kernel-level root cause. Moreover, we construct a heterogeneous dynamic topology stack and train a graph neural network model to accurately localize the application-level root cause without relying on historical data. Notably, we released the first benchmark hybrid deployment microservice system in a cloud-edge collaborative environment (the largest and most complex within our knowledge). Experiments conducted on the dataset collected from the benchmark show that MicroCERCL can accurately localize the root cause of microservice systems in such environments, significantly outperforming state-of-the-art approaches with an increase of at least 24.1% in top-1 accuracy.
翻訳日:2024-06-21 19:24:08 公開日:2024-06-19
# 人間より大きな言語モデル:囚人のジレンマにはどのようにあるのか?

Nicer Than Humans: How do Large Language Models Behave in the Prisoner's Dilemma? ( http://arxiv.org/abs/2406.13605v1 )

ライセンス: Link先を確認
Nicoló Fontana, Francesco Pierri, Luca Maria Aiello, (参考訳) 人工社会エージェントとしてのLarge Language Models (LLMs) の行動はほとんど解明されておらず、これらのエージェントが単純な社会的刺激にどのように反応するかの証拠は乏しい。 古典ゲーム理論の実験においてAIエージェントの振る舞いをテストすることは、これらのエージェントの規範と価値を古来の社会的状況で評価するための有望な理論的枠組みを提供する。 本研究は,Llama2の反復投獄者のジレンマ演奏における,様々なレベルの敵意を示すランダムな敵に対する協調行動について検討する。 ゲームルールに対するLLMの理解度を評価するための体系的手法と,歴史的ゲームログを解析して意思決定を行う能力を紹介する。 我々は,100ラウンドにわたるゲームシミュレーションを行い,行動経済学の文献で定義された次元でLLMの決定を解析した。 Llama2は障害を起こさない傾向にあるが、これは協力への慎重なアプローチを採用しており、相手が欠陥率を30%以下に下げる場合にのみ、予防的かつ非報復的な行動へと急進的に移行している。 ヒトの参加者に関する以前の研究と比較すると、Llama2は協調行動に対するより強い傾きを示す。 ゲーム理論シナリオにおけるLLM研究の体系的アプローチは,これらのシミュレーションを用いてLLM監査とアライメントの実践を通知するためのステップである。

The behavior of Large Language Models (LLMs) as artificial social agents is largely unexplored, and we still lack extensive evidence of how these agents react to simple social stimuli. Testing the behavior of AI agents in classic Game Theory experiments provides a promising theoretical framework for evaluating the norms and values of these agents in archetypal social situations. In this work, we investigate the cooperative behavior of Llama2 when playing the Iterated Prisoner's Dilemma against random adversaries displaying various levels of hostility. We introduce a systematic methodology to evaluate an LLM's comprehension of the game's rules and its capability to parse historical gameplay logs for decision-making. We conducted simulations of games lasting for 100 rounds, and analyzed the LLM's decisions in terms of dimensions defined in behavioral economics literature. We find that Llama2 tends not to initiate defection but it adopts a cautious approach towards cooperation, sharply shifting towards a behavior that is both forgiving and non-retaliatory only when the opponent reduces its rate of defection below 30%. In comparison to prior research on human participants, Llama2 exhibits a greater inclination towards cooperative behavior. Our systematic approach to the study of LLMs in game theoretical scenarios is a step towards using these simulations to inform practices of LLM auditing and alignment.
翻訳日:2024-06-21 19:24:08 公開日:2024-06-19
# DDLNet:デュアルドメイン学習によるリモートセンシング変更検出の強化

DDLNet: Boosting Remote Sensing Change Detection with Dual-Domain Learning ( http://arxiv.org/abs/2406.13606v1 )

ライセンス: Link先を確認
Xiaowen Ma, Jiawei Yang, Rui Che, Huanting Zhang, Wei Zhang, (参考訳) リモートセンシング変化検出(RSCD)は、マルチ時間リモートセンシング画像を分析して、地域における関心の変化を識別することを目的としており、ローカル開発監視には優れた価値がある。 既存のRSCD法は、関心の変化を高めるために空間領域におけるコンテキストモデリングに費やされている。 十分な性能が達成されたにもかかわらず、周波数領域における知識の欠如は、モデル性能のさらなる改善を制限する。 本稿では、二重ドメイン学習(周波数領域と空間領域)に基づくRSCDネットワークであるDDLNetを提案する。 特に、周波数領域拡張モジュール(FEM)を設計し、離散コサイン変換(DCT)を用いて入力されたバイテンポラル画像から周波数成分をキャプチャし、関心の変化を高める。 また,空間領域復元モジュール (SRM) を設計し,空間的表現の空間的詳細を再構築するための時空間的特徴を融合する。 3つのベンチマークRSCDデータセットの大規模な実験により、提案手法は最先端の性能を達成し、より良好な精度と効率のトレードオフに達することを示した。 私たちのコードはhttps://github.com/xwmaxwma/rschange.comで公開されています。

Remote sensing change detection (RSCD) aims to identify the changes of interest in a region by analyzing multi-temporal remote sensing images, and has an outstanding value for local development monitoring. Existing RSCD methods are devoted to contextual modeling in the spatial domain to enhance the changes of interest. Despite the satisfactory performance achieved, the lack of knowledge in the frequency domain limits the further improvement of model performance. In this paper, we propose DDLNet, a RSCD network based on dual-domain learning (i.e., frequency and spatial domains). In particular, we design a Frequency-domain Enhancement Module (FEM) to capture frequency components from the input bi-temporal images using Discrete Cosine Transform (DCT) and thus enhance the changes of interest. Besides, we devise a Spatial-domain Recovery Module (SRM) to fuse spatiotemporal features for reconstructing spatial details of change representations. Extensive experiments on three benchmark RSCD datasets demonstrate that the proposed method achieves state-of-the-art performance and reaches a more satisfactory accuracy-efficiency trade-off. Our code is publicly available at https://github.com/xwmaxwma/rschange.
翻訳日:2024-06-21 19:24:08 公開日:2024-06-19
# 超高精細復元 : 新しいベンチマークとデュアルインタラクション優先型ソリューション

Ultra-High-Definition Restoration: New Benchmarks and A Dual Interaction Prior-Driven Solution ( http://arxiv.org/abs/2406.13607v1 )

ライセンス: Link先を確認
Liyan Wang, Cong Wang, Jinshan Pan, Weixiang Zhou, Xiaoran Sun, Wei Wang, Zhixun Su, (参考訳) 超高精細画像復元(UHD)は,その実用的需要から注目されている。 本稿では, UHD-Snow と UHD-Rain という, UHD 雪と降雨のベンチマークを構築し, この分野での不足を解消する。 UHD-Snow/UHD-Rainは雨・雪の物理過程をシミュレーションして構築され、それぞれのベンチマークには4K解像度の3200の劣化/クラー画像対が含まれている。 さらに,これらの先行画像の空間的および詳細的な寄与により,モデル設計の勾配や正規化を考慮し,有効なUHD画像復元ソリューションを提案する。 具体的には,本手法は2つの枝を含む。 (a)高分解能空間における特徴融合再生枝 (b)低分解能空間における先行的特徴相互作用分岐。 前者は高精細な特徴を学習し、前者は高精細な画像を再構成するために事前誘導された低精細な特徴を融合する。 これらの先行処理をよりよく活用するために、前者は正常な特徴と勾配の先行処理を融合させ、後者は強化された先行処理の類似性を計算し、さらに二重誘導フィルタリングを利用して二重先行処理の特性相互作用を増強する、単一先行処理と二重先行処理を導入する。 提案手法は,UHD画像の低照度化,UHD画像のデソイング,UHD画像のデコライニングについて,新規および既存両方の公開データセットの実験を行い,その最先端性能を実証する。 ソースコードとベンチマークは \url{https://github.com/wlydlut/UHDDIP} で公開されている。

Ultra-High-Definition (UHD) image restoration has acquired remarkable attention due to its practical demand. In this paper, we construct UHD snow and rain benchmarks, named UHD-Snow and UHD-Rain, to remedy the deficiency in this field. The UHD-Snow/UHD-Rain is established by simulating the physics process of rain/snow into consideration and each benchmark contains 3200 degraded/clear image pairs of 4K resolution. Furthermore, we propose an effective UHD image restoration solution by considering gradient and normal priors in model design thanks to these priors' spatial and detail contributions. Specifically, our method contains two branches: (a) feature fusion and reconstruction branch in high-resolution space and (b) prior feature interaction branch in low-resolution space. The former learns high-resolution features and fuses prior-guided low-resolution features to reconstruct clear images, while the latter utilizes normal and gradient priors to mine useful spatial features and detail features to guide high-resolution recovery better. To better utilize these priors, we introduce single prior feature interaction and dual prior feature interaction, where the former respectively fuses normal and gradient priors with high-resolution features to enhance prior ones, while the latter calculates the similarity between enhanced prior ones and further exploits dual guided filtering to boost the feature interaction of dual priors. We conduct experiments on both new and existing public datasets and demonstrate the state-of-the-art performance of our method on UHD image low-light enhancement, UHD image desonwing, and UHD image deraining. The source codes and benchmarks are available at \url{https://github.com/wlydlut/UHDDIP}.
翻訳日:2024-06-21 19:24:07 公開日:2024-06-19
# バイナリチャネル上のWiretappedコミット

Wiretapped Commitment over Binary Channels ( http://arxiv.org/abs/2406.13608v1 )

ライセンス: Link先を確認
Anuj Kumar Yadav, Manideep Mamindlapally, Amitalok J. Budkuley, (参考訳) Eve氏によると、私たちは、コメンテーターのAliceとレシーバーのBobという2人の当事者が、盗聴者の存在下で、ノイズの多いチャネルをリソースとして使用するコミットメントプロトコルに取り組む、有線コミットメントの問題を提案している。 アリスの盗聴チャンネルへの送信はボブとイヴの両方で受信される。 我々は、盗聴器の存在下での最大コミットメントスループット、すなわち、盗聴されたコミットメント能力、すなわち、二者間のコミットメントの標準的なセキュリティ要件に加えて、Eveがコミット文字列について学ばないことを確実にする。 この研究における重要な関心は、盗聴者イヴとアリスまたはボブの共謀(またはそれの欠如)の効果を探ることである。 同様に、いわゆる1-private regime(アリスまたはボブがEveと共謀できない場合)と2-private regime(アリスまたはボブがイヴと共謀している場合)の下で、有線接続されたコミットメント能力に関する結果を示す。

We propose the problem of wiretapped commitment, where two parties, say committer Alice and receiver Bob, engage in a commitment protocol using a noisy channel as a resource, in the presence of an eavesdropper, say Eve. Noisy versions of Alice's transmission over the wiretap channel are received at both Bob and Eve. We seek to determine the maximum commitment throughput in the presence of an eavesdropper, i.e., wiretapped commitment capacity, where in addition to the standard security requirements for two-party commitment, one seeks to ensure that Eve doesn't learn about the commit string. A key interest in this work is to explore the effect of collusion (or lack of it) between the eavesdropper Eve and either Alice or Bob. Toward the same, we present results on the wiretapped commitment capacity under the so-called 1-private regime (when Alice or Bob cannot collude with Eve) and the 2-private regime (when Alice or Bob may possibly collude with Eve).
翻訳日:2024-06-21 19:14:23 公開日:2024-06-19
# 一般化量子計測によるk-SAT問題の解法

Solving k-SAT problems with generalized quantum measurement ( http://arxiv.org/abs/2406.13611v1 )

ライセンス: Link先を確認
Yipei Zhang, Philippe Lewalle, K. Birgitta Whaley, (参考訳) 我々は、ベンジャミン、ザオ、フィッツシモンズ(BZF, arxiv:1711.02687)のプロジェクションに基づく量子測定駆動の$k$-SATアルゴリズムを、連続的なモニタリングの限界を含む任意の強度量子測定に一般化する。 そこで我々は,このアルゴリズムが「ゼノ・ドラッギング(Zeno dragging)」と呼ばれる測定駆動型量子制御戦略の特別な場合であることを明らかにした。 このアルゴリズムは、無限小の強度と持続時間を持つ連続極限において、有限時間と測定資源で最も効率的であると主張する。 さらに、解答可能な$k$-SAT問題に対しては、アルゴリズムが生成したダイナミクスは、長期(Zeno)限界におけるターゲットダイナミクスに決定論的に収束し、検出することなくリンドブラッド散逸による自律的な動作が可能であることを示唆する。 その後、一般化された測定によって実装されたアルゴリズムの条件力学と非条件動力学の両方を研究し、誤り検出の利点を定量化する。 これらの戦略は、まず直観を構築するために計算的に自明な2$-qubitの2$-SAT問題において検討され、次に4〜10$-qubitで符号化された3$-SAT問題に対するアルゴリズムのスケーリングを検討する。 解を得るのに必要なショットの平均数は、キュービット数$\lambda^n$でスケールする。 ドラッグアウト時間(最終読み出しのみ)をなくすには、$\lambda = 2$(可能なソリューションに対するブルートフォース検索に対応する)を見つけます。 しかし、Adiabatic (Zeno) の極限におけるアルゴリズムの決定論的(自律的な)性質は、成長するプレファクターのコストで、$\lambda$を任意に$$$$$$にすることができることを意味している。 本稿では,これらのスケーリングにおけるアルゴリズム実行時のトレードオフを数値的に検討し,このアナログ計測駆動のアプローチを実際に量子コンピューティングに適用する上での意義を評価する。

We generalize the projection-based quantum measurement-driven $k$-SAT algorithm of Benjamin, Zhao, and Fitzsimons (BZF, arxiv:1711.02687) to arbitrary strength quantum measurements, including the limit of continuous monitoring. In doing so, we clarify that this algorithm is a particular case of the measurement-driven quantum control strategy elsewhere referred to as "Zeno dragging". We argue that the algorithm is most efficient with finite time and measurement resources in the continuum limit, where measurements have an infinitesimal strength and duration. Moreover, for solvable $k$-SAT problems, the dynamics generated by the algorithm converge deterministically towards target dynamics in the long-time (Zeno) limit, implying that the algorithm can successfully operate autonomously via Lindblad dissipation, without detection. We subsequently study both the conditional and unconditional dynamics of the algorithm implemented via generalized measurements, quantifying the advantages of detection for heralding errors. These strategies are investigated first in a computationally-trivial $2$-qubit $2$-SAT problem to build intuition, and then we consider the scaling of the algorithm on $3$-SAT problems encoded with $4 - 10$ qubits. The average number of shots needed to obtain a solution scales with qubit number as $\lambda^n$. For vanishing dragging time (with final readout only), we find $\lambda = 2$ (corresponding to a brute-force search over possible solutions). However, the deterministic (autonomous) property of the algorithm in the adiabatic (Zeno) limit implies that we can drive $\lambda$ arbitrarily close to $1$, at the cost of a growing pre-factor. We numerically investigate the tradeoffs in these scalings with respect to algorithmic runtime and assess their implications for using this analog measurement-driven approach to quantum computing in practice.
翻訳日:2024-06-21 19:14:23 公開日:2024-06-19
# 量子増強センシングのための絡み合った物質波

Entangled Matter-waves for Quantum Enhanced Sensing ( http://arxiv.org/abs/2406.13616v1 )

ライセンス: Link先を確認
John Drew Wilson, Jarrod T. Reilly, Haoqing Zhang, Chengyi Luo, Anjun Chu, James K. Thompson, Ana Maria Rey, Murray J. Holland, (参考訳) エンタングルメントの生成と利用は、量子センシングとシミュレーションの分野において不可欠であり、超低温の原子空洞システムは、この事業のための原始的なプラットフォームを提供する。 最近実験では、共有キャビティモードにおける原子間の効果的な運動量-交換相互作用が実証された。 本稿では、この相互作用を一般原子空洞モデルから導き、原子運動に対する共振器の周波数シフトの役割について論じる。 キャビティ応答は、原子運動量状態間の多くの異なるスキーズ相互作用をもたらすことを示す。 さらに、原子が密度格子を形成すると、集合運動は1軸のねじれ、多体エネルギーギャップ、そしてノイズの存在下でも、気象学的に有用な絡み合いをもたらす。 このシステムは高度に調整可能な多体量子センサーとシミュレータを提供する。

The ability to create and harness entanglement is crucial to the fields of quantum sensing andsimulation, and ultracold atom-cavity systems offer pristine platforms for this undertaking. Recently, an experiment demonstrated an effective momentum-exchange interaction between atoms in a common cavity mode. Here, we derive this interaction from a general atom-cavity model, and discuss the role of the cavity frequency shift in response to atomic motion. We show the cavity response leads to many different squeezing interactions between the atomic momentum states. Furthermore, when the atoms form a density grating, the collective motion leads to one-axis twisting, a many-body energy gap, and metrologically useful entanglement even in the presence of noise. This system offers a highly tunable, many-body quantum sensor and simulator.
翻訳日:2024-06-21 19:14:23 公開日:2024-06-19
# 指導型大規模言語モデルによる心理的コウンセリングの最適化

Optimizing Psychological Counseling with Instruction-Tuned Large Language Models ( http://arxiv.org/abs/2406.13617v1 )

ライセンス: Link先を確認
Wenjie Li, Tianyu Sun, Kun Qian, Wenhong Wang, (参考訳) 大規模言語モデル(LLM)の出現は、自然言語処理や自動対話システムなど、様々な分野を著しく進歩させてきた。 本稿では,心理カウンセリングにおけるLSMの適用について検討し,メンタルヘルスサービスの需要の増加に対処する。 本稿では,共感的,関連性,支援的な応答を提供することで,特定のプロンプトを持つLLMを指導し,その性能を高める方法を提案する。 我々のアプローチでは、カウンセリング固有のプロンプトの包括的なデータセットを作成し、プロのカウンセラーからのフィードバックを通じてそれらを精査し、自動測定と人的評価の両方を用いて厳密な評価を行う。 以上の結果から,我々の指導訓練モデルは,精神保健支援のためのスケーラブルでアクセシブルなツールとしての可能性を強調し,いくつかのベースラインLCMよりも優れていたことが示唆された。

The advent of large language models (LLMs) has significantly advanced various fields, including natural language processing and automated dialogue systems. This paper explores the application of LLMs in psychological counseling, addressing the increasing demand for mental health services. We present a method for instruction tuning LLMs with specialized prompts to enhance their performance in providing empathetic, relevant, and supportive responses. Our approach involves developing a comprehensive dataset of counseling-specific prompts, refining them through feedback from professional counselors, and conducting rigorous evaluations using both automatic metrics and human assessments. The results demonstrate that our instruction-tuned model outperforms several baseline LLMs, highlighting its potential as a scalable and accessible tool for mental health support.
翻訳日:2024-06-21 19:14:23 公開日:2024-06-19
# In-Context former:大規模言語モデルのためのLightning-fast Compressing Context

In-Context Former: Lightning-fast Compressing Context for Large Language Model ( http://arxiv.org/abs/2406.13618v1 )

ライセンス: Link先を確認
Xiangfeng Wang, Zaiyi Chen, Zheyong Xie, Tong Xu, Yongyi He, Enhong Chen, (参考訳) Transformerベースの大規模言語モデル(LLM)の人気が高まり、高い推論コストの削減が研究の焦点となっている。 一つの効果的なアプローチは、長い入力コンテキストを圧縮することである。 既存の手法は通常、LLM自体の自己認識機構をコンテキスト圧縮に活用する。 これらの手法は顕著な結果を得たが、圧縮プロセスには2次時間の複雑さが伴うため、適用性が制限される。 この制限を緩和するため、我々はIn-Context former (IC-Former)を提案する。 従来の方法とは異なり、IC-FormerはターゲットのLSMに依存しない。 代わりに、クロスアテンション機構と少数の学習可能なダイジェストトークンを活用して、コンテキスト単語の埋め込みから直接情報を凝縮する。 このアプローチは推論時間を著しく短縮し、圧縮範囲内での時間複雑性の線形成長を実現する。 提案手法は, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上させるとともに, 評価基準の90%以上を達成できることを示した。 全体として,本モデルは圧縮コストを効果的に低減し,リアルタイム圧縮シナリオの実現を可能にする。

With the rising popularity of Transformer-based large language models (LLMs), reducing their high inference costs has become a significant research focus. One effective approach is to compress the long input contexts. Existing methods typically leverage the self-attention mechanism of the LLM itself for context compression. While these methods have achieved notable results, the compression process still involves quadratic time complexity, which limits their applicability. To mitigate this limitation, we propose the In-Context Former (IC-Former). Unlike previous methods, IC-Former does not depend on the target LLMs. Instead, it leverages the cross-attention mechanism and a small number of learnable digest tokens to directly condense information from the contextual word embeddings. This approach significantly reduces inference time, which achieves linear growth in time complexity within the compression range. Experimental results indicate that our method requires only 1/32 of the floating-point operations of the baseline during compression and improves processing speed by 68 to 112 times while achieving over 90% of the baseline performance on evaluation metrics. Overall, our model effectively reduces compression costs and makes real-time compression scenarios feasible.
翻訳日:2024-06-21 19:14:23 公開日:2024-06-19
# Wasserstein-2損失最小化による生成モデリング

Generative Modeling by Minimizing the Wasserstein-2 Loss ( http://arxiv.org/abs/2406.13619v1 )

ライセンス: Link先を確認
Yu-Jui Huang, Zachariah Malik, (参考訳) 本稿では,2次Wasserstein損失(W_2$損失)を最小化することにより,教師なし学習問題にアプローチする。 最小化は分布依存常微分方程式(ODE)によって特徴づけられ、その力学は現在の推定分布と真のデータ分布の間のカントロビウスポテンシャルを含む。 主な結果は、ODEの時空間法則が真のデータ分布に指数関数的に収束することを示している。 ODE が一意解であることを証明するため、まず、関連する非線形フォッカー・プランク方程式の解を明示的に構築し、W_2$損失に対する一意勾配流と一致することを示す。 これに基づいて、ODEのユニークな解は、トレビサンの重ね合わせ原理と指数収束結果から作られる。 分布依存ODEに対してオイラースキームが提案され、限界の$W_2$損失に対する勾配流を正確に回復することが示されている。 アルゴリズムは、このスキームに従い、永続的なトレーニングを適用することで設計されます。 低次元と高次元の両方の実験において、我々のアルゴリズムは、持続的トレーニングのレベルを適切に増加させることで、ワッサーシュタイン生成逆数ネットワークよりもはるかに高速に収束し、性能が向上する。

This paper approaches the unsupervised learning problem by minimizing the second-order Wasserstein loss (the $W_2$ loss). The minimization is characterized by a distribution-dependent ordinary differential equation (ODE), whose dynamics involves the Kantorovich potential between a current estimated distribution and the true data distribution. A main result shows that the time-marginal law of the ODE converges exponentially to the true data distribution. To prove that the ODE has a unique solution, we first construct explicitly a solution to the associated nonlinear Fokker-Planck equation and show that it coincides with the unique gradient flow for the $W_2$ loss. Based on this, a unique solution to the ODE is built from Trevisan's superposition principle and the exponential convergence results. An Euler scheme is proposed for the distribution-dependent ODE and it is shown to correctly recover the gradient flow for the $W_2$ loss in the limit. An algorithm is designed by following the scheme and applying persistent training, which is natural in our gradient-flow framework. In both low- and high-dimensional experiments, our algorithm converges much faster than and outperforms Wasserstein generative adversarial networks, by increasing the level of persistent training appropriately.
翻訳日:2024-06-21 19:14:23 公開日:2024-06-19
# 複数画像生成による言語モデルにおけるビジュアルコモンセンスの改善

Improving Visual Commonsense in Language Models via Multiple Image Generation ( http://arxiv.org/abs/2406.13621v1 )

ライセンス: Link先を確認
Guy Yariv, Idan Schwartz, Yossi Adi, Sagie Benaim, (参考訳) 常識推論は基本的にマルチモーダルな知識に基づいている。 しかし、既存の大規模言語モデル(LLM)は、主にテキストデータのみを使用して訓練されており、重要な視覚情報を組み込む能力を制限する。 対照的に、視覚的に指向するタスクに優れたビジュアル言語モデルは、基本的なコモンセンス推論のような視覚的でないタスクで失敗することが多い。 この分散は、基本的なテキストベースの言語推論と堅牢な視覚的理解の統合という、重要な課題を浮き彫りにする。 そこで本研究では,LLMの視覚的コモンセンス向上を目的とした手法を提案する。 具体的には、入力テキストプロンプトに基づいて複数の画像を生成し、それらの予測確率を混合することにより、モデルの意思決定プロセスに統合する。 マルチモーダルな基底言語モデリングを容易にするために,テキストのみに条件付き学習済みLLMの出力と投影された視覚特徴を結合したレイトフュージョン層を用いる。 このレイトフュージョン層は、包括的な画像テキスト知識に基づく予測と、それが必要なときにのみテキストを可能にする。 我々は,複数の視覚的常識推論タスクと従来のNLPタスクを用いて,共通感覚推論や読解理解を含むアプローチを評価した。 実験の結果,既存のベースラインよりも有意な優位性を示した。 最近の最先端のLLM(例えばLlama3)に適用すると、視覚的常識だけでなく従来のNLPベンチマークでも改善が観察される。 コードとモデルはhttps://github.com/guyyariv/vLMIGで入手できる。

Commonsense reasoning is fundamentally based on multimodal knowledge. However, existing large language models (LLMs) are primarily trained using textual data only, limiting their ability to incorporate essential visual information. In contrast, Visual Language Models, which excel at visually-oriented tasks, often fail at non-visual tasks such as basic commonsense reasoning. This divergence highlights a critical challenge - the integration of robust visual understanding with foundational text-based language reasoning. To this end, we introduce a method aimed at enhancing LLMs' visual commonsense. Specifically, our method generates multiple images based on the input text prompt and integrates these into the model's decision-making process by mixing their prediction probabilities. To facilitate multimodal grounded language modeling, we employ a late-fusion layer that combines the projected visual features with the output of a pre-trained LLM conditioned on text only. This late-fusion layer enables predictions based on comprehensive image-text knowledge as well as text only when this is required. We evaluate our approach using several visual commonsense reasoning tasks together with traditional NLP tasks, including common sense reasoning and reading comprehension. Our experimental results demonstrate significant superiority over existing baselines. When applied to recent state-of-the-art LLMs (e.g., Llama3), we observe improvements not only in visual common sense but also in traditional NLP benchmarks. Code and models are available under https://github.com/guyyariv/vLMIG.
翻訳日:2024-06-21 19:14:23 公開日:2024-06-19
# 画像のエンハンス:MRIの人工知能による超高解像度化

Enhance the Image: Super Resolution using Artificial Intelligence in MRI ( http://arxiv.org/abs/2406.13625v1 )

ライセンス: Link先を確認
Ziyu Li, Zihan Li, Haoxiang Li, Qiuyun Fan, Karla L. Miller, Wenchuan Wu, Akshay S. Chaudhari, Qiyuan Tian, (参考訳) この章は、畳み込みニューラルネットワーク、生成的敵ネットワークから、トランスフォーマー、拡散モデル、暗黙の神経表現を含むより高度なモデルまで、MRIの空間分解性を改善するためのディープラーニング技術の概要を提供する。 我々の探索は、超解像が臨床および神経科学的評価に与える影響を精査するための方法論を超えて進んでいる。 また,ネットワークアーキテクチャや画像評価指標,ネットワーク損失関数,トレーニングデータなど,低解像度画像のダウンサンプリング手法やデータセット選択など,さまざまな実践的なトピックについても取り上げる。 最後に、深層学習に基づくMRI超解像の実現可能性と信頼性に関する既存の課題と今後の方向性について論じる。

This chapter provides an overview of deep learning techniques for improving the spatial resolution of MRI, ranging from convolutional neural networks, generative adversarial networks, to more advanced models including transformers, diffusion models, and implicit neural representations. Our exploration extends beyond the methodologies to scrutinize the impact of super-resolved images on clinical and neuroscientific assessments. We also cover various practical topics such as network architectures, image evaluation metrics, network loss functions, and training data specifics, including downsampling methods for simulating low-resolution images and dataset selection. Finally, we discuss existing challenges and potential future directions regarding the feasibility and reliability of deep learning-based MRI super-resolution, with the aim to facilitate its wider adoption to benefit various clinical and neuroscientific applications.
翻訳日:2024-06-21 19:14:23 公開日:2024-06-19
# 金融ニュース見出しの高感度分析のための微調整Gemma-7B

Fine-Tuning Gemma-7B for Enhanced Sentiment Analysis of Financial News Headlines ( http://arxiv.org/abs/2406.13626v1 )

ライセンス: Link先を確認
Kangtong Mo, Wenyan Liu, Xuanzhen Xu, Chang Yu, Yuelin Zou, Fangqing Xia, (参考訳) 本研究では,金融ニュースの見出しに感情分析を適用し,投資家の感情を理解する。 自然言語処理(NLP)とLarge Language Models(LLM)を活用することで、小売投資家の視点から感情を分析する。 FinancialPhraseBankのデータセットには、財務ニュースの見出しの分類された感情が含まれている。 感情分類において, distilbert-base-uncased, Llama, gemma-7b などのモデルを用いて評価を行った。 実験の結果,精巧なgemma-7bモデルは他のモデルよりも優れており,高い精度,リコール,F1スコアが得られた。 特に、gemma-7bモデルでは、微調整後の精度が著しく向上し、財務感情のニュアンスを捕捉する堅牢性を示した。 このモデルは、金融ニュースの感情を正確に予測することで、市場洞察の提供、リスク管理、投資決定支援に役立てることができる。 その結果、金融情報の分析・解釈の方法を変え、金融業界の利害関係者に強力なツールを提供することで、先進的なLLMの可能性を浮き彫りにしている。

In this study, we explore the application of sentiment analysis on financial news headlines to understand investor sentiment. By leveraging Natural Language Processing (NLP) and Large Language Models (LLM), we analyze sentiment from the perspective of retail investors. The FinancialPhraseBank dataset, which contains categorized sentiments of financial news headlines, serves as the basis for our analysis. We fine-tuned several models, including distilbert-base-uncased, Llama, and gemma-7b, to evaluate their effectiveness in sentiment classification. Our experiments demonstrate that the fine-tuned gemma-7b model outperforms others, achieving the highest precision, recall, and F1 score. Specifically, the gemma-7b model showed significant improvements in accuracy after fine-tuning, indicating its robustness in capturing the nuances of financial sentiment. This model can be instrumental in providing market insights, risk management, and aiding investment decisions by accurately predicting the sentiment of financial news. The results highlight the potential of advanced LLMs in transforming how we analyze and interpret financial information, offering a powerful tool for stakeholders in the financial industry.
翻訳日:2024-06-21 19:14:23 公開日:2024-06-19
# AIは動的ダウンスケーリングを可能にするか? イタリア上空でのERA5のCOSMO-CLMダウンスケーリングを模倣する潜在拡散モデルを訓練する

Can AI be enabled to dynamical downscaling? Training a Latent Diffusion Model to mimic km-scale COSMO-CLM downscaling of ERA5 over Italy ( http://arxiv.org/abs/2406.13627v1 )

ライセンス: Link先を確認
Elena Tomasi, Gabriele Franch, Marco Cristoforetti, (参考訳) ダウンスケーリング技術は、地球システムモデリングにおけるディープラーニング(DL)の最も顕著な応用の1つである。 強靭なDLダウンスケーリングモデルは、粗大な数値モデルシミュレーションから高分解能場を生成することができ、局所的・局所的モデルの時間的・資源的な応用を省くことができる。 さらに、生成型DLモデルは、従来の数値シミュレーションでは計算不可能なアンサンブルのようなシナリオプールを生成することによって、不確実性情報を提供する可能性がある。 本研究では,イタリア上空のERA5データを2kmまでダウンスケールするために,LDM(Latent Diffusion Model)を適用した。 高分解能ターゲットデータは、COSMO-CLMで実行される高分解能動的ダウンスケーリングの結果から成り立っている。 我々のゴールは、最近のジェネレーティブモデリングの進歩により、DLベースのモデルが、同じ入力データ(ERA5データ)を与えられた数値的動的ダウンスケーリングモデルに匹敵する結果を提供し、微細な特徴とフロー特性のリアリズムを保ったことを実証することである。 トレーニングとテストのデータベースは、2000年から2020年までの時間データで構成されている。 本研究の対象変数は, 温度2m, 水平風成分10mである。 ERA5 からの予測器の選択を LDM の入力とし、基準 UNET に対する残差アプローチを LDM の適用に活用する。 生成LDMの性能は、ERA5の二次補間、UNET、同じ基準UNET上に構築されたGAN(Generative Adversarial Network)の参照ベースラインと比較される。 結果は、LDMアーキテクチャによって導入された改善と、これらのベースラインに対する残留アプローチを強調している。 モデルは年次テストデータセットで評価され、決定論的指標、誤差の空間分布、周波数およびパワースペクトル分布の再構成を通じてモデルの性能を評価する。

Downscaling techniques are one of the most prominent applications of Deep Learning (DL) in Earth System Modeling. A robust DL downscaling model can generate high-resolution fields from coarse-scale numerical model simulations, saving the timely and resourceful applications of regional/local models. Additionally, generative DL models have the potential to provide uncertainty information, by generating ensemble-like scenario pools, a task that is computationally prohibitive for traditional numerical simulations. In this study, we apply a Latent Diffusion Model (LDM) to downscale ERA5 data over Italy up to a resolution of 2 km. The high-resolution target data consists of results from a high-resolution dynamical downscaling performed with COSMO-CLM. Our goal is to demonstrate that recent advancements in generative modeling enable DL-based models to deliver results comparable to those of numerical dynamical downscaling models, given the same input data (i.e., ERA5 data), preserving the realism of fine-scale features and flow characteristics. The training and testing database consists of hourly data from 2000 to 2020. The target variables of this study are 2-m temperature and 10-m horizontal wind components. A selection of predictors from ERA5 is used as input to the LDM, and a residual approach against a reference UNET is leveraged in applying the LDM. The performance of the generative LDM is compared with reference baselines of increasing complexity: quadratic interpolation of ERA5, a UNET, and a Generative Adversarial Network (GAN) built on the same reference UNET. Results highlight the improvements introduced by the LDM architecture and the residual approach over these baselines. The models are evaluated on a yearly test dataset, assessing the models' performance through deterministic metrics, spatial distribution of errors, and reconstruction of frequency and power spectra distributions.
翻訳日:2024-06-21 19:14:23 公開日:2024-06-19
# InstructRAG:Explicit Denoisingによる検索拡張ジェネレーションの指導

InstructRAG: Instructing Retrieval-Augmented Generation with Explicit Denoising ( http://arxiv.org/abs/2406.13629v1 )

ライセンス: Link先を確認
Zhepei Wei, Wei-Lin Chen, Yu Meng, (参考訳) Retrieval-augmented Generation (RAG) は言語モデル(LM)の精度と事実性を向上する有望な可能性を示している。 しかし、不完全な検索者やノイズの多いコーパスは、検索した内容に誤った情報や誤った情報をもたらす可能性があり、生成品質に重大な課題を生じさせる。 既存のRAGメソッドは、潜在的にノイズの多い入力にもかかわらず、最終的な答えを直接予測することで、この課題に対処する。 一方、明示的な先導的監督の獲得は、しばしば人的努力を伴ってコストがかかる。 そこで本研究では,自己合成的理性を通して,LMが明示的に認知過程を学習するインストラクタRAGを提案する。 次に、これらの合理性は、明示的な認知のコンテキスト内学習のデモンストレーションとして、あるいはモデルをトレーニングするための教師付き微調整データとして、使用することができる。 標準的なRAGアプローチと比較して、InstructRAGは追加の監視を必要としないため、予測された回答の検証が容易になり、生成精度が効果的に向上する。 実験の結果、InstructRAGはトレーニングのないシナリオとトレーニング可能なシナリオの両方において既存のRAGメソッドを一貫して上回っており、5つの知識集約ベンチマークで、最高のベースラインメソッドに対して8.3%の相対的な改善を実現している。 拡張解析により、InstructRAGは検索された文書の数の増加とともにスケールし、ドメイン外のデータセットでも頑健な復調能力を示し、強力な一般化性を示している。

Retrieval-augmented generation (RAG) has shown promising potential to enhance the accuracy and factuality of language models (LMs). However, imperfect retrievers or noisy corpora can introduce misleading or even erroneous information to the retrieved contents, posing a significant challenge to the generation quality. Existing RAG methods typically address this challenge by directly predicting final answers despite potentially noisy inputs, resulting in an implicit denoising process that is difficult to interpret and verify. On the other hand, the acquisition of explicit denoising supervision is often costly, involving significant human efforts. In this work, we propose InstructRAG, where LMs explicitly learn the denoising process through self-synthesized rationales -- First, we instruct the LM to explain how the ground-truth answer is derived from retrieved documents. Then, these rationales can be used either as demonstrations for in-context learning of explicit denoising or as supervised fine-tuning data to train the model. Compared to standard RAG approaches, InstructRAG requires no additional supervision, allows for easier verification of the predicted answers, and effectively improves generation accuracy. Experiments show InstructRAG consistently outperforms existing RAG methods in both training-free and trainable scenarios, achieving a relative improvement of 8.3% over the best baseline method on average across five knowledge-intensive benchmarks. Extensive analysis indicates that InstructRAG scales well with increased numbers of retrieved documents and consistently exhibits robust denoising ability even in out-of-domain datasets, demonstrating strong generalizability.
翻訳日:2024-06-21 19:14:23 公開日:2024-06-19
# AIにインスパイアされたUI設計について

On AI-Inspired UI-Design ( http://arxiv.org/abs/2406.13631v1 )

ライセンス: Link先を確認
Jialiang Wei, Anne-Lise Courbis, Thomas Lambolais, Gérard Dray, Walid Maalej, (参考訳) グラフィカルユーザインタフェース(あるいは単にUI)は、ユーザとデバイス間のインタラクションの主要な手段である。 本稿では、アプリデザイナがモバイルアプリのより優れた、より多様な、創造的なUIを作成するのを支援するために、AI(Artificial Intelligence)を使用する方法に関する3つの主要な補完的アプローチについて論じる。 まず、デザイナーはGPTのようなLarge Language Model(LLM)に1つまたは複数のUIを直接生成、調整するよう促すことができる。 第2に、VLM(Vision-Language Model)によって、デザイナは、アプリストアに公開されたアプリから、大規模なスクリーンショットデータセットを効率的に検索することができる。 第3のアプローチは、インスピレーションのあるイメージとしてアプリUIを生成するために特別に設計された拡散モデル(DM)をトレーニングすることです。 我々は、AIを自動化するのではなく、一般的に、創造的なアプリデザインを刺激し、支援するためにどのように使うべきかについて議論する。

Graphical User Interface (or simply UI) is a primary mean of interaction between users and their device. In this paper, we discuss three major complementary approaches on how to use Artificial Intelligence (AI) to support app designers create better, more diverse, and creative UI of mobile apps. First, designers can prompt a Large Language Model (LLM) like GPT to directly generate and adjust one or multiple UIs. Second, a Vision-Language Model (VLM) enables designers to effectively search a large screenshot dataset, e.g. from apps published in app stores. The third approach is to train a Diffusion Model (DM) specifically designed to generate app UIs as inspirational images. We discuss how AI should be used, in general, to inspire and assist creative app design rather than automating it.
翻訳日:2024-06-21 19:14:23 公開日:2024-06-19
# ロングコンテキストでの作業は可能か? デモ生成のためのコンテキストのリサイクル

Can Few-shot Work in Long-Context? Recycling the Context to Generate Demonstrations ( http://arxiv.org/abs/2406.13632v1 )

ライセンス: Link先を確認
Arie Cattan, Alon Jacovi, Alex Fabrikant, Jonathan Herzig, Roee Aharoni, Hannah Rashkin, Dror Marcus, Avinatan Hassidim, Yossi Matias, Idan Szpektor, Avi Caciularu, (参考訳) 近年のLarge Language Models (LLMs) の進歩にもかかわらず、長いコンテキストを含むタスクのパフォーマンスは依然として準最適である。 In-Context Learning (ICL) では,このシナリオで LLM のパフォーマンスを向上するための魅力的なソリューションになるかも知れない。しかしながら,長時間のコンテキストで ICL のサンプルを追加することには,デモとターゲットクエリ間のコンテキストミスマッチなど,相当量のトークンオーバーヘッドが伴うという課題が伴う。 そこで本研究では,コンテキストをリサイクルすることで,コンテキストの長いQAタスクの少数ショットを自動生成する手法を提案する。 具体的には、長い入力コンテキスト(1-3kトークン)とクエリを与えられたコンテキストから追加のクエリ・アウトプットペアを少数ショットの例として生成し、コンテキストを一度だけ導入する。 これにより、デモがターゲットクエリと同じコンテキストを活用すると同時に、プロンプトに少量のトークンを追加することが保証される。 さらに,回答前の段落を明示的に識別するようにモデルに指示することで,各デモンストレーションをさらに強化し,回答ソースへの微粒な属性を提供しながら,性能を向上させる。 提案手法を複数 LLM に適用し,特に回答がコンテキストの中央にある場合,長いコンテキストを持つ様々なQAデータセットに対して大幅な改善が得られた。 驚いたことに、シングルホップ ICL 例のみを導入したにもかかわらず、LLM は我々のアプローチを用いてマルチホップ長文 QA への一般化に成功した。

Despite recent advancements in Large Language Models (LLMs), their performance on tasks involving long contexts remains sub-optimal. In-Context Learning (ICL) with few-shot examples may be an appealing solution to enhance LLM performance in this scenario; However, naively adding ICL examples with long context introduces challenges, including substantial token overhead added for each few-shot example and context mismatch between the demonstrations and the target query. In this work, we propose to automatically generate few-shot examples for long context QA tasks by recycling contexts. Specifically, given a long input context (1-3k tokens) and a query, we generate additional query-output pairs from the given context as few-shot examples, while introducing the context only once. This ensures that the demonstrations are leveraging the same context as the target query while only adding a small number of tokens to the prompt. We further enhance each demonstration by instructing the model to explicitly identify the relevant paragraphs before the answer, which improves performance while providing fine-grained attribution to the answer source. We apply our method on multiple LLMs and obtain substantial improvements on various QA datasets with long context, especially when the answer lies within the middle of the context. Surprisingly, despite introducing only single-hop ICL examples, LLMs also successfully generalize to multi-hop long-context QA using our approach.
翻訳日:2024-06-21 19:14:23 公開日:2024-06-19
# 多項ロジスティック関数近似を用いた無限水平平均逆MDPの強化学習

Reinforcement Learning for Infinite-Horizon Average-Reward MDPs with Multinomial Logistic Function Approximation ( http://arxiv.org/abs/2406.13633v1 )

ライセンス: Link先を確認
Jaehyun Park, Dabeen Lee, (参考訳) マルコフ決定過程(MDP)の遷移関数がMNLモデルによって与えられる非線形関数近似を用いたモデルベース強化学習について検討した。 本稿では,無限水平平均報酬設定のための2つのアルゴリズムを開発する。 我々の最初のアルゴリズム \texttt{UCRL2-MNL} は MDP 通信のクラスに適用され、$\tilde{\mathcal{O}}(dD\sqrt{T})$ regret, ここで $d$ は特徴写像の次元、$D$ は基礎となる MDP の直径、$T$ は地平線である。 第二のアルゴリズム \texttt{OVIFH-MNL} は計算的に効率的であり、より一般的な MDP のクラスに適用され、ここでは、$\tilde{\mathcal{O}}(d^{2/5} \mathrm{sp}(v^*)T^{4/5})$ の後悔の保証を示す。 また、MNLの直径遷移を持つMDPを最大$D$で学習するために、$\Omega(d\sqrt{DT})$の低い境界を証明した。 さらに,MNL関数近似を用いた$H$-horizon episodic MDPsを学習するために,$\Omega(dH^{3/2}\sqrt{K})$の残念な下限を示す。

We study model-based reinforcement learning with non-linear function approximation where the transition function of the underlying Markov decision process (MDP) is given by a multinomial logistic (MNL) model. In this paper, we develop two algorithms for the infinite-horizon average reward setting. Our first algorithm \texttt{UCRL2-MNL} applies to the class of communicating MDPs and achieves an $\tilde{\mathcal{O}}(dD\sqrt{T})$ regret, where $d$ is the dimension of feature mapping, $D$ is the diameter of the underlying MDP, and $T$ is the horizon. The second algorithm \texttt{OVIFH-MNL} is computationally more efficient and applies to the more general class of weakly communicating MDPs, for which we show a regret guarantee of $\tilde{\mathcal{O}}(d^{2/5} \mathrm{sp}(v^*)T^{4/5})$ where $\mathrm{sp}(v^*)$ is the span of the associated optimal bias function. We also prove a lower bound of $\Omega(d\sqrt{DT})$ for learning communicating MDPs with MNL transitions of diameter at most $D$. Furthermore, we show a regret lower bound of $\Omega(dH^{3/2}\sqrt{K})$ for learning $H$-horizon episodic MDPs with MNL function approximation where $K$ is the number of episodes, which improves upon the best-known lower bound for the finite-horizon setting.
翻訳日:2024-06-21 19:14:23 公開日:2024-06-19
# 言語誘導型ロボット政策評価のためのコントラストセット

Contrast Sets for Evaluating Language-Guided Robot Policies ( http://arxiv.org/abs/2406.13636v1 )

ライセンス: Link先を確認
Abrar Anwar, Rohan Gupta, Jesse Thomason, (参考訳) 言語誘導された現実世界の設定におけるロボットの評価は時間がかかり、複雑なシーンにまたがる潜在的な命令の小さなスペースだけをサンプリングすることが多い。 本研究では, ロボット工学におけるコントラストセットを, 独立で同一に分散された(d.d.)テストインスタンスに対して, 小さいが特異な摂動を生じさせるアプローチとして導入する。 本研究では,評価を行う実験者の努力と結果の予測結果,および摂動インスタンスの性能から得られる知見との関係について検討する。 我々はコントラストセットを用いて、シミュレーション操作タスクと物理ロボットの視覚・言語ナビゲーションタスクの両方において、実験者の作業を減らし、ポリシーを特徴づける。 我々は、コントラストセット評価を、小規模ロボットのより情報的な代替、すなわち物理ロボットのデモンストレーション、産業規模の実世界評価のスケーラブルな代替品として活用することを奨励する。

Robot evaluations in language-guided, real world settings are time-consuming and often sample only a small space of potential instructions across complex scenes. In this work, we introduce contrast sets for robotics as an approach to make small, but specific, perturbations to otherwise independent, identically distributed (i.i.d.) test instances. We investigate the relationship between experimenter effort to carry out an evaluation and the resulting estimated test performance as well as the insights that can be drawn from performance on perturbed instances. We use contrast sets to characterize policies at reduced experimenter effort in both a simulated manipulation task and a physical robot vision-and-language navigation task. We encourage the use of contrast set evaluations as a more informative alternative to small scale, i.i.d. demonstrations on physical robots, and as a scalable alternative to industry-scale real world evaluations.
翻訳日:2024-06-21 19:14:23 公開日:2024-06-19
# 異種センサとタスク間の表現学習のための伝達可能な触覚変換器

Transferable Tactile Transformers for Representation Learning Across Diverse Sensors and Tasks ( http://arxiv.org/abs/2406.13640v1 )

ライセンス: Link先を確認
Jialiang Zhao, Yuxiang Ma, Lirui Wang, Edward H. Adelson, (参考訳) 本稿では,マルチセンサとマルチタスクにまたがる触覚表現学習フレームワークであるTransferable Tactile Transformersについて述べる。 T3は、カメラベースの触覚センシングは極めて異種であり、センサーは異なるフォームファクタに構築され、既存のデータセットは異なるタスクのために収集された。 T3は、センサ固有のエンコーダとタスク固有のデコーダを備えた共有トランクトランスを構築することで、センサとタスクのペアリング間で共有潜在情報をキャプチャする。 T3の事前トレーニングでは、オープンソースのデータセットから収集された新しいFoundation Tactile(FoTa)データセットを使用しており、13のセンサーと11のタスクから収集された300万以上のデータポイントが含まれている。 FoTaは、これまでで最大の、最も多様な触覚センシングデータセットであり、統一されたフォーマットで公開されています。 様々なセンサやタスクにわたって、FoTaで事前訓練されたT3は、特定のセンサーとタスクのペアリングにおいてゼロショット転送性を実現し、少数のドメイン固有データと、ネットワークサイズを大きくしたパフォーマンススケールでさらに微調整できることが実験によって示されている。 また、T3は長距離接点リッチな操作のための触覚エンコーダとしても有効である。 サブミリ以下のマルチピン電子挿入タスクの結果、T3は触覚センサーを使わずにトレーニングした触覚エンコーダで訓練したポリシーよりも25%高いタスク成功率を示した。 データ、コード、モデルチェックポイントはhttps://t3.alanz.info.comでオープンソース化されている。

This paper presents T3: Transferable Tactile Transformers, a framework for tactile representation learning that scales across multi-sensors and multi-tasks. T3 is designed to overcome the contemporary issue that camera-based tactile sensing is extremely heterogeneous, i.e. sensors are built into different form factors, and existing datasets were collected for disparate tasks. T3 captures the shared latent information across different sensor-task pairings by constructing a shared trunk transformer with sensor-specific encoders and task-specific decoders. The pre-training of T3 utilizes a novel Foundation Tactile (FoTa) dataset, which is aggregated from several open-sourced datasets and it contains over 3 million data points gathered from 13 sensors and 11 tasks. FoTa is the largest and most diverse dataset in tactile sensing to date and it is made publicly available in a unified format. Across various sensors and tasks, experiments show that T3 pre-trained with FoTa achieved zero-shot transferability in certain sensor-task pairings, can be further fine-tuned with small amounts of domain-specific data, and its performance scales with bigger network sizes. T3 is also effective as a tactile encoder for long horizon contact-rich manipulation. Results from sub-millimeter multi-pin electronics insertion tasks show that T3 achieved a task success rate 25% higher than that of policies trained with tactile encoders trained from scratch, or 53% higher than without tactile sensing. Data, code, and model checkpoints are open-sourced at https://t3.alanz.info.
翻訳日:2024-06-21 19:04:39 公開日:2024-06-19
# 空間ボット:視覚言語モデルを用いた精密空間理解

SpatialBot: Precise Spatial Understanding with Vision Language Models ( http://arxiv.org/abs/2406.13642v1 )

ライセンス: Link先を確認
Wenxiao Cai, Yaroslav Ponomarenko, Jianhao Yuan, Xiaoqi Li, Wankou Yang, Hao Dong, Bo Zhao, (参考訳) 視覚言語モデル(VLM)は2次元画像理解において目覚ましい性能を達成しているが、Embodied AIの基盤である空間的理解に苦慮している。 本稿では,RGB画像と深度画像の両方をフィードすることで,空間的理解を向上させるためのSpatialBotを提案する。 さらに、深度理解のためのVLMを訓練するために、多段階の深度関連質問を含むSpatialQAデータセットを構築した。 最後に、異なるレベルでの空間理解におけるVLMの能力を総合的に評価するために、SpatialBenchを提案する。 我々の空間理解ベンチマーク、一般的なVLMベンチマーク、Embodied AIタスクに関する大規模な実験は、SpatialQAでトレーニングされたSpatialBotの顕著な改善を実証している。 モデル、コード、データはhttps://github.com/BAAI-DCAI/SpatialBotで入手できる。

Vision Language Models (VLMs) have achieved impressive performance in 2D image understanding, however they are still struggling with spatial understanding which is the foundation of Embodied AI. In this paper, we propose SpatialBot for better spatial understanding by feeding both RGB and depth images. Additionally, we have constructed the SpatialQA dataset, which involves multi-level depth-related questions to train VLMs for depth understanding. Finally, we present SpatialBench to comprehensively evaluate VLMs' capabilities in spatial understanding at different levels. Extensive experiments on our spatial-understanding benchmark, general VLM benchmarks and Embodied AI tasks, demonstrate the remarkable improvements of SpatialBot trained on SpatialQA. The model, code and data are available at https://github.com/BAAI-DCAI/SpatialBot.
翻訳日:2024-06-21 19:04:39 公開日:2024-06-19
# ソースフリーなアクティブドメイン適応と新しいマルチセンターデータセットによるUWF-SLOセルセグメンテーションの改善

Advancing UWF-SLO Vessel Segmentation with Source-Free Active Domain Adaptation and a Novel Multi-Center Dataset ( http://arxiv.org/abs/2406.13645v1 )

ライセンス: Link先を確認
Hongqiu Wang, Xiangde Luo, Wu Chen, Qingqing Tang, Mei Xin, Qiong Wang, Lei Zhu, (参考訳) UWF-SLO(Ultra-Wide-Field Scanning Laser Ophthalmoscopy)画像における正確な血管分割は網膜疾患の診断に不可欠である。 最近の技術は血管のセグメンテーションの促進効果を示しているが、ある医療データセットで訓練されたモデルはドメインシフトによって他者よりもパフォーマンスが低いことが多い。 一方、高解像度のUWF-SLO画像を手動でラベル付けすることは、非常に難しく、時間と費用のかかる作業である。 そこで本研究では,パッチベースのアクティブドメイン適応アプローチを活用した先駆的フレームワークを提案する。 考案したカスケード不確実性優位性(CUP)選択戦略による画像パッチを積極的に推奨することにより,UWF-SLO血管セグメンテーションの精度を大幅に向上させる。 さらに,本研究を推進すべく,最初のマルチセンターUWF-SLO船体セグメンテーション(MU-VS)データセットをアノテートし,構築した。 このデータセットは、私たちのアプローチの有効性と堅牢性を検証する、クロスセンタ評価のための貴重なリソースとして役立ちます。 実験の結果,本手法は既存の領域適応法や能動的学習法を超越し,最小限のアノテーションで上層と下層の境界のギャップを著しく減らし,本手法の実践的臨床的価値を強調した。 私たちは、関連する研究を促進するために、データセットとコードを公開します。

Accurate vessel segmentation in Ultra-Wide-Field Scanning Laser Ophthalmoscopy (UWF-SLO) images is crucial for diagnosing retinal diseases. Although recent techniques have shown encouraging outcomes in vessel segmentation, models trained on one medical dataset often underperform on others due to domain shifts. Meanwhile, manually labeling high-resolution UWF-SLO images is an extremely challenging, time-consuming and expensive task. In response, this study introduces a pioneering framework that leverages a patch-based active domain adaptation approach. By actively recommending a few valuable image patches by the devised Cascade Uncertainty-Predominance (CUP) selection strategy for labeling and model-finetuning, our method significantly improves the accuracy of UWF-SLO vessel segmentation across diverse medical centers. In addition, we annotate and construct the first Multi-center UWF-SLO Vessel Segmentation (MU-VS) dataset to promote this topic research, comprising data from multiple institutions. This dataset serves as a valuable resource for cross-center evaluation, verifying the effectiveness and robustness of our approach. Experimental results demonstrate that our approach surpasses existing domain adaptation and active learning methods, considerably reducing the gap between the Upper and Lower bounds with minimal annotations, highlighting our method's practical clinical value. We will release our dataset and code to facilitate relevant research: https://github.com/whq-xxh/SFADA-UWF-SLO.
翻訳日:2024-06-21 19:04:39 公開日:2024-06-19
# 測定保存ダイナミクスを用いたSDE拡散モデルの安定性と一般化可能性

Stability and Generalizability in SDE Diffusion Models with Measure-Preserving Dynamics ( http://arxiv.org/abs/2406.13652v1 )

ライセンス: Link先を確認
Weitong Zhang, Chengqi Zang, Liu Li, Sarah Cechnicka, Cheng Ouyang, Bernhard Kainz, (参考訳) 逆問題では、測定やデータから因果因子を推定する過程を記述する。 しばしば不完全あるいは劣化したデータをパラメータにマッピングするのは不適切であるため、例えば、貧しい信号からクリーンなイメージを再構成する場合など、データ駆動の反復解が必要である。 拡散モデルは, 優れた再構成品質と反復解法との整合性から, 逆問題解決のための強力な生成ツールとして期待されている。 しかし、既存のほとんどのアプローチは確率微分方程式(SDE)として表される線形逆問題に限定されている。 この単純化は、現実世界の問題の挑戦的な性質に対処するに足りず、累積誤差とバイアスを増幅する。 本稿では,SDE拡散モデルのためのRDSに基づく理論的枠組みを導入し,時間分布の相違を分析するランダム力学系(RDS)の測度保存ダイナミクスのレンズを通して,このギャップを説明する。 逆問題に対する拡散モデルの安定性と一般化性を本質的に向上するいくつかの戦略を発見し、新しいスコアベースの拡散フレームワークであるS\textbf{D}E \textbf{D}iffusion \textbf{G}enerative \textbf{M}odel (D$3$GM)を導入する。 textit{Measure-serving property} は RDS の概念である \textit{stability} の複雑な分解にもかかわらず、劣化した測定値を元の状態に戻すことができる。 D$3$GM の逆問題に対する顕著な応用,磁気共鳴イメージングなどを含む複数のベンチマークにおける有効性について検討した。 コードとデータは公開されます。

Inverse problems describe the process of estimating the causal factors from a set of measurements or data. Mapping of often incomplete or degraded data to parameters is ill-posed, thus data-driven iterative solutions are required, for example when reconstructing clean images from poor signals. Diffusion models have shown promise as potent generative tools for solving inverse problems due to their superior reconstruction quality and their compatibility with iterative solvers. However, most existing approaches are limited to linear inverse problems represented as Stochastic Differential Equations (SDEs). This simplification falls short of addressing the challenging nature of real-world problems, leading to amplified cumulative errors and biases. We provide an explanation for this gap through the lens of measure-preserving dynamics of Random Dynamical Systems (RDS) with which we analyse Temporal Distribution Discrepancy and thus introduce a theoretical framework based on RDS for SDE diffusion models. We uncover several strategies that inherently enhance the stability and generalizability of diffusion models for inverse problems and introduce a novel score-based diffusion framework, the \textbf{D}ynamics-aware S\textbf{D}E \textbf{D}iffusion \textbf{G}enerative \textbf{M}odel (D$^3$GM). The \textit{Measure-preserving property} can return the degraded measurement to the original state despite complex degradation with the RDS concept of \textit{stability}. Our extensive experimental results corroborate the effectiveness of D$^3$GM across multiple benchmarks including a prominent application for inverse problems, magnetic resonance imaging. Code and data will be publicly available.
翻訳日:2024-06-21 19:04:39 公開日:2024-06-19
# 連続学習におけるテスト時間データによる予測制御

Controlling Forgetting with Test-Time Data in Continual Learning ( http://arxiv.org/abs/2406.13653v1 )

ライセンス: Link先を確認
Vaibhav Singh, Rahaf Aljundi, Eugene Belilovsky, (参考訳) 基礎的な視覚言語モデルは、様々な下流タスクで素晴らしいパフォーマンスを示している。 しかし、新しいタスクやドメインが利用可能になると、これらのモデルを後で更新する必要がある。 継続学習(CL)研究は、新しい知識が得られたときの過去の情報の破滅的な忘れを克服する技術を提供する。 現在までのCLテクニックは、教師付きトレーニングセッションのみに焦点を当てている。 この結果、前モデルであるゼロショットの性能よりも劣る性能をかなり忘れる結果となった。 本研究では,従来の学習課題のモデルメモリをリフレッシュし,余分なラベリングコストを伴わずに忘れを抑えるために,テストタイムデータが自己管理的に活用できる優れた情報を保持することを論じる。 本研究では,教師なしデータをオンラインに利用して,先行タスクにおけるモデルの性能を向上させる方法について検討する。 本稿では,勾配に基づくスパースパラメータの更新を施した簡易かつ効果的な生徒-教師モデルを提案する。

Foundational vision-language models have shown impressive performance on various downstream tasks. Yet, there is still a pressing need to update these models later as new tasks or domains become available. Ongoing Continual Learning (CL) research provides techniques to overcome catastrophic forgetting of previous information when new knowledge is acquired. To date, CL techniques focus only on the supervised training sessions. This results in significant forgetting yielding inferior performance to even the prior model zero shot performance. In this work, we argue that test-time data hold great information that can be leveraged in a self supervised manner to refresh the model's memory of previous learned tasks and hence greatly reduce forgetting at no extra labelling cost. We study how unsupervised data can be employed online to improve models' performance on prior tasks upon encountering representative samples. We propose a simple yet effective student-teacher model with gradient based sparse parameters updates and show significant performance improvements and reduction in forgetting, which could alleviate the role of an offline episodic memory/experience replay buffer.
翻訳日:2024-06-21 19:04:39 公開日:2024-06-19
# Monte Carlo Tree SearchによるGFlowNetsの改善

Improving GFlowNets with Monte Carlo Tree Search ( http://arxiv.org/abs/2406.13655v1 )

ライセンス: Link先を確認
Nikita Morozov, Daniil Tiapkin, Sergey Samsonov, Alexey Naumov, Dmitry Vetrov, (参考訳) Generative Flow Networks (GFlowNets) は、合成離散空間上の分布からのサンプリングを逐次決定問題として扱い、段階的にオブジェクトを構築するための確率的ポリシーを訓練する。 近年の研究では,GFlowNetsとエントロピー規則化強化学習の強い関係が明らかにされている。 これらの知見に基づいて,モンテカルロ木探索(MCTS)を適用し,GFlowNetsの計画能力を高めることを提案する。 具体的には、MENTSアルゴリズム(Xiao et al , 2019)がGFlowNetにどのように適応し、トレーニングと推論の両方に使用されるかを示す。 実験により,本手法により,GFlowNetトレーニングのサンプル効率と,事前学習したGFlowNetモデルの生成精度が向上することが示された。

Generative Flow Networks (GFlowNets) treat sampling from distributions over compositional discrete spaces as a sequential decision-making problem, training a stochastic policy to construct objects step by step. Recent studies have revealed strong connections between GFlowNets and entropy-regularized reinforcement learning. Building on these insights, we propose to enhance planning capabilities of GFlowNets by applying Monte Carlo Tree Search (MCTS). Specifically, we show how the MENTS algorithm (Xiao et al., 2019) can be adapted for GFlowNets and used during both training and inference. Our experiments demonstrate that this approach improves the sample efficiency of GFlowNet training and the generation fidelity of pre-trained GFlowNet models.
翻訳日:2024-06-21 19:04:39 公開日:2024-06-19
# 患者エンゲージメントのための大規模言語モデルを活用する:デジタルヘルスにおける会話型AIの力

Leveraging Large Language Models for Patient Engagement: The Power of Conversational AI in Digital Health ( http://arxiv.org/abs/2406.13659v1 )

ライセンス: Link先を確認
Bo Wen, Raquel Norel, Julia Liu, Thaddeus Stappenbeck, Farhana Zulkernine, Huamin Chen, (参考訳) 大規模言語モデル(LLM)の急速な進歩により、会話型AIを通じて医療における患者のエンゲージメントを変革する新たな機会が開かれた。 本稿では、医療におけるLLMの現状について概観し、特に患者のエンゲージメントを改善するための会話の分析・生成におけるその応用に焦点を当てる。 1)Redditにおけるメンタルヘルスの議論の分析,(2)高齢者における認知的エンゲージメントのための個人化されたチャットボットの開発,(3)医療会話データセットの要約,(4)AIを活用した患者エンゲージメントシステムの設計である。 これらのケーススタディは、LLMが非構造化対話から洞察と要約を効果的に抽出し、患者をガイド付き、目標指向の会話に巻き込むことを実証する。 会話の分析と生成にLLMを活用することで、多くの患者中心の成果研究機会に新たな扉が開く。 しかし、LSMを医療に組み込むことは、データのプライバシ、バイアス、透明性、規制遵守に関する重要な倫理的考察を提起する。 医療環境におけるLCMの責任ある開発・展開のためのベストプラクティスとガイドラインについて論じる。 デジタルヘルスにおけるLLMの可能性を十分に実現するためには、AIと医療専門家コミュニティの緊密な協力が必要であり、技術的課題に対処し、これらの強力なツールの安全性、有効性、株式を保証する必要がある。

The rapid advancements in large language models (LLMs) have opened up new opportunities for transforming patient engagement in healthcare through conversational AI. This paper presents an overview of the current landscape of LLMs in healthcare, specifically focusing on their applications in analyzing and generating conversations for improved patient engagement. We showcase the power of LLMs in handling unstructured conversational data through four case studies: (1) analyzing mental health discussions on Reddit, (2) developing a personalized chatbot for cognitive engagement in seniors, (3) summarizing medical conversation datasets, and (4) designing an AI-powered patient engagement system. These case studies demonstrate how LLMs can effectively extract insights and summarizations from unstructured dialogues and engage patients in guided, goal-oriented conversations. Leveraging LLMs for conversational analysis and generation opens new doors for many patient-centered outcomes research opportunities. However, integrating LLMs into healthcare raises important ethical considerations regarding data privacy, bias, transparency, and regulatory compliance. We discuss best practices and guidelines for the responsible development and deployment of LLMs in healthcare settings. Realizing the full potential of LLMs in digital health will require close collaboration between the AI and healthcare professionals communities to address technical challenges and ensure these powerful tools' safety, efficacy, and equity.
翻訳日:2024-06-21 19:04:39 公開日:2024-06-19
# 否定的学習を目標とした言語モデルの最小目標更新に向けて

Towards Minimal Targeted Updates of Language Models with Targeted Negative Training ( http://arxiv.org/abs/2406.13660v1 )

ライセンス: Link先を確認
Lily H. Zhang, Rajesh Ranganath, Arya Tafvizi, (参考訳) 言語の生成モデルは印象的な能力を示すが、それでも望ましくない出力に対して無視できない確率質量を配置する。 この作業では、不要なアウトプットを回避しつつ、モデル動作を最小限に変化させるため、モデルを更新するタスクに対処する。 まず、最小限の目標更新の概念を定式化し、モデル世代からのネガティブな例を用いてそのような更新を実現する方法を提案する。 提案したTNT (Targeted Negative Training) では,新しい分布を元のものに近づける更新結果が得られた。 実験では、TNTは、望ましくない振る舞いを減らし、ベースラインよりもモデル生成の振舞いを保ち、モデルが好ましくない出力を生成するのを抑える反復的なトレーニング更新に基づくモデリングパラダイムへの道を開いた。

Generative models of language exhibit impressive capabilities but still place non-negligible probability mass over undesirable outputs. In this work, we address the task of updating a model to avoid unwanted outputs while minimally changing model behavior otherwise, a challenge we refer to as a minimal targeted update. We first formalize the notion of a minimal targeted update and propose a method to achieve such updates using negative examples from a model's generations. Our proposed Targeted Negative Training (TNT) results in updates that keep the new distribution close to the original, unlike existing losses for negative signal which push down probability but do not control what the updated distribution will be. In experiments, we demonstrate that TNT yields a better trade-off between reducing unwanted behavior and maintaining model generation behavior than baselines, paving the way towards a modeling paradigm based on iterative training updates that constrain models from generating undesirable outputs while preserving their impressive capabilities.
翻訳日:2024-06-21 19:04:39 公開日:2024-06-19
# エネルギーベースモデルに関するヒッチハイカーのガイド:他の生成モデル、サンプリングおよび統計物理学との関係に関する包括的なレビュー

Hitchhiker's guide on Energy-Based Models: a comprehensive review on the relation with other generative models, sampling and statistical physics ( http://arxiv.org/abs/2406.13661v1 )

ライセンス: Link先を確認
Davide Carbone, (参考訳) エネルギーベースモデル(EBM)は、生成モデリングの領域において強力なフレームワークとして登場し、統計力学の原理と密接に一致したユニークな視点を提供している。 本総説は, GAN (Generative Adversarial Networks) やVAE (variantal Autoencoders) , 正規化フロー (Normalizing Flows) など, その他の生成モデルとの関係について, EBM の包括的理解を物理学者に提供することを目的としている。 我々は, マルコフ・チェイン・モンテカルロ(MCMC)法を含むESMにとって重要なサンプリング技術について検討し, エネルギー関数と分配関数の重要性を強調した。 さらに,最近の進歩と,モデルの性能向上と効率向上への意義を考察して,ESMの最先端の訓練手法を探求する。 このレビューは、これらのモデル間のしばしば複雑な相互接続を明確にするために設計されている。

Energy-Based Models (EBMs) have emerged as a powerful framework in the realm of generative modeling, offering a unique perspective that aligns closely with principles of statistical mechanics. This review aims to provide physicists with a comprehensive understanding of EBMs, delineating their connection to other generative models such as Generative Adversarial Networks (GANs), Variational Autoencoders (VAEs), and Normalizing Flows. We explore the sampling techniques crucial for EBMs, including Markov Chain Monte Carlo (MCMC) methods, and draw parallels between EBM concepts and statistical mechanics, highlighting the significance of energy functions and partition functions. Furthermore, we delve into state-of-the-art training methodologies for EBMs, covering recent advancements and their implications for enhanced model performance and efficiency. This review is designed to clarify the often complex interconnections between these models, which can be challenging due to the diverse communities working on the topic.
翻訳日:2024-06-21 19:04:39 公開日:2024-06-19
# ObscurePrompt: Obscure入力による大規模言語モデルのジェイルブレーク

ObscurePrompt: Jailbreaking Large Language Models via Obscure Input ( http://arxiv.org/abs/2406.13662v1 )

ライセンス: Link先を確認
Yue Huang, Jingyu Tang, Dongping Chen, Bingda Tang, Yao Wan, Lichao Sun, Xiangliang Zhang, (参考訳) 近年,Large Language Models (LLMs) は,自然言語処理能力に顕著な注目を集めている。 しかしながら、彼らの信頼性に関する懸念は未解決のままであり、特にLLMに対する「ジェイルブレイク」攻撃に対処している。 従来の研究は主に、ホワイトボックスのLSMや特定のプロンプトテンプレートを使ったシナリオに依存しており、これは多くの場合実用的ではなく、適用性に乏しい。 本稿では,アウト・オブ・ディストリビューション(OOD, Out-of-Distribution, Out-of-Distribution, OOD)データにおける脆弱なアライメントから着想を得た,単純な,新しい手法であるObscurePromptを紹介した。 具体的には、まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどのように影響するかを考察する。 ObscurePromptは、よく知られたジェイルブレイクテクニックを統合するベースプロンプトの構築から始まる。 強力なLSMは、攻撃の堅牢性を強化するために、反復的な変換を通じて元のプロンプトを曖昧にするために使用される。 包括的実験により,本手法は従来手法よりも攻撃効果を著しく向上し,2つの防御機構に対する有効性を維持した。 我々はLLMアライメントの強化に関する今後の研究に新たな洞察を与えることができると信じている。

Recently, Large Language Models (LLMs) have garnered significant attention for their exceptional natural language processing capabilities. However, concerns about their trustworthiness remain unresolved, particularly in addressing "jailbreaking" attacks on aligned LLMs. Previous research predominantly relies on scenarios with white-box LLMs or specific and fixed prompt templates, which are often impractical and lack broad applicability. In this paper, we introduce a straightforward and novel method, named ObscurePrompt, for jailbreaking LLMs, inspired by the observed fragile alignments in Out-of-Distribution (OOD) data. Specifically, we first formulate the decision boundary in the jailbreaking process and then explore how obscure text affects LLM's ethical decision boundary. ObscurePrompt starts with constructing a base prompt that integrates well-known jailbreaking techniques. Powerful LLMs are then utilized to obscure the original prompt through iterative transformations, aiming to bolster the attack's robustness. Comprehensive experiments show that our approach substantially improves upon previous methods in terms of attack effectiveness, maintaining efficacy against two prevalent defense mechanisms. We believe that our work can offer fresh insights for future research on enhancing LLM alignment.
翻訳日:2024-06-21 19:04:39 公開日:2024-06-19
# モデル内部に基づく検索拡張生成のための回答属性

Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation ( http://arxiv.org/abs/2406.13663v1 )

ライセンス: Link先を確認
Jirui Qi, Gabriele Sarti, Raquel Fernández, Arianna Bisazza, (参考訳) モデル解答の妥当性を保証することは、質問応答(QA)領域における検索強化生成(RAG)の根本的な課題である。 近年,大規模言語モデル (LLM) を文書作成支援に活用する自己引用プロンプトが提案されている。 しかし、自励式LLMは必要なフォーマットにマッチし、既存のソースを参照するのに苦労することが多く、世代を通してLLMのコンテキスト使用を忠実に反映することができない。 本稿では、RAGアプリケーションにおける忠実な回答帰属のために、モデル内部を用いたプラグアンドプレイアプローチであるMIRAGE --Model Internals-based RAG Explanationsを提案する。 MIRAGEは、文脈に敏感な応答トークンを検出し、それらと検索したドキュメントをペアにすることで、その予測を唾液度法で行う。 提案手法を多言語抽出QAデータセット上で評価し,人間の回答属性と高い一致性を見いだした。 オープンエンドQAでは、MIRAGEは自己引用に匹敵する引用品質と効率を達成すると同時に、帰属パラメータのよりきめ細かい制御を可能にする。 我々の質的評価は、MIRAGEの属性の忠実さを強調し、RAG回答属性に対するモデル内部の有望な適用を裏付けるものである。

Ensuring the verifiability of model answers is a fundamental challenge for retrieval-augmented generation (RAG) in the question answering (QA) domain. Recently, self-citation prompting was proposed to make large language models (LLMs) generate citations to supporting documents along with their answers. However, self-citing LLMs often struggle to match the required format, refer to non-existent sources, and fail to faithfully reflect LLMs' context usage throughout the generation. In this work, we present MIRAGE --Model Internals-based RAG Explanations -- a plug-and-play approach using model internals for faithful answer attribution in RAG applications. MIRAGE detects context-sensitive answer tokens and pairs them with retrieved documents contributing to their prediction via saliency methods. We evaluate our proposed approach on a multilingual extractive QA dataset, finding high agreement with human answer attribution. On open-ended QA, MIRAGE achieves citation quality and efficiency comparable to self-citation while also allowing for a finer-grained control of attribution parameters. Our qualitative evaluation highlights the faithfulness of MIRAGE's attributions and underscores the promising application of model internals for RAG answer attribution.
翻訳日:2024-06-21 19:04:39 公開日:2024-06-19
# Root-KGD:知識グラフと産業データに基づく根本原因診断のための新しいフレームワーク

Root-KGD: A Novel Framework for Root Cause Diagnosis Based on Knowledge Graph and Industrial Data ( http://arxiv.org/abs/2406.13664v1 )

ライセンス: Link先を確認
Jiyu Chen, Jinchuan Qian, Xinmin Zhang, Zhihuan Song, (参考訳) インテリジェントな製造業の発展と工業生産の複雑さの増大により、根本原因診断は徐々に産業断層診断の分野において重要な研究方向になりつつある。 しかし、既存の研究手法は、ドメイン知識と産業データとを効果的に組み合わせることに苦慮し、正確でオンラインで信頼性の高い根本原因診断結果を産業プロセスに提供できない。 これらの課題に対処するために,知識グラフとRoot-KGDと呼ばれる産業データに基づく新しい故障原因診断フレームワークを提案する。 Root-KGDは、知識グラフを使用してドメイン知識を表現し、データ駆動モデリングを使用して、産業データから障害特徴を抽出する。 次に、知識グラフとデータ特徴を組み合わせて、根本原因同定のための知識グラフ推論を行う。 提案手法の性能は,テネシー・イーストマン・プロセス (TEP) とマルチフェーズ・フロー・ファシリティ (MFF) の2つの産業プロセス・ケースを用いて検証した。 既存の方法と比較して、Root-KGDはより正確な根本原因変数の診断結果を提供するだけでなく、知識グラフ(デバイスやストリームなど)の対応する物理エンティティに障害を特定することによって、解釈可能なフォールト関連情報を提供する。 加えて、Root-KGDはその軽量な性質と相まって、オンライン産業アプリケーションにおいてより効果的である。

With the development of intelligent manufacturing and the increasing complexity of industrial production, root cause diagnosis has gradually become an important research direction in the field of industrial fault diagnosis. However, existing research methods struggle to effectively combine domain knowledge and industrial data, failing to provide accurate, online, and reliable root cause diagnosis results for industrial processes. To address these issues, a novel fault root cause diagnosis framework based on knowledge graph and industrial data, called Root-KGD, is proposed. Root-KGD uses the knowledge graph to represent domain knowledge and employs data-driven modeling to extract fault features from industrial data. It then combines the knowledge graph and data features to perform knowledge graph reasoning for root cause identification. The performance of the proposed method is validated using two industrial process cases, Tennessee Eastman Process (TEP) and Multiphase Flow Facility (MFF). Compared to existing methods, Root-KGD not only gives more accurate root cause variable diagnosis results but also provides interpretable fault-related information by locating faults to corresponding physical entities in knowledge graph (such as devices and streams). In addition, combined with its lightweight nature, Root-KGD is more effective in online industrial applications.
翻訳日:2024-06-21 19:04:39 公開日:2024-06-19
# バイナリ分類の課題

Challenges in Binary Classification ( http://arxiv.org/abs/2406.13665v1 )

ライセンス: Link先を確認
Pengbo Yang, Jian Yu, (参考訳) バイナリ分類は機械学習において重要な役割を果たす。 線形分類では、SVMは最適二分分類法である。 非線形分類では、SVMアルゴリズムはカーネル関数を用いて分類タスクを完了する必要がある。 カーネル関数を持つSVMアルゴリズムは非常に有効であるが、カーネル関数の選択は経験的であり、カーネル関数が最適でない可能性がある。 したがって、最適な二項分類器を得る方法を研究する価値がある。 本稿では,最適二項分類器の探索問題について,変分問題として考察する。 2つのクラス間の(ユークリッド)距離の最大ミン問題を用いて、この変分問題の目的関数を設計する。 線形分類では、SVMがこの変分問題フレームワークの特別な場合であると推測できる。 ユークリッド距離について、提案された変分問題には非線形分類にいくつかの制限があることが証明されている。 したがって、最適二項分類器を見つけるためにより適切な目的関数を設計する方法は、まだ未解決の問題である。 さらに、最適な分類器を見つける際の課題と課題についても論じている。

Binary Classification plays an important role in machine learning. For linear classification, SVM is the optimal binary classification method. For nonlinear classification, the SVM algorithm needs to complete the classification task by using the kernel function. Although the SVM algorithm with kernel function is very effective, the selection of kernel function is empirical, which means that the kernel function may not be optimal. Therefore, it is worth studying how to obtain an optimal binary classifier. In this paper, the problem of finding the optimal binary classifier is considered as a variational problem. We design the objective function of this variational problem through the max-min problem of the (Euclidean) distance between two classes. For linear classification, it can be deduced that SVM is a special case of this variational problem framework. For Euclidean distance, it is proved that the proposed variational problem has some limitations for nonlinear classification. Therefore, how to design a more appropriate objective function to find the optimal binary classifier is still an open problem. Further, it's discussed some challenges and problems in finding the optimal classifier.
翻訳日:2024-06-21 19:04:39 公開日:2024-06-19
# 強手保存ゲームによる校正限界の改善

Improved bounds for calibration via stronger sign preservation games ( http://arxiv.org/abs/2406.13668v1 )

ライセンス: Link先を確認
Yuval Dagan, Constantinos Daskalakis, Maxwell Fishelson, Noah Golowich, Robert Kleinberg, Princewill Okoroafor, (参考訳) 予測器の各予測が、その予測がなされた時間ステップのサブセットにおける結果の経験的分布を近似すると、確率予測のセットを校正する。 本稿では、Foster & Vohra (1998) が最初に研究した2進数列のオンライン校正予測の基本的な問題について考察する。 彼らは、$O(T^{2/3})$キャリブレーション誤差を、$T$タイムステップ後に引き起こし、$\Omega(T^{1/2})$の低い境界を示した。 これらの境界は2021年にQiao & Valiant(英語版)が$\Omega(T^{0.528})$に下限を改良するまで20年間停滞し続けた。 そこで我々はQiao & ValiantのゲームをSPR(Sign Reserve with reuse)と呼んでいる。 我々は、SPRとキャリブレーション予測の関係が双方向であることを証明する。SPRの下位境界はキャリブレーションの下位境界に変換されるだけでなく、SPRのアルゴリズムはキャリブレーション予測の新しいアルゴリズムにも変換される。 特に、SPRゲームの値に対する自明な上限を改善する戦略は、キャリブレーション誤差指数が2/3未満の予測アルゴリズムを暗示し、フォスター・アンド・ボーラの上限を初めて改善する。 類似のアイデアを用いることで、カイオ・アンド・ヴァリアントのそれよりもわずかに強い下界、すなわち$\Omega(T^{0.54389})$を証明できる。 我々の下限は難解な敵によって得られ、最初の$\omega(T^{1/2})$ calibration lower bound for oblivious adversariesである。

A set of probabilistic forecasts is calibrated if each prediction of the forecaster closely approximates the empirical distribution of outcomes on the subset of timesteps where that prediction was made. We study the fundamental problem of online calibrated forecasting of binary sequences, which was initially studied by Foster & Vohra (1998). They derived an algorithm with $O(T^{2/3})$ calibration error after $T$ time steps, and showed a lower bound of $\Omega(T^{1/2})$. These bounds remained stagnant for two decades, until Qiao & Valiant (2021) improved the lower bound to $\Omega(T^{0.528})$ by introducing a combinatorial game called sign preservation and showing that lower bounds for this game imply lower bounds for calibration. We introduce a strengthening of Qiao & Valiant's game that we call sign preservation with reuse (SPR). We prove that the relationship between SPR and calibrated forecasting is bidirectional: not only do lower bounds for SPR translate into lower bounds for calibration, but algorithms for SPR also translate into new algorithms for calibrated forecasting. In particular, any strategy that improves the trivial upper bound for the value of the SPR game would imply a forecasting algorithm with calibration error exponent less than 2/3, improving Foster & Vohra's upper bound for the first time. Using similar ideas, we then prove a slightly stronger lower bound than that of Qiao & Valiant, namely $\Omega(T^{0.54389})$. Our lower bound is obtained by an oblivious adversary, marking the first $\omega(T^{1/2})$ calibration lower bound for oblivious adversaries.
翻訳日:2024-06-21 19:04:39 公開日:2024-06-19
# Q-SNN:量子スパイキングニューラルネットワーク

Q-SNNs: Quantized Spiking Neural Networks ( http://arxiv.org/abs/2406.13672v1 )

ライセンス: Link先を確認
Wenjie Wei, Yu Liang, Ammar Belatreche, Yichen Xiao, Honglin Cao, Zhenbang Ren, Guoqing Wang, Malu Zhang, Yang Yang, (参考訳) 脳にインスパイアされたスパイキングニューラルネットワーク(SNN)はスパーススパイクを利用して情報を表現し、非同期なイベント駆動方式で処理し、次世代のマシンインテリジェンスのためのエネルギー効率の良いパラダイムを提供する。 しかし、SNNコミュニティにおける現在の焦点は、大規模モデルの開発を通じて精度の最適化を優先し、リソース制約や低消費電力エッジデバイスにおけるその生存性を制限している。 この課題に対処するために、シナプス重みと膜電位の両方に量子化を適用する軽量でハードウェアフレンドリな量子SNN(Q-SNN)を導入する。 これら2つのキー要素を著しく圧縮することにより、提案したQ-SNNはメモリ使用量と計算量の両方を大幅に削減する。 さらに,この圧縮による性能劣化を防止するため,情報エントロピー理論にインスパイアされた新しいウェイトスパイクデュアルレギュレーション(WS-DR)法を提案する。 静的およびニューロモルフィックを含む様々なデータセットに対する実験的評価は、我々のQ-SNNがモデルサイズと精度の両方で既存の手法より優れていることを示す。 これらの最先端結果の効率性と有効性は,提案手法がエッジインテリジェントコンピューティングを著しく向上させることができることを示唆している。

Brain-inspired Spiking Neural Networks (SNNs) leverage sparse spikes to represent information and process them in an asynchronous event-driven manner, offering an energy-efficient paradigm for the next generation of machine intelligence. However, the current focus within the SNN community prioritizes accuracy optimization through the development of large-scale models, limiting their viability in resource-constrained and low-power edge devices. To address this challenge, we introduce a lightweight and hardware-friendly Quantized SNN (Q-SNN) that applies quantization to both synaptic weights and membrane potentials. By significantly compressing these two key elements, the proposed Q-SNNs substantially reduce both memory usage and computational complexity. Moreover, to prevent the performance degradation caused by this compression, we present a new Weight-Spike Dual Regulation (WS-DR) method inspired by information entropy theory. Experimental evaluations on various datasets, including static and neuromorphic, demonstrate that our Q-SNNs outperform existing methods in terms of both model size and accuracy. These state-of-the-art results in efficiency and efficacy suggest that the proposed method can significantly improve edge intelligent computing.
翻訳日:2024-06-21 19:04:39 公開日:2024-06-19
# 臨床シナリオにおける腹部臓器切開(RAOS)の再考:難治性症例を用いたロバストネス評価ベンチマーク

Rethinking Abdominal Organ Segmentation (RAOS) in the clinical scenario: A robustness evaluation benchmark with challenging cases ( http://arxiv.org/abs/2406.13674v1 )

ライセンス: Link先を確認
Xiangde Luo, Zihan Li, Shaoting Zhang, Wenjun Liao, Guotai Wang, (参考訳) 深層学習は腹部多臓器セグメンテーションにおいて大きな進歩をもたらした。 しかし、コーナーケースや複雑な臓器の堅牢性は、臨床応用にとって難しい問題である。 モデルロバスト性を調べるため, 腫瘍学者が手動でデライン化した17例と19例のラベル付き臓器を持つ413例のRAOSデータセット(80k2D画像, $\sim$8k3D臓器アノテーション)を収集, 注釈した。 臨床情報に基づくスキャンをグループ化した 1)診断・放射線療法(317巻) 2 器官全体が欠落しない部分切除(22巻)及び 3)全臓器欠失による排便(74巻)。 RAOSは臓器幻覚を含むモデルの堅牢性を評価するための潜在的なベンチマークを提供する。 また、直腸、大腸、腸、前立腺、精巣などの公共のデータセットにアクセスするのが非常に難しい臓器も含まれている。 本研究は,これらの3つの臨床グループにおいて,パフォーマンスと堅牢性を評価するために,いくつかの最先端手法をベンチマークした。 また、RAOSと3つの公開データセットの相互一般化を評価した。 このデータセットと包括的な分析は、将来のロバストネス研究の潜在的なベースラインを確立する: \url{https://github.com/Luoxd 1996/RAOS}。

Deep learning has enabled great strides in abdominal multi-organ segmentation, even surpassing junior oncologists on common cases or organs. However, robustness on corner cases and complex organs remains a challenging open problem for clinical adoption. To investigate model robustness, we collected and annotated the RAOS dataset comprising 413 CT scans ($\sim$80k 2D images, $\sim$8k 3D organ annotations) from 413 patients each with 17 (female) or 19 (male) labelled organs, manually delineated by oncologists. We grouped scans based on clinical information into 1) diagnosis/radiotherapy (317 volumes), 2) partial excision without the whole organ missing (22 volumes), and 3) excision with the whole organ missing (74 volumes). RAOS provides a potential benchmark for evaluating model robustness including organ hallucination. It also includes some organs that can be very hard to access on public datasets like the rectum, colon, intestine, prostate and seminal vesicles. We benchmarked several state-of-the-art methods in these three clinical groups to evaluate performance and robustness. We also assessed cross-generalization between RAOS and three public datasets. This dataset and comprehensive analysis establish a potential baseline for future robustness research: \url{https://github.com/Luoxd1996/RAOS}.
翻訳日:2024-06-21 18:54:50 公開日:2024-06-19
# ジェンダー言語におけるジェンダーバイアス測定のための大規模言語モデルの導入

Leveraging Large Language Models to Measure Gender Bias in Gendered Languages ( http://arxiv.org/abs/2406.13677v1 )

ライセンス: Link先を確認
Erik Derner, Sara Sansalvador de la Fuente, Yoan Gutiérrez, Paloma Moreda, Nuria Oliver, (参考訳) 様々な自然言語処理(NLP)の文脈で使われるテキストコーパスにおけるジェンダーバイアスは、大きな言語モデル(LLM)の訓練において、社会的不平等の永続性と増幅につながる可能性がある。 これは特に、スペイン語やフランス語のようなジェンダー付き言語で発音され、文法構造が本質的にジェンダーをエンコードしているため、バイアス分析はより困難である。 既存の英語のための手法は、英語と性的な言語の違いにより、この課題に不適当である。 本稿では,LLMの文脈理解機能を利用して,スペイン語コーパスにおけるジェンダー表現を定量的に分析する手法を提案する。 LLMを用いて性別付き名詞と代名詞を人格に関連づけて識別・分類することにより,性別バイアスの微妙な分析を行う。 その結果,男女比が4:1から6:1の有意差があることが判明した。 これらの結果から,ジェンダー付き言語におけるバイアス定量化手法の価値が示され,そのNLPへの応用が示唆され,より公平な言語技術の発展に寄与した。

Gender bias in text corpora used in various natural language processing (NLP) contexts, such as for training large language models (LLMs), can lead to the perpetuation and amplification of societal inequalities. This is particularly pronounced in gendered languages like Spanish or French, where grammatical structures inherently encode gender, making the bias analysis more challenging. Existing methods designed for English are inadequate for this task due to the intrinsic linguistic differences between English and gendered languages. This paper introduces a novel methodology that leverages the contextual understanding capabilities of LLMs to quantitatively analyze gender representation in Spanish corpora. By utilizing LLMs to identify and classify gendered nouns and pronouns in relation to their reference to human entities, our approach provides a nuanced analysis of gender biases. We empirically validate our method on four widely-used benchmark datasets, uncovering significant gender disparities with a male-to-female ratio ranging from 4:1 to 6:1. These findings demonstrate the value of our methodology for bias quantification in gendered languages and suggest its application in NLP, contributing to the development of more equitable language technologies.
翻訳日:2024-06-21 18:54:50 公開日:2024-06-19
# 巨大原子による開量子系のシミュレーション

Simulating open quantum systems with giant atoms ( http://arxiv.org/abs/2406.13678v1 )

ライセンス: Link先を確認
Guangze Chen, Anton Frisk Kockum, (参考訳) オープン量子多体系は基本的および応用的双方の関心事である。 しかし、最先端の古典的手法と量子シミュレーションプロトコルの両方で、そのようなシステムをシミュレートし、解決することは、依然としてオープンな課題である。 この課題を克服するために、我々は巨大な原子、すなわち原子(おそらく人工的)に基づくオープン量子多体系のシミュレータを導入し、波長の異なる波長の導波路に結合する。 まず、2つの巨大原子からなるシミュレータが2つの結合量子ビットの力学をシミュレートできることを示す。 このシミュレーションにより、このモデルにおける量子Zenoクロスオーバーを特徴づけることができる。 さらに, シミュレータにポストセレクションを装備することにより, 系の有効非エルミートハミルトン力学をシミュレートし, 発振速度の変化による振動から非振動ダイナミクスへの遷移を特徴付けることができることを示す。 巨大原子に影響を及ぼす雑音に対して,これらのシミュレーション結果の頑健さを実証し,解析した。 最後に,大規模オープン量子多体系,例えば汎用散逸スピンモデルのディジタルアナログシミュレーションにおいて,巨大原子系シミュレータをどのようにスケールアップできるかを論じ,実証する。

Open quantum many-body systems are of both fundamental and applicational interest. However, it remains an open challenge to simulate and solve such systems, both with state-of-the-art classical methods and with quantum-simulation protocols. To overcome this challenge, we introduce a simulator for open quantum many-body systems based on giant atoms, i.e., atoms (possibly artificial), that couple to a waveguide at multiple points, which can be wavelengths apart. We first show that a simulator consisting of two giant atoms can simulate the dynamics of two coupled qubits, where one qubit is subject to different drive amplitudes and dissipation rates. This simulation enables characterizing the quantum Zeno crossover in this model. We further show that by equipping the simulator with post-selection, it becomes possible to simulate the effective non-Hermitian Hamiltonian dynamics of the system and thereby characterize the transition from oscillatory to non-oscillatory dynamics due to varying dissipation rates. We demonstrate and analyze the robustness of these simulation results against noise affecting the giant atoms. Finally, we discuss and show how giant-atom-based simulators can be scaled up for digital-analog simulation of large open quantum many-body systems, e.g., generic dissipative spin models.
翻訳日:2024-06-21 18:54:50 公開日:2024-06-19
# Prose-to-P4: ハイレベル言語を活用する

Prose-to-P4: Leveraging High Level Languages ( http://arxiv.org/abs/2406.13679v1 )

ライセンス: Link先を確認
Mihai-Valentin Dumitru, Vlad-Andrei Bădoiu, Costin Raiciu, (参考訳) P4やNPLのような言語は、プログラム可能なデータプレーンを利用する幅広い多様なネットワークアプリケーションを可能にしている。 しかし、これらの言語のソフトウェア開発は難しい。 この問題に対処するため、高レベルの言語は、ネットワークアプリケーションの開発に必要な時間、労力、ドメイン知識を減らす強力な抽象化を提供するように設計されている。 これらの言語はコンパイラによってP4/NPLコードに変換される。 コード生成タスクにおけるLarge Language Models (LLMs) の成功に触発されて,LLMを高レベルのネットワークコードに変換することで,抽象化レベルをさらに高めることを提案する。 我々は、問題を分析し、モチベーションと機会に焦点をあて、また、自然言語命令から高レベルなデータプレーンコードを生成するシステム開発のためのロードマップをスケッチする。 我々は、自然言語からLucidコードを生成するための有望な予備的な結果を提示する。

Languages such as P4 and NPL have enabled a wide and diverse range of networking applications that take advantage of programmable dataplanes. However, software development in these languages is difficult. To address this issue, high-level languages have been designed to offer programmers powerful abstractions that reduce the time, effort and domain-knowledge required for developing networking applications. These languages are then translated by a compiler into P4/NPL code. Inspired by the recent success of Large Language Models (LLMs) in the task of code generation, we propose to raise the level of abstraction even higher, employing LLMs to translate prose into high-level networking code. We analyze the problem, focusing on the motivation and opportunities, as well as the challenges involved and sketch out a roadmap for the development of a system that can generate high-level dataplane code from natural language instructions. We present some promising preliminary results on generating Lucid code from natural language.
翻訳日:2024-06-21 18:54:50 公開日:2024-06-19
# 回帰作業における公平度測定手法の整合性について

On the Consistency of Fairness Measurement Methods for Regression Tasks ( http://arxiv.org/abs/2406.13681v1 )

ライセンス: Link先を確認
Abdalwahab Almajed, Maryam Tabar, Peyman Najafirad, (参考訳) 機械学習(ML)技術の現実世界への応用が拡大する中で、これらのモデルが適切な方法で動作することを保証することが極めて重要である。 公正性を確保するための主要なステップは、効果的に公正性を測定することである。 これらのメトリクスの計算は分類セットで簡単であるが、回帰領域では計算的に抽出可能である。 計算の難易度という課題に対処するため、過去の文献はそのような指標を近似する様々な方法を提案した。 しかし、そのような近似アルゴリズムの出力がどの程度一致しているかは検証されなかった。 このギャップを埋めるために,本論文では,様々な回帰タスクに対する広範な実験を行うことにより,様々な公正度測定手法の出力の整合性について包括的に研究する。 その結果, 様々な回帰タスクに対して強い整合性を示すフェアネス測定手法があるが, 特定の回帰タスクでは比較的不整合性を示す手法があることがわかった。 これは逆に、回帰領域の公平性を測定するためのより原則化されたアプローチを要求する。

With growing applications of Machine Learning (ML) techniques in the real world, it is highly important to ensure that these models work in an equitable manner. One main step in ensuring fairness is to effectively measure fairness, and to this end, various metrics have been proposed in the past literature. While the computation of those metrics are straightforward in the classification set-up, it is computationally intractable in the regression domain. To address the challenge of computational intractability, past literature proposed various methods to approximate such metrics. However, they did not verify the extent to which the output of such approximation algorithms are consistent with each other. To fill this gap, this paper comprehensively studies the consistency of the output of various fairness measurement methods through conducting an extensive set of experiments on various regression tasks. As a result, it finds that while some fairness measurement approaches show strong consistency across various regression tasks, certain methods show a relatively poor consistency in certain regression tasks. This, in turn, calls for a more principled approach for measuring fairness in the regression domain.
翻訳日:2024-06-21 18:54:50 公開日:2024-06-19
# IntCoOp: 解釈可能性を考慮したビジョンランゲージプロンプトチューニング

IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning ( http://arxiv.org/abs/2406.13683v1 )

ライセンス: Link先を確認
Soumya Suvra Ghosal, Samyadeep Basu, Soheil Feizi, Dinesh Manocha, (参考訳) CLIPのような画像テキストのコントラストモデルは、さまざまな下流タスクへのゼロショット転送のために、転送可能で堅牢な表現を学習する。 しかし、下流での強いパフォーマンスを得るためには、厳格なエンジニアリングタスクである、慎重にキュレートする必要がある。 手動プロンプトエンジニアリングの問題に対処するために、トレーニングデータから情報を活用することにより、コンテキストベクトルのセットが学習される場合、プロンプトチューニングが使用される。 その効果にもかかわらず、既存のプロンプトチューニングフレームワークは解釈性に欠けることが多く、それによって画像の合成の性質を理解する能力が制限される。 本研究ではまず,手動プロンプトの設計に構成属性(例えば「緑」木カエル)を組み込むことで,画像・テキストのアライメントスコアを大幅に向上させることができることを示す。 そこで本研究では,属性レベルの帰納バイアスとクラス埋め込みを協調的に整合させる手法であるIntCoOpを提案する。 提案手法の有効性を評価するため,IntCoOpは2つの代表的なタスクにまたがって,新しいクラスへの一般化,ドメインシフトの見当たらない2つの設定で評価する。 CLIP上の10のダウンストリームデータセットにわたる広範な実験により、属性レベルのインダクティブバイアスの導入は、最先端のプロンプトチューニングフレームワークに対して優れたパフォーマンスをもたらすことが判明した。 特に16ショットのセットアップでは、IntCoOpは10の多様なデータセットの平均パフォーマンスを7.35%改善している。

Image-text contrastive models such as CLIP learn transferable and robust representations for zero-shot transfer to a variety of downstream tasks. However, to obtain strong downstream performances, prompts need to be carefully curated, which can be a tedious engineering task. To address the issue of manual prompt engineering, prompt-tuning is used where a set of contextual vectors are learned by leveraging information from the training data. Despite their effectiveness, existing prompt-tuning frameworks often lack interpretability, thus limiting their ability to understand the compositional nature of images. In this work, we first identify that incorporating compositional attributes (e.g., a "green" tree frog) in the design of manual prompts can significantly enhance image-text alignment scores. Building upon this observation, we propose a novel and interpretable prompt-tuning method named IntCoOp, which learns to jointly align attribute-level inductive biases and class embeddings during prompt-tuning. To assess the effectiveness of our approach, we evaluate IntCoOp across two representative tasks in a few-shot learning setup: generalization to novel classes, and unseen domain shifts. Through extensive experiments across 10 downstream datasets on CLIP, we find that introducing attribute-level inductive biases leads to superior performance against state-of-the-art prompt tuning frameworks. Notably, in a 16-shot setup, IntCoOp improves CoOp by 7.35% in average performance across 10 diverse datasets.
翻訳日:2024-06-21 18:54:50 公開日:2024-06-19
# AI生成画像検出のためのデュアル入力ニューラルモデルの開発

Development of a Dual-Input Neural Model for Detecting AI-Generated Imagery ( http://arxiv.org/abs/2406.13688v1 )

ライセンス: Link先を確認
Jonathan Gallagher, William Pugsley, (参考訳) 過去数年間、人工知能によって生成された画像はより普及し、より現実的なものになっている。 彼らの出現は、誤情報、芸術的表現、アイデンティティ盗難などに関する倫理的な疑問を提起する。 これらの道徳的問題の多くは、実像と偽像の区別が難しいことである。 AIが生成した画像を検出できるツールを開発することが重要です。 本稿では、画像とフーリエ周波数分解の両方を入力として扱うデュアルブランチニューラルネットワークアーキテクチャを提案する。 Stuchi や al [7] に記述されているように,両ブランチに対して標準的な CNN ベースのメソッドを使用します。 提案モデルでは,CIFAKEデータセットの精度が94%向上し,従来のML手法やCNNを著しく上回り,ResNetなどの最先端アーキテクチャに匹敵する性能を実現している。

Over the past years, images generated by artificial intelligence have become more prevalent and more realistic. Their advent raises ethical questions relating to misinformation, artistic expression, and identity theft, among others. The crux of many of these moral questions is the difficulty in distinguishing between real and fake images. It is important to develop tools that are able to detect AI-generated images, especially when these images are too realistic-looking for the human eye to identify as fake. This paper proposes a dual-branch neural network architecture that takes both images and their Fourier frequency decomposition as inputs. We use standard CNN-based methods for both branches as described in Stuchi et al. [7], followed by fully-connected layers. Our proposed model achieves an accuracy of 94% on the CIFAKE dataset, which significantly outperforms classic ML methods and CNNs, achieving performance comparable to some state-of-the-art architectures, such as ResNet.
翻訳日:2024-06-21 18:54:50 公開日:2024-06-19
# 信頼に足る検索生成のための同期忠実度モニタリング

Synchronous Faithfulness Monitoring for Trustworthy Retrieval-Augmented Generation ( http://arxiv.org/abs/2406.13692v1 )

ライセンス: Link先を確認
Di Wu, Jia-Chen Gu, Fan Yin, Nanyun Peng, Kai-Wei Chang, (参考訳) Retrieval-augmented Language Model (RALMs) は、知識集約型タスクにおいて、高い性能と幅広い適用性を示している。 しかしながら、ALMは、ベースレス情報や検索されたコンテキストとの矛盾を含む、不誠実なアウトプットを生成する傾向にあるため、重大な信頼性上の懸念がある。 本稿では, 逐次精度, 不確実性定量化, 文脈の影響, 意味的アライメントなど, きめ細かなデコーディングのダイナミックスを活用する軽量モニタSynCheckを提案する。 効率よく測定可能で補完的な信号を統合することで、SynCheckは正確なフィードバックと介入を可能にし、0.85 AUROCを6つの長期検索強化された生成タスクにおける忠実度エラーを検出し、事前のベストメソッドを4%改善する。 SynCheckを活用することで、長文検索拡張生成のためのビームサーチによってガイドされる忠実度指向の復号アルゴリズムであるFODを導入する。 実証的な結果から、FODは、6つのデータセット間で10%以上の改善を達成し、棄権、再格付け、コントラスト的な復号化といった従来の戦略を著しく上回ります。

Retrieval-augmented language models (RALMs) have shown strong performance and wide applicability in knowledge-intensive tasks. However, there are significant trustworthiness concerns as RALMs are prone to generating unfaithful outputs, including baseless information or contradictions with the retrieved context. This paper proposes SynCheck, a lightweight monitor that leverages fine-grained decoding dynamics including sequence likelihood, uncertainty quantification, context influence, and semantic alignment to synchronously detect unfaithful sentences. By integrating efficiently measurable and complementary signals, SynCheck enables accurate and immediate feedback and intervention, achieving 0.85 AUROC in detecting faithfulness errors across six long-form retrieval-augmented generation tasks, improving prior best method by 4%. Leveraging SynCheck, we further introduce FOD, a faithfulness-oriented decoding algorithm guided by beam search for long-form retrieval-augmented generation. Empirical results demonstrate that FOD outperforms traditional strategies such as abstention, reranking, or contrastive decoding significantly in terms of faithfulness, achieving over 10% improvement across six datasets.
翻訳日:2024-06-21 18:54:50 公開日:2024-06-19
# シングルエージェントからマルチエージェントへ:交通信号制御の改善

From Single Agent to Multi-Agent: Improving Traffic Signal Control ( http://arxiv.org/abs/2406.13693v1 )

ライセンス: Link先を確認
Maksim Tislenko, Dmitrii Kisilev, (参考訳) 都市化の加速により,信号制御問題の解決の重要性が高まっている。 本稿では,様々な既存手法を解析し,平均走行時間を短縮するエージェント数を増やすための選択肢を提案する。 2つのデータセットで実験を行った。 その結果、場合によっては、複数のエージェントの実装によって既存のメソッドが改善されることが示されている。 微調整された大きな言語モデルアプローチでは、すべてのメトリクスに小さな拡張があります。

Due to accelerating urbanization, the importance of solving the signal control problem increases. This paper analyzes various existing methods and suggests options for increasing the number of agents to reduce the average travel time. Experiments were carried out with 2 datasets. The results show that in some cases, the implementation of multiple agents can improve existing methods. For a fine-tuned large language model approach there is small enhancement on all metrics.
翻訳日:2024-06-21 18:54:50 公開日:2024-06-19
# 環境モニタリングのための組込みインテリジェントシステム

An Embedded Intelligent System for Attendance Monitoring ( http://arxiv.org/abs/2406.13694v1 )

ライセンス: Link先を確認
Touzene Abderraouf, Abed Abdeljalil Wassim, Slimane Larabi, (参考訳) 本稿では,クラスの出席状況を監視し,出席者リストを遠隔コンピュータに送信するインテリジェントな組込みシステムを提案する。 提案システムは,顔認識のための組み込みデバイス (Raspberry with PI camera) と,出席者管理のためのWebアプリケーション (Web Application) の2つの部分から構成される。 提案されたソリューションは、Raspberry Piの限られたリソース、顔認識モデルへの適応の必要性、Raspberry Piカメラが提供するイメージを使用した許容可能なパフォーマンスの実現、といった、さまざまな課題を考慮に入れている。

In this paper, we propose an intelligent embedded system for monitoring class attendance and sending the attendance list to a remote computer. The proposed system consists of two parts : an embedded device (Raspberry with PI camera) for facial recognition and a web application for attendance management. The proposed solution take into account the different challenges: the limited resources of the Raspberry Pi, the need to adapt the facial recognition model and achieving acceptable performance using images provided by the Raspberry Pi camera.
翻訳日:2024-06-21 18:54:50 公開日:2024-06-19
# 多言語非重複戦略:モノリンガルおよび多言語埋め込みモデルによるスケーラブルな類似性探索の適用

Multilingual De-Duplication Strategies: Applying scalable similarity search with monolingual & multilingual embedding models ( http://arxiv.org/abs/2406.13695v1 )

ライセンス: Link先を確認
Stefan Pasch, Dimitirios Petridis, Jannic Cutura, (参考訳) 本稿では,高度NLPツールを用いた多言語テキストデータの重複解消について述べる。 本稿では、mpnetと多言語埋め込みモデル(distiluse)を併用し、英語への翻訳を含む2段階の手法を比較した。 2段階のアプローチはF1スコアを高く(82%対60%)、特に広く使われていない言語では、ドメイン知識に基づいたエキスパートルールを活用することで、最大89%に向上する。 またトークン長の制約や計算効率に関する制約も強調する。 提案手法は,今後の多言語重複タスクの改善を提案する。

This paper addresses the deduplication of multilingual textual data using advanced NLP tools. We compare a two-step method involving translation to English followed by embedding with mpnet, and a multilingual embedding model (distiluse). The two-step approach achieved a higher F1 score (82% vs. 60%), particularly with less widely used languages, which can be increased up to 89% by leveraging expert rules based on domain knowledge. We also highlight limitations related to token length constraints and computational efficiency. Our methodology suggests improvements for future multilingual deduplication tasks.
翻訳日:2024-06-21 18:54:50 公開日:2024-06-19
# MMTE:メタフォリカル言語の機械翻訳品質評価のためのコーパスとメトリクス

MMTE: Corpus and Metrics for Evaluating Machine Translation Quality of Metaphorical Language ( http://arxiv.org/abs/2406.13698v1 )

ライセンス: Link先を確認
Shun Wang, Ge Zhang, Han Wu, Tyler Loakman, Wenhao Huang, Chenghua Lin, (参考訳) 機械翻訳(MT)は,大規模言語モデルのリリース以降急速に発展し,人間の参照翻訳との比較や,ラベル付きデータから品質スコアを予測することによって,現在のMT評価を行う。 しかし、これらの主流評価手法は、具体的品質にはほとんど注意を払わず、流布と事実の信頼性に重点を置いている。 本稿では,MTの図形的品質について検討し,図形言語の翻訳に焦点をあてた評価指標のセットを提案する。 また、後編集により生成された多言語並列メタファーコーパスも提示する。 評価プロトコルは,メタフォラル等価性,感情,認証性,品質の4つの側面を推定する。 このようにして、図形表現の翻訳が、リテラルと異なる特徴を示すのを観察する。

Machine Translation (MT) has developed rapidly since the release of Large Language Models and current MT evaluation is performed through comparison with reference human translations or by predicting quality scores from human-labeled data. However, these mainstream evaluation methods mainly focus on fluency and factual reliability, whilst paying little attention to figurative quality. In this paper, we investigate the figurative quality of MT and propose a set of human evaluation metrics focused on the translation of figurative language. We additionally present a multilingual parallel metaphor corpus generated by post-editing. Our evaluation protocol is designed to estimate four aspects of MT: Metaphorical Equivalence, Emotion, Authenticity, and Quality. In doing so, we observe that translations of figurative expressions display different traits from literal ones.
翻訳日:2024-06-21 18:54:50 公開日:2024-06-19
# カプセル内視鏡における統一照明補正用プロンプブル拡散変圧器

EndoUIC: Promptable Diffusion Transformer for Unified Illumination Correction in Capsule Endoscopy ( http://arxiv.org/abs/2406.13705v1 )

ライセンス: Link先を確認
Long Bai, Qiaozhi Tan, Tong Chen, Wan Jun Nah, Yanheng Li, Zhicheng He, Sishen Yuan, Zhen Chen, Jinlin Wu, Mobarakol Islam, Zhen Li, Hongbin Liu, Hongliang Ren, (参考訳) 無線カプセル内視鏡(WCE)は、非侵襲的で痛みのないアプローチで高く評価されているが、その効果は、ハードウェアの制約や複雑な内部ダイナミクスによる不均一な照明によって損なわれ、過剰に露光または過大に露光する画像に繋がる。 研究者は、WCEの低照度化の課題について論じてきたが、異なる露光レベルの補正の問題は未解決のままである。 そこで本研究では,エンド・ツー・エンド・エンド・エンド・エンド・プロンサブル・ディスペンサ・トランスフォーマ(DFT)モデルを用いたWCE統合照明補正ソリューションであるEndoUICを紹介する。 本研究では, 照明プロンプトモジュールが, 異なる露出レベルに適応し, ターゲット画像の強調を行うため, 適応型プロンプト統合 (API) とグローバル型プロンプトスキャナ (GPS) モジュールが, プロンプトパラメータと特徴との間の同時表現学習をさらに促進する。 さらに、U字型復元DFTモデルは、統一照明復元のための長距離依存関係とコンテキスト情報をキャプチャする。 さらに,専門写真家が注釈を付した地上構造と劣化画像のペアを含む,新しいカプセル・内視鏡露光補正(CEC)データセットを提案する。 4つのデータセットに対するSOTA(State-of-the-art)法に対する広範囲な実験により,WCE照明修復における提案手法の有効性が示された。

Wireless Capsule Endoscopy (WCE) is highly valued for its non-invasive and painless approach, though its effectiveness is compromised by uneven illumination from hardware constraints and complex internal dynamics, leading to overexposed or underexposed images. While researchers have discussed the challenges of low-light enhancement in WCE, the issue of correcting for different exposure levels remains underexplored. To tackle this, we introduce EndoUIC, a WCE unified illumination correction solution using an end-to-end promptable diffusion transformer (DFT) model. In our work, the illumination prompt module shall navigate the model to adapt to different exposure levels and perform targeted image enhancement, in which the Adaptive Prompt Integration (API) and Global Prompt Scanner (GPS) modules shall further boost the concurrent representation learning between the prompt parameters and features. Besides, the U-shaped restoration DFT model shall capture the long-range dependencies and contextual information for unified illumination restoration. Moreover, we present a novel Capsule-endoscopy Exposure Correction (CEC) dataset, including ground-truth and corrupted image pairs annotated by expert photographers. Extensive experiments against a variety of state-of-the-art (SOTA) methods on four datasets showcase the effectiveness of our proposed method and components in WCE illumination restoration, and the additional downstream experiments further demonstrate its utility for clinical diagnosis and surgical assistance.
翻訳日:2024-06-21 18:54:50 公開日:2024-06-19
# ブレーキングニュース:ジェネレーティブAIのジャーナリズム利用事例

Breaking News: Case Studies of Generative AI's Use in Journalism ( http://arxiv.org/abs/2406.13706v1 )

ライセンス: Link先を確認
Natalie Grace Brigham, Chongjiu Gao, Tadayoshi Kohno, Franziska Roesner, Niloofar Mireshghallah, (参考訳) ジャーナリストは、大きな言語モデル(LLM)の多くのユーザーの一人です。 ジャーナリストとAIのインタラクションをよりよく理解するために、WildChatデータセットを閲覧し、候補のインタラクションを特定し、オンライン公開された記事と照合して検証することで、2つのニュースエージェンシーによるLLM使用状況の調査を行う。 本稿では,ジャーナリストが他の機関からの資料や記事との機密通信などの機密資料をLCMに送付し,限定的な介入(中間出力公開ROUGE-L:0.62)で公開する事例を明らかにした。 本稿では,AIの活用に責任を負うものに関するさらなる研究と,ジャーナリストの文脈でLLMを使用するための明確なガイドラインとベストプラクティスの確立を求めている。

Journalists are among the many users of large language models (LLMs). To better understand the journalist-AI interactions, we conduct a study of LLM usage by two news agencies through browsing the WildChat dataset, identifying candidate interactions, and verifying them by matching to online published articles. Our analysis uncovers instances where journalists provide sensitive material such as confidential correspondence with sources or articles from other agencies to the LLM as stimuli and prompt it to generate articles, and publish these machine-generated articles with limited intervention (median output-publication ROUGE-L of 0.62). Based on our findings, we call for further research into what constitutes responsible use of AI, and the establishment of clear guidelines and best practices on using LLMs in a journalistic context.
翻訳日:2024-06-21 18:54:50 公開日:2024-06-19
# 学習画像圧縮における色空間の影響に関する研究

A Study on the Effect of Color Spaces in Learned Image Compression ( http://arxiv.org/abs/2406.13709v1 )

ライセンス: Link先を確認
Srivatsa Prativadibhayankaram, Mahadev Prasad Panda, Jürgen Seiler, Thomas Richter, Heiko Sparenberg, Siegfried Fößel, André Kaup, (参考訳) 本稿では,YUV,LAB,RGBなどの色空間と,学習画像の圧縮に対する効果の比較を行った。 このために、我々は、これまでの研究から得られた構造と色に基づく学習画像コーデック(SLIC)を使用し、輝度成分(YまたはL)と色成分(UVまたはAB)の2つの分岐からなる。 しかし、RGBの変種の場合、RGBで動作するほとんどの学習済み画像コーデックと同様に、1つのブランチで3つのチャンネル全てを入力します。 モデルは、各色空間における複数のビットレート構成のために訓練される。 実験の結果を様々なデータセットで評価し,その結果を最先端の画像コーデックと比較した。 YUVモデルは、ベースラインとしてVTMイントラコーディングモードを使用して、Bj{\o}ntegaard delta bitrate (BD-BR)ゲインが7.5\%のMS-SSIMのLABモデルよりも優れた性能を発揮する。 LABの派生型は、CIEDE2000におけるYUVモデルよりも性能が良く、BD-BRのゲインは8\%である。 SLICのRGB版は、MS-SSIMでBD-BRが13.14\%、CIEDE2000で17.96\%、より高いモデル複雑さで最高のパフォーマンスを達成している。

In this work, we present a comparison between color spaces namely YUV, LAB, RGB and their effect on learned image compression. For this we use the structure and color based learned image codec (SLIC) from our prior work, which consists of two branches - one for the luminance component (Y or L) and another for chrominance components (UV or AB). However, for the RGB variant we input all 3 channels in a single branch, similar to most learned image codecs operating in RGB. The models are trained for multiple bitrate configurations in each color space. We report the findings from our experiments by evaluating them on various datasets and compare the results to state-of-the-art image codecs. The YUV model performs better than the LAB variant in terms of MS-SSIM with a Bj{\o}ntegaard delta bitrate (BD-BR) gain of 7.5\% using VTM intra-coding mode as the baseline. Whereas the LAB variant has a better performance than YUV model in terms of CIEDE2000 having a BD-BR gain of 8\%. Overall, the RGB variant of SLIC achieves the best performance with a BD-BR gain of 13.14\% in terms of MS-SSIM and a gain of 17.96\% in CIEDE2000 at the cost of a higher model complexity.
翻訳日:2024-06-21 18:54:50 公開日:2024-06-19
# 分散状態の想像:学習されたポリシーに対する予測可能なロボットの動作がユーザ制御を可能にする

Imagining In-distribution States: How Predictable Robot Behavior Can Enable User Control Over Learned Policies ( http://arxiv.org/abs/2406.13711v1 )

ライセンス: Link先を確認
Isaac Sheidlower, Emma Bethel, Douglas Lilly, Reuben M. Aronson, Elaine Schaertl Short, (参考訳) ユーザーは、ロボットの機能を利用して、その機能を理解して、斬新で創造的なタスクを遂行することが不可欠である。 強化学習(Reinforcement Learning, RL)で訓練されたロボットの場合、ユーザーはロボットがロボットと協調するためにどのように振る舞うかをよく知るとともに、その自律性を活用したいと考えるかもしれない。 1つのテクニックは、遠隔操作によってロボットの動作空間の一部を制御し、RLポリシーを同時に制御することである。 我々は、このタイプの共有制御を、分割制御(Partitioned Control, PC)として定式化する。 しかし、これはアウト・オブ・ボックスのRLポリシーでは不可能である。 例えば、ユーザのコントロールは、ポリシーの観点からロボットを障害状態に陥れ、予期せず動作し、ユーザの望むタスクの成功を妨げる可能性がある。 本研究では,ロボットの動作に対する期待を生かし,新たなタスクを遂行するための初期アルゴリズムであるImaginary Out-of-Distribution Actions, IODAを提案する。 実際のロボットを用いたユーザスタディにおいて、IODAをデプロイし、IODAがより優れたタスクパフォーマンスと、ロボットの振る舞いとユーザ期待との整合性の両方をもたらすことを確認した。 また,PCでは,タスクパフォーマンスとロボットのユーザ期待を満たす能力との間には,強い相関関係があることが示され,IODAのようなアプローチの必要性が強調された。 コードはhttps://github.com/AABL-Lab/ioda_roman_2024で公開されている。

It is crucial that users are empowered to take advantage of the functionality of a robot and use their understanding of that functionality to perform novel and creative tasks. Given a robot trained with Reinforcement Learning (RL), a user may wish to leverage that autonomy along with their familiarity of how they expect the robot to behave to collaborate with the robot. One technique is for the user to take control of some of the robot's action space through teleoperation, allowing the RL policy to simultaneously control the rest. We formalize this type of shared control as Partitioned Control (PC). However, this may not be possible using an out-of-the-box RL policy. For example, a user's control may bring the robot into a failure state from the policy's perspective, causing it to act unexpectedly and hindering the success of the user's desired task. In this work, we formalize this problem and present Imaginary Out-of-Distribution Actions, IODA, an initial algorithm which empowers users to leverage their expectations of a robot's behavior to accomplish new tasks. We deploy IODA in a user study with a real robot and find that IODA leads to both better task performance and a higher degree of alignment between robot behavior and user expectation. We also show that in PC, there is a strong and significant correlation between task performance and the robot's ability to meet user expectations, highlighting the need for approaches like IODA. Code is available at https://github.com/AABL-Lab/ioda_roman_2024
翻訳日:2024-06-21 18:45:06 公開日:2024-06-19
# 産業応用における効率的な質問応答のためのオープンソース言語モデルのベンチマーク

Benchmarking Open-Source Language Models for Efficient Question Answering in Industrial Applications ( http://arxiv.org/abs/2406.13713v1 )

ライセンス: Link先を確認
Mahaman Sanoussi Yahaya Alassan, Jessica López Espejel, Merieme Bouhandi, Walid Dahhane, El Hassane Ettifouri, (参考訳) 自然言語処理(NLP)の急速な発展の中で,Large Language Models(LLM)は質問応答(QA)などのタスクにおいて顕著な能力を示した。 しかし、これらのモデルを産業用途に活用することのアクセシビリティと実用性は、特にコスト効率、推論速度、資源効率に関する重要な課題を生んでいる。 本稿では,オープンソース LLM とオープンソースでない LLM を比較し,質問応答の課題について総合的なベンチマーク研究を行う。 我々の目標は、リソース要件の観点から軽量でありながら、プロプライエタリなモデルに匹敵するパフォーマンスを提供することのできるオープンソースの代替品を特定し、CPU(Central Processing Unit)ベースの推論に適合することである。 精度,推論速度,資源消費など,さまざまな指標の厳密な評価を通じて,実世界のアプリケーションにおける効率的なLCMの選択に関する洞察を提供することを目指している。 私たちの発見は、業界環境でアクセスしやすく効率的なNLPソリューションの必要性に対処するため、許容可能なパフォーマンスと効率を提供する、実行可能なオープンソースの代替手段に光を当てています。

In the rapidly evolving landscape of Natural Language Processing (NLP), Large Language Models (LLMs) have demonstrated remarkable capabilities in tasks such as question answering (QA). However, the accessibility and practicality of utilizing these models for industrial applications pose significant challenges, particularly concerning cost-effectiveness, inference speed, and resource efficiency. This paper presents a comprehensive benchmarking study comparing open-source LLMs with their non-open-source counterparts on the task of question answering. Our objective is to identify open-source alternatives capable of delivering comparable performance to proprietary models while being lightweight in terms of resource requirements and suitable for Central Processing Unit (CPU)-based inference. Through rigorous evaluation across various metrics including accuracy, inference speed, and resource consumption, we aim to provide insights into selecting efficient LLMs for real-world applications. Our findings shed light on viable open-source alternatives that offer acceptable performance and efficiency, addressing the pressing need for accessible and efficient NLP solutions in industry settings.
翻訳日:2024-06-21 18:45:06 公開日:2024-06-19
# BEACON:長期グループ勧告とマルチモーダルレシピの推論による食事の便宜と栄養のバランス

BEACON: Balancing Convenience and Nutrition in Meals With Long-Term Group Recommendations and Reasoning on Multimodal Recipes ( http://arxiv.org/abs/2406.13714v1 )

ライセンス: Link先を確認
Vansh Nagpal, Siva Likitha Valluru, Kausik Lakkaraju, Biplav Srivastava, (参考訳) 健康でも健康でも、朝食、昼食、夕食など、食材、メインコース、サイドディッシュ、デザート、飲み物の組み合わせで何を食べるかを決めるのが一般的である。 しかし、この決定は栄養的な選択(例えば、低塩と砂糖)と利便性(例えば、安価で、短時間で準備し、味が良くなる)のトレードオフと見なされることが多い。 本稿では, 食品の成分や調理過程を推論しながら, 両者の選択肢を探索し, バランスをとることのできる, 新規な食事推薦問題に対するデータ駆動型アプローチを提案する。 問題の定式化以外にも、良性尺度、最近導入されたマルチモーダル・リッチ・レシピ表現(R3)フォーマットへのレシピ変換方法、有望な結果を示す文脈的バンディットを用いた学習方法などのコントリビューションも提供しています。

A common, yet regular, decision made by people, whether healthy or with any health condition, is to decide what to have in meals like breakfast, lunch, and dinner, consisting of a combination of foods for appetizer, main course, side dishes, desserts, and beverages. However, often this decision is seen as a trade-off between nutritious choices (e.g., low salt and sugar) or convenience (e.g., inexpensive, fast to prepare/obtain, taste better). In this preliminary work, we present a data-driven approach for the novel meal recommendation problem that can explore and balance choices for both considerations while also reasoning about a food's constituents and cooking process. Beyond the problem formulation, our contributions also include a goodness measure, a recipe conversion method from text to the recently introduced multimodal rich recipe representation (R3) format, and learning methods using contextual bandits that show promising results.
翻訳日:2024-06-21 18:45:06 公開日:2024-06-19
# 収束次元:マルチソース・マルチモーダル・マルチ言語融合による情報抽出と要約

Converging Dimensions: Information Extraction and Summarization through Multisource, Multimodal, and Multilingual Fusion ( http://arxiv.org/abs/2406.13715v1 )

ライセンス: Link先を確認
Pranav Janjani, Mayank Palan, Sarvesh Shirude, Ninad Shegokar, Sunny Kumar, Faruk Kazi, (参考訳) 大規模言語モデル(LLM)の最近の進歩は新たな要約戦略をもたらし、重要な情報を抽出するための広範囲なツールキットを提供している。 しかし、これらのアプローチは孤立したデータソースに依存しているため、しばしば制限される。 収集可能な情報の量は限られており、より少ない範囲のテーマをカバーしている。 本稿では,複数の情報源の強みを利用して,より包括的で情報的な複雑な話題の理解を提供することによって,このような課題に対処する新たなアプローチを提案する。 この研究は、テキストドキュメントのような従来型にない情報源を超えて進展し、YouTubeのプレイリスト、プレプリント、ウィキペディアページなど、より多様なデータを統合している。 上記の様々なソースは統一されたテキスト表現に変換され、より包括的な分析が可能となる。 要約生成に対するこの多面的アプローチは、より広範な情報源から関連する情報を抽出することを可能にする。 このアプローチの主な特徴は,情報の重複を最小限に抑えつつ情報獲得を最大化し,高レベルの情報伝達性を維持することである。

Recent advances in large language models (LLMs) have led to new summarization strategies, offering an extensive toolkit for extracting important information. However, these approaches are frequently limited by their reliance on isolated sources of data. The amount of information that can be gathered is limited and covers a smaller range of themes, which introduces the possibility of falsified content and limited support for multilingual and multimodal data. The paper proposes a novel approach to summarization that tackles such challenges by utilizing the strength of multiple sources to deliver a more exhaustive and informative understanding of intricate topics. The research progresses beyond conventional, unimodal sources such as text documents and integrates a more diverse range of data, including YouTube playlists, pre-prints, and Wikipedia pages. The aforementioned varied sources are then converted into a unified textual representation, enabling a more holistic analysis. This multifaceted approach to summary generation empowers us to extract pertinent information from a wider array of sources. The primary tenet of this approach is to maximize information gain while minimizing information overlap and maintaining a high level of informativeness, which encourages the generation of highly coherent summaries.
翻訳日:2024-06-21 18:45:06 公開日:2024-06-19
# 言語変化の次元に沿った大規模言語モデルの評価:言語間一般化の体系化

Evaluating Large Language Models along Dimensions of Language Variation: A Systematik Invesdigatiom uv Cross-lingual Generalization ( http://arxiv.org/abs/2406.13718v1 )

ライセンス: Link先を確認
Niyati Bafna, Kenton Murray, David Yarowsky, (参考訳) 大規模言語モデルは特定の言語間一般化能力を示すが、その性能劣化(PD)は、近縁言語(CRL)や方言(HRLN)に悩まされる。 しかし,現在PDにどのような言語的距離が寄与するか,その程度について,根本的な理解が得られていない。 さらに、言語間一般化の研究は、訓練データ中の未知量のCRL言語トレースと、低リソース関連言語や方言における評価データの可用性の欠如により、構築される。 これらの問題に対処するために、音韻、形態、語彙距離をベイズノイズプロセスとしてモデル化し、HRLNから制御的に離れた人工言語を合成する。 我々は、PDを基礎となる雑音パラメータの関数として分析し、孤立して構成された言語現象に対するモデルロバスト性、およびタスクおよびHRL特性がPDに与える影響について考察した。 実CRL-HRLNペアデータからパラメータ後部を計算し,それらが人工言語の計算された傾向に従うことを示す。 本フレームワークは, HRLN から言語的距離の点で CRL 上で観測された PD を診断し, 性能劣化を緩和する原理的手法への扉を開くことを目的として, HRLN のタスク性能を推定するための安価なソリューションを提供する。

While large language models exhibit certain cross-lingual generalization capabilities, they suffer from performance degradation (PD) on unseen closely-related languages (CRLs) and dialects relative to their high-resource language neighbour (HRLN). However, we currently lack a fundamental understanding of what kinds of linguistic distances contribute to PD, and to what extent. Furthermore, studies of cross-lingual generalization are confounded by unknown quantities of CRL language traces in the training data, and by the frequent lack of availability of evaluation data in lower-resource related languages and dialects. To address these issues, we model phonological, morphological, and lexical distance as Bayesian noise processes to synthesize artificial languages that are controllably distant from the HRLN. We analyse PD as a function of underlying noise parameters, offering insights on model robustness to isolated and composed linguistic phenomena, and the impact of task and HRL characteristics on PD. We calculate parameter posteriors on real CRL-HRLN pair data and show that they follow computed trends of artificial languages, demonstrating the viability of our noisers. Our framework offers a cheap solution to estimating task performance on an unseen CRL given HRLN performance using its posteriors, as well as for diagnosing observed PD on a CRL in terms of its linguistic distances from its HRLN, and opens doors to principled methods of mitigating performance degradation.
翻訳日:2024-06-21 18:45:06 公開日:2024-06-19
# GUIアクションナレーター:そのアクションはいつ、どこで起こったのか?

GUI Action Narrator: Where and When Did That Action Take Place? ( http://arxiv.org/abs/2406.13719v1 )

ライセンス: Link先を確認
Qinchen Wu, Difei Gao, Kevin Qinghong Lin, Zhuoyu Wu, Xiangwu Guo, Peiran Li, Weichen Zhang, Hengxu Wang, Mike Zheng Shou, (参考訳) マルチモーダルLLMの出現により、画像のOCR認識能力が大幅に向上し、GUI自動化がデジタルタスクの効率を高めるための現実的現実となった。 GUI自動化システムを開発する基本的な側面の1つは、原始的なGUIアクションを理解することである。 この理解は、エージェントがユーザーデモから学ぶことができるため、自動化の重要な要素である。 このような機能を厳格に評価するために,4,189種類の動画キャプションサンプルからなるGUIアクションの動画キャプションベンチマークを開発した。 本課題は,自然映像のキャプションに比較して,独特な課題を提示する。 1)GUIスクリーンショットには、通常、自然のシーンよりも密集した情報が含まれており、 2) GUI内のイベントはより微妙で、より迅速に発生し、正確な理解のために適切な時間範囲と空間領域に正確に注意する必要がある。 これらの課題に対処するために、カーソルを視覚的プロンプトとして利用するGUIビデオキャプションに、GUIアクションデータセット \textbf{Act2Cap} と、単純で効果的なフレームワーク \textbf{GUI Narrator} を導入し、高解像度スクリーンショットの解釈を強化する。 具体的には、カーソル検出器をデータセット上でトレーニングし、キーフレームとキー領域を選択する機構を備えたマルチモーダルLCMモデルでキャプションを生成する。 GPT-4oのような今日の最も先進的なマルチモーダルモデルにおいても、この課題は非常に困難なままである。 さらに,我々の評価は,オープンソースモデルの微調整に統合されるか,あるいはクローズドソースモデルにおけるプロンプト戦略として採用されるか,モデル性能を効果的に向上することを示す。

The advent of Multimodal LLMs has significantly enhanced image OCR recognition capabilities, making GUI automation a viable reality for increasing efficiency in digital tasks. One fundamental aspect of developing a GUI automation system is understanding primitive GUI actions. This comprehension is crucial as it enables agents to learn from user demonstrations, an essential element of automation. To rigorously evaluate such capabilities, we developed a video captioning benchmark for GUI actions, comprising 4,189 diverse video captioning samples. This task presents unique challenges compared to natural scene video captioning: 1) GUI screenshots typically contain denser information than natural scenes, and 2) events within GUIs are subtler and occur more rapidly, requiring precise attention to the appropriate time span and spatial region for accurate understanding. To address these challenges, we introduce our GUI action dataset \textbf{Act2Cap} as well as a simple yet effective framework, \textbf{GUI Narrator}, for GUI video captioning that utilizes the cursor as a visual prompt to enhance the interpretation of high-resolution screenshots. Specifically, a cursor detector is trained on our dataset, and a multimodal LLM model with mechanisms for selecting keyframes and key regions generates the captions. Experimental results indicate that even for today's most advanced multimodal models, such as GPT-4o, the task remains highly challenging. Additionally, our evaluations show that our strategy effectively enhances model performance, whether integrated into the fine-tuning of open-source models or employed as a prompting strategy in closed-source models.
翻訳日:2024-06-21 18:45:06 公開日:2024-06-19
# ファウショット問題に対するドメイン隣接細調整モデルアンサンブルの有用性について

On the Utility of Domain-Adjacent Fine-Tuned Model Ensembles for Few-shot Problems ( http://arxiv.org/abs/2406.13720v1 )

ライセンス: Link先を確認
Md Ibrahim Ibne Alam, Parikshit Ram, Soham Dan, Horst Samulowitz, Koushik Kar, (参考訳) 大規模言語モデル(LLM)は、ドメイン固有のデータに基づいて微調整された場合、幅広い下流タスクでうまく機能することが観察されている。 しかし、そのようなデータは、ドメイン・アジャセント・モデルを用いてゼロショットや少数ショットのアプローチを動機付ける多くのアプリケーションでは容易には利用できないかもしれない。 様々なタスクのための微調整されたモデルがいくつか用意されているが、与えられたタスクに適切なドメイン・アジャセント・モデルを見つけることは、多くの場合、直接の前進ではない。 本稿では,ドメイン・アジャセント・ファイン・チューン・ファウンデーション・モデル(DAFT-E)を数ショット問題に応用したフレームワークについて検討する。 ゼロショット問題に対して、このアンサンブル法は、単一最良モデルの精度に近い性能を提供する。 数ショットの問題により、このパフォーマンスはさらに向上し、DFT-Eはドメイン固有の微調整のためのデータよりもはるかに少ないデータを必要とする。

Large Language Models (LLMs) have been observed to perform well on a wide range of downstream tasks when fine-tuned on domain-specific data. However, such data may not be readily available in many applications, motivating zero-shot or few-shot approaches using domain-adjacent models. While several fine-tuned models for various tasks are available, finding an appropriate domain-adjacent model for a given task is often not straight forward. In this paper, we study DAFT-E, a framework that utilizes an Ensemble of Domain-Adjacent Fine-Tuned Foundation Models for few-shot problems. We show that for zero-shot problems, this ensembling method provides an accuracy performance close to that of the single best model. With few-shot problems, this performance improves further, at which point DEFT-E can outperform any single domain-adjacent model while requiring much less data for domain-specific fine-tuning.
翻訳日:2024-06-21 18:45:06 公開日:2024-06-19
# マルチモーダルおよび説明可能な土地利用推定のためのポストホック説明付き不均一グラフニューラルネットワーク

Heterogeneous Graph Neural Networks with Post-hoc Explanations for Multi-modal and Explainable Land Use Inference ( http://arxiv.org/abs/2406.13724v1 )

ライセンス: Link先を確認
Xuehao Zhai, Junqi Jiang, Adam Dejl, Antonio Rago, Fangce Guo, Francesca Toni, Aruna Sivakumar, (参考訳) 都市土地利用推定は都市計画や政策立案を支援する重要な課題である。 近年,センサと位置情報技術の利用が増加し,マルチモーダルモビリティデータ収集が促進され,日々の行動パターンに関する貴重な洞察が得られている。 多くの研究は、土地利用推定におけるこれらのマルチモーダルモビリティデータの可能性を探るために、先進的なデータ駆動技術を採用してきた。 しかし、既存の研究はしばしばサンプルを個別に処理し、近隣の物体間の空間的相関や異なるサービス間の異質性を無視している。 さらに、複雑なディープラーニング手法の本質的に低い解釈可能性は、透明性と外挿可能性が長期的な政策決定に不可欠である都市計画において重要な障壁となる。 これらの課題を克服するために、異種グラフニューラルネットワーク(HGN)と説明可能なAI技術を組み合わせた土地利用推定のための説明可能なフレームワークを導入し、精度と説明可能性の両方を向上する。 実証実験により、提案したHGNは、特に「オフィス」と「サステンス」の観点から、6つの土地利用指標全てに対して、ベースライングラフニューラルネットワークを著しく上回っていることが示された。 説明として、特徴の帰属と反実的説明を考える。 特徴帰属説明の分析は、ロンドンにおける通勤者の「仕事」と「レクリエーション」活動と、枠組みによって予測される「居住」と「作業」カテゴリーの対称的性質がよく一致していることを示している。 解析の結果, 予測された土地利用分布と理想的な混合状態との差異は, ノードの特徴や型の違いが主な原因であることが判明した。 これらの分析は,提案したHGNが都市計画や政策立案において,都市利害関係者を適切に支援できることを示した。

Urban land use inference is a critically important task that aids in city planning and policy-making. Recently, the increased use of sensor and location technologies has facilitated the collection of multi-modal mobility data, offering valuable insights into daily activity patterns. Many studies have adopted advanced data-driven techniques to explore the potential of these multi-modal mobility data in land use inference. However, existing studies often process samples independently, ignoring the spatial correlations among neighbouring objects and heterogeneity among different services. Furthermore, the inherently low interpretability of complex deep learning methods poses a significant barrier in urban planning, where transparency and extrapolability are crucial for making long-term policy decisions. To overcome these challenges, we introduce an explainable framework for inferring land use that synergises heterogeneous graph neural networks (HGNs) with Explainable AI techniques, enhancing both accuracy and explainability. The empirical experiments demonstrate that the proposed HGNs significantly outperform baseline graph neural networks for all six land-use indicators, especially in terms of 'office' and 'sustenance'. As explanations, we consider feature attribution and counterfactual explanations. The analysis of feature attribution explanations shows that the symmetrical nature of the `residence' and 'work' categories predicted by the framework aligns well with the commuter's 'work' and 'recreation' activities in London. The analysis of the counterfactual explanations reveals that variations in node features and types are primarily responsible for the differences observed between the predicted land use distribution and the ideal mixed state. These analyses demonstrate that the proposed HGNs can suitably support urban stakeholders in their urban planning and policy-making.
翻訳日:2024-06-21 18:45:06 公開日:2024-06-19
# 線系上の木間スライスワッサースタイン距離

Tree-Sliced Wasserstein Distance on a System of Lines ( http://arxiv.org/abs/2406.13725v1 )

ライセンス: Link先を確認
Viet-Hoang Tran, Trang Pham, Tho Tran, Tam Le, Tan M. Nguyen, (参考訳) Sliced Wasserstein (SW) distance in Optimal Transport (OT) は、その統計的有効性と計算効率により、様々な用途で広く利用されている。 一方、Tree Wassenstein (TW) とTree-Sliced Wassenstein (TSW) は、その地上費用が木の計量である確率測度に対するOTの例である。 TSWは計算の複雑さも低く、すなわち木内のエッジの数に線形である。 特に、TSWは鎖であるときにSWと同一である。 SWは1次元投影に依存して入力測度のトポロジ的情報を失う傾向にあるが、TSWはより柔軟であり、SWの次元性の呪いを軽減するために線ではなく木を選択することにより、より自由度が高い。 しかし, 実運用においては, 木量サンプリング手法は, 新しいサポートに適応する能力を制限するために, 所定のサポート上に構築されている。 本稿では,システム・オブ・ライン(TSW-SL)におけるツリースライシング・ワッサースタイン距離を提案し,SWとTSWの接続を実現する。 SW や TSW と比較して,我々の TSW-SL は TSW の高次自由度から恩恵を受ける一方,SW のような動的設定には適している。 TSW-SL では、Randon Transform の変種を用いて線系に測度を投影し、ツリー距離を持つ空間上で測度を計測し、TW を利用してそれらの距離を効率的に計算する。 我々は、勾配流、画像スタイル転送、生成モデルに関する様々な実験を行うことで、従来のSWに対するTSW-SLの利点を実証的に検証した。

Sliced Wasserstein (SW) distance in Optimal Transport (OT) is widely used in various applications thanks to its statistical effectiveness and computational efficiency. On the other hand, Tree Wassenstein (TW) and Tree-sliced Wassenstein (TSW) are instances of OT for probability measures where its ground cost is a tree metric. TSW also has a low computational complexity, i.e. linear to the number of edges in the tree. Especially, TSW is identical to SW when the tree is a chain. While SW is prone to loss of topological information of input measures due to relying on one-dimensional projection, TSW is more flexible and has a higher degree of freedom by choosing a tree rather than a line to alleviate the curse of dimensionality in SW. However, for practical applications, popular tree metric sampling methods are heavily built upon given supports, which limits their capacity to adapt to new supports. In this paper, we propose the Tree-Sliced Wasserstein distance on a System of Lines (TSW-SL), which brings a connection between SW and TSW. Compared to SW and TSW, our TSW-SL benefits from the higher degree of freedom of TSW while being suitable to dynamic settings as SW. In TSW-SL, we use a variant of the Radon Transform to project measures onto a system of lines, resulting in measures on a space with a tree metric, then leverage TW to efficiently compute distances between them. We empirically verify the advantages of TSW-SL over the traditional SW by conducting a variety of experiments on gradient flows, image style transfer, and generative models.
翻訳日:2024-06-21 18:45:06 公開日:2024-06-19
# 連続時間不均一エージェントマクロ経済モデルに対するマスター方程式の大域的解法

Global Solutions to Master Equations for Continuous Time Heterogeneous Agent Macroeconomic Models ( http://arxiv.org/abs/2406.13726v1 )

ライセンス: Link先を確認
Zhouzhou Gu, Mathieu Laurière, Sebastian Merkel, Jonathan Payne, (参考訳) 本研究では, 連続時間ヘテロジニアスエージェントエコノミーとアグリゲーションショックに対する新しいグローバルソリューションアルゴリズムを提案し, 比較する。 まず, エージェント分布を近似することにより, 経済の平衡を高次, 有限次元の非線形偏微分方程式で特徴づけることができる。 エージェントの数を離散化し、エージェント状態変数を離散化し、分布を基底関数の有限集合に投影する。 次に、ニューラルネットワークを用いて値関数を表現し、ディープラーニングツールを用いた微分方程式の解法を訓練する。 本稿では、この解を経済モデルインフォームドニューラルネットワーク(EMINN)と呼ぶ。 この手法の主な利点は、高次元非線形問題に対する大域的な解を見つけることができることである。 マクロ経済学や空間文学(1998年)、カーンとトーマス(2007年)、ビラル(2023年)において重要なモデルを解くことでアルゴリズムを実証する。

We propose and compare new global solution algorithms for continuous time heterogeneous agent economies with aggregate shocks. First, we approximate the agent distribution so that equilibrium in the economy can be characterized by a high, but finite, dimensional non-linear partial differential equation. We consider different approximations: discretizing the number of agents, discretizing the agent state variables, and projecting the distribution onto a finite set of basis functions. Second, we represent the value function using a neural network and train it to solve the differential equation using deep learning tools. We refer to the solution as an Economic Model Informed Neural Network (EMINN). The main advantage of this technique is that it allows us to find global solutions to high dimensional, non-linear problems. We demonstrate our algorithm by solving important models in the macroeconomics and spatial literatures (e.g. Krusell and Smith (1998), Khan and Thomas (2007), Bilal (2023)).
翻訳日:2024-06-21 18:45:06 公開日:2024-06-19
# ファジィ論理と因果推論の統合:PearlとNeyman-Rubin方法論の強化

Integrating Fuzzy Logic with Causal Inference: Enhancing the Pearl and Neyman-Rubin Methodologies ( http://arxiv.org/abs/2406.13731v1 )

ライセンス: Link先を確認
Amir Saki, Usef Faghihi, (参考訳) 本稿では,ファジィ論理を取り入れた一般化アプローチを導入することにより,因果推論におけるパール法とナイマン・ルービン法を一般化する。 実際、データに固有の曖昧さと不正確さを両立させるファジィ因果推論手法を導入するとともに、「高」「中」「低」といったファジィ用語を特徴とする主観的人間観も導入する。 そこで本研究では, ファジィ平均治療効果 (FATE) と一般ファジィ平均治療効果 (GFATE) の2つのファジィ因果効果式と, それらの正規化バージョンであるNFATEとNGFATEを紹介する。 2次処理変数を扱う場合、ファジィ因果効果公式は古典的平均処理効果(ATE)式と一致する。 FATEでは、処理変数のすべての値が等しく重要であると考えられる。 対照的にGFATEはこれらの値の希少性と頻度を考慮に入れている。 線形構造方程式モデル (SEM) の場合, 正規化された式であるNFATE と NGFATE は ATE と同値であることを示す。 さらに、これらの式に対する識別可能性基準を提供し、ファジィ部分集合と関連する確率分布の小さなばらつきに関して、それらの安定性を示す。 これにより、データ内の小さな摂動を処理する上で、私たちのアプローチの堅牢性が保証されます。 最後に, ファジィ因果推論手法の実践的応用を実証的に検証し, 実証するための実験例をいくつか提示する。

In this paper, we generalize the Pearl and Neyman-Rubin methodologies in causal inference by introducing a generalized approach that incorporates fuzzy logic. Indeed, we introduce a fuzzy causal inference approach that consider both the vagueness and imprecision inherent in data, as well as the subjective human perspective characterized by fuzzy terms such as 'high', 'medium', and 'low'. To do so, we introduce two fuzzy causal effect formulas: the Fuzzy Average Treatment Effect (FATE) and the Generalized Fuzzy Average Treatment Effect (GFATE), together with their normalized versions: NFATE and NGFATE. When dealing with a binary treatment variable, our fuzzy causal effect formulas coincide with classical Average Treatment Effect (ATE) formula, that is a well-established and popular metric in causal inference. In FATE, all values of the treatment variable are considered equally important. In contrast, GFATE takes into account the rarity and frequency of these values. We show that for linear Structural Equation Models (SEMs), the normalized versions of our formulas, NFATE and NGFATE, are equivalent to ATE. Further, we provide identifiability criteria for these formulas and show their stability with respect to minor variations in the fuzzy subsets and the probability distributions involved. This ensures the robustness of our approach in handling small perturbations in the data. Finally, we provide several experimental examples to empirically validate and demonstrate the practical application of our proposed fuzzy causal inference methods.
翻訳日:2024-06-21 18:45:06 公開日:2024-06-19
# データ中心の洞察は擬似ラベルを改善する

You can't handle the (dirty) truth: Data-centric insights improve pseudo-labeling ( http://arxiv.org/abs/2406.13733v1 )

ライセンス: Link先を確認
Nabeel Seedat, Nicolas Huynh, Fergus Imrie, Mihaela van der Schaar, (参考訳) Pseudo-labelingは、ラベル付きサンプルが不足している場合にラベルなしデータを活用するための、半教師付き学習技術として人気がある。 擬似ラベルの生成と選択はラベル付きデータに大きく依存する。 既存のアプローチでは、ラベル付きデータはゴールドスタンダードと「完璧」であると暗黙的に仮定している。 しかし、これは誤記や曖昧さといった問題で現実に違反する可能性がある。 この見過ごされた側面に対処し、擬似ラベル法を改善するためにラベル付きデータ品質を調査することが重要であることを示す。 具体的には、擬似ラベルの拡張のために、DIPSと呼ばれる新しいデータキャラクタリゼーションと選択フレームワークを導入する。 学習力学の分析によりラベル付きおよび擬似ラベル付きサンプルを選択する。 本研究では,多種多様な擬似ラベル手法に対するDIPSの適用性と効果を実世界の表紙および画像データセットで示す。 さらに、DIPSはデータ効率を改善し、異なる擬似ラベル間の性能の違いを減らす。 全体として、現実世界の設定における擬似ラベルの再考によるデータ中心のメリットを強調します。

Pseudo-labeling is a popular semi-supervised learning technique to leverage unlabeled data when labeled samples are scarce. The generation and selection of pseudo-labels heavily rely on labeled data. Existing approaches implicitly assume that the labeled data is gold standard and 'perfect'. However, this can be violated in reality with issues such as mislabeling or ambiguity. We address this overlooked aspect and show the importance of investigating labeled data quality to improve any pseudo-labeling method. Specifically, we introduce a novel data characterization and selection framework called DIPS to extend pseudo-labeling. We select useful labeled and pseudo-labeled samples via analysis of learning dynamics. We demonstrate the applicability and impact of DIPS for various pseudo-labeling methods across an extensive range of real-world tabular and image datasets. Additionally, DIPS improves data efficiency and reduces the performance distinctions between different pseudo-labelers. Overall, we highlight the significant benefits of a data-centric rethinking of pseudo-labeling in real-world settings.
翻訳日:2024-06-21 18:45:06 公開日:2024-06-19
# 静的セマンティックス:自然画像における意味表現の合成言語ビジョンデータセット

StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images ( http://arxiv.org/abs/2406.13735v1 )

ライセンス: Link先を確認
Rushikesh Zawar, Shaurya Dewan, Andrew F. Luo, Margaret M. Henderson, Michael J. Tarr, Leila Wehbe, (参考訳) 視覚シーンの意味を理解することはコンピュータビジョンの根本的な課題である。 この課題の重要な側面は、類似の意味や機能を共有するオブジェクトが目立った視覚的差異を示し、正確な識別と分類を困難にすることである。 テキストと画像のフレームワークの最近の進歩は、自然のシーン統計を暗黙的に捉えるモデルにつながっている。 これらのフレームワークは、様々な照明条件のような複雑な物体の共起やノイズの発生源と同様に、物体の視覚的変動を考慮に入れている。 大規模データセットとクロスアテンション条件を利用することで、これらのモデルは詳細でコンテキスト的にリッチなシーン表現を生成する。 この能力は、さまざまな困難な環境において、オブジェクト認識とシーン理解を改善するための新しい道を開く。 提案するStableSemanticsは、224万件の人為的なプロンプト、処理された自然言語キャプション、200万以上の合成画像、そして個々の名詞のチャンクに対応する1000万のアテンションマップからなるデータセットである。 我々は、視覚的に興味深い安定な拡散世代に対応する人為的なプロンプトを明示的に活用し、フレーズ毎に10世代を与え、各画像に対する横断地図を抽出する。 生成した画像のセマンティックな分布を探り、画像内のオブジェクトの分布を調べ、我々のデータに対するベンチマークキャプションとオープン語彙のセグメンテーション手法について検討する。 私たちの知る限りでは、私たちはセマンティック属性を持つ拡散データセットを最初にリリースしました。 提案したデータセットは、視覚意味理解の進歩を触媒し、より高度で効果的な視覚モデルを開発する基盤となることを期待する。 Webサイト: https://stablesemantics.github.io/StableSemantics

Understanding the semantics of visual scenes is a fundamental challenge in Computer Vision. A key aspect of this challenge is that objects sharing similar semantic meanings or functions can exhibit striking visual differences, making accurate identification and categorization difficult. Recent advancements in text-to-image frameworks have led to models that implicitly capture natural scene statistics. These frameworks account for the visual variability of objects, as well as complex object co-occurrences and sources of noise such as diverse lighting conditions. By leveraging large-scale datasets and cross-attention conditioning, these models generate detailed and contextually rich scene representations. This capability opens new avenues for improving object recognition and scene understanding in varied and challenging environments. Our work presents StableSemantics, a dataset comprising 224 thousand human-curated prompts, processed natural language captions, over 2 million synthetic images, and 10 million attention maps corresponding to individual noun chunks. We explicitly leverage human-generated prompts that correspond to visually interesting stable diffusion generations, provide 10 generations per phrase, and extract cross-attention maps for each image. We explore the semantic distribution of generated images, examine the distribution of objects within images, and benchmark captioning and open vocabulary segmentation methods on our data. To the best of our knowledge, we are the first to release a diffusion dataset with semantic attributions. We expect our proposed dataset to catalyze advances in visual semantic understanding and provide a foundation for developing more sophisticated and effective visual models. Website: https://stablesemantics.github.io/StableSemantics
翻訳日:2024-06-21 18:45:06 公開日:2024-06-19
# マジックアングル二層グラフェンの運動インダクタンス、量子幾何学、超伝導

Kinetic Inductance, Quantum Geometry, and Superconductivity in Magic-Angle Twisted Bilayer Graphene ( http://arxiv.org/abs/2406.13740v1 )

ライセンス: Link先を確認
Miuko Tanaka, Joel Î-j. Wang, Thao H. Dinh, Daniel Rodan-Legrain, Sameia Zaman, Max Hays, Bharath Kannan, Aziza Almanakly, David K. Kim, Bethany M. Niedzielski, Kyle Serniak, Mollie E. Schwartz, Kenji Watanabe, Takashi Taniguchi, Jeffrey A. Grover, Terry P. Orlando, Simon Gustavsson, Pablo Jarillo-Herrero, William D. Oliver, (参考訳) マジック角度ツイスト二層グラフェン(MATBG)における超伝導の物理学は、モワール系の研究に強い関心を持ち、高いT_{\mathrm{c}}$超伝導体のような他の強い相関を持つ物質のペアリング機構についての洞察を与えることができる。 ここでは,超伝導MATBGの運動インダクタンスによる超流動剛性を直接測定するために,DC-Transportおよびマイクロ波回路量子力学(cQED)を用いる。 従来の単一バンドフェルミ液体理論よりはるかに大きい超流動剛性は、魔法の角度で支配的な量子幾何学効果を含む理論とよく一致している。 超流動硬さの温度依存性は、等方性BCSモデルに反するパワーロー挙動を示し、代わりに抽出されたパワーロー指数は、従来の異方性BCSモデルやフラットバンド超伝導の量子幾何学理論を用いて解釈するにせよ、異方性超伝導ギャップを示す。 さらに、直流電流とマイクロ波電流の硬さの二次的依存性はギンズバーグ・ランダウ理論と一致している。 これらの結果は、MATBGにおける量子幾何学、超流動剛性、および非伝統的な超伝導の関連性を強く示唆している。 最後に、ここで使用される複合直流-マイクロ波測定プラットフォームは、他の原子間超伝導体の研究に適用できる。

The physics of superconductivity in magic-angle twisted bilayer graphene (MATBG) is a topic of keen interest in moir\'e systems research, and it may provide insight into the pairing mechanism of other strongly correlated materials such as high-$T_{\mathrm{c}}$ superconductors. Here, we use DC-transport and microwave circuit quantum electrodynamics (cQED) to measure directly the superfluid stiffness of superconducting MATBG via its kinetic inductance. We find the superfluid stiffness to be much larger than expected from conventional single-band Fermi liquid theory; rather, it aligns well with theory involving quantum geometric effects that are dominant at the magic angle. The temperature dependence of the superfluid stiffness exhibits a power-law behavior, which contraindicates an isotropic BCS model; instead, the extracted power-law exponents indicate an anisotropic superconducting gap, whether interpreted using the conventional anisotropic BCS model or a quantum geometric theory of flat-band superconductivity. Moreover, the quadratic dependence of the stiffness on both DC and microwave current is consistent with Ginzburg-Landau theory. Taken together, these findings strongly suggest a connection between quantum geometry, superfluid stiffness, and unconventional superconductivity in MATBG. Finally, the combined DC-microwave measurement platform used here is applicable to the investigation of other atomically thin superconductors.
翻訳日:2024-06-21 18:45:06 公開日:2024-06-19
# ツイスト多層グラフェン超伝導体の超流動剛性

Superfluid stiffness of twisted multilayer graphene superconductors ( http://arxiv.org/abs/2406.13742v1 )

ライセンス: Link先を確認
Abhishek Banerjee, Zeyu Hao, Mary Kreidel, Patrick Ledwith, Isabelle Phinney, Jeong Min Park, Andrew M. Zimmerman, Kenji Watanabe, Takashi Taniguchi, Robert M Westervelt, Pablo Jarillo-Herrero, Pavel A. Volkov, Ashvin Vishwanath, Kin Chung Fong, Philip Kim, (参考訳) 超伝導体のマクロ量子特性のロバスト性は、超流動剛性$\rho_s$、マクロ量子波動関数の位相を変化させるために必要なエネルギーを記述する量によって特徴づけられる。 銅酸化物などの非伝統的な超伝導体では、運動量空間におけるギャップレス点(ノード)からの準粒子励起により、$\rho_s$の低温の挙動が従来の超伝導体と大きく異なる。 最近発見されたマジックアングル・ツイストグラフェン族の研究により、超伝導状態に加えて、自発的に壊れた対称性に関連する強い相関の電子状態が明らかとなり、超伝導の潜在的非伝統的な性質を明らかにするために$\rho_s$の研究を招いた。 ここでは, マジックアングル・ツイスト三層グラフェン (TTG) における$\rho_s$の測定結果について報告する。 マイクロ波共振器に結合した超伝導TTGの動的誘導応答を測定するために高周波反射法を用いて、低温における$\rho_s$の線形温度依存性と電流バイアス依存性における非線形マイスナー効果を見出した。 さらにドーピング依存性は、0温度$\rho_s$と超伝導転移温度$T_c$の線形相関を示す。 その結果, TTGの能動超伝導の強い証拠が得られ, グラフェン系超伝導体の機構に強い制約が課された。

The robustness of the macroscopic quantum nature of a superconductor can be characterized by the superfluid stiffness, $\rho_s$, a quantity that describes the energy required to vary the phase of the macroscopic quantum wave function. In unconventional superconductors, such as cuprates, the low-temperature behavior of $\rho_s$ drastically differs from that of conventional superconductors due to quasiparticle excitations from gapless points (nodes) in momentum space. Intensive research on the recently discovered magic-angle twisted graphene family has revealed, in addition to superconducting states, strongly correlated electronic states associated with spontaneously broken symmetries, inviting the study of $\rho_s$ to uncover the potentially unconventional nature of its superconductivity. Here we report the measurement of $\rho_s$ in magic-angle twisted trilayer graphene (TTG), revealing unconventional nodal-gap superconductivity. Utilizing radio-frequency reflectometry techniques to measure the kinetic inductive response of superconducting TTG coupled to a microwave resonator, we find a linear temperature dependence of $\rho_s$ at low temperatures and nonlinear Meissner effects in the current bias dependence, both indicating nodal structures in the superconducting order parameter. Furthermore, the doping dependence shows a linear correlation between the zero temperature $\rho_s$ and the superconducting transition temperature $T_c$, reminiscent of Uemura's relation in cuprates, suggesting phase-coherence-limited superconductivity. Our results provide strong evidence for nodal superconductivity in TTG and put strong constraints on the mechanisms of these graphene-based superconductors.
翻訳日:2024-06-21 18:45:06 公開日:2024-06-19
# GenAI-Bench: コンポジションテキスト・ツー・ビジュアル・ジェネレーションの評価と改善

GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation ( http://arxiv.org/abs/2406.13743v1 )

ライセンス: Link先を確認
Baiqi Li, Zhiqiu Lin, Deepak Pathak, Jiayao Li, Yixin Fei, Kewen Wu, Tiffany Ling, Xide Xia, Pengchuan Zhang, Graham Neubig, Deva Ramanan, (参考訳) テキスト・トゥ・ビジュアル・モデルは今やフォトリアリスティックな画像やビデオを生成するが、属性、関係性、論理や比較のような高次推論を含む合成テキストプロンプトに苦慮している。 本研究では,GenAI-Benchに関する広範な人間研究を行い,合成テキスト・視覚生成の様々な側面において,先行画像・映像生成モデルの性能を評価する。 また、収集した人間の評価値と自動評価指標を比較し、VQAモデルが画像をプロンプトを正確に表現しているとみなす可能性を測定するメトリクスであるVQAScoreが、CLIPScoreなどの従来の指標を大幅に上回っていることを発見した。 さらに、VQAScoreは(微調整なしで)ブラックボックス方式で生成を改善することができる。 VQAScoreのランク付けは、DALL-E 3やStable Diffusionの人間のアライメント評価を改善するために、PickScore、HPSv2、ImageRewardなどの他のスコア法よりも2倍から3倍効果的である。 我々は、同じプロンプトから生成されたランキング画像のメトリクスを評価するために、4万以上の人間格付けを備えた新しいGenAI-Rankベンチマークをリリースする。 最後に,VQAScoreの改良を期待する領域について論じる。 私たちは、生成モデルと自動メトリクスの両方の科学的ベンチマークを容易にするために、すべての人間格付け(8万以上)をリリースします。

While text-to-visual models now produce photo-realistic images and videos, they struggle with compositional text prompts involving attributes, relationships, and higher-order reasoning such as logic and comparison. In this work, we conduct an extensive human study on GenAI-Bench to evaluate the performance of leading image and video generation models in various aspects of compositional text-to-visual generation. We also compare automated evaluation metrics against our collected human ratings and find that VQAScore -- a metric measuring the likelihood that a VQA model views an image as accurately depicting the prompt -- significantly outperforms previous metrics such as CLIPScore. In addition, VQAScore can improve generation in a black-box manner (without finetuning) via simply ranking a few (3 to 9) candidate images. Ranking by VQAScore is 2x to 3x more effective than other scoring methods like PickScore, HPSv2, and ImageReward at improving human alignment ratings for DALL-E 3 and Stable Diffusion, especially on compositional prompts that require advanced visio-linguistic reasoning. We will release a new GenAI-Rank benchmark with over 40,000 human ratings to evaluate scoring metrics on ranking images generated from the same prompt. Lastly, we discuss promising areas for improvement in VQAScore, such as addressing fine-grained visual details. We will release all human ratings (over 80,000) to facilitate scientific benchmarking of both generative models and automated metrics.
翻訳日:2024-06-21 18:35:22 公開日:2024-06-19
# 言語数:多言語LLMにおける学習と学習

Every Language Counts: Learn and Unlearn in Multilingual LLMs ( http://arxiv.org/abs/2406.13748v1 )

ライセンス: Link先を確認
Taiming Lu, Philipp Koehn, (参考訳) 本稿では,多言語大言語モデル (LLM) における有害情報の伝播について検討し,様々な未学習手法の有効性を評価する。 疑似情報は、どのような言語であっても、トレーニングデータを通じてこれらのモデルに導入されると、異なる言語に分散し、生成されたコンテンツの完全性と信頼性を損なうことができることを実証する。 その結果,英語データに重点を置く標準のアンラーニング手法は,多言語文脈における有害なコンテンツの拡散を緩和するには不十分であり,言語間の有害なコンテンツを必然的に強化できる可能性が示唆された。 英語と原語の双方で有害な応答に対処することで、すべての言語の世代を効果的に排除できることを示す。 このことは、多様な言語環境における安全性と信頼性を高めるために、現代のLLMの多言語性を考える包括的なアンラーニング戦略に対する批判的な必要性を浮き彫りにしている。

This paper investigates the propagation of harmful information in multilingual large language models (LLMs) and evaluates the efficacy of various unlearning methods. We demonstrate that fake information, regardless of the language it is in, once introduced into these models through training data, can spread across different languages, compromising the integrity and reliability of the generated content. Our findings reveal that standard unlearning techniques, which typically focus on English data, are insufficient in mitigating the spread of harmful content in multilingual contexts and could inadvertently reinforce harmful content across languages. We show that only by addressing harmful responses in both English and the original language of the harmful data can we effectively eliminate generations for all languages. This underscores the critical need for comprehensive unlearning strategies that consider the multilingual nature of modern LLMs to enhance their safety and reliability across diverse linguistic landscapes.
翻訳日:2024-06-21 18:35:22 公開日:2024-06-19
# 説明可能な自己監督型ディープニューラルネットワークによる結核スクリーニング

Empowering Tuberculosis Screening with Explainable Self-Supervised Deep Neural Networks ( http://arxiv.org/abs/2406.13750v1 )

ライセンス: Link先を確認
Neel Patel, Alexander Wong, Ashkan Ebadi, (参考訳) 結核は、特に資源に制限された人口や遠隔地では世界的な健康危機として存続し、毎年1000万人以上の人が新たに感染している。 公衆衛生における不平等の象徴である。 結核は世界の人口の約4分の1に影響を及ぼし、大半は8カ国に集中しており、全結核感染の3分の2を占める。 重篤な病気であるが、結核は治療も管理も可能である。 しかし、リスクの高い集団の早期発見とスクリーニングは必須である。 胸部X線は、結核スクリーニングに使用される主な画像技術である。 しかし、X線スクリーニングは専門の放射線学者を必要とし、特に限られた資源を持つ遠隔地では資源が不足することが多い。 その結果、迅速なスクリーニングで臨床医や医療提供者を支援するために人工知能(AI)を利用したシステムの必要性が高まっている。 しかし、信頼できるAIモデルをトレーニングするには、大規模な高品質なデータが必要である。 これらの課題に触発されて,本研究では,結核症例検診に適した自己指導型自己学習ネットワークを提案する。 ネットワークの全体的な精度は98.14%で、それぞれ95.72%と99.44%と高いリコール率を示し、結核の症例を同定し、臨床的に重要な特徴を効果的に捉えている。

Tuberculosis persists as a global health crisis, especially in resource-limited populations and remote regions, with more than 10 million individuals newly infected annually. It stands as a stark symbol of inequity in public health. Tuberculosis impacts roughly a quarter of the global populace, with the majority of cases concentrated in eight countries, accounting for two-thirds of all tuberculosis infections. Although a severe ailment, tuberculosis is both curable and manageable. However, early detection and screening of at-risk populations are imperative. Chest x-ray stands as the predominant imaging technique utilized in tuberculosis screening efforts. However, x-ray screening necessitates skilled radiologists, a resource often scarce, particularly in remote regions with limited resources. Consequently, there is a pressing need for artificial intelligence (AI)-powered systems to support clinicians and healthcare providers in swift screening. However, training a reliable AI model necessitates large-scale high-quality data, which can be difficult and costly to acquire. Inspired by these challenges, in this work, we introduce an explainable self-supervised self-train learning network tailored for tuberculosis case screening. The network achieves an outstanding overall accuracy of 98.14% and demonstrates high recall and precision rates of 95.72% and 99.44%, respectively, in identifying tuberculosis cases, effectively capturing clinically significant features.
翻訳日:2024-06-21 18:35:22 公開日:2024-06-19
# シフトウィンドウを用いたSVMの概念ドリフト可視化

Concept Drift Visualization of SVM with Shifting Window ( http://arxiv.org/abs/2406.13754v1 )

ライセンス: Link先を確認
Honorius Galmeanu, Razvan Andonie, (参考訳) 機械学習において、概念ドリフト(英: concept drift)とは、現在のデータモデルを無効化する情報の進化である。 これは、入力データの統計的特性が、予期せぬ方法で時間とともに変化するときに起こる。 動的に変化するデータを扱う場合、概念ドリフト検出は不可欠である。 その視覚化は、特に多次元データにおいて、データダイナミクスに関する貴重な洞察をもたらし、視覚的知識発見と関連している。 本稿では,並列座標に基づく新しい可視化モデルを提案する。 我々のモデルは連続した時間シフトウィンドウの特徴分布のヒストグラムを表す。 ドリフトはこれらのヒストグラムのバリエーションとして示され、連続した時間窓の分布手段を接続して得られる。 これらの図は、ドリフトポイントを選択する際に、機械学習モデルによってなされた決定を説明するためにどのように使用できるかを示す。 連続した時間窓の端でドリフトを分離することで、隣接する窓にはドリフト(または縮小)は存在しない。 合成データセットと実データセットの両方でこの概念を説明する。 実験では、以前の作業で紹介したシフトウィンドウを備えたインクリメンタル/デクリメンタルなSVMを使用しました。 提案手法では,コンセプトドリフトの存在を検出することに加えて,それを表現できる。 この情報は、この変化を説明するためにさらに利用することができる。 精神的な結果 さらなる調査の可能性を 開こうとしています

In machine learning, concept drift is an evolution of information that invalidates the current data model. It happens when the statistical properties of the input data change over time in unforeseen ways. Concept drift detection is crucial when dealing with dynamically changing data. Its visualization can bring valuable insight into the data dynamics, especially for multidimensional data, and is related to visual knowledge discovery. We propose a novel visualization model based on parallel coordinates, denoted as parallel histograms through time. Our model represents histograms of feature distributions for successive time-shifted windows. The drift is shown as variations of these histograms, obtained by connecting the means of the distribution for successive time windows. We show how these diagrams can be used to explain the decision made by the machine learning model in choosing the drift point. By isolating the drift at the edges of successive time windows, there will be none (or reduced) drift within the adjacent windows. We illustrate this concept on both synthetic and real datasets. In our experiments, we use an incremental/decremental SVM with shifting window, introduced by us in previous work. With our proposed technique, in addition to detect the presence of concept drift, we can also depict it. This information can be further used to explain the change. mental results, opening the possibility for further investigations.
翻訳日:2024-06-21 18:35:22 公開日:2024-06-19
# 現在の技術によるコヒーレントワンウェイ量子鍵分布のハッキング

Hacking coherent-one-way quantum key distribution with present-day technology ( http://arxiv.org/abs/2406.13760v1 )

ライセンス: Link先を確認
Javier Rey-Domínguez, Álvaro Navarrete, Peter van Loock, Marcos Curty, (参考訳) 近年の研究では、コヒーレントワンウェイ(COW)量子鍵分布(QKD)の秘密鍵レートがシステムの透過率と2次的にスケールしていることが示されており、長距離伝送には適さない。 これはいわゆるゼロ・エラー・アタック(ゼロ・エラー・アタック)によって証明された。 このタイプの攻撃は、盗聴者がエラーを起こすことなく秘密鍵全体を学ぶことを可能にする。 本稿では,現在の技術によるCOW QKDに対するゼロエラー攻撃の有効性と有効性について検討する。 そこで本稿では,線形受動光学素子,位相空間変位演算,しきい値単光子検出器で実現可能な2つの実用的なUSD受信機を紹介する。 第1の受信機はその成功確率に対して最適であり、第2の受信機は障害のある盗聴装置でプロトコルの性能に強い制約を課すことができる。 以上の結果から,ゼロエラー攻撃は,現実的な実験条件を想定したとしても,COW QKDの安全性を損なう可能性が示唆された。

Recent results have shown that the secret-key rate of coherent-one-way (COW) quantum key distribution (QKD) scales quadratically with the system's transmittance, thus rendering this protocol unsuitable for long-distance transmission. This was proven by using a so-called zero-error attack, which relies on an unambiguous state discrimination (USD) measurement. This type of attack allows the eavesdropper to learn the whole secret key without introducing any error. Here, we investigate the feasibility and effectiveness of zero-error attacks against COW QKD with present-day technology. For this, we introduce two practical USD receivers that can be realized with linear passive optical elements, phase-space displacement operations and threshold single-photon detectors. The first receiver is optimal with respect to its success probability, while the second one can impose stronger restrictions on the protocol's performance with faulty eavesdropping equipment. Our findings suggest that zero-error attacks could break the security of COW QKD even assuming realistic experimental conditions.
翻訳日:2024-06-21 18:35:22 公開日:2024-06-19
# 行列値力学系の指数時間差

Exponential time differencing for matrix-valued dynamical systems ( http://arxiv.org/abs/2406.13761v1 )

ライセンス: Link先を確認
Nayef Shkeir, Tobias Schäfer, Tobias Grafke, (参考訳) 行列進化方程式は、最適化や確率制御、機械学習やデータ同化における動的リアプノフ/シルヴェスター方程式やリカティ方程式など、多くの応用で発生する。 多くの場合、最も厳密な安定性条件は線形項から来ている。 指数時間差分法(ETD)は、線形項を正確に扱い、高度に安定な数値スキームを生成することが知られている。 特に、厳密な問題に対しては、ETD法が選択の方法である。 本稿では,行列値の動的方程式に対するETDアルゴリズムのクラスの拡張を提案する。 これにより、高度に効率的で安定した統合スキームを作成できます。 我々は、物理応用から機械学習における動的問題まで、様々な実世界の問題に対する効率性と適用性を示す。

Matrix evolution equations occur in many applications, such as dynamical Lyapunov/Sylvester systems or Riccati equations in optimization and stochastic control, machine learning or data assimilation. In many cases, their tightest stability condition is coming from a linear term. Exponential time differencing (ETD) is known to produce highly stable numerical schemes by treating the linear term in an exact fashion. In particular, for stiff problems, ETD methods are a method of choice. We propose an extension of the class of ETD algorithms to matrix-valued dynamical equations. This allows us to produce highly efficient and stable integration schemes. We show their efficiency and applicability for a variety of real-world problems, from geophysical applications to dynamical problems in machine learning.
翻訳日:2024-06-21 18:35:22 公開日:2024-06-19
# カーネル主成分分析による自己意識の隠れ構造解明

Unveiling the Hidden Structure of Self-Attention via Kernel Principal Component Analysis ( http://arxiv.org/abs/2406.13762v1 )

ライセンス: Link先を確認
Rachel S. Y. Teo, Tan M. Nguyen, (参考訳) シーケンスモデリングタスクにおけるトランスフォーマーの顕著な成功は、自然言語処理やコンピュータビジョンにおける様々な応用にまたがるものであり、自己認識の重要な役割に起因している。 多くのディープラーニングモデルの開発と同様に、これらの注意機構の構築はヒューリスティックと経験に依存している。 本研究では、カーネル主成分分析(カーネルPCA)から自己アテンションを導出し、自己アテンションが、そのクエリベクトルを特徴空間のキー行列の主成分軸に投影することを示す。 次に、自己アテンションにおける値行列の正確な公式を定式化し、この値行列が自己アテンションにおけるキーベクトルのグラム行列の固有ベクトルを捉えることを理論的および経験的に証明する。 カーネルPCAフレームワークを活用して、データ汚染に耐性のある新しいロバスト・プリンシパル・コンポーネント(RPC-Attention)を提案する。 我々は、画像Net-1Kオブジェクト分類、WikiText-103言語モデリング、ADE20K画像分割タスクにおけるRPC-Attentionの利点を実証的に示す。

The remarkable success of transformers in sequence modeling tasks, spanning various applications in natural language processing and computer vision, is attributed to the critical role of self-attention. Similar to the development of most deep learning models, the construction of these attention mechanisms rely on heuristics and experience. In our work, we derive self-attention from kernel principal component analysis (kernel PCA) and show that self-attention projects its query vectors onto the principal component axes of its key matrix in a feature space. We then formulate the exact formula for the value matrix in self-attention, theoretically and empirically demonstrating that this value matrix captures the eigenvectors of the Gram matrix of the key vectors in self-attention. Leveraging our kernel PCA framework, we propose Attention with Robust Principal Components (RPC-Attention), a novel class of robust attention that is resilient to data contamination. We empirically demonstrate the advantages of RPC-Attention over softmax attention on the ImageNet-1K object classification, WikiText-103 language modeling, and ADE20K image segmentation task.
翻訳日:2024-06-21 18:35:22 公開日:2024-06-19
# 心の目の理論を通して:マルチモーダルビデオ大言語モデルによる心を読む

Through the Theory of Mind's Eye: Reading Minds with Multimodal Video Large Language Models ( http://arxiv.org/abs/2406.13763v1 )

ライセンス: Link先を確認
Zhawnen Chen, Tianchun Wang, Yizhou Wang, Michal Kosinski, Xiang Zhang, Yun Fu, Sheng Li, (参考訳) 大規模なマルチモーダルモデルは、感情的、社会的推論に人間のような能力を持ち、もしそうなら、どのように機能するのか? 近年の研究では、大規模言語モデル(LLM)における創発的理論(ToM)推論能力が発見されている。 LLMは、アクターのToM(例えば、人間の信念、欲求、意図)について質問するテキストベースのToMタスクを解くことで、人々のメンタルステートを推論することができる。 しかし、野生での人間の推論は、時を経る動的な場面でしばしば基礎を置いている。 そこで,ビデオは時空間ToM推論能力を調べるための新しい媒体であると考えている。 具体的には、社会的、感情的な推論コンテンツが豊富にあるビデオについて、明示的な質問を行う。 ビデオとテキストを用いたToM推論のためのマルチモーダルLLMパイプラインを開発した。 また、ToM質問に応答するキーフレームを検索することで、明示的なToM推論を可能にし、マルチモーダルLLMがToMについてどのように推論するかを明らかにする。

Can large multimodal models have a human-like ability for emotional and social reasoning, and if so, how does it work? Recent research has discovered emergent theory-of-mind (ToM) reasoning capabilities in large language models (LLMs). LLMs can reason about people's mental states by solving various text-based ToM tasks that ask questions about the actors' ToM (e.g., human belief, desire, intention). However, human reasoning in the wild is often grounded in dynamic scenes across time. Thus, we consider videos a new medium for examining spatio-temporal ToM reasoning ability. Specifically, we ask explicit probing questions about videos with abundant social and emotional reasoning content. We develop a pipeline for multimodal LLM for ToM reasoning using video and text. We also enable explicit ToM reasoning by retrieving key frames for answering a ToM question, which reveals how multimodal LLMs reason about ToM.
翻訳日:2024-06-21 18:35:22 公開日:2024-06-19
# LLMはプログラムで自然界で理にかなっているか?

Can LLMs Reason in the Wild with Programs? ( http://arxiv.org/abs/2406.13764v1 )

ライセンス: Link先を確認
Yuan Yang, Siheng Xiong, Ali Payani, Ehsan Shareghi, Faramarz Fekri, (参考訳) 大規模言語モデル(LLM)は、プログラムの推論問題を解決する優れた能力を示している。 有望な方向性である一方で、そのようなフレームワークのほとんどは、タスク要求に関する事前の知識のある環境でトレーニングされ、評価されます。 しかし、LLMがより有能になるにつれて、現実の多くの問題があいまいなスコープで開き、しばしば解決するために複数の形式主義を必要とするより現実的なシナリオにおいて、それらの推論能力を評価する必要がある。 そこで本研究では,LLMが未知のタイプの推論問題を解くために,サブプロブレムとその対応する形式を同定し,各サブプロブレムを戦術的に導くプログラムを作成するという,野生における推論の課題を紹介する。 我々は,多種多様な推論問題に対する詳細な解を含む大規模戦術誘導軌道データセットを作成し,よく定義された単一形式推論(例えば,数学,論理)からあいまいでハイブリッドな推論(例えば,コモンセンス,数学と論理の組み合わせ)までを含む。 これにより、戦術の選択や実行、望ましくないショートカットを行う傾向など、微粒なレベルでのLCMの推論の様々な側面をテストすることができる。 実験では、既存のLCMは不明瞭で混合したスコープの問題で著しく失敗し、臨界限界と過度な問題(例えば、GSM8Kの精度は少なくとも50%低下する)を明らかにした。 さらに,戦術誘導軌道上における局所LLMの微調整による性能向上の可能性を示す。 Project repoはgithub.com/gblackout/Reason-in-the-Wildで利用可能

Large Language Models (LLMs) have shown superior capability to solve reasoning problems with programs. While being a promising direction, most of such frameworks are trained and evaluated in settings with a prior knowledge of task requirements. However, as LLMs become more capable, it is necessary to assess their reasoning abilities in more realistic scenarios where many real-world problems are open-ended with ambiguous scope, and often require multiple formalisms to solve. To investigate this, we introduce the task of reasoning in the wild, where an LLM is tasked to solve a reasoning problem of unknown type by identifying the subproblems and their corresponding formalisms, and writing a program to solve each subproblem, guided by a tactic. We create a large tactic-guided trajectory dataset containing detailed solutions to a diverse set of reasoning problems, ranging from well-defined single-form reasoning (e.g., math, logic), to ambiguous and hybrid ones (e.g., commonsense, combined math and logic). This allows us to test various aspects of LLMs reasoning at the fine-grained level such as the selection and execution of tactics, and the tendency to take undesired shortcuts. In experiments, we highlight that existing LLMs fail significantly on problems with ambiguous and mixed scope, revealing critical limitations and overfitting issues (e.g. accuracy on GSM8K drops by at least 50\%). We further show the potential of finetuning a local LLM on the tactic-guided trajectories in achieving better performance. Project repo is available at github.com/gblackout/Reason-in-the-Wild
翻訳日:2024-06-21 18:35:22 公開日:2024-06-19
# FastPersist: ディープラーニングにおけるモデルチェックポイントの高速化

FastPersist: Accelerating Model Checkpointing in Deep Learning ( http://arxiv.org/abs/2406.13768v1 )

ライセンス: Link先を確認
Guanhua Wang, Olatunji Ruwase, Bing Xie, Yuxiong He, (参考訳) モデルチェックポイントは、トレーニングや、推論などの下流アプリケーションに対するフォールトトレランスを可能にする、重要なディープラーニング(DL)アーティファクトである。 しかし、永続的なストレージへのチェックポイントの書き込みや他のDLトレーニングのI/O面は、急速に成長するモデルやデータセットのトレーニングを高速化するための計算中心の最適化によって無視される。 この不均衡に対処するために,本研究では,DLトレーニングにおけるチェックポイント生成を高速化するFastPersistを提案する。 FastPersistは3つの新しいテクニックを組み合わせています。 (i)SSDへの高速なチェックポイント書き込みのためのNVMe最適化 二 トレーニング環境における利用可能なSSDを用いた効率的な書き込み並列化 三 個別の訓練計算によるチェックポイントの重複 実世界の高密度かつスパースなDLモデルを用いて評価したところ、FastPersistは、ベースラインよりも最大116倍高速な永続ストレージでチェックポイントを生成し、無視できないオーバーヘッドでイテレーションごとのチェックポイントを可能にする。

Model checkpoints are critical Deep Learning (DL) artifacts that enable fault tolerance for training and downstream applications, such as inference. However, writing checkpoints to persistent storage, and other I/O aspects of DL training, are mostly ignored by compute-focused optimization efforts for faster training of rapidly growing models and datasets. Towards addressing this imbalance, we propose FastPersist to accelerate checkpoint creation in DL training. FastPersist combines three novel techniques: (i) NVMe optimizations for faster checkpoint writes to SSDs, (ii) efficient write parallelism using the available SSDs in training environments, and (iii) overlapping checkpointing with independent training computations. Our evaluation using real world dense and sparse DL models shows that FastPersist creates checkpoints in persistent storage up to 116x faster than baseline, and enables per-iteration checkpointing with negligible overhead.
翻訳日:2024-06-21 18:35:22 公開日:2024-06-19
# 楕円アテンション

Elliptical Attention ( http://arxiv.org/abs/2406.13770v1 )

ライセンス: Link先を確認
Stefan K. Nielsen, Laziz U. Abdullaev, Rachel Teo, Tan M. Nguyen, (参考訳) Pairwise dot-product self-attentionは、言語やビジョンにおける様々なアプリケーションで最先端のパフォーマンスを実現するトランスフォーマーの成功の鍵である。 このドット積自己アテンションはユークリッド距離を用いて入力トークン間の注意重みを計算し、モデルが崩壊し、汚染されたサンプルに対して脆弱になる。 本稿では,マハラノビス距離計を用いて注意重みの計算を行い,その基礎となる特徴空間を文脈的関連性の高い方向に拡張する手法を提案する。 特に,各問合せ周辺の超楕円近傍を定義し,文脈的に重要な方向にあるトークンの注意重みを増大させる。 我々はこの新しい注目のクラスを楕円的注意(Elliptical Attention)と呼ぶ。 楕円的注意(Elliptical Attention)は2つの利点を提供する。 1)表現の崩壊と縮小 2)Elliptical Attentionは、情報的特徴の小さなサブセットに注目するのではなく、文脈的に関連した情報に注意を払っているため、モデルの堅牢性を高める。 対象分類,画像分割,言語モデリングなど,さまざまな作業における基本点積の注意に対する楕円的注意の利点と最先端の注意法を実証的に示す。

Pairwise dot-product self-attention is key to the success of transformers that achieve state-of-the-art performance across a variety of applications in language and vision. This dot-product self-attention computes attention weights among the input tokens using Euclidean distance, which makes the model prone to representation collapse and vulnerable to contaminated samples. In this paper, we propose using a Mahalanobis distance metric for computing the attention weights to stretch the underlying feature space in directions of high contextual relevance. In particular, we define a hyper-ellipsoidal neighborhood around each query to increase the attention weights of the tokens lying in the contextually important directions. We term this novel class of attention Elliptical Attention. Our Elliptical Attention provides two benefits: 1) reducing representation collapse and 2) enhancing the model's robustness as the Elliptical Attention pays more attention to contextually relevant information rather than focusing on some small subset of informative features. We empirically demonstrate the advantages of Elliptical Attention over the baseline dot-product attention and state-of-the-art attention methods on various practical tasks, including object classification, image segmentation, and language modeling across different data modalities.
翻訳日:2024-06-21 18:35:22 公開日:2024-06-19
# 有限(量子)効果代数

Finite (quantum) effect algebras ( http://arxiv.org/abs/2406.13775v1 )

ライセンス: Link先を確認
Stan Gudder, Teiko Heinosaari, (参考訳) 有限効果代数とその分類について検討する。 我々は、$n$元を持つ効果代数が少なくとも$n-2$と少なくとも$(n-1)(n-2)/2$非自明な定義和を持つことを示す。 定義和の極小かつ極大な数で有限効果代数を特徴づける。 後者の効果代数はスケール効果代数(すなわち [0, 1] の部分代数)であり、それらのみである。 我々は、すべての整数 $n \geq 2$ に対して$n$要素を持つちょうど1つのスケール効果代数が存在することを証明している。 有限効果代数が量子エフェクト代数(つまり、標準量子エフェクト代数の部分効果代数)であることと、それが順序決定状態の有限集合を持つことを証明している。 2-6元を持つエフェクト代数のうち、全ての量子効果代数を同定する。

We investigate finite effect algebras and their classification. We show that an effect algebra with $n$ elements has at least $n-2$ and at most $(n-1)(n-2)/2$ nontrivial defined sums. We characterize finite effect algebras with these minimal and maximal number of defined sums. The latter effect algebras are scale effect algebras (i.e., subalgebras of [0,1]), and only those. We prove that there is exactly one scale effect algebra with $n$ elements for every integer $n \geq 2$. We show that a finite effect algebra is quantum effect algebra (i.e. a subeffect algebra of the standard quantum effect algebra) if and only if it has a finite set of order-determining states. Among effect algebras with 2-6 elements, we identify all quantum effect algebras.
翻訳日:2024-06-21 18:35:22 公開日:2024-06-19
# ゲーム・オブ・LLM:大規模言語モデルを用いた活動における構造構造の発見

Game of LLMs: Discovering Structural Constructs in Activities using Large Language Models ( http://arxiv.org/abs/2406.13777v1 )

ライセンス: Link先を確認
Shruthi K. Hiremath, Thomas Ploetz, (参考訳) 人間活動認識は時系列解析の問題である。 コミュニティが使用している一般的な分析手順は、認識パイプラインの設計に最適なウィンドウ長を仮定する。 しかし、活動期間と頻度が異なるスマートホームのシナリオでは、一定サイズの窓の仮定は保持されない。 さらに、以前の研究は、これらのアクティビティがビルディングブロックで構成されていることを示している。 我々は,大規模言語モデルを用いて,これらの基盤となる構造構造を同定することに注力する。 これらの構成物を特定することは、特に短期的・頻繁な活動を認識する上で有益である。 また、これらのビルディングブロックを用いて活動のモデル化を行い、スマートホームにおける活動監視の下流タスクを支援する活動認識手法の開発も提案する。

Human Activity Recognition is a time-series analysis problem. A popular analysis procedure used by the community assumes an optimal window length to design recognition pipelines. However, in the scenario of smart homes, where activities are of varying duration and frequency, the assumption of a constant sized window does not hold. Additionally, previous works have shown these activities to be made up of building blocks. We focus on identifying these underlying building blocks--structural constructs, with the use of large language models. Identifying these constructs can be beneficial especially in recognizing short-duration and infrequent activities. We also propose the development of an activity recognition procedure that uses these building blocks to model activities, thus helping the downstream task of activity monitoring in smart homes.
翻訳日:2024-06-21 18:35:22 公開日:2024-06-19
# CANにおけるマスクレード攻撃のための教師なしオンラインIDSのベンチマーク

Benchmarking Unsupervised Online IDS for Masquerade Attacks in CAN ( http://arxiv.org/abs/2406.13778v1 )

ライセンス: Link先を確認
Pablo Moriano, Steven C. Hespeler, Mingyan Li, Robert A. Bridges, (参考訳) CAN(Vehicular Control Area Network)は、悪意のある敵によるマスクレード攻撃の影響を受けやすい。 マスクレード攻撃では、敵はターゲットIDを沈黙させ、良性フレームの期待されるタイミングで偽コンテンツで悪意のあるフレームを送信する。 マスクレード攻撃は車両機能に深刻なダメージを与える可能性があり、CANで検出される最もステルスな攻撃であるため、最近の研究はCANでマスクレード攻撃を検出するためのフレームワークの比較に注意を払っている。 しかし、既存の作業の多くは、ドメインのリアルタイム制約に従わないシミュレーションを使用して既に収集されたCANログを使用してオフライン評価を報告している。 ここでは,CANにおけるマスクレード攻撃に対する4つの非深層学習(DL)に基づく教師なしオンライン侵入検知システム(IDS)のベンチマーク研究を導入することにより,最先端技術の発展に寄与する。 我々のアプローチは既存のベンチマークと異なり、スライディングウインドウ設定におけるストリーミングデータ条件の制御の効果を分析する。 そうするために、ROADデータセットから再生される現実的なマスクレード攻撃を使用します。 ベンチマークされたIDSは全ての攻撃タイプを検出するには有効ではないが、時系列のクラスタの階層構造の変化を検出する手法は高い計算オーバーヘッドを犠牲にして最良の結果をもたらす。 本稿では,オンラインCAN IDSによるマスクレード攻撃に対する制限,オープン課題,ベンチマーク手法の活用方法について論じる。

Vehicular controller area networks (CANs) are susceptible to masquerade attacks by malicious adversaries. In masquerade attacks, adversaries silence a targeted ID and then send malicious frames with forged content at the expected timing of benign frames. As masquerade attacks could seriously harm vehicle functionality and are the stealthiest attacks to detect in CAN, recent work has devoted attention to compare frameworks for detecting masquerade attacks in CAN. However, most existing works report offline evaluations using CAN logs already collected using simulations that do not comply with domain's real-time constraints. Here we contribute to advance the state of the art by introducing a benchmark study of four different non-deep learning (DL)-based unsupervised online intrusion detection systems (IDS) for masquerade attacks in CAN. Our approach differs from existing benchmarks in that we analyze the effect of controlling streaming data conditions in a sliding window setting. In doing so, we use realistic masquerade attacks being replayed from the ROAD dataset. We show that although benchmarked IDS are not effective at detecting every attack type, the method that relies on detecting changes at the hierarchical structure of clusters of time series produces the best results at the expense of higher computational overhead. We discuss limitations, open challenges, and how the benchmarked methods can be used for practical unsupervised online CAN IDS for masquerade attacks.
翻訳日:2024-06-21 18:35:22 公開日:2024-06-19
# FoRAG: Web強化長文質問応答のためのファクタリティ最適化検索生成

FoRAG: Factuality-optimized Retrieval Augmented Generation for Web-enhanced Long-form Question Answering ( http://arxiv.org/abs/2406.13779v1 )

ライセンス: Link先を確認
Tianchi Cai, Zhiwen Tan, Xierui Song, Tao Sun, Jiyan Jiang, Yunqi Xu, Yinger Zhang, Jinjie Gu, (参考訳) Retrieval Augmented Generation (RAG) は,質問応答(QA)タスクにおいて,長文質問応答(LFQA)の質を高めるために検索エンジンを活用する能力によって普及している。 Bing Chatのような様々なオープンソース手法やWebで強化された商用システムの出現にもかかわらず、2つの重要な問題は未解決のままである。 本稿では,Web を利用した LFQA における回答生成の体系的研究を通じて,これらの問題を修復する。 具体的には、まず、多面的回答の生成において明確な論理を達成し、2つのデータセットを構築するために、新しいアウトライン強化ジェネレータを提案する。 そこで本研究では,2段階の微粒化 RLHF フレームワークを念頭に設計したファクトリティ最適化手法を提案する。 提案手法は, 従来のRLHF法を特殊な場合として用いた。 英語と中国語のベンチマークで提案した「textit{Factuality-timized RAG (FoRAG) 法」の優位性を検証した。 特に,本手法をLlama2-7B-chatに適用した場合,FoRAG-L-7BはWebGPT-175Bを3つの一般的なメトリクス(コヒーレンス,有用性,事実性)で上回り,パラメータの数ははるかに少ない(WebGPT-175Bの1/24)。 私たちのデータセットとモデルは、より良い再現性のために公開されています。

Retrieval Augmented Generation (RAG) has become prevalent in question-answering (QA) tasks due to its ability of utilizing search engine to enhance the quality of long-form question-answering (LFQA). Despite the emergence of various open source methods and web-enhanced commercial systems such as Bing Chat, two critical problems remain unsolved, i.e., the lack of factuality and clear logic in the generated long-form answers. In this paper, we remedy these issues via a systematic study on answer generation in web-enhanced LFQA. Specifically, we first propose a novel outline-enhanced generator to achieve clear logic in the generation of multifaceted answers and construct two datasets accordingly. Then we propose a factuality optimization method based on a carefully designed doubly fine-grained RLHF framework, which contains automatic evaluation and reward modeling in different levels of granularity. Our generic framework comprises conventional fine-grained RLHF methods as special cases. Extensive experiments verify the superiority of our proposed \textit{Factuality-optimized RAG (FoRAG)} method on both English and Chinese benchmarks. In particular, when applying our method to Llama2-7B-chat, the derived model FoRAG-L-7B outperforms WebGPT-175B in terms of three commonly used metrics (i.e., coherence, helpfulness, and factuality), while the number of parameters is much smaller (only 1/24 of that of WebGPT-175B). Our datasets and models are made publicly available for better reproducibility: https://huggingface.co/forag.
翻訳日:2024-06-21 18:35:22 公開日:2024-06-19
# 変圧器とニューラルネットワークのための最小二次元フレームワーク

A Primal-Dual Framework for Transformers and Neural Networks ( http://arxiv.org/abs/2406.13781v1 )

ライセンス: Link先を確認
Tan M. Nguyen, Tam Nguyen, Nhat Ho, Andrea L. Bertozzi, Richard G. Baraniuk, Stanley J. Osher, (参考訳) 自己注意は、自然言語処理やコンピュータビジョンなど、シーケンスモデリングタスクにおけるトランスフォーマーの顕著な成功の鍵である。 ニューラルネットワーク層と同様に、これらの注意機構は、しばしばヒューリスティックと経験によって開発される。 変圧器の注意層を構築するための基本的枠組みとして, 自己注意は, ニューラルネットワーク層の形状を持つ支持ベクトル回帰問題から導かれる支持ベクトル展開に対応することを示す。 私たちのフレームワークを使って、一般的な注意層を実際に用い、次の2つの新しい注意層を提案する。 1)バッチ正規化層から派生したバッチ正規化注意(注意-BN)及び 2) SVRモデルに適合させるために, トレーニングデータが少ないことから, スケールドヘッドによる注意(注意-SH)を導出した。 本研究では,頭部の冗長性を低減し,モデルの精度を向上し,画像や時系列の分類を含む様々な実用的応用におけるモデルの効率性を向上させるために,アテンションBNとアテンション-SHの利点を実証的に示す。

Self-attention is key to the remarkable success of transformers in sequence modeling tasks including many applications in natural language processing and computer vision. Like neural network layers, these attention mechanisms are often developed by heuristics and experience. To provide a principled framework for constructing attention layers in transformers, we show that the self-attention corresponds to the support vector expansion derived from a support vector regression problem, whose primal formulation has the form of a neural network layer. Using our framework, we derive popular attention layers used in practice and propose two new attentions: 1) the Batch Normalized Attention (Attention-BN) derived from the batch normalization layer and 2) the Attention with Scaled Head (Attention-SH) derived from using less training data to fit the SVR model. We empirically demonstrate the advantages of the Attention-BN and Attention-SH in reducing head redundancy, increasing the model's accuracy, and improving the model's efficiency in a variety of practical applications including image and time-series classification.
翻訳日:2024-06-21 18:25:38 公開日:2024-06-19
# 任意Nに対する量子探索アルゴリズムの効率的な実装

Efficient Implementation of a Quantum Search Algorithm for Arbitrary N ( http://arxiv.org/abs/2406.13785v1 )

ライセンス: Link先を確認
Alok Shukla, Prakash Vedula, (参考訳) 本稿では,Groverの検索アルゴリズムを,アイテム数(または検索問題のサイズ)が2。 計算基底状態のサブセット上での均一な量子重ね合わせ状態の生成に効率的なアルゴリズムを用いることで、多くのケースにおいてオラクル呼び出し(およびグローバーの反復)の数を大幅に削減できることを実証する。 特別な場合(つまり、$N$ が 2 の整数パワーよりわずかに大きい形式である場合)、オラクル呼び出し数(およびグロバーの反復)の減少は漸近的に 29.33 % に近づいた。 この改善は、従来のGroverのアルゴリズムと比較して重要なものであり、このアルゴリズムは2.2の最も近いパワーまでN$を丸めることによって、そのようなケースを処理している。 この改良の鍵となるのは、計算基底状態のサブセット上で均一な量子重ね合わせ状態を作成するアルゴリズムである。これは、アンシラ量子ビットを使わずに、ゲートの複雑さと回路深さがたったの$O (\log_2 (N)) である。

This paper presents an enhancement to Grover's search algorithm for instances where the number of items (or the size of the search problem) $N$ is not a power of 2. By employing an efficient algorithm for the preparation of uniform quantum superposition states over a subset of the computational basis states, we demonstrate that a considerable reduction in the number of oracle calls (and Grover's iterations) can be achieved in many cases. For special cases (i.e., when $N$ is of the form such that it is slightly greater than an integer power of 2), the reduction in the number of oracle calls (and Grover's iterations) asymptotically approaches 29.33\%. This improvement is significant compared to the traditional Grover's algorithm, which handles such cases by rounding $N$ up to the nearest power of 2. The key to this improvement is our algorithm for the preparation of uniform quantum superposition states over a subset of the computational basis states, which requires gate complexity and circuit depth of only $ O (\log_2 (N)) $, without using any ancilla qubits.
翻訳日:2024-06-21 18:25:38 公開日:2024-06-19
# LIT: ロボットによる協調作業のための大規模言語モデル駆動意図追跡

LIT: Large Language Model Driven Intention Tracking for Proactive Human-Robot Collaboration -- A Robot Sous-Chef Application ( http://arxiv.org/abs/2406.13787v1 )

ライセンス: Link先を確認
Zhe Huang, John Pohovey, Ananya Yammanuru, Katherine Driggs-Campbell, (参考訳) 大型言語モデル (LLM) とビジョン言語モデル (VLM) は、ロボットが自然言語のプロンプトを制御行動に置き、オープンな世界でタスクを達成できるようにする。 しかし、長時間の協調作業に適用すると、この定式化はタスクのすべてのステップでロボットの動作の開始や明確化を過剰に促す結果となる。 我々はLIT(Language-Driven Intention Tracking)を提案し、LLMとVLMを利用して人間の長期動作をモデル化し、ロボットを積極的に協調するための次の人間の意図を予測する。 我々は,LITをベースとした協調作業ロボットと,協調調理作業における人間ユーザとの円滑な協調を実演する。

Large Language Models (LLM) and Vision Language Models (VLM) enable robots to ground natural language prompts into control actions to achieve tasks in an open world. However, when applied to a long-horizon collaborative task, this formulation results in excessive prompting for initiating or clarifying robot actions at every step of the task. We propose Language-driven Intention Tracking (LIT), leveraging LLMs and VLMs to model the human user's long-term behavior and to predict the next human intention to guide the robot for proactive collaboration. We demonstrate smooth coordination between a LIT-based collaborative robot and the human user in collaborative cooking tasks.
翻訳日:2024-06-21 18:25:38 公開日:2024-06-19
# 知識グラフと健康改善のための標準を用いたIoTベースのメンタルヘルス

IoT-Based Preventive Mental Health Using Knowledge Graphs and Standards for Better Well-Being ( http://arxiv.org/abs/2406.13791v1 )

ライセンス: Link先を確認
Amelie Gyrard, Seyedali Mohammadi, Manas Gaur, Antonio Kung, (参考訳) 持続可能な開発目標(SDG)は、国連にアジェンダ2030を目標とする開発のためのロードマップを与える。 SDG3 "Good Health and Well-Being" は健康な生活を保証し、あらゆる年齢の幸福を促進する。 デジタル技術はSDG3をサポートすることができる。 燃え尽き症候群や抑うつは予防的な健康を促進することで軽減される。 患者の知識が不足し、健康管理に焦点が当てられているため、遅すぎる前に患者を助ける必要がある。 米国では、ポジティブ心理学やマインドフルネスといった新しい傾向が強く推奨されている。 デジタルツイン(DT)は生理的信号(ウェアラブル経由で収集するなど)を用いて感情の継続的なモニタリングを支援する。 デジタル双生児は監視を促進し、生活の質を改善し、パーソナライズを向上する健康的な洞察を提供する。 ヘルスケアDTの課題は、データフォーマット、通信プロトコル、データ交換メカニズムの標準化である。 データ統合と知識の課題を達成するために、メンタルヘルスの健康を高めるためにメンタルヘルス知識グラフ(オントロジーとデータセット)を設計しました。 知識グラフ(KG)は、LOV4IoTオントロジーカタログ(感情、抑うつ、精神保健)に分類されるオントロジーに基づくメンタルヘルスプロジェクトから知識を取得する。 さらに、KGは可能な限り標準(例えばオントロジー)にマッピングされる。 ETSI SmartM2M, ITU/WHO, ISO, W3C, NIST, IEEEの標準はメンタルヘルスに関係している。

Sustainable Development Goals (SDGs) give the UN a road map for development with Agenda 2030 as a target. SDG3 "Good Health and Well-Being" ensures healthy lives and promotes well-being for all ages. Digital technologies can support SDG3. Burnout and even depression could be reduced by encouraging better preventive health. Due to the lack of patient knowledge and focus to take care of their health, it is necessary to help patients before it is too late. New trends such as positive psychology and mindfulness are highly encouraged in the USA. Digital Twin (DT) can help with the continuous monitoring of emotion using physiological signals (e.g., collected via wearables). Digital twins facilitate monitoring and provide constant health insight to improve quality of life and well-being with better personalization. Healthcare DT challenges are standardizing data formats, communication protocols, and data exchange mechanisms. To achieve those data integration and knowledge challenges, we designed the Mental Health Knowledge Graph (ontology and dataset) to boost mental health. The Knowledge Graph (KG) acquires knowledge from ontology-based mental health projects classified within the LOV4IoT ontology catalog (Emotion, Depression, and Mental Health). Furthermore, the KG is mapped to standards (e.g., ontologies) when possible. Standards from ETSI SmartM2M, ITU/WHO, ISO, W3C, NIST, and IEEE are relevant to mental health.
翻訳日:2024-06-21 18:25:37 公開日:2024-06-19
# 特徴レンダリングを用いたNeRF-Feat:6次元オブジェクト位置推定

NeRF-Feat: 6D Object Pose Estimation using Feature Rendering ( http://arxiv.org/abs/2406.13796v1 )

ライセンス: Link先を確認
Shishir Reddy Vutukur, Heike Brock, Benjamin Busam, Tolga Birdal, Andreas Hutter, Slobodan Ilic, (参考訳) オブジェクトポス推定は、ロボットの把握と拡張現実において重要な要素である。 学習ベースのアプローチは一般的に、高度に正確なCADモデルからのトレーニングデータや、複雑な設定で取得したラベル付きトレーニングデータを必要とする。 我々は、CADモデルなしで、弱いラベル付きデータからポーズを推定することを学ぶことで、この問題に対処する。 我々は、NeRFを用いてオブジェクト形状を暗黙的に学習し、後にコントラッシブロスを用いてCNNと協調してビュー不変の特徴を学習するために使用されることを提案する。 NeRFはビュー一貫性のある特徴の学習を支援するが、CNNは学習した特徴が対称性を尊重することを保証している。 推論中、CNNは、NeRF内の暗黙の3dモデルとの対応を確立するために使用できるビュー不変の特徴を予測するために使用される。 対応は、NeRFの参照フレーム内のポーズを推定するために使用される。 我々のアプローチは、同様のトレーニング設定を使用して、他のアプローチとは異なり、対称オブジェクトを処理できる。 具体的には、後にポーズ推定に使用されるNeRFを用いて、視点不変、識別的特徴を学習する。 LM, LM-Occlusion, T-Lessデータセットに対するアプローチを検証し, 弱いラベル付きデータを用いてもベンチマーク精度が得られた。

Object Pose Estimation is a crucial component in robotic grasping and augmented reality. Learning based approaches typically require training data from a highly accurate CAD model or labeled training data acquired using a complex setup. We address this by learning to estimate pose from weakly labeled data without a known CAD model. We propose to use a NeRF to learn object shape implicitly which is later used to learn view-invariant features in conjunction with CNN using a contrastive loss. While NeRF helps in learning features that are view-consistent, CNN ensures that the learned features respect symmetry. During inference, CNN is used to predict view-invariant features which can be used to establish correspondences with the implicit 3d model in NeRF. The correspondences are then used to estimate the pose in the reference frame of NeRF. Our approach can also handle symmetric objects unlike other approaches using a similar training setup. Specifically, we learn viewpoint invariant, discriminative features using NeRF which are later used for pose estimation. We evaluated our approach on LM, LM-Occlusion, and T-Less dataset and achieved benchmark accuracy despite using weakly labeled data.
翻訳日:2024-06-21 18:25:37 公開日:2024-06-19
# LLMにおける意味構造マッピングとヒューマン・アナロジカル推論

Semantic Structure-Mapping in LLM and Human Analogical Reasoning ( http://arxiv.org/abs/2406.13803v1 )

ライセンス: Link先を確認
Sam Musker, Alex Duchnowski, Raphaël Millière, Ellie Pavlick, (参考訳) アナロジカル推論は人間の学習と認知の中核であると考えられている。 近年,文字文字列の類推のような抽象的な記号操作タスクにおいて,人体の類似推論能力とLarge Language Models(LLMs)を比較している。 しかし、これらの研究は、自然言語の単語のような意味論的意味のある記号に対する類推的推論をほとんど無視している。 言語を非言語的ドメインにリンクする類似性を引き出す能力は、意味構造マッピング(semantic structure-mapping)と呼ばれ、言語習得とより広範な認知発達において重要な役割を担っていると考えられている。 我々は,あるドメインから別のドメインへのセマンティック構造と内容の移動を必要とする類似推論タスクにおいて,被験者とLLMを試験する。 高度なLLMは、多くのタスクのバリエーションで人間のパフォーマンスにマッチする。 しかしながら、人間とLLMは特定のタスクのバリエーションや意味的障害に対して異なる反応をする。 我々のデータは、LLMがこれらの重要な認知タスクにおいて人間レベルのパフォーマンスに近づいていることを示唆しています。

Analogical reasoning is considered core to human learning and cognition. Recent studies have compared the analogical reasoning abilities of human subjects and Large Language Models (LLMs) on abstract symbol manipulation tasks, such as letter string analogies. However, these studies largely neglect analogical reasoning over semantically meaningful symbols, such as natural language words. This ability to draw analogies that link language to non-linguistic domains, which we term semantic structure-mapping, is thought to play a crucial role in language acquisition and broader cognitive development. We test human subjects and LLMs on analogical reasoning tasks that require the transfer of semantic structure and content from one domain to another. Advanced LLMs match human performance across many task variations. However, humans and LLMs respond differently to certain task variations and semantic distractors. Overall, our data suggest that LLMs are approaching human-level performance on these important cognitive tasks, but are not yet entirely human like.
翻訳日:2024-06-21 18:25:37 公開日:2024-06-19
# WikiContradict: Wikipediaによる実世界の知識紛争におけるLLMの評価ベンチマーク

WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia ( http://arxiv.org/abs/2406.13805v1 )

ライセンス: Link先を確認
Yufang Hou, Alessandra Pascale, Javier Carnerero-Cano, Tigran Tchrakian, Radu Marinescu, Elizabeth Daly, Inkit Padhi, Prasanna Sattigeri, (参考訳) Retrieval-augmented Generation (RAG) は、幻覚や時代遅れの情報など、大規模言語モデル(LLM)の限界を緩和する有望なソリューションとして登場した。 しかし、LLMが異なる拡張検索されたパスから生じる知識の衝突をどのように扱うかは、特にこれらのパスが同一のソースから発生し、同じ信頼性を持つ場合に明らかである。 本研究では,多くのLLMにおいて高品質な事前学習リソースとして広く認識されているウィキペディアの矛盾文に基づく質問に対して,LLM生成した回答を包括的に評価する。 具体的にはWikiContradictを紹介し,実世界の知識紛争を含む検索パスを付加した場合のLLM性能を評価するために設計された253の高品質な人間アノテーション付きインスタンスからなるベンチマークについて紹介する。 我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。 5 LLMと3500以上の判断を含むWikiContradictインスタンスのサブセットに対する厳密な人間評価を通じて、これらのモデルの振る舞いと制限について光を当てた。 例えば、矛盾した事実を含む2つの節が与えられた場合、すべてのモデルは文脈の矛盾する性質を正確に反映する答えを生成するのに苦労する。 人的評価はコストがかかるため,強力なオープンソース言語モデルを用いてLLM性能を推定する自動モデルも導入し,Fスコア0.8。 この自動測定値を用いて、すべてのWikiContradictインスタンスで7つのLCMから1500以上の回答を評価できる。 今後の作業を容易にするため、WikiContradict を https://ibm.biz/wikiContradict でリリースしています。

Retrieval-augmented generation (RAG) has emerged as a promising solution to mitigate the limitations of large language models (LLMs), such as hallucinations and outdated information. However, it remains unclear how LLMs handle knowledge conflicts arising from different augmented retrieved passages, especially when these passages originate from the same source and have equal trustworthiness. In this work, we conduct a comprehensive evaluation of LLM-generated answers to questions that have varying answers based on contradictory passages from Wikipedia, a dataset widely regarded as a high-quality pre-training resource for most LLMs. Specifically, we introduce WikiContradict, a benchmark consisting of 253 high-quality, human-annotated instances designed to assess LLM performance when augmented with retrieved passages containing real-world knowledge conflicts. We benchmark a diverse range of both closed and open-source LLMs under different QA scenarios, including RAG with a single passage, and RAG with 2 contradictory passages. Through rigorous human evaluations on a subset of WikiContradict instances involving 5 LLMs and over 3,500 judgements, we shed light on the behaviour and limitations of these models. For instance, when provided with two passages containing contradictory facts, all models struggle to generate answers that accurately reflect the conflicting nature of the context, especially for implicit conflicts requiring reasoning. Since human evaluation is costly, we also introduce an automated model that estimates LLM performance using a strong open-source language model, achieving an F-score of 0.8. Using this automated metric, we evaluate more than 1,500 answers from seven LLMs across all WikiContradict instances. To facilitate future work, we release WikiContradict on: https://ibm.biz/wikicontradict.
翻訳日:2024-06-21 18:25:37 公開日:2024-06-19
# AlanaVLM:エゴセントリックビデオ理解のためのマルチモーダル・エンボディードAIファンデーションモデル

AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding ( http://arxiv.org/abs/2406.13807v1 )

ライセンス: Link先を確認
Alessandro Suglia, Claudio Greco, Katie Baker, Jose L. Part, Ioannis Papaionnou, Arash Eshghi, Ioannis Konstas, Oliver Lemon, (参考訳) ロボットやウェアラブルを介してデプロイされるAIパーソナルアシスタントは、人間と効果的に協力するために具体的理解を必要とする。 しかしながら、現在のVLM(Vision-Language Models)は、主に、エゴセントリックな知覚体験の豊かさを無視して、第三者の視点ビデオに焦点を当てている。 このギャップに対処するために、我々は3つの重要な貢献を提案する。 まず,Egocentric Video Understanding Dataset (EVUD)を導入し,ビデオキャプションにおけるVLMのトレーニングと,egocentric Video特有の質問応答タスクについて紹介する。 第2に,EVUD 上でパラメータ効率の高い手法を用いて訓練した 7B パラメータ VLM である AlanaVLM を提案する。 最後に,OpenEQA 上での AlanaVLM の機能評価を行った。 提案モデルでは,GPT-4をプランナとして用いたソクラティックモデルを含むオープンソースモデルの性能を3.6%向上させる。 さらに、我々はClaude 3とGemini Pro Vision 1.0を上回り、Gemini Pro 1.5とGPT-4Vと比較して、空間的推論では後者を上回ります。 この研究は、ロボットやウェアラブルにデプロイ可能な効率的なVLMの構築方法を確立し、エンボディドビデオ理解を活用して、日常的なタスクにおいて人間とシームレスにコラボレーションし、次世代のEmbodied AIに寄与する。

AI personal assistants deployed via robots or wearables require embodied understanding to collaborate with humans effectively. However, current Vision-Language Models (VLMs) primarily focus on third-person view videos, neglecting the richness of egocentric perceptual experience. To address this gap, we propose three key contributions. First, we introduce the Egocentric Video Understanding Dataset (EVUD) for training VLMs on video captioning and question answering tasks specific to egocentric videos. Second, we present AlanaVLM, a 7B parameter VLM trained using parameter-efficient methods on EVUD. Finally, we evaluate AlanaVLM's capabilities on OpenEQA, a challenging benchmark for embodied video question answering. Our model achieves state-of-the-art performance, outperforming open-source models including strong Socratic models using GPT-4 as a planner by 3.6%. Additionally, we outperform Claude 3 and Gemini Pro Vision 1.0 and showcase competitive results compared to Gemini Pro 1.5 and GPT-4V, even surpassing the latter in spatial reasoning. This research paves the way for building efficient VLMs that can be deployed in robots or wearables, leveraging embodied video understanding to collaborate seamlessly with humans in everyday tasks, contributing to the next generation of Embodied AI
翻訳日:2024-06-21 18:25:37 公開日:2024-06-19
# LLMの低ランク知識蒸留はマイクロ電子共鳴に有効か?

Can Low-Rank Knowledge Distillation in LLMs be Useful for Microelectronic Reasoning? ( http://arxiv.org/abs/2406.13808v1 )

ライセンス: Link先を確認
Nirjhor Rouf, Fin Amin, Paul D. Franzon, (参考訳) 本研究では、電子設計自動化(EDA)の文脈において、オフラインの大規模言語モデル(LLM)の使用の可能性に関する実証的な結果を示す。 本研究の目的は,マイクロエレクトロニックQ&Aエキスパートとして機能する現代言語モデル(Llama-2-7B)の機能とその推論,およびマイクロエレクトロニック関連問題を解くための生成能力について検討・評価することである。 Llama-2-7Bは、新しいローランク知識蒸留法(LoRA-KD)の導入など、様々な適応法で試験された。 我々の実験は質的かつ定量的な結果をもたらす。

In this work, we present empirical results regarding the feasibility of using offline large language models (LLMs) in the context of electronic design automation (EDA). The goal is to investigate and evaluate a contemporary language model's (Llama-2-7B) ability to function as a microelectronic Q & A expert as well as its reasoning, and generation capabilities in solving microelectronic-related problems. Llama-2-7B was tested across a variety of adaptation methods, including introducing a novel low-rank knowledge distillation (LoRA-KD) scheme. Our experiments produce both qualitative and quantitative results.
翻訳日:2024-06-21 18:25:37 公開日:2024-06-19
# 言語モデルに基づくMSR-Video to Text Datasetのホロスティックな言語ビデオ表現に向けて

Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset ( http://arxiv.org/abs/2406.13809v1 )

ライセンス: Link先を確認
Yuchen Yang, Yingxuan Duan, (参考訳) より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。 トレーニング戦略の改善にもかかわらず、言語ビデオデータセットの品質はあまり注目されていない。 現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、クエリがはるかに複雑である現実世界の自然言語ビデオ検索タスクにおいて、限られた能力をもたらす。 本稿では、ビデオ言語データセットを自動的に強化し、より洗練された表現学習のニーズに対して、よりモダリティと文脈に配慮し、すべての下流タスクを支援する手法を提案する。 多面的ビデオキャプション法は, 実体, 行動, 音声書き起こし, 美学, 感情的手がかりを抽出し, テキスト側から映像側へ詳細な情報を提供する。 また,言語モデルを用いたエージェントライクな手法を開発し,高品質で現実的なテキスト記述を生成し,人間の介入を低減し,拡張性を実現する。 MSR-VTTデータセットと複数のマルチモーダル検索モデルを用いて,テキストビデオ検索により,言語とビデオの表現を改善する手法の有効性を評価する。

A more robust and holistic language-video representation is the key to pushing video understanding forward. Despite the improvement in training strategies, the quality of the language-video dataset is less attention to. The current plain and simple text descriptions and the visual-only focus for the language-video tasks result in a limited capacity in real-world natural language video retrieval tasks where queries are much more complex. This paper introduces a method to automatically enhance video-language datasets, making them more modality and context-aware for more sophisticated representation learning needs, hence helping all downstream tasks. Our multifaceted video captioning method captures entities, actions, speech transcripts, aesthetics, and emotional cues, providing detailed and correlating information from the text side to the video side for training. We also develop an agent-like strategy using language models to generate high-quality, factual textual descriptions, reducing human intervention and enabling scalability. The method's effectiveness in improving language-video representation is evaluated through text-video retrieval using the MSR-VTT dataset and several multi-modal retrieval models.
翻訳日:2024-06-21 18:25:37 公開日:2024-06-19
# 単発量子機械学習

Single-shot quantum machine learning ( http://arxiv.org/abs/2406.13812v1 )

ライセンス: Link先を確認
Erik Recio-Armengol, Jens Eisert, Johannes Jakob Meyer, (参考訳) 量子機械学習は、量子コンピュータを用いて学習方法を改善することを目的としている。 もしその可能性を実現するためには、多くの障害を克服する必要がある。 特に押されるのは、量子学習モデルの出力が本質的にランダムであるため、予測段階で発生する。 これは、実際の予測を得るためには、量子学習モデルの多くの実行を集約する必要があるため、しばしばかなりのオーバーヘッドを生み出す。 この研究では、量子学習モデルがこの問題を回避し、ほぼ決定論的に予測を生成することができるかを分析します。 量子分類器において、単一ショットネスの厳密な定義を与え、量子学習モデルがほぼ決定論的である程度が、モデルで使用される埋め込み量子状態の識別可能性によって制約されていることを示す。 埋め込みのブラックボックスを開くと、埋め込みが量子回路によって実現された場合、単一ショットネスが可能であるためには一定の深さが必要であることを示す。 我々は、量子学習モデルは汎用的な方法で単発ではあり得ず、同時に訓練可能であることを示した。

Quantum machine learning aims to improve learning methods through the use of quantum computers. If it is to ever realize its potential, many obstacles need to be overcome. A particularly pressing one arises at the prediction stage because the outputs of quantum learning models are inherently random. This creates an often considerable overhead, as many executions of a quantum learning model have to be aggregated to obtain an actual prediction. In this work, we analyze when quantum learning models can evade this issue and produce predictions in a near-deterministic way -- paving the way to single-shot quantum machine learning. We give a rigorous definition of single-shotness in quantum classifiers and show that the degree to which a quantum learning model is near-deterministic is constrained by the distinguishability of the embedded quantum states used in the model. Opening the black box of the embedding, we show that if the embedding is realized by quantum circuits, a certain depth is necessary for single-shotness to be even possible. We conclude by showing that quantum learning models cannot be single-shot in a generic way and trainable at the same time.
翻訳日:2024-06-21 18:25:37 公開日:2024-06-19
# 対話型人工知能が心の理論と自律行動の体系化に有効か : 比較分析

The Efficacy of Conversational Artificial Intelligence in Rectifying the Theory of Mind and Autonomy Biases: Comparative Analysis ( http://arxiv.org/abs/2406.13813v1 )

ライセンス: Link先を確認
Marcin Rządeczka, Anna Sterna, Julia Stolińska, Paulina Kaczyńska, Marcin Moskalewicz, (参考訳) この研究は、認知バイアスの是正と人間とAIの相互作用への影響の認識における会話型人工知能(CAI)の有効性を評価する。 認知バイアス(規範的思考からの体系的な逸脱)は精神健康に影響を与え、うつ病や不安などの症状を増す。 治療チャットボットは、認知行動療法(CBT)をより使いやすく、手頃な価格で、スケーラブルで即時のサポートを提供する。 この研究は、典型的なユーザとボットの相互作用をシミュレートする臨床ベースの仮想ケースシナリオを用いた構造化手法を用いている。 パフォーマンスと感情の認知バイアスは、マインドバイアスの理論(AIの人間的形態化、AIへの過信、AIへの帰属)と自律バイアス(制御のイリュージョン、基本的な帰属エラー、ジャストワールド仮説)の2つのカテゴリで評価された。 定性的フィードバック機構は, 精度, 治療品質, およびCBTの原理の遵守に基づく応答の定量化のために, 順序尺度を用いて使用した。 医療用ロボット(Wysa, Youper)と一般用LSM(GTP 3.5, GTP 4, Gemini Pro)をスクリプトによる相互作用により評価し, 認知科学者と臨床心理学者が二重レビューを行った。 統計的分析では、非治療的ボットはバイアス修正において常に優れた成績を示し、6つのバイアスのうち4つは影響認識において優れていた。 このデータは、非治療的なチャットボットが認知バイアスに対処する上でより効果的であることを示唆している。

The study evaluates the efficacy of Conversational Artificial Intelligence (CAI) in rectifying cognitive biases and recognizing affect in human-AI interactions, which is crucial for digital mental health interventions. Cognitive biases (systematic deviations from normative thinking) affect mental health, intensifying conditions like depression and anxiety. Therapeutic chatbots can make cognitive-behavioral therapy (CBT) more accessible and affordable, offering scalable and immediate support. The research employs a structured methodology with clinical-based virtual case scenarios simulating typical user-bot interactions. Performance and affect recognition were assessed across two categories of cognitive biases: theory of mind biases (anthropomorphization of AI, overtrust in AI, attribution to AI) and autonomy biases (illusion of control, fundamental attribution error, just-world hypothesis). A qualitative feedback mechanism was used with an ordinal scale to quantify responses based on accuracy, therapeutic quality, and adherence to CBT principles. Therapeutic bots (Wysa, Youper) and general-use LLMs (GTP 3.5, GTP 4, Gemini Pro) were evaluated through scripted interactions, double-reviewed by cognitive scientists and a clinical psychologist. Statistical analysis showed therapeutic bots were consistently outperformed by non-therapeutic bots in bias rectification and in 4 out of 6 biases in affect recognition. The data suggests that non-therapeutic chatbots are more effective in addressing some cognitive biases.
翻訳日:2024-06-21 18:25:37 公開日:2024-06-19
# 縦断的研究における欠落データ分析手法の評価--伝統と機械学習のアプローチ

Evaluation of Missing Data Analytical Techniques in Longitudinal Research: Traditional and Machine Learning Approaches ( http://arxiv.org/abs/2406.13814v1 )

ライセンス: Link先を確認
Dandan Tang, Xin Tong, (参考訳) Missing Not at Random (MNAR) と非正規データを扱うのは困難である。 フル情報最大推定(FIML)のような従来の欠落データ分析手法は、正規分布の仮定に基づいて構築された非正規データで失敗する可能性がある。 二段階ロバスト推定(TSRE)は非正規データを管理するが、非正規分布を持つMNAR条件下では、FIMLとTSREのどちらも縦断的な研究は少ない。 従来の統計的アプローチとは異なり、機械学習アプローチはデータに関する分布的な仮定を必要としない。 さらに重要なことは、彼らはMNARデータに対する約束を示したが、彼らの長期研究における応用は、MAR(Missing at Random)とMNARのシナリオの両方に対処している。 本研究ではモンテカルロシミュレーションを用いて,成長曲線モデリングフレームワークにおけるデータ不足に対する6つの解析手法の有効性を評価・比較する。 これらのテクニックには、FIMLやTSREといった従来のアプローチ、単一命令による機械学習アプローチ(K-Nearest NeighborsとMissForest)、複数の命令による機械学習アプローチ(MicroecartとMissForest)が含まれる。 本研究では,サンプルサイズ,データ速度の欠如,データメカニズムの欠如,データ分布がモデル推定の精度と効率に与える影響について検討する。 その結果,FIMLはMNARデータに最も有効であることが示唆された。 TSREはMARデータを扱うのに優れているが、MissForestは、非常に歪んだ分布、非常に大きなサンプルサイズ(例:1000より大きいn)、低い欠落データ率の組み合わせによって、限られた条件でのみ有利である。

Missing Not at Random (MNAR) and nonnormal data are challenging to handle. Traditional missing data analytical techniques such as full information maximum likelihood estimation (FIML) may fail with nonnormal data as they are built on normal distribution assumptions. Two-Stage Robust Estimation (TSRE) does manage nonnormal data, but both FIML and TSRE are less explored in longitudinal studies under MNAR conditions with nonnormal distributions. Unlike traditional statistical approaches, machine learning approaches do not require distributional assumptions about the data. More importantly, they have shown promise for MNAR data; however, their application in longitudinal studies, addressing both Missing at Random (MAR) and MNAR scenarios, is also underexplored. This study utilizes Monte Carlo simulations to assess and compare the effectiveness of six analytical techniques for missing data within the growth curve modeling framework. These techniques include traditional approaches like FIML and TSRE, machine learning approaches by single imputation (K-Nearest Neighbors and missForest), and machine learning approaches by multiple imputation (micecart and miceForest). We investigate the influence of sample size, missing data rate, missing data mechanism, and data distribution on the accuracy and efficiency of model estimation. Our findings indicate that FIML is most effective for MNAR data among the tested approaches. TSRE excels in handling MAR data, while missForest is only advantageous in limited conditions with a combination of very skewed distributions, very large sample sizes (e.g., n larger than 1000), and low missing data rates.
翻訳日:2024-06-21 18:25:37 公開日:2024-06-19
# IG-CFAT: 実世界の超解像における変圧器を効果的に爆発させるための改良されたGANベースのフレームワーク

IG-CFAT: An Improved GAN-Based Framework for Effectively Exploiting Transformers in Real-World Image Super-Resolution ( http://arxiv.org/abs/2406.13815v1 )

ライセンス: Link先を確認
Alireza Aghelan, Ali Amiryan, Abolfazl Zarghani, Behnoush Hatami, (参考訳) 単一画像超解像(SISR)の分野では、トランスフォーマーベースモデルが大きな進歩を見せている。 しかし、実世界の画像超解像のような応用分野におけるこれらのモデルの可能性や効率は、あまり注目されず、改善の機会もかなりある。 近年,複合核融合アテンショントランス (CFAT) は,従来のSOTAモデルよりも高画質である。 本稿では,実世界の画像超解像における変換器の性能を効果的に活用するために,IG-CFATと呼ばれる改良型GANモデルにCFATモデルを拡張した。 IG-CFATは、画像の詳細をより正確に再構成し、知覚品質を著しく向上させる意味認識識別器を組み込んでいる。 さらに,本モデルでは,適応的劣化モデルを用いて実世界の劣化をシミュレートする。 提案手法は,GANを用いた超解像モデルにおける従来の損失関数にウェーブレット損失を加え,より効率的に高周波の詳細を再構成する。 実験の結果、IG-CFATは実世界の画像の超解像に新しいベンチマークを設定し、定量と定性の両方でSOTAモデルを上回った。

In the field of single image super-resolution (SISR), transformer-based models, have demonstrated significant advancements. However, the potential and efficiency of these models in applied fields such as real-world image super-resolution are less noticed and there are substantial opportunities for improvement. Recently, composite fusion attention transformer (CFAT), outperformed previous state-of-the-art (SOTA) models in classic image super-resolution. This paper extends the CFAT model to an improved GAN-based model called IG-CFAT to effectively exploit the performance of transformers in real-world image super-resolution. IG-CFAT incorporates a semantic-aware discriminator to reconstruct image details more accurately, significantly improving perceptual quality. Moreover, our model utilizes an adaptive degradation model to better simulate real-world degradations. Our methodology adds wavelet losses to conventional loss functions of GAN-based super-resolution models to reconstruct high-frequency details more efficiently. Empirical results demonstrate that IG-CFAT sets new benchmarks in real-world image super-resolution, outperforming SOTA models in both quantitative and qualitative metrics.
翻訳日:2024-06-21 18:25:37 公開日:2024-06-19
# ソーシャルメディア上でのソーシャルムーブメントのフレーミング:診断・予後・モチベーション戦略を解き放つ

Framing Social Movements on Social Media: Unpacking Diagnostic, Prognostic, and Motivational Strategies ( http://arxiv.org/abs/2406.13820v1 )

ライセンス: Link先を確認
Julia Mendelsohn, Maya Vijan, Dallas Card, Ceren Budak, (参考訳) ソーシャルメディアは、活動家が市民と直接コミュニケーションすることを可能にし、運動指導者、参加者、傍観者、反対者が物語をまとめて構築し、争う場所を提供する。 2018~2019年の3つの問題(銃、移民、LGBTQの権利)を取り巻く社会運動からのTwitterメッセージに注目して、診断(プロブレム識別と帰属)、予後(提案された解決策と戦術)、モチベーション(行動への呼びかけ)のフレーミング戦略を検出するためのコードブック、注釈付きデータセット、計算モデルを作成します。 我々は,各フレーミング戦略の詳細な教師なし言語分析を行い,フレーミングと代名詞や非音節モーダル動詞などの言語的特徴の関連性を明らかにする。 最後に、問題やその他の社会的、文化的、相互作用的な文脈におけるフレーミング戦略を比較します。 例えば、診断フレーミングはオリジナルの放送投稿よりも回答の方が一般的であり、社会運動組織はジャーナリストや一般市民よりも予後や動機づけのフレーミングに重点を置いていることが示される。

Social media enables activists to directly communicate with the public and provides a space for movement leaders, participants, bystanders, and opponents to collectively construct and contest narratives. Focusing on Twitter messages from social movements surrounding three issues in 2018-2019 (guns, immigration, and LGBTQ rights), we create a codebook, annotated dataset, and computational models to detect diagnostic (problem identification and attribution), prognostic (proposed solutions and tactics), and motivational (calls to action) framing strategies. We conduct an in-depth unsupervised linguistic analysis of each framing strategy, and uncover cross-movement similarities in associations between framing and linguistic features such as pronouns and deontic modal verbs. Finally, we compare framing strategies across issues and other social, cultural, and interactional contexts. For example, we show that diagnostic framing is more common in replies than original broadcast posts, and that social movement organizations focus much more on prognostic and motivational framing than journalists and ordinary citizens.
翻訳日:2024-06-21 18:25:37 公開日:2024-06-19
# 必然的負性: 負の量子チャネルエントロピーの付加性指令

Inevitable Negativity: Additivity Commands Negative Quantum Channel Entropy ( http://arxiv.org/abs/2406.13823v1 )

ライセンス: Link先を確認
Gilad Gour, Doyeong Kim, Takla Nateeboon, Guy Shemesh, Goni Yoeli, (参考訳) 量子チャネルは、量子情報理論に不可欠な幅広い操作のスペクトルを表しており、量子情報の伝達から様々なリソースの操作まで、全てを包含している。 状態領域において、偏化の概念は古典系と量子系の両方に固有の不確実性を比較するための基本的な道具として機能する。 本稿では,古典チャネルと量子チャネルの両方における不確実性を評価するための厳密な枠組みを確立する。 特定の種類のスーパーチャネルを利用することで、構築性、公理性、運用性という3つの異なる方法を導入し、解明する。 興味深いことに、これらの方法論は一貫した順序に収束する。 この収束は、チャネルのエントロピー関数を定義するための堅牢な基盤を提供するだけでなく、このより広い文脈でエントロピーの解釈を明らかにする。 最も注目すべきは、量子チャネルの可能なエントロピー関数は、負の値を仮定し、従来のエントロピーの概念に挑戦する必要があることである。

Quantum channels represent a broad spectrum of operations crucial to quantum information theory, encompassing everything from the transmission of quantum information to the manipulation of various resources. In the domain of states, the concept of majorization serves as a fundamental tool for comparing the uncertainty inherent in both classical and quantum systems. This paper establishes a rigorous framework for assessing the uncertainty in both classical and quantum channels. By employing a specific class of superchannels, we introduce and elucidate three distinct approaches to channel majorization: constructive, axiomatic, and operational. Intriguingly, these methodologies converge to a consistent ordering. This convergence not only provides a robust basis for defining entropy functions for channels but also clarifies the interpretation of entropy in this broader context. Most notably, our findings reveal that any viable entropy function for quantum channels must assume negative values, thereby challenging traditional notions of entropy.
翻訳日:2024-06-21 18:15:51 公開日:2024-06-19
# 数学テキストからの定義抽出のための細調整BERT

Fine-Tuning BERTs for Definition Extraction from Mathematical Text ( http://arxiv.org/abs/2406.13827v1 )

ライセンス: Link先を確認
Lucy Horowitz, Ryan Hathaway, (参考訳) 本稿では,LaTeXで書かれた数学英語から「定義抽出」を行うために,事前学習した3つのBERTモデルを微調整した。 これは二項分類問題として示され、文が数学的項の定義を含むか、そうでないかのいずれかである。 私たちは、これらのモデルを微調整してテストするために、2つのオリジナルのデータセットである"Chicago"と"TAC"を使用しました。 また、2021年にVanetikとLitvakが発表したデータセットであるWFMALLもテストしました。 その結果,高性能のSentence-BERT変換器モデルでは,全体の精度,リコール,精度を最良に評価し,計算労力の少ない先行モデルに匹敵する結果が得られた。

In this paper, we fine-tuned three pre-trained BERT models on the task of "definition extraction" from mathematical English written in LaTeX. This is presented as a binary classification problem, where either a sentence contains a definition of a mathematical term or it does not. We used two original data sets, "Chicago" and "TAC," to fine-tune and test these models. We also tested on WFMALL, a dataset presented by Vanetik and Litvak in 2021 and compared the performance of our models to theirs. We found that a high-performance Sentence-BERT transformer model performed best based on overall accuracy, recall, and precision metrics, achieving comparable results to the earlier models with less computational effort.
翻訳日:2024-06-21 18:15:51 公開日:2024-06-19
# 空間言語による推論のためのニューロシンボリックトレーニング

Neuro-symbolic Training for Reasoning over Spatial Language ( http://arxiv.org/abs/2406.13828v1 )

ライセンス: Link先を確認
Tanawan Premsri, Parisa Kordjamshidi, (参考訳) 最近の研究では、より多くのデータとより大きなモデルによって、推論を必要とする自然言語問題に対するより正確な解決策が得られることが示されている。 しかし、モデルは一般化可能性に必要な抽象レベルを達成できないため、観測されていない複雑な入力合成の解を容易に提供できない。 この問題を軽減するために,制約として推論の論理的ルールを活用でき,モデルに新たな監督源を提供するニューロシンボリック手法を用いて言語モデルを訓練することを提案する。 推論の規則に従うためのトレーニングモデルは、一般化可能性や伝達学習に必要なより効果的な抽象化を彼らに促す。 テキストによる空間的推論という課題に焦点をあてる。 複数の言語モデルを用いた様々なベンチマークの結果、神経-記号訓練に基づく効果的なドメイン転送の仮説が立証された。

Recent research shows that more data and larger models can provide more accurate solutions to natural language problems requiring reasoning. However, models can easily fail to provide solutions in unobserved complex input compositions due to not achieving the level of abstraction required for generalizability. To alleviate this issue, we propose training the language models with neuro-symbolic techniques that can exploit the logical rules of reasoning as constraints and provide additional supervision sources to the model. Training models to adhere to the regulations of reasoning pushes them to make more effective abstractions needed for generalizability and transfer learning. We focus on a challenging problem of spatial reasoning over text. Our results on various benchmarks using multiple language models confirm our hypothesis of effective domain transfer based on neuro-symbolic training.
翻訳日:2024-06-21 18:15:51 公開日:2024-06-19
# 量子スピン系:トロイダル分類と幾何学的双対性

Quantum spin systems: toroidal classification and geometric duality ( http://arxiv.org/abs/2406.13830v1 )

ライセンス: Link先を確認
Vahid Azimi-Mousolou, Anders Bergman, Anna Delin, Olle Eriksson, Manuel Pereiro, Danny Thonig, Erik Sjöqvist, (参考訳) 量子スピン系のトロイダル分類と幾何学的双対性を示す。 我々の分類と双対性を通して、マグノン系の様々な二部量子的特徴が、関連するハミルトンパラメータの可用性に基づいて、二部磁性体と反強磁性体の両方に等価に表れることを明らかにした。 さらに、反強磁性状態は強磁性状態に匹敵する超高速な双対として強調され、どちらも量子スピントロニクスと技術応用に同一の能力を示す。 2モードのマグノン量子相関の分割とスクイーズが、強磁性系と反強磁性系の間でどのように実現されるかを示す、具体的なイラストが提供される。

Toroidal classification and geometric duality in quantum spin systems is presented. Through our classification and duality, we reveal that various bipartite quantum features in magnon-systems can manifest equivalently in both bipartite ferromagnetic and antiferromagnetic materials, based upon the availability of relevant Hamiltonian parameters. Additionally, the results highlight the antiferromagnetic regime as an ultra-fast dual counterpart to the ferromagnetic regime, both exhibiting identical capabilities for quantum spintronics and technological applications. Concrete illustrations are provided, demonstrating how splitting and squeezing types of two-mode magnon quantum correlations can be realized across ferro- and antiferromagnetic regimes.
翻訳日:2024-06-21 18:15:51 公開日:2024-06-19
# Cluster Quilting: パッチワーク学習のためのスペクトルクラスタリング

Cluster Quilting: Spectral Clustering for Patchwork Learning ( http://arxiv.org/abs/2406.13833v1 )

ライセンス: Link先を確認
Lili Zheng, Andersen Chang, Genevera I. Allen, (参考訳) パッチワーク学習は、サンプルと機能の両方が断片化されたサブセットで観察される、新しくて困難なデータ収集パラダイムとして生まれます。 技術限界、測定費用、マルチモーダルデータ統合により、そのようなパッチワークのデータ構造は神経科学、医療、ゲノム学などでよく見られる。 各データパッチを別々に解析する代わりに、データセット全体から包括的な知識を抽出することが非常に望ましい。 本研究は,パッチワーク学習におけるクラスタリング問題に焦点をあて,何らかの機能に対して共同で観測されない場合であっても,すべてのサンプル間のクラスタを見つけることを目的としている。 本稿では,クラスタリングと呼ばれる新しいスペクトルクラスタリング手法を提案する。 (i)すべてのパッチ間の重なり合う構造を利用するパッチ順序付け。 (ii)パッチワイズSVD 三 パッチ重複に対する頂点特異ベクトルの逐次線型写像 (iv)k-平均を合成および重み付き特異ベクトルとする。 準ガウス混合モデルの下では、パッチワイド観測系の特性とクラスタリング信号とノイズ依存性の両方を反映する非漸近的誤クラスタリング速度バウンダリによる理論的保証を確立する。 我々はまた、神経科学とゲノム学のシミュレーションデータセットと実際のデータセットの両方に関する広範な実験的な研究を通して、クラスタ・クィルティングのアルゴリズムを検証する。

Patchwork learning arises as a new and challenging data collection paradigm where both samples and features are observed in fragmented subsets. Due to technological limits, measurement expense, or multimodal data integration, such patchwork data structures are frequently seen in neuroscience, healthcare, and genomics, among others. Instead of analyzing each data patch separately, it is highly desirable to extract comprehensive knowledge from the whole data set. In this work, we focus on the clustering problem in patchwork learning, aiming at discovering clusters amongst all samples even when some are never jointly observed for any feature. We propose a novel spectral clustering method called Cluster Quilting, consisting of (i) patch ordering that exploits the overlapping structure amongst all patches, (ii) patchwise SVD, (iii) sequential linear mapping of top singular vectors for patch overlaps, followed by (iv) k-means on the combined and weighted singular vectors. Under a sub-Gaussian mixture model, we establish theoretical guarantees via a non-asymptotic misclustering rate bound that reflects both properties of the patch-wise observation regime as well as the clustering signal and noise dependencies. We also validate our Cluster Quilting algorithm through extensive empirical studies on both simulated and real data sets in neuroscience and genomics, where it discovers more accurate and scientifically more plausible clusters than other approaches.
翻訳日:2024-06-21 18:15:51 公開日:2024-06-19
# MAC信号学習による無線不連続認識の最適化

Optimizing Wireless Discontinuous Reception via MAC Signaling Learning ( http://arxiv.org/abs/2406.13834v1 )

ライセンス: Link先を確認
Adriano Pastore, Adrián Agustín de Dios, Álvaro Valcarce, (参考訳) 本稿では,基地局 (BTS) からの不連続受容 (DRX) ポリシーを制御するための強化学習 (Reinforcement Learning, RL) 手法を提案する。 我々は、高速なレイヤ2信号の送信を最適タイミングで行う(例えば、5Gニューラジオで規定されている中層アクセス層(MAC)制御要素(CE))。 DRXタイマーの値の微調整に依存する従来のDRX最適化手法とは異なり、このMAC CEシグナリングによってのみ得られる利得を評価する。 シミュレーション部分では,拡張現実感(XR)アプリケーションで典型的に発生するトラヒックタイプに着目し,バッテリドレインの最小化と過熱緩和が特に重要となる。 3GPP 5Gニューラジオ(5G NR)準拠と非準拠("Beyond 5G")MAC CEも考慮されている。 シミュレーションの結果,提案手法は従来のタイマーベース手法と比較して,レイテンシと省エネのトレードオフの改善を図っている。 具体的には、我々のRLベースのポリシーは、na\\ive MAC CE送信ポリシーに関して、1つのユーザ機器(UE)のアクティブな時間をほぼ半分にし、同時に9つのUEに対して20%近いアクティブな時間短縮を実現することができる。

We present a Reinforcement Learning (RL) approach to the problem of controlling the Discontinuous Reception (DRX) policy from a Base Transceiver Station (BTS) in a cellular network. We do so by means of optimally timing the transmission of fast Layer-2 signaling messages (a.k.a. Medium Access Layer (MAC) Control Elements (CEs) as specified in 5G New Radio). Unlike more conventional approaches to DRX optimization, which rely on fine-tuning the values of DRX timers, we assess the gains that can be obtained solely by means of this MAC CE signalling. For the simulation part, we concentrate on traffic types typically encountered in Extended Reality (XR) applications, where the need for battery drain minimization and overheating mitigation are particularly pressing. Both 3GPP 5G New Radio (5G NR) compliant and non-compliant ("beyond 5G") MAC CEs are considered. Our simulation results show that our proposed technique strikes an improved trade-off between latency and energy savings as compared to conventional timer-based approaches that are characteristic of most current implementations. Specifically, our RL-based policy can nearly halve the active time for a single User Equipment (UE) with respect to a na\"ive MAC CE transmission policy, and still achieve near 20% active time reduction for 9 simultaneously served UEs.
翻訳日:2024-06-21 18:15:51 公開日:2024-06-19
# RNA-FrameFlow:de novo 3D RNAバックボーン設計のためのフローマッチング

RNA-FrameFlow: Flow Matching for de novo 3D RNA Backbone Design ( http://arxiv.org/abs/2406.13839v1 )

ライセンス: Link先を確認
Rishabh Anand, Chaitanya K. Joshi, Alex Morehead, Arian R. Jamasb, Charles Harris, Simon V. Mathis, Kieran Didi, Bryan Hooi, Pietro Liò, (参考訳) 本稿では3次元RNAバックボーン設計のための最初の生成モデルであるRNA-FrameFlowを紹介する。 タンパク質のバックボーン生成のためのSE(3)フローマッチングを構築し,RNAモデリングによるユニークな課題に対処するためのデータ準備と評価のためのプロトコルを構築した。 我々は、RNA構造を剛体フレームと関連する損失関数の集合として定式化し、より大きく、構造的に柔軟なRNAバックボーン(ヌクレオチド1個あたり13原子)とタンパク質(残基あたり4原子)を考慮に入れた。 3次元RNAデータセットの多様性の欠如に対処するために、構造的クラスタリングと収穫増強によるトレーニングを検討する。 さらに、生成したRNA構造が(逆フォールディングと前方フォールディングによって)世界規模で自己整合であるかどうかを計測し、RNA特異的な構造記述子を局所的に回収する評価指標の組を定義した。 RNA-FrameFlowの最も高性能なバージョンは40-150ヌクレオチドの局所的現実的なRNAバックボーンを生成し、その40%以上は自己整合TMスコア>=0.45で測定され、2つのRNAが同じ大域的な折りたたみを持つ。 オープンソースコード:https://github.com/rish-16/rna-backbone-design

We introduce RNA-FrameFlow, the first generative model for 3D RNA backbone design. We build upon SE(3) flow matching for protein backbone generation and establish protocols for data preparation and evaluation to address unique challenges posed by RNA modeling. We formulate RNA structures as a set of rigid-body frames and associated loss functions which account for larger, more conformationally flexible RNA backbones (13 atoms per nucleotide) vs. proteins (4 atoms per residue). Toward tackling the lack of diversity in 3D RNA datasets, we explore training with structural clustering and cropping augmentations. Additionally, we define a suite of evaluation metrics to measure whether the generated RNA structures are globally self-consistent (via inverse folding followed by forward folding) and locally recover RNA-specific structural descriptors. The most performant version of RNA-FrameFlow generates locally realistic RNA backbones of 40-150 nucleotides, over 40% of which pass our validity criteria as measured by a self-consistency TM-score >= 0.45, at which two RNAs have the same global fold. Open-source code: https://github.com/rish-16/rna-backbone-design
翻訳日:2024-06-21 18:15:51 公開日:2024-06-19
# StackRAG Agent: Retrieval-Augmented Generationによる開発者回答の改善

StackRAG Agent: Improving Developer Answers with Retrieval-Augmented Generation ( http://arxiv.org/abs/2406.13840v1 )

ライセンス: Link先を確認
Davit Abrahamyan, Fatemeh H. Fard, (参考訳) 開発者は質問に関連する情報を見つけるのに多くの時間を費やします。 Stack Overflowは主要なリソースであり、Large Language Models(LLMs)の出現に伴い、ChatGPTのような生成モデルが頻繁に使用される。 ただし、それぞれ別々に使用する場合はキャッチアップがある。 研究者がこの問題に対処するために開発した多くのツールが示すように、答えを探すのに時間と手間がかかります。 一方、LSMを使うことは信頼できない、あるいは信頼できない答え(幻覚)をもたらす可能性があるため、信頼できない。 本稿では,LLMをベースとした検索強化マルチエージェント生成ツールStackRAGについて述べる。 最初の評価は、生成された回答が正確で正確で、関連があり、有用であることを示している。

Developers spend much time finding information that is relevant to their questions. Stack Overflow has been the leading resource, and with the advent of Large Language Models (LLMs), generative models such as ChatGPT are used frequently. However, there is a catch in using each one separately. Searching for answers is time-consuming and tedious, as shown by the many tools developed by researchers to address this issue. On the other, using LLMs is not reliable, as they might produce irrelevant or unreliable answers (i.e., hallucination). In this work, we present StackRAG, a retrieval-augmented Multiagent generation tool based on LLMs that combines the two worlds: aggregating the knowledge from SO to enhance the reliability of the generated answers. Initial evaluations show that the generated answers are correct, accurate, relevant, and useful.
翻訳日:2024-06-21 18:15:51 公開日:2024-06-19
# エアトラヒック制御のための連接型話者列検出と音声認識

Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control ( http://arxiv.org/abs/2406.13842v1 )

ライセンス: Link先を確認
Alexander Blatt, Aravind Krishnan, Dietrich Klakow, (参考訳) 下流の自然言語処理タスクにATC(Air-traffic Control)データを利用するには、事前処理が必要である。 鍵となるステップは、自動音声認識(ASR)と話者ダイアリゼーション(話者ダイアリゼーション)によるデータの転写であり、それぞれが話者ロール検出(SRD)を使用して、転写をパイロットと航空交通管制官(ATCO)の転写に分割する。 従来のアプローチではこれらのタスクを別々に扱うが,標準のASRアーキテクチャに依存しつつ,両タスクを共同で解決するトランスフォーマーベースのジョイントASR-SRDシステムを提案する。 複数のATCデータセット上でのASRとSRDの2つのケースドアプローチとの比較を行った。 本研究は,我々の共同システムが従来の2つのアプローチより優れている場合と,他のアーキテクチャの方が望ましい場合を示す。 さらに、音響的および語彙的差異がすべてのアーキテクチャにどのように影響するかを評価し、共同アーキテクチャに対してそれらを克服する方法を示す。

Utilizing air-traffic control (ATC) data for downstream natural-language processing tasks requires preprocessing steps. Key steps are the transcription of the data via automatic speech recognition (ASR) and speaker diarization, respectively speaker role detection (SRD) to divide the transcripts into pilot and air-traffic controller (ATCO) transcripts. While traditional approaches take on these tasks separately, we propose a transformer-based joint ASR-SRD system that solves both tasks jointly while relying on a standard ASR architecture. We compare this joint system against two cascaded approaches for ASR and SRD on multiple ATC datasets. Our study shows in which cases our joint system can outperform the two traditional approaches and in which cases the other architectures are preferable. We additionally evaluate how acoustic and lexical differences influence all architectures and show how to overcome them for our joint architecture.
翻訳日:2024-06-21 18:15:51 公開日:2024-06-19
# ジェネレーティブAIの誤用: 戦術の分類と実世界のデータからの洞察

Generative AI Misuse: A Taxonomy of Tactics and Insights from Real-World Data ( http://arxiv.org/abs/2406.13843v1 )

ライセンス: Link先を確認
Nahema Marchal, Rachel Xu, Rasmi Elasmar, Iason Gabriel, Beth Goldberg, William Isaac, (参考訳) ジェネレーティブでマルチモーダルな人工知能(GenAI)は、産業全体にわたる変革的なポテンシャルを提供するが、その誤用は重大なリスクをもたらす。 これまでの研究は、悪意ある目的のために悪用される高度なAIシステムの可能性を明らかにしてきた。 しかし、我々は、GenAIモデルが実際にどのように悪用され、悪用されているか、具体的には理解していない。 本稿では,2023年1月から2024年3月までに報告された約200件の誤用事例の質的分析と,既存の学術文献から報告されたGenAI誤用戦術の分類について述べる。 この分析を通じて、この時代の悪用における重要なパターンと新しいパターンを照らし、潜在的な動機づけ、戦略、攻撃者が野生のモダリティ(画像、テキスト、オーディオ、ビデオなど)をまたいだシステム機能をどのように活用し、悪用するかを解明する。

Generative, multimodal artificial intelligence (GenAI) offers transformative potential across industries, but its misuse poses significant risks. Prior research has shed light on the potential of advanced AI systems to be exploited for malicious purposes. However, we still lack a concrete understanding of how GenAI models are specifically exploited or abused in practice, including the tactics employed to inflict harm. In this paper, we present a taxonomy of GenAI misuse tactics, informed by existing academic literature and a qualitative analysis of approximately 200 observed incidents of misuse reported between January 2023 and March 2024. Through this analysis, we illuminate key and novel patterns in misuse during this time period, including potential motivations, strategies, and how attackers leverage and abuse system capabilities across modalities (e.g. image, text, audio, video) in the wild.
翻訳日:2024-06-21 18:15:51 公開日:2024-06-19
# MAMA-MIA: エキスパートセグメンテーションを用いた大規模マルチセンター乳癌DCE-MRIベンチマークデータセット

MAMA-MIA: A Large-Scale Multi-Center Breast Cancer DCE-MRI Benchmark Dataset with Expert Segmentations ( http://arxiv.org/abs/2406.13844v1 )

ライセンス: Link先を確認
Lidia Garrucho, Claire-Anne Reidel, Kaisar Kushibar, Smriti Joshi, Richard Osuala, Apostolia Tsirikoglou, Maciej Bobowicz, Javier del Riego, Alessandro Catanese, Katarzyna Gwoździewicz, Maria-Laura Cosaka, Pasant M. Abo-Elhoda, Sara W. Tantawy, Shorouq S. Sakrana, Norhan O. Shawky-Abdelfatah, Amr Muhammad Abdo-Salem, Androniki Kozana, Eugen Divjak, Gordana Ivanac, Katerina Nikiforaki, Michail E. Klontzas, Rosa García-Dosdá, Meltem Gulsun-Akpinar, Oğuz Lafcı, Ritse Mann, Carlos Martín-Isla, Fred Prior, Kostas Marias, Martijn P. A. Starmans, Fredrik Strand, Oliver Díaz, Laura Igual, Karim Lekadir, (参考訳) 最近の乳がん磁気共鳴イメージング(MRI)、特に人工知能(AI)の研究は、専門家のセグメンテーションが欠如しているため、課題に直面している。 この問題を解決するために,原発腫瘍と非質量増強領域を専門に区分したマルチセンターダイナミックコントラスト強調MRI症例1506例からなるMAMA-MIAデータセットを導入した。 これらの症例は、The Cancer Imaging Archive (TCIA)で公開されている4つのコレクションから得られた。 最初は、ケースを自動的にセグメンテーションするためにディープラーニングモデルを訓練し、専門家のセグメンテーション時間を著しく短縮する予備セグメンテーションを生成しました。 乳がんで平均9年の経験を持つ16人の専門家が、これらのセグメンテーションを修正し、最終的なセグメンテーションとなった。 さらに、2人の放射線学者が将来の品質管理研究を支援するために自動セグメンテーションの視覚検査を行った。 専門的セグメンテーションの他に、49の調和した人口統計学的および臨床変数と、DCE-MRIフルイメージとエキスパートセグメンテーションを用いて訓練されたよく知られたnnUNetアーキテクチャの事前訓練重量を提供する。 このデータセットは、ディープラーニングモデルの開発とベンチマークを加速し、乳癌の診断と治療計画の革新を促進することを目的としている。

Current research in breast cancer Magnetic Resonance Imaging (MRI), especially with Artificial Intelligence (AI), faces challenges due to the lack of expert segmentations. To address this, we introduce the MAMA-MIA dataset, comprising 1506 multi-center dynamic contrast-enhanced MRI cases with expert segmentations of primary tumors and non-mass enhancement areas. These cases were sourced from four publicly available collections in The Cancer Imaging Archive (TCIA). Initially, we trained a deep learning model to automatically segment the cases, generating preliminary segmentations that significantly reduced expert segmentation time. Sixteen experts, averaging 9 years of experience in breast cancer, then corrected these segmentations, resulting in the final expert segmentations. Additionally, two radiologists conducted a visual inspection of the automatic segmentations to support future quality control studies. Alongside the expert segmentations, we provide 49 harmonized demographic and clinical variables and the pretrained weights of the well-known nnUNet architecture trained using the DCE-MRI full-images and expert segmentations. This dataset aims to accelerate the development and benchmarking of deep learning models and foster innovation in breast cancer diagnostics and treatment planning.
翻訳日:2024-06-21 18:15:51 公開日:2024-06-19
# テキストシリアライズとタブラル機械学習の従来のパラダイムとの関係

Text Serialization and Their Relationship with the Conventional Paradigms of Tabular Machine Learning ( http://arxiv.org/abs/2406.13846v1 )

ライセンス: Link先を確認
Kyoka Ono, Simon A. Lee, (参考訳) 近年,言語モデル(LM)が表型機械学習タスクの特徴表現や予測にどのように使用できるかが研究されている。 これは、テキストシリアライゼーションと教師付き微調整(SFT)技術を使用する。 これらの手法の単純さにもかかわらず、この文脈におけるLMの適用性と信頼性の理解には大きなギャップが残っている。 本研究は,新しいLM技術が表型機械学習の伝統的なパラダイムとどのように比較されているかを評価し,これらの先進技術と類似したアプローチを採用する可能性を評価する。 データレベルでは、直列化された表データの表現とキュレーションの様々な方法について検討し、予測性能への影響について検討する。 分類レベルでは、LMと組み合わせたテキストシリアライゼーションは、表型データセット(例えば、クラス不均衡、分布シフト、バイアス、高次元性)の性能を高め、この手法が表型機械学習課題に対処するための最先端(SOTA)アプローチであるかどうかを評価する。 以上の結果から,現在の事前学習モデルは従来の手法に取って代わるべきではないことがわかった。

Recent research has explored how Language Models (LMs) can be used for feature representation and prediction in tabular machine learning tasks. This involves employing text serialization and supervised fine-tuning (SFT) techniques. Despite the simplicity of these techniques, significant gaps remain in our understanding of the applicability and reliability of LMs in this context. Our study assesses how emerging LM technologies compare with traditional paradigms in tabular machine learning and evaluates the feasibility of adopting similar approaches with these advanced technologies. At the data level, we investigate various methods of data representation and curation of serialized tabular data, exploring their impact on prediction performance. At the classification level, we examine whether text serialization combined with LMs enhances performance on tabular datasets (e.g. class imbalance, distribution shift, biases, and high dimensionality), and assess whether this method represents a state-of-the-art (SOTA) approach for addressing tabular machine learning challenges. Our findings reveal current pre-trained models should not replace conventional approaches.
翻訳日:2024-06-21 18:15:51 公開日:2024-06-19
# 宇宙からの海洋養殖生産の立地と測定--フランス地中海におけるコンピュータビジョンのアプローチ

Locating and measuring marine aquaculture production from space: a computer vision approach in the French Mediterranean ( http://arxiv.org/abs/2406.13847v1 )

ライセンス: Link先を確認
Sebastian Quaade, Andrea Vallebueno, Olivia D. N. Alcabes, Kit T. Rodolfa, Daniel E. Ho, (参考訳) 水生植物や動物を栽培する水産栽培は1990年代以降急速に成長してきたが、少なからぬ自己報告と集約された生産データによって、産業の動向や潜在的なリスクの効果的な理解とモニタリングが制限されている。 リモートセンシング画像から水産生産を手動で調査した結果、空中および衛星画像から海産養殖ケージを識別するコンピュータビジョンモデルを訓練し、2000-2021年にフランス地中海で4,010頭(平均ケージ面積69m2)のフィンフィッシュ生産場所の空間的明示的なデータセットを生成した。 本手法は,水産調査の速度と信頼性を向上させるとともに,研究者や規制当局の下流分析を可能にするため,適応が容易で費用対効果の高い手法として,本手法の価値を実証する。 本稿では、生産の独立推定を計算し、これらの推定の不確かさを定量化するための柔軟なフレームワークを開発する。 本研究は, リモートセンシング画像から水産生産をモニタリングするための, 効率的でスケーラブルで高度に適応可能な手法を提案する。

Aquaculture production -- the cultivation of aquatic plants and animals -- has grown rapidly since the 1990s, but sparse, self-reported and aggregate production data limits the effective understanding and monitoring of the industry's trends and potential risks. Building on a manual survey of aquaculture production from remote sensing imagery, we train a computer vision model to identify marine aquaculture cages from aerial and satellite imagery, and generate a spatially explicit dataset of finfish production locations in the French Mediterranean from 2000-2021 that includes 4,010 cages (69m2 average cage area). We demonstrate the value of our method as an easily adaptable, cost-effective approach that can improve the speed and reliability of aquaculture surveys, and enables downstream analyses relevant to researchers and regulators. We illustrate its use to compute independent estimates of production, and develop a flexible framework to quantify uncertainty in these estimates. Overall, our study presents an efficient, scalable and highly adaptable method for monitoring aquaculture production from remote sensing imagery.
翻訳日:2024-06-21 18:15:51 公開日:2024-06-19
# 電気機器における量子ベース取引戦略の最適化

Optimizing Quantile-based Trading Strategies in Electricity Arbitrage ( http://arxiv.org/abs/2406.13851v1 )

ライセンス: Link先を確認
Ciaran O'Connor, Joseph Collins, Steven Prestwich, Andrea Visentin, (参考訳) 電力市場における再生可能資源の有効利用は, 削減に伴うエネルギー浪費を削減しつつ, リアルタイム供給と需要のマッチングという課題に対処する上で不可欠である。 この課題に効果的に対処するため、記憶装置の内蔵によりグリッドの信頼性と効率が向上し、市場流動性が向上し、価格のボラティリティが低下する。 短期的な電気市場においては、参加者は様々な選択肢をナビゲートし、それぞれ独自の課題と機会を示し、利益の最大化において貿易戦略が重要な役割を担っていることを強調する。 本研究は、日頭取引と市場取引のバランスを最適化し、量的予測を活用することを目的としている。 本研究は,3つの取引手法を実践的制約で採用し,予測評価を強化し,取引頻度を高め,フレキシブルなタイムスタンプ命令を採用する。 本研究は, 日頭・バランシング両市場, 特に大型蓄電池システムにおいて, 利益率の増大と高ボリューム取引に伴う利益率の低下にもかかわらず, 利益の最大化と市場課題への対処において, 高頻度戦略の導入が重要な役割を担っていることを示すものである。 最後に,4つの商用蓄電池システムをモデル化し,シナリオ分析により経済性の評価を行った。

Efficiently integrating renewable resources into electricity markets is vital for addressing the challenges of matching real-time supply and demand while reducing the significant energy wastage resulting from curtailments. To address this challenge effectively, the incorporation of storage devices can enhance the reliability and efficiency of the grid, improving market liquidity and reducing price volatility. In short-term electricity markets, participants navigate numerous options, each presenting unique challenges and opportunities, underscoring the critical role of the trading strategy in maximizing profits. This study delves into the optimization of day-ahead and balancing market trading, leveraging quantile-based forecasts. Employing three trading approaches with practical constraints, our research enhances forecast assessment, increases trading frequency, and employs flexible timestamp orders. Our findings underscore the profit potential of simultaneous participation in both day-ahead and balancing markets, especially with larger battery storage systems; despite increased costs and narrower profit margins associated with higher-volume trading, the implementation of high-frequency strategies plays a significant role in maximizing profits and addressing market challenges. Finally, we modelled four commercial battery storage systems and evaluated their economic viability through a scenario analysis, with larger batteries showing a shorter return on investment.
翻訳日:2024-06-21 18:15:51 公開日:2024-06-19
# ブロックチェーンのスケーラビリティ向上 - レイヤ1とレイヤ2ソリューションの紹介

Advancing Blockchain Scalability: An Introduction to Layer 1 and Layer 2 Solutions ( http://arxiv.org/abs/2406.13855v1 )

ライセンス: Link先を確認
Han Song, Zhongche Qu, Yihao Wei, (参考訳) Bitcoinはブロックチェーン技術を主流にし、その可能性と幅広いユーティリティを拡大した。 Bitcoinは驚くほど有名になったが、その取引レートはそのような上昇と一致していない。 ブロックをマイニングしてチェーンに追加するのにはまだ10分ほどかかります。 この制限は、低スループットトランザクション率を解決するスケールアップソリューションを求めることの重要性を強調している。 Blockchainのコンセンサスメカニズムは、ピアツーピアトランザクションが実現可能になり、集中管理の必要性を効果的に排除する。 しかしながら、集中型システムでは、Bitcoinのブロック生成率に言及したように、集中型ネットワークと比較して、速度とスループットが低下する。 2つのメインストリームのスケールアップソリューション、レイヤ1のスケールアップとレイヤ2のスケールアップがこれらの問題に対処するために実装されている。 レイヤ1レベルのスケーラビリティは、従来のブロックチェーンが運用する場所で実現される。 本稿では、レイヤ1プロトコルのコンポーネントと、下位レベルのブロックチェーンを直接改善するスケールアップ方法について、より深く検討する。 また、レイヤ1のストレージコストとレイテンシが高いため改善が加えられたにもかかわらず、レイヤ1のソリューションは固有の制限に直面しています。 さらに、メインネットからトランザクションを処理することによってブロックチェーンのパフォーマンスを向上させるレイヤ2プロトコル、高度なスケーラビリティ技術についても論じる。 以上の結果から,Layer 2プロトコルは,ロールアップやチャネルなど,さまざまな実装によって,トランザクションスループットと効率の面で,Layer 1ソリューションよりも優れています。 本稿では,これらのレイヤ2のスケーリング手法について詳述し,それらのプロトコルと,それらの有効性を駆動する基盤となるロジックについて,読者に包括的に理解することを目的としている。

Bitcoin rise has put blockchain technology into the mainstream, amplifying its potential and broad utility. While Bitcoin has become incredibly famous, its transaction rate has not match such a corresponding increase. It still takes approximately 10 minutes to mine a block and add it to the chain. This limitation highlights the importance of seeking scale-up solutions that solve the low throughput transaction rates. Blockchain's consensus mechanisms make peer-to-peer transactions becomes feasible and effectively eliminate the need for centralized control. However, the decentralized systems also causes a lower speed and throughput compared to centralized networks as we mentioned Bitcoin's block creation rates. Two mainstreams scale-up solutions, Layer 1 scale-up and Layer 2 scale-up have been implemented to address these issues. Layer 1 level scalability enhancements happen at where traditional blockchain operates. This paper provides a deep examination of the components of the Layer 1 protocol and the scale-up methods that directly improve the lower level blockchain. We also address that Layer 1 solutions encounter inherent limitations although improvements were applied due to layer 1 storage costs and latency are high. In addition, we discuss layer 2 protocols, advanced scalability techniques, that elevate blockchain performance by handling transactions off the mainnet. Our findings indicate that Layer 2 protocols, with their various implementations such as rollups and channels, significantly outperform Layer 1 solutions in terms of transaction throughput and efficiency. This paper discusses these Layer 2 scaling methods in detail, aiming to provide readers with a comprehensive understanding of these protocols and the underlying logic that drives their effectiveness.
翻訳日:2024-06-21 18:15:51 公開日:2024-06-19
# LLMにおける分布推論:マルチホップ推論における並列推論過程

Distributional reasoning in LLMs: Parallel reasoning processes in multi-hop reasoning ( http://arxiv.org/abs/2406.13858v1 )

ライセンス: Link先を確認
Yuval Shalev, Amir Feder, Ariel Goldstein, (参考訳) 大きな言語モデル(LLM)は思考プロセスを必要とすると思われるタスクを実行する素晴らしい能力を示している。 モデルが明示的な思考過程を文書化していない場合、隠されたレイヤ内で発生するプロセスを理解し、これらのプロセスが推論として参照できるかどうかを判断することは困難になる。 LLMの内部マルチホップ推論プロセスの新規かつ解釈可能な解析法を提案する。 本研究では,2つの意味圏空間間の単純な線形変換を用いて,構成的推論問題に対する予測過程をモデル化できることを実証する。 推定中、ネットワークの中間層は、マルチホップ問題に対する潜在的な中間解の集合を表す高度に解釈可能な埋め込みを生成する。 統計的解析により,対応するトークンのサブセットがモデル出力で活性化されることを示し,並列推論経路の存在を示唆する。 これらの観察は、モデルがタスクを解決するために必要な知識を欠いている場合でも真実である。 我々の発見は、LLMが推論タスクの解決に使っている戦略を明らかにするのに役立ち、人工知能から生まれる思考プロセスのタイプに関する洞察を提供する。 最後に,これらの結果が認知モデルに与える影響についても論じる。

Large language models (LLMs) have shown an impressive ability to perform tasks believed to require thought processes. When the model does not document an explicit thought process, it becomes difficult to understand the processes occurring within its hidden layers and to determine if these processes can be referred to as reasoning. We introduce a novel and interpretable analysis of internal multi-hop reasoning processes in LLMs. We demonstrate that the prediction process for compositional reasoning questions can be modeled using a simple linear transformation between two semantic category spaces. We show that during inference, the middle layers of the network generate highly interpretable embeddings that represent a set of potential intermediate answers for the multi-hop question. We use statistical analyses to show that a corresponding subset of tokens is activated in the model's output, implying the existence of parallel reasoning paths. These observations hold true even when the model lacks the necessary knowledge to solve the task. Our findings can help uncover the strategies that LLMs use to solve reasoning tasks, offering insights into the types of thought processes that can emerge from artificial intelligence. Finally, we also discuss the implication of cognitive modeling of these results.
翻訳日:2024-06-21 18:06:06 公開日:2024-06-19
# コンピュータビジョンにおける生活検出:顔のアンチ・スプーフィングのためのトランスフォーマーによる自己教師付き学習

Liveness Detection in Computer Vision: Transformer-based Self-Supervised Learning for Face Anti-Spoofing ( http://arxiv.org/abs/2406.13860v1 )

ライセンス: Link先を確認
Arman Keresh, Pakizar Shamoi, (参考訳) 顔認識システムは、利便性と有効性のために生体認証のセキュリティにますます利用されている。 しかし、攻撃者は写真やビデオ、マスクを使って正統なユーザーを偽装する攻撃に弱いままだ。 この研究は、DINOフレームワークで微調整されたVision Transformer (ViT)アーキテクチャを探索することで、これらの脆弱性に対処する。 DINOフレームワークは自己教師付き学習を促進し、モデルがラベルのないデータから特徴を区別する学習を可能にする。 我々は,従来のCNNモデルであるEfficientNet b2に対して,DINOフレームワークを用いた微調整ViTモデルの性能を比較した。 標準データセットに対する多数のテストでは、異なるスプーフィング手法に対する精度と耐性の観点から、ViTモデルの方がCNNモデルよりも優れた性能を示している。 さらに、生体計測アプリケーションから独自のデータセットを収集し、その結果をさらに検証しました。 本研究は, 複雑なスプーフィングキューの同定において, トランスフォーマーアーキテクチャの優れた性能を強調し, 生体認証の大幅な進歩につながった。

Face recognition systems are increasingly used in biometric security for convenience and effectiveness. However, they remain vulnerable to spoofing attacks, where attackers use photos, videos, or masks to impersonate legitimate users. This research addresses these vulnerabilities by exploring the Vision Transformer (ViT) architecture, fine-tuned with the DINO framework. The DINO framework facilitates self-supervised learning, enabling the model to learn distinguishing features from unlabeled data. We compared the performance of the proposed fine-tuned ViT model using the DINO framework against a traditional CNN model, EfficientNet b2, on the face anti-spoofing task. Numerous tests on standard datasets show that the ViT model performs better than the CNN model in terms of accuracy and resistance to different spoofing methods. Additionally, we collected our own dataset from a biometric application to validate our findings further. This study highlights the superior performance of transformer-based architecture in identifying complex spoofing cues, leading to significant advancements in biometric security.
翻訳日:2024-06-21 18:06:06 公開日:2024-06-19
# パス選択による知識グラフ強化大言語モデル

Knowledge Graph-Enhanced Large Language Models via Path Selection ( http://arxiv.org/abs/2406.13862v1 )

ライセンス: Link先を確認
Haochen Liu, Song Wang, Yaochen Zhu, Yushun Dong, Jundong Li, (参考訳) 大規模言語モデル(LLM)は、様々な現実世界のアプリケーションで前例のない性能を示している。 しかし、それらは実際に不正確な出力、すなわち幻覚の問題を発生させることが知られている。 近年,知識グラフ(KGs)から抽出した外部知識を取り入れることで,LCM出力の事実精度の向上が図られている。 しかしながら、既存のほとんどの調査では、LLM自体をKG知識抽出に頼っているため、LLMは特定の知識(例えばKGの知識経路)を使用するべきかという二項判定しかできないため、非常に柔軟である。 加えて、LLMは入力テキストと直接意味関係を持つ知識のみを選択する傾向があり、間接意味論を持つ潜在的に有用な知識は無視できる。 本稿では,上記の問題に対処する3段階のフレームワークKELPを提案する。 具体的には、KELPは、潜在意味マッチングによって入力テキストで知識パスのスコアを生成することで、柔軟な知識抽出のより細かい粒度を実現することができる。 一方、入力テキストと間接的意味関係を持つ知識パスは、KGにおける選択されたパスと入力テキストの間の訓練された符号化によって考えることもできる。 実世界のデータセットの実験は、KELPの有効性を検証する。

Large Language Models (LLMs) have shown unprecedented performance in various real-world applications. However, they are known to generate factually inaccurate outputs, a.k.a. the hallucination problem. In recent years, incorporating external knowledge extracted from Knowledge Graphs (KGs) has become a promising strategy to improve the factual accuracy of LLM-generated outputs. Nevertheless, most existing explorations rely on LLMs themselves to perform KG knowledge extraction, which is highly inflexible as LLMs can only provide binary judgment on whether a certain knowledge (e.g., a knowledge path in KG) should be used. In addition, LLMs tend to pick only knowledge with direct semantic relationship with the input text, while potentially useful knowledge with indirect semantics can be ignored. In this work, we propose a principled framework KELP with three stages to handle the above problems. Specifically, KELP is able to achieve finer granularity of flexible knowledge extraction by generating scores for knowledge paths with input texts via latent semantic matching. Meanwhile, knowledge paths with indirect semantic relationships with the input text can also be considered via trained encoding between the selected paths in KG and the input text. Experiments on real-world datasets validate the effectiveness of KELP.
翻訳日:2024-06-21 18:06:06 公開日:2024-06-19
# タンパク質構造宇宙における表現学習の評価

Evaluating representation learning on the protein structure universe ( http://arxiv.org/abs/2406.13864v1 )

ライセンス: Link先を確認
Arian R. Jamasb, Alex Morehead, Chaitanya K. Joshi, Zuobai Zhang, Kieran Didi, Simon V. Mathis, Charles Harris, Jian Tang, Jianlin Cheng, Pietro Lio, Tom L. Blundell, (参考訳) Geometric Graph Neural Networksを用いたタンパク質構造の表現学習のための総合ベンチマークスイートであるProteinWorkshopを紹介する。 本研究は,学習した構造表現の質の体系的評価を可能にするために,実験および予測された構造上の大規模事前学習および下流タスクについて検討し,下流タスクの機能的関係の把握に有用であることを示す。 1)AlphaFold構造と補助タスクの大規模事前トレーニングは、回転不変および同変GNNの性能を一貫して改善し、(2)より表現力のある同変GNNは、不変モデルと比較してより広範囲に事前トレーニングの恩恵を受ける。 我々は,機械学習と計算生物学コミュニティの共通基盤を確立することを目指しており,タンパク質構造表現学習を厳格に比較し,進歩させることを目指している。 オープンソースのコードベースは、(1)AlphaFoldDBやESM Atlasといった大規模構造データベース用のストレージ効率の高いデータローダ、(2)PDB全体から新しいタスクを構築するためのユーティリティを提供することで、大きなタンパク質構造データセットを扱うための参入障壁を減らします。 ProteinWorkshopは、github.com/a-r-j/ProteinWorkshopで入手できる。

We introduce ProteinWorkshop, a comprehensive benchmark suite for representation learning on protein structures with Geometric Graph Neural Networks. We consider large-scale pre-training and downstream tasks on both experimental and predicted structures to enable the systematic evaluation of the quality of the learned structural representation and their usefulness in capturing functional relationships for downstream tasks. We find that: (1) large-scale pretraining on AlphaFold structures and auxiliary tasks consistently improve the performance of both rotation-invariant and equivariant GNNs, and (2) more expressive equivariant GNNs benefit from pretraining to a greater extent compared to invariant models. We aim to establish a common ground for the machine learning and computational biology communities to rigorously compare and advance protein structure representation learning. Our open-source codebase reduces the barrier to entry for working with large protein structure datasets by providing: (1) storage-efficient dataloaders for large-scale structural databases including AlphaFoldDB and ESM Atlas, as well as (2) utilities for constructing new tasks from the entire PDB. ProteinWorkshop is available at: github.com/a-r-j/ProteinWorkshop.
翻訳日:2024-06-21 18:06:06 公開日:2024-06-19
# SDQ: LLM推論のためのスパース分解量子化

SDQ: Sparse Decomposed Quantization for LLM Inference ( http://arxiv.org/abs/2406.13868v1 )

ライセンス: Link先を確認
Geonhwa Jeong, Po-An Tsai, Stephen W. Keckler, Tushar Krishna, (参考訳) 近年、大規模言語モデル(LLM)はタスク固有のワークロードや与えられたプロンプトによる一般的なタスクにおいて驚くべきパフォーマンスを示している。 しかし、先例のない性能を達成するために、最近のLLMは数十億から数兆のパラメータを使用しており、計算とメモリの要求が非常に大きいため、これらのモデルの広範な適応を妨げている。 この問題を解決するために,様々なモデル圧縮手法が積極的に研究されている。 本研究ではSDQ(Sparse Decomposed Quantization)を提案し,高計算効率とメモリ効率を両立させる。 評価の結果,SDQ は 4 倍効率の計算スループットを 1% の低下で達成できることがわかった。

Recently, large language models (LLMs) have shown surprising performance in task-specific workloads as well as general tasks with the given prompts. However, to achieve unprecedented performance, recent LLMs use billions to trillions of parameters, which hinder the wide adaptation of those models due to their extremely large compute and memory requirements. To resolve the issue, various model compression methods are being actively investigated. In this work, we propose SDQ (Sparse Decomposed Quantization) to exploit both structured sparsity and quantization to achieve both high compute and memory efficiency. From our evaluations, we observe that SDQ can achieve 4x effective compute throughput with <1% quality drop.
翻訳日:2024-06-21 18:06:06 公開日:2024-06-19
# 強化学習によるグローバルヒューマンガイドによる分子特性の非現実的説明

Global Human-guided Counterfactual Explanations for Molecular Properties via Reinforcement Learning ( http://arxiv.org/abs/2406.13869v1 )

ライセンス: Link先を確認
Danqing Wang, Antonis Antoniades, Kha-Dinh Luong, Edwin Zhang, Mert Kosan, Jiachen Li, Ambuj Singh, William Yang Wang, Lei Li, (参考訳) グラフニューラルネットワーク(GNN)の非現実的な説明は、グラフ構造によって自然に表現できるデータを理解する強力な方法を提供する。 さらに、多くの領域において、問題となっているモデルやデータの高レベルな性質をよりよく説明できるデータ駆動のグローバルな説明やルールを導出することが望ましい。 しかし、現実世界のデータセットでは、人間に注釈を付けた真実が欠如しており、分子科学などの分野での使用が制限されているため、グローバルな反事実的説明を評価することは難しい。 さらに、これらのデータセットの規模が大きくなることで、ランダム検索手法の課題がもたらされる。 本稿では分子特性予測のための新しいグローバルな説明モデルRLHEXを開発する。 反事実的な説明と人間の定義した原則を一致させ、説明をより解釈しやすくし、専門家が容易に評価できるようにする。 RLHEXには、グローバルな説明を生成するVAEベースのグラフジェネレータと、人間の定義した原則に潜在表現空間を調整するアダプタが含まれている。 Proximal Policy Optimization (PPO)によって最適化され、RLHEXが作成したグローバルな説明は、より多くの4.12%の入力グラフをカバーし、3つの分子データセットの平均0.47%の反実的説明セットと入力セットの間の距離を削減した。 RLHEXは、異なる人間設計の原則を対実的説明生成プロセスに組み込むフレキシブルなフレームワークを提供し、これらの説明をドメインの専門知識と整合させる。 コードとデータはhttps://github.com/dqwang122/RLHEXで公開されている。

Counterfactual explanations of Graph Neural Networks (GNNs) offer a powerful way to understand data that can naturally be represented by a graph structure. Furthermore, in many domains, it is highly desirable to derive data-driven global explanations or rules that can better explain the high-level properties of the models and data in question. However, evaluating global counterfactual explanations is hard in real-world datasets due to a lack of human-annotated ground truth, which limits their use in areas like molecular sciences. Additionally, the increasing scale of these datasets provides a challenge for random search-based methods. In this paper, we develop a novel global explanation model RLHEX for molecular property prediction. It aligns the counterfactual explanations with human-defined principles, making the explanations more interpretable and easy for experts to evaluate. RLHEX includes a VAE-based graph generator to generate global explanations and an adapter to adjust the latent representation space to human-defined principles. Optimized by Proximal Policy Optimization (PPO), the global explanations produced by RLHEX cover 4.12% more input graphs and reduce the distance between the counterfactual explanation set and the input set by 0.47% on average across three molecular datasets. RLHEX provides a flexible framework to incorporate different human-designed principles into the counterfactual explanation generation process, aligning these explanations with domain expertise. The code and data are released at https://github.com/dqwang122/RLHEX.
翻訳日:2024-06-21 18:06:06 公開日:2024-06-19
# スプラッター・ア・ビデオ(動画)

Splatter a Video: Video Gaussian Representation for Versatile Processing ( http://arxiv.org/abs/2406.13870v1 )

ライセンス: Link先を確認
Yang-Tian Sun, Yi-Hua Huang, Lin Ma, Xiaoyang Lyu, Yan-Pei Cao, Xiaojuan Qi, (参考訳) ビデオ表現は、トラッキング、深度予測、セグメンテーション、ビュー合成、編集など、様々な下流タスクにおいて重要な、長年にわたる問題である。 しかし、現在の手法は、3D構造がないために複雑な動きをモデル化するのに苦労するか、操作に不適な暗黙の3D表現に依存している。 これらの課題に対処するため、私たちは、ビデオを3Dガウスに埋め込む、新しい3D表現-ビデオガウス表現を導入しました。 提案した表現は,3次元標準空間における映像の外観を,露骨なガウスをプロキシとして用いてモデル化し,各ガウスを映像運動のための3次元運動に関連付ける。 このアプローチは層状アトラスや体積ピクセル行列よりも本質的で明示的な表現を提供する。 このような表現を得るために、基礎モデルから光学的流れや深度などの2D先行情報を蒸留し、この不規則な環境下での学習を規則化する。 広範にわたる応用は、我々の新しいビデオ表現の汎用性を示している。 トラッキング、一貫したビデオ深度と特徴の洗練、動きと外観の編集、立体映像生成など、多数のビデオ処理タスクで有効であることが証明されている。 プロジェクトページ:https://sunyangtian.github.io/spatter_a_video_web/

Video representation is a long-standing problem that is crucial for various down-stream tasks, such as tracking,depth prediction,segmentation,view synthesis,and editing. However, current methods either struggle to model complex motions due to the absence of 3D structure or rely on implicit 3D representations that are ill-suited for manipulation tasks. To address these challenges, we introduce a novel explicit 3D representation-video Gaussian representation -- that embeds a video into 3D Gaussians. Our proposed representation models video appearance in a 3D canonical space using explicit Gaussians as proxies and associates each Gaussian with 3D motions for video motion. This approach offers a more intrinsic and explicit representation than layered atlas or volumetric pixel matrices. To obtain such a representation, we distill 2D priors, such as optical flow and depth, from foundation models to regularize learning in this ill-posed setting. Extensive applications demonstrate the versatility of our new video representation. It has been proven effective in numerous video processing tasks, including tracking, consistent video depth and feature refinement, motion and appearance editing, and stereoscopic video generation. Project page: https://sunyangtian.github.io/spatter_a_video_web/
翻訳日:2024-06-21 18:06:06 公開日:2024-06-19
# 非重大ガウス型損失重み付きサンプリング器によるロバスト時系列予測

Robust Time Series Forecasting with Non-Heavy-Tailed Gaussian Loss-Weighted Sampler ( http://arxiv.org/abs/2406.13871v1 )

ライセンス: Link先を確認
Jiang You, Arben Cela, René Natowicz, Jacob Ouanounou, Patrick Siarry, (参考訳) 多変量時系列の予測は、極端または冗長なサンプルによって挑戦される計算集約的なタスクである。 近年のリサンプリング手法は, ランニング損失に基づいてサンプルを再重み付けすることで, トレーニング効率を向上させることを目的としている。 しかし, この手法は, オーバーフィッティングやオーバーフィッティングなど, 配電損失の重大化による問題を解消するものではない。 これらの問題に対処するために,ガウス分布重みとガウス損失重みを乗算するガウス損失重み付きサンプリング器を提案する。 これは、平均的な損失に近いものを選びながら、非常に低い、または非常に高い損失でサンプルを選択する確率を下げる。 理論上は重み付けされていない重み付けされた損失分布を生成するため、既存の方法と比較していくつかの利点がある。 1)余分なサンプルを学習し、外れ値に過度に適合する際の効率の悪さを緩和する。 2) 平均損失に近いサンプルを優先的に学習することで, トレーニング効率を向上させる。 実世界の時系列予測データセットの適用により、チャネルに依存しない平均2乗誤差測定を用いて、1%-4%の予測品質の改善が示された。 コードはレビュー1の後にオンラインで公開される。

Forecasting multivariate time series is a computationally intensive task challenged by extreme or redundant samples. Recent resampling methods aim to increase training efficiency by reweighting samples based on their running losses. However, these methods do not solve the problems caused by heavy-tailed distribution losses, such as overfitting to outliers. To tackle these issues, we introduce a novel approach: a Gaussian loss-weighted sampler that multiplies their running losses with a Gaussian distribution weight. It reduces the probability of selecting samples with very low or very high losses while favoring those close to average losses. As it creates a weighted loss distribution that is not heavy-tailed theoretically, there are several advantages to highlight compared to existing methods: 1) it relieves the inefficiency in learning redundant easy samples and overfitting to outliers, 2) It improves training efficiency by preferentially learning samples close to the average loss. Application on real-world time series forecasting datasets demonstrate improvements in prediction quality for 1%-4% using mean square error measurements in channel-independent settings. The code will be available online after 1 the review.
翻訳日:2024-06-21 18:06:06 公開日:2024-06-19
# テキスト対応グラフによる純変圧器事前学習フレームワーク

A Pure Transformer Pretraining Framework on Text-attributed Graphs ( http://arxiv.org/abs/2406.13873v1 )

ライセンス: Link先を確認
Yu Song, Haitao Mao, Jiachen Xiao, Jingzhe Liu, Zhikai Chen, Wei Jin, Carl Yang, Jiliang Tang, Hui Liu, (参考訳) プレトレーニングは、大規模データから一般化された知識を取得する上で重要な役割を担い、CVやNLPの大規模モデルによって証明されているように、顕著な成功を収めている。 しかし、グラフ領域の進行は、特徴の不均一性や構造的不均一性といった根本的な問題のために制限されている。 近年,Large Language Models (LLMs) をテキスト分散グラフ (TAGs) に適用し,従来のbaba-of-words や word2vec 技術よりも優れたノード特徴量向上に努めている。 これらの高品質なノード機能は、グラフ構造において以前重要な役割を減らし、グラフニューラルネットワーク(GNN)と構造に依存しないマルチ層パーセプトロン(MLP)の中間的なパフォーマンスギャップをもたらす。 グラフ構造を先行として扱うことで特徴中心の事前学習の視点を導入し、リッチで統一された特徴空間を活用して、グラフをまたいで一般化する洗練された相互作用パターンを学習する。 我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)は、ランダムウォークを通してノードコンテキストをサンプリングし、マスク付き特徴再構成を用いて、標準変換器を用いてLLM統一特徴空間の対角距離をキャプチャする。 異なる構造ではなく統一されたテキスト表現を利用することで、同じドメイン内のグラフ間の転送可能性を大幅に向上する。 GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。

Pretraining plays a pivotal role in acquiring generalized knowledge from large-scale data, achieving remarkable successes as evidenced by large models in CV and NLP. However, progress in the graph domain remains limited due to fundamental challenges such as feature heterogeneity and structural heterogeneity. Recently, increasing efforts have been made to enhance node feature quality with Large Language Models (LLMs) on text-attributed graphs (TAGs), demonstrating superiority to traditional bag-of-words or word2vec techniques. These high-quality node features reduce the previously critical role of graph structure, resulting in a modest performance gap between Graph Neural Networks (GNNs) and structure-agnostic Multi-Layer Perceptrons (MLPs). Motivated by this, we introduce a feature-centric pretraining perspective by treating graph structure as a prior and leveraging the rich, unified feature space to learn refined interaction patterns that generalizes across graphs. Our framework, Graph Sequence Pretraining with Transformer (GSPT), samples node contexts through random walks and employs masked feature reconstruction to capture pairwise proximity in the LLM-unified feature space using a standard Transformer. By utilizing unified text representations rather than varying structures, our framework achieves significantly better transferability among graphs within the same domain. GSPT can be easily adapted to both node classification and link prediction, demonstrating promising empirical success on various datasets.
翻訳日:2024-06-21 18:06:06 公開日:2024-06-19
# WATT:CLIPの平均テスト時間適応の軽量化

WATT: Weight Average Test-Time Adaption of CLIP ( http://arxiv.org/abs/2406.13875v1 )

ライセンス: Link先を確認
David Osowiechi, Mehrdad Noori, Gustavo Adolfo Vargas Hakim, Moslem Yazdanpanah, Ali Bahri, Milad Cheraghalikhani, Sahar Dastani, Farzad Beizaee, Ismail Ben Ayed, Christian Desrosiers, (参考訳) CLIPのような視覚言語モデル(VLM)は、ゼロショット画像分類では前例のない性能を得たが、ドメインシフトに直面すると、その一般化能力は深刻な課題になる可能性がある。 これに対し、本VLMの完全なテスト時間適応(TTA)を促進する先駆的なアプローチであるCLIPのウェイト平均テスト時間適応(WATT)を提案する。 提案手法では,CLIPの既存のフレームワークを拡張し,テキストプロンプトに多種多様なテンプレートを用いる。 予測は、モデル更新のための擬似ラベルとして利用され、次いで、平均的な重み付けにより、世界中の学習情報を集約する。 さらに、テキストアンサンブル戦略を導入し、多様なテキストキューを集約することで、全体的なテスト性能を向上させる。 CIFAR-10-C, CIFAR-10.1, CIFAR-100-C, VisDA-C, その他の課題データセットなど,さまざまなデータセットのパフォーマンス向上にWATTが有効であることを示す。 特に、これらの拡張は、追加のモデル変換やトレーニング可能なモジュールを必要とせずに達成される。 さらに,他のテスト時間適応手法と比較して,本手法は単一の画像で効果的に動作することができる。 本研究は、革新的なテストタイム戦略の可能性を強調し、VLMの適応性を高める上での彼らの役割を強調する。 実装は以下の通りである。 \url{https://github.com/Mehrdad-Noori/WATT.git}。

Vision-Language Models (VLMs) such as CLIP have yielded unprecedented performance for zero-shot image classification, yet their generalization capability may still be seriously challenged when confronted to domain shifts. In response, we present Weight Average Test-Time Adaptation (WATT) of CLIP, a pioneering approach facilitating full test-time adaptation (TTA) of this VLM. Our method employs a diverse set of templates for text prompts, augmenting the existing framework of CLIP. Predictions are utilized as pseudo labels for model updates, followed by weight averaging to consolidate the learned information globally. Furthermore, we introduce a text ensemble strategy, enhancing overall test performance by aggregating diverse textual cues. Our findings underscore the efficacy of WATT in enhancing performance across diverse datasets, including CIFAR-10-C, CIFAR-10.1, CIFAR-100-C, VisDA-C, and several other challenging datasets, effectively covering a wide range of domain shifts. Notably, these enhancements are achieved without necessitating additional model transformations or trainable modules. Moreover, compared to other Test-Time Adaptation methods, our approach can operate effectively with just a single image. Highlighting the potential of innovative test-time strategies, this research emphasizes their role in fortifying the adaptability of VLMs. The implementation is available at: \url{https://github.com/Mehrdad-Noori/WATT.git}.
翻訳日:2024-06-21 18:06:06 公開日:2024-06-19
# ソフトウェア工学における機械学習の利用に関する体系的文献レビュー

A Systematic Literature Review on the Use of Machine Learning in Software Engineering ( http://arxiv.org/abs/2406.13877v1 )

ライセンス: Link先を確認
Nyaga Fred, I. O. Temkin, (参考訳) ソフトウェア工学(SE)は、持続可能なソフトウェアシステムの開発に必要な複数のフェーズを含む動的分野である。 人工知能(AI)の分野である機械学習(ML)は、大量のデータを分析し、データから有用なパターンを抽出する能力により、近年多くの注目を集めている。 いくつかの研究は、SEプロセスにおけるMLの適用を調べ、分類し、評価することに重点を置いている。 我々はこのギャップに対処するため,初等研究に関する文献レビューを行った。 この研究は、ソフトウェアエンジニアリングプロセスに機械学習技術を適用するための最先端技術を探るため、目的と研究課題に従って実施された。 レビューでは、ソフトウェア品質保証、ソフトウェア保守、ソフトウェア理解、ソフトウェアドキュメントなど、MLが適用されたソフトウェアエンジニアリングにおける重要な領域を特定している。 また、教師なし学習、教師なし学習、ディープラーニングなど、これらの領域で活用されている特定のMLテクニックを強調している。 キーワード:機械学習、ディープラーニング、ソフトウェアエンジニアリング、自然言語処理、ソースコード

Software engineering (SE) is a dynamic field that involves multiple phases all of which are necessary to develop sustainable software systems. Machine learning (ML), a branch of artificial intelligence (AI), has drawn a lot of attention in recent years thanks to its ability to analyze massive volumes of data and extract useful patterns from data. Several studies have focused on examining, categorising, and assessing the application of ML in SE processes. We conducted a literature review on primary studies to address this gap. The study was carried out following the objective and the research questions to explore the current state of the art in applying machine learning techniques in software engineering processes. The review identifies the key areas within software engineering where ML has been applied, including software quality assurance, software maintenance, software comprehension, and software documentation. It also highlights the specific ML techniques that have been leveraged in these domains, such as supervised learning, unsupervised learning, and deep learning. Keywords: machine learning, deep learning, software engineering, natural language processing, source code
翻訳日:2024-06-21 18:06:06 公開日:2024-06-19
# Su-Schrieffer-Heeger模型の散逸相における浴誘起多体相互作用の役割

Role of Bath-Induced Many-Body Interactions in the Dissipative Phases of the Su-Schrieffer-Heeger Model ( http://arxiv.org/abs/2406.13878v1 )

ライセンス: Link先を確認
Brett Min, Kartiek Agarwal, Dvira Segal, (参考訳) シュリーファー・ヘーガー鎖(Su-Schrieffer-Heeger chain)は、対称性に保護されたトポロジカル絶縁体のプロトタイプである。 細胞間または細胞内のフェルミオントンネル要素を介して、局所的な熱環境に非摂動的に結合することで、トポロジカルウィンドウを修飾する。 この効果を理解するために,最近開発された反応座標ポラロン変換(RCPT)法を用いて,任意の強度でシステム-バス相互作用を処理できる。 RCPTにより得られる有効系ハミルトニアンは、トンネル要素の再正規化と多体相互作用項の生成を通じて、浴がSSH鎖に与える影響を明らかにする。 有限温度のシステムでも適用可能な位相不変量であるアンサンブル幾何位相の正確な対角化と計算を行うことにより、自明なバンド絶縁体(BI)とトポロジカル絶縁体(TI)位相を区別する。 さらに, RCPTマッピングにより, 浴槽型, 浸漬型, 多体間相互作用であるTI相, BI相のパラメータ空間の拡張の背後にある主機構を特定できる。 また,SSH位相図における現場停滞電位の影響について検討し,高次元への拡張について考察する。

The Su-Schrieffer-Heeger chain is a prototype example of a symmetry-protected topological insulator. Coupling it non-perturbatively to local thermal environments, either through the intercell or the intracell fermion tunneling elements, modifies the topological window. To understand this effect, we employ the recently developed reaction-coordinate polaron transform (RCPT) method, which allows treating system-bath interactions at arbitrary strengths. The effective system Hamiltonian, which is obtained via the RCPT, exposes the impact of the baths on the SSH chain through renormalization of tunneling elements and the generation of many-body interaction terms. By performing exact diagonalization and computing the ensemble geometric phase, a topological invariant applicable even to systems at finite temperature, we distinguish the trivial band insulator (BI) from the topological insulator (TI) phases. Furthermore, through the RCPT mapping, we are able to pinpoint the main mechanism behind the extension of the parameter space for the TI or the BI phases (depending on the coupling scheme, intracell or intercell), which is the bath-induced, dimerized, many-body interaction. We also study the effect of on-site staggered potentials on the SSH phase diagram, and discuss extensions of our method to higher dimensions.
翻訳日:2024-06-21 18:06:06 公開日:2024-06-19
# 近点アルゴリズムによる量子線形系問題に対する触媒フレームワーク

A Catalyst Framework for the Quantum Linear System Problem via the Proximal Point Algorithm ( http://arxiv.org/abs/2406.13879v1 )

ライセンス: Link先を確認
Junhyung Lyle Kim, Nai-Hui Chia, Anastasios Kyrillidis, (参考訳) 線形方程式の解法は基本的な問題であるが、高次元の古典的アルゴリズムでは計算集約的である。 既存の量子アルゴリズムは、問題次元の観点から量子線形系問題(QLSP)の指数的高速化を達成できるが、そのような理論的優位性でさえ係数行列の条件数によってボトルネックとなる。 本研究では,古典的近位点アルゴリズム(PPA)にインスパイアされたQLSPのための新しい量子アルゴリズムを提案する。 提案手法は, 修正行列を既存の \texttt{QLSP\_solver} で逆転させることで, 行列の逆を近似するのではなく, 解ベクトルを直接近似することができるメタアルゴリズムとみなすことができる。 ステップサイズ $\eta$ を慎重に選択することにより、提案アルゴリズムは線形系を効果的にプレコンディションし、以前のアプローチの適用性を妨げた条件数への依存を軽減することができる。

Solving systems of linear equations is a fundamental problem, but it can be computationally intensive for classical algorithms in high dimensions. Existing quantum algorithms can achieve exponential speedups for the quantum linear system problem (QLSP) in terms of the problem dimension, but even such a theoretical advantage is bottlenecked by the condition number of the coefficient matrix. In this work, we propose a new quantum algorithm for QLSP inspired by the classical proximal point algorithm (PPA). Our proposed method can be viewed as a meta-algorithm that allows inverting a modified matrix via an existing \texttt{QLSP\_solver}, thereby directly approximating the solution vector instead of approximating the inverse of the coefficient matrix. By carefully choosing the step size $\eta$, the proposed algorithm can effectively precondition the linear system to mitigate the dependence on condition numbers that hindered the applicability of previous approaches.
翻訳日:2024-06-21 18:06:06 公開日:2024-06-19
# 差分プライバシーを用いたプライバシー保護型心電図データ分析:文献レビューと事例研究

Privacy-Preserving ECG Data Analysis with Differential Privacy: A Literature Review and A Case Study ( http://arxiv.org/abs/2406.13880v1 )

ライセンス: Link先を確認
Arin Ghazarian, Jianwei Zheng, Cyril Rakovski, (参考訳) 差別化プライバシは、データベース内の個人のプライバシを保護すると同時に、データ分析から有用な結果を共有するための最重要技術となっている。 特に、最悪のシナリオでプライバシーが失われることを保証する。 多くの理論的研究論文が出版されているが、差分プライバシー要求の現実的な応用は、明確な解決策やガイドラインを使わずにいくつかの重要なパラメータを推定する。 論文の第1部では、差分プライバシーにおける重要な概念の概要と、ECG分析への応用に関する文献レビューと議論について述べる。 論文の第2部では,6段階のプロセスを用いて不整脈データベース上で,差分プライベートなクエリリリースを実現する方法について検討する。 例えば$\epsilon$値の選択、クエリ全体の$\epsilon$予算の分配、クエリ関数の感度の推定などです。 最後に,ECGデータセットに差分プライバシーを適用する際の問題点と課題について論じる。

Differential privacy has become the preeminent technique to protect the privacy of individuals in a database while allowing useful results from data analysis to be shared. Notably, it guarantees the amount of privacy loss in the worst-case scenario. Although many theoretical research papers have been published, practical real-life application of differential privacy demands estimating several important parameters without any clear solutions or guidelines. In the first part of the paper, we provide an overview of key concepts in differential privacy, followed by a literature review and discussion of its application to ECG analysis. In the second part of the paper, we explore how to implement differentially private query release on an arrhythmia database using a six-step process. We provide guidelines and discuss the related literature for all the steps involved, such as selection of the $\epsilon$ value, distribution of the total $\epsilon$ budget across the queries, and estimation of the sensitivity for the query functions. At the end, we discuss the shortcomings and challenges of applying differential privacy to ECG datasets.
翻訳日:2024-06-21 18:06:06 公開日:2024-06-19
# アロケーションは不平等が低い場合にのみ予測を必要とする

Allocation Requires Prediction Only if Inequality Is Low ( http://arxiv.org/abs/2406.13882v1 )

ライセンス: Link先を確認
Ali Shirali, Rediet Abebe, Moritz Hardt, (参考訳) アルゴリズムによる予測は、社会的資源を効率的に割り当てるための、有望な解決策として浮上している。 それらの使用を加速させることは、介入する個人を特定するのにそのようなシステムが不可欠である、という前提である。 本稿では, シンプルな数学的モデルを用いて, 個人が病院, 近所, 学校などの大規模ユニットに属している環境で, 予測に基づくアロケーションの有効性を評価する。 予測に基づくアロケーションは,単位間の不平等が低く,介入予算が高い場合にのみ,集約単位レベルの統計を用いたベースライン手法よりも優れていることがわかった。 その結果,予測値,処理効果の不均一性,および単位レベルの統計学の学習可能性について,幅広い設定が得られた。 組み合わせることで、予測による介入の有効性向上の潜在的な限界が強調される。

Algorithmic predictions are emerging as a promising solution concept for efficiently allocating societal resources. Fueling their use is an underlying assumption that such systems are necessary to identify individuals for interventions. We propose a principled framework for assessing this assumption: Using a simple mathematical model, we evaluate the efficacy of prediction-based allocations in settings where individuals belong to larger units such as hospitals, neighborhoods, or schools. We find that prediction-based allocations outperform baseline methods using aggregate unit-level statistics only when between-unit inequality is low and the intervention budget is high. Our results hold for a wide range of settings for the price of prediction, treatment effect heterogeneity, and unit-level statistics' learnability. Combined, we highlight the potential limits to improving the efficacy of interventions through prediction.
翻訳日:2024-06-21 18:06:06 公開日:2024-06-19
# We are the Clouds: Blending Interaction and Participation in Urban Media Art

We Are The Clouds: Blending Interaction and Participation in Urban Media Art ( http://arxiv.org/abs/2406.13883v1 )

ライセンス: Link先を確認
Varvara Guljajeva, Mar Canet Sola, (参考訳) 2000年代初期から、文化機関は公共空間の改革、コミュニティの関与の促進、芸術革新の育成に役立っている。 これらのイニシアチブの中心は聴衆の交流と参加の概念であるが、都市メディアアートにおけるそれらの定義と応用はいまだに曖昧である。 本稿は、都市環境における対話的・参加的芸術の特徴と交差性を考察し、これらの用語をデミスティフィケートする試みである。 両要素を調和させ、この合成のモチベーションと成果を探求するアートワークに特に重点を置いている。 We Are The Cloudsのケーススタディは、インタラクションと参加の戦略的統合がコミュニティのつながりを高め、公共空間を再活性化する上で、焦点となる。 この分析を通じて、都市メディアアートの変容力は、近隣での体験を再定義し、地元の声を増強し、公共空間の本質を再活性化するものである。

Since the early 2000s, cultural institutions have been instrumental in reshaping public spaces, fostering community engagement, and nurturing artistic innovation. Central to these initiatives are audience interaction and participation concepts, yet their definitions and applications in urban media art remain nebulous. This article endeavours to demystify these terms, examining the distinct characteristics and intersections of interactive and participatory art within urban contexts. A particular emphasis is placed on artworks that harmonise both elements, exploring the motivations and outcomes of this synthesis. The case study of We Are The Clouds serves as a focal point, exemplifying how strategic integration of interaction and participation can enhance community connection and reinvigorate public spaces. Through this analysis, the paper underscores the transformative power of urban media artworks in redefining neighbourhood experiences, empowering local voices, and revitalising the essence of public realms.
翻訳日:2024-06-21 17:56:22 公開日:2024-06-19
# フレキシブル・デモ・レトリバー付きLCMによる数学質問の知識タグ作成システム

Knowledge Tagging System on Math Questions via LLMs with Flexible Demonstration Retriever ( http://arxiv.org/abs/2406.13885v1 )

ライセンス: Link先を確認
Hang Li, Tianlong Xu, Jiliang Tang, Qingsong Wen, (参考訳) 質問に対する知識タグ付けは、学習進行診断、実践的質問推薦、コースコンテンツ組織など、現代のインテリジェントな教育アプリケーションにおいて重要な役割を担っている。 伝統的に、これらのアノテーションは常に教育の専門家によって行われており、タスクは疑問の根源と知識の定義の両方について強力な意味的理解を必要とするだけでなく、問題解決論理と対応する知識概念を結びつけるための深い洞察を必要とする。 近年、事前訓練された言語モデルなどの高度なテキスト符号化アルゴリズムが出現し、多くの研究者が知識と質問の埋め込みのセマンティックな類似性を計算するために、自動知識タグシステムを開発した。 本稿では,強大言語モデル(LLM)を用いたタスクの自動化について検討する。 数学問題における知識タグ付けタスクに対するゼロショットと少数ショットの結果の強い性能を示すことにより,従来の手法が直面する課題を克服する上で,LLMが持つ大きな可能性を実証する。 さらに、強化学習に基づく実演検索の提案により、実演の効率を高く保ちつつ、より優れた性能を実現するために、異なる大きさのLLMの大きな可能性を利用することに成功した。

Knowledge tagging for questions plays a crucial role in contemporary intelligent educational applications, including learning progress diagnosis, practice question recommendations, and course content organization. Traditionally, these annotations are always conducted by pedagogical experts, as the task requires not only a strong semantic understanding of both question stems and knowledge definitions but also deep insights into connecting question-solving logic with corresponding knowledge concepts. With the recent emergence of advanced text encoding algorithms, such as pre-trained language models, many researchers have developed automatic knowledge tagging systems based on calculating the semantic similarity between the knowledge and question embeddings. In this paper, we explore automating the task using Large Language Models (LLMs), in response to the inability of prior encoding-based methods to deal with the hard cases which involve strong domain knowledge and complicated concept definitions. By showing the strong performance of zero- and few-shot results over math questions knowledge tagging tasks, we demonstrate LLMs' great potential in conquering the challenges faced by prior methods. Furthermore, by proposing a reinforcement learning-based demonstration retriever, we successfully exploit the great potential of different-sized LLMs in achieving better performance results while keeping the in-context demonstration usage efficiency high.
翻訳日:2024-06-21 17:56:22 公開日:2024-06-19
# オープンな問題: グラディエントDescentのコンバージェンスレート

Open Problem: Anytime Convergence Rate of Gradient Descent ( http://arxiv.org/abs/2406.13888v1 )

ライセンス: Link先を確認
Guy Kornowski, Ohad Shamir, (参考訳) 近年の研究では、ベニラ勾配降下は、単に段差列を変更するだけで、滑らかな凸目標に対して加速できることが示されている。 古典的な$\mathcal{O}(1/T)$ convergence rate, at \emph{any} stop time $T$?

Recent results show that vanilla gradient descent can be accelerated for smooth convex objectives, merely by changing the stepsize sequence. We show that this can lead to surprisingly large errors indefinitely, and therefore ask: Is there any stepsize schedule for gradient descent that accelerates the classic $\mathcal{O}(1/T)$ convergence rate, at \emph{any} stopping time $T$?
翻訳日:2024-06-21 17:56:22 公開日:2024-06-19
# 臨床ラボ : 実世界における多施設臨床診断のための調整剤

ClinicalLab: Aligning Agents for Multi-Departmental Clinical Diagnostics in the Real World ( http://arxiv.org/abs/2406.13890v1 )

ライセンス: Link先を確認
Weixiang Yan, Haitian Liu, Tengxiao Wu, Qian Chen, Wen Wang, Haoyuan Chai, Jiayi Wang, Weishan Zhao, Yixin Zhang, Renjun Zhang, Li Zhu, (参考訳) LLMは様々なNLPアプリケーションで大幅な性能向上を実現している。 しかし、LSMは医療分野における精度と信頼性の厳格な要件を満たすのに苦慮し、臨床応用において多くの課題に直面している。 LLMを用いた医薬評価のための既存の臨床診断評価ベンチマークには、厳しい制限がある。 まず、既存の医療評価ベンチマークのほとんどは、データ漏洩や汚染のリスクに直面している。 第二に、既存のベンチマークは、現代の医療実践において、複数の部門の特徴や専門性を無視することが多い。 第3に、既存の評価手法は、現実の診断シナリオと一致しない複数選択の質問に限られている。 最後に、既存の評価手法は、エンド・ツー・エンドの実際の臨床シナリオの総合的な評価を欠いている。 これらのベンチマークの制限により、LSMや薬品の進歩が妨げられる。 これらの制約に対処するために,包括的臨床診断薬アライメントスイートである ClinicalLab を導入する。 ClinicalLabには、医療エージェントとLLMを評価するための、エンドツーエンドの多部門間臨床診断評価ベンチマークであるCrictorBenchが含まれている。 ClinicalBenchは、24の部門と150の疾患をカバーする実例に基づいている。 ClinicalLabには、臨床診断タスクにおけるLLMの有効性を評価するための4つの新しい指標(Clinical Metrics)も含まれている。 我々は17個のLDMを評価し,その性能が各部門で大きく異なることを発見した。 これらの知見をもとに,臨床診断の実践と整合したエンド・ツー・エンドの臨床薬であるCrysicalAgentを提案する。 臨床ベンチにおける臨床エージェントの変異体の性能と応用シナリオを系統的に検討した。 本研究は, 医薬設計における現代医療実践との整合性の重要性を示唆するものである。

LLMs have achieved significant performance progress in various NLP applications. However, LLMs still struggle to meet the strict requirements for accuracy and reliability in the medical field and face many challenges in clinical applications. Existing clinical diagnostic evaluation benchmarks for evaluating medical agents powered by LLMs have severe limitations. Firstly, most existing medical evaluation benchmarks face the risk of data leakage or contamination. Secondly, existing benchmarks often neglect the characteristics of multiple departments and specializations in modern medical practice. Thirdly, existing evaluation methods are limited to multiple-choice questions, which do not align with the real-world diagnostic scenarios. Lastly, existing evaluation methods lack comprehensive evaluations of end-to-end real clinical scenarios. These limitations in benchmarks in turn obstruct advancements of LLMs and agents for medicine. To address these limitations, we introduce ClinicalLab, a comprehensive clinical diagnosis agent alignment suite. ClinicalLab includes ClinicalBench, an end-to-end multi-departmental clinical diagnostic evaluation benchmark for evaluating medical agents and LLMs. ClinicalBench is based on real cases that cover 24 departments and 150 diseases. ClinicalLab also includes four novel metrics (ClinicalMetrics) for evaluating the effectiveness of LLMs in clinical diagnostic tasks. We evaluate 17 LLMs and find that their performance varies significantly across different departments. Based on these findings, in ClinicalLab, we propose ClinicalAgent, an end-to-end clinical agent that aligns with real-world clinical diagnostic practices. We systematically investigate the performance and applicable scenarios of variants of ClinicalAgent on ClinicalBench. Our findings demonstrate the importance of aligning with modern medical practices in designing medical agents.
翻訳日:2024-06-21 17:56:22 公開日:2024-06-19
# DPO:3次元物体検出におけるテスト時間適応のための二重摂動最適化

DPO: Dual-Perturbation Optimization for Test-time Adaptation in 3D Object Detection ( http://arxiv.org/abs/2406.13891v1 )

ライセンス: Link先を確認
Zhuoxiao Chen, Zixin Wang, Sen Wang, Zi Huang, Yadan Luo, (参考訳) LiDARをベースとした3Dオブジェクト検出は、近年目覚ましい進歩を遂げている。 しかし、実世界における訓練された3D検出器の展開は、テストデータの分布が異なる気象条件、オブジェクトサイズ、 \textit{etc} によってトレーニングデータから著しくずれている場合、不満足なパフォーマンスをもたらすことが多い。 この性能劣化の重要な要因は、事前訓練されたモデルの一般化可能性の低下である。 このようなシャープさは、テスト中に遭遇すると、小さなデータバリエーションであっても、大幅なパフォーマンス低下を引き起こす可能性がある。 上記の課題に対処するために, \textbf{\underline{T}est-\underline{t}ime \underline{A}daptation in \underline{3}D \underline{O}bject \underline{D}etection (TTA-3OD)} に対する \textbf{dual-perturbation Optimization (DPO)} を提案する。 我々は、平らなロスランドスケープを耕作するシャープさを最小限に抑え、小さなデータ変動に対するモデルレジリエンスを確保することにより、適応プロセスの一般化を向上する。 試験点雲の固有変動をフルに把握するために、入力されたBEV特徴に対して逆摂動を導入し、ノイズの多い試験環境をより良くシミュレートする。 二重摂動戦略は信頼できる監視信号に依存しているため、信頼性の高いハンガリーのマッカーを用いて摂動に敏感な擬似ラベルをフィルタリングする。 また,不正確な擬似ラベルからの誤りの蓄積を回避するために,適応処理を停止させることにより早期ハンガリー語のカットオフを導入する。 特にWaymo $\rightarrow$ KITTIにおいて、提案されたDPOが従来の最先端のアプローチを大幅に上回り、最も競争力のあるベースラインである$\text{AP}_\text{3D}$の57.72\%を上回り、完全に監督された上限の91\%に達することを示した。

LiDAR-based 3D object detection has seen impressive advances in recent times. However, deploying trained 3D detectors in the real world often yields unsatisfactory performance when the distribution of the test data significantly deviates from the training data due to different weather conditions, object sizes, \textit{etc}. A key factor in this performance degradation is the diminished generalizability of pre-trained models, which creates a sharp loss landscape during training. Such sharpness, when encountered during testing, can precipitate significant performance declines, even with minor data variations. To address the aforementioned challenges, we propose \textbf{dual-perturbation optimization (DPO)} for \textbf{\underline{T}est-\underline{t}ime \underline{A}daptation in \underline{3}D \underline{O}bject \underline{D}etection (TTA-3OD)}. We minimize the sharpness to cultivate a flat loss landscape to ensure model resiliency to minor data variations, thereby enhancing the generalization of the adaptation process. To fully capture the inherent variability of the test point clouds, we further introduce adversarial perturbation to the input BEV features to better simulate the noisy test environment. As the dual perturbation strategy relies on trustworthy supervision signals, we utilize a reliable Hungarian matcher to filter out pseudo-labels sensitive to perturbations. Additionally, we introduce early Hungarian cutoff to avoid error accumulation from incorrect pseudo-labels by halting the adaptation process. Extensive experiments across three types of transfer tasks demonstrate that the proposed DPO significantly surpasses previous state-of-the-art approaches, specifically on Waymo $\rightarrow$ KITTI, outperforming the most competitive baseline by 57.72\% in $\text{AP}_\text{3D}$ and reaching 91\% of the fully supervised upper bound.
翻訳日:2024-06-21 17:56:22 公開日:2024-06-19
# 大規模言語モデルに対する適応論理制御

Adaptable Logical Control for Large Language Models ( http://arxiv.org/abs/2406.13892v1 )

ライセンス: Link先を確認
Honghua Zhang, Po-Nien Kung, Masahiro Yoshida, Guy Van den Broeck, Nanyun Peng, (参考訳) 大規模言語モデル(LLM)が人間の指示に従って様々なタスクで成功したにもかかわらず、推論時にモデル生成を制御することは永続的な課題である。 本稿では,LLM生成のトラクタブルかつフレキシブルな制御を容易にし,論理的制約を確実に追従できるフレームワークであるCtrl-Gを紹介する。 Ctrl-G は任意の生産可能な LLM と隠れマルコフモデルを組み合わせることで、LCM の出力は決定論的有限オートマトンとして表される論理的制約に従うことができる。 TULU2-7Bモデルに適用されたCtrl-Gは、対話的テキスト編集作業においてGPT3.5とGPT4よりも優れており、特に、論理的制約に従ってテキスト挿入/継続を生成するタスクでは、GPT4よりも30%高い満足度を達成する。 中規模の言語モデル(例: GPT2-large)に適用した場合、Ctrl-Gは標準ベンチマークで大きなマージンで制約付き生成に勝っている。 さらに、概念実証研究として、Ctrl-Gベンチマークを用いてLLM推論を補助し、Ctrl-Gの適用を先導し、従来の言語生成タスクを超える制約付き生成アプローチを実験する。

Despite the success of Large Language Models (LLMs) on various tasks following human instructions, controlling model generation at inference time poses a persistent challenge. In this paper, we introduce Ctrl-G, an adaptable framework that facilitates tractable and flexible control of LLM generation to reliably follow logical constraints. Ctrl-G combines any production-ready LLM with a Hidden Markov Model, enabling LLM outputs to adhere to logical constraints represented as deterministic finite automata. We show that Ctrl-G, when applied to a TULU2-7B model, outperforms GPT3.5 and GPT4 on the task of interactive text editing: specifically, for the task of generating text insertions/continuations following logical constraints, Ctrl-G achieves over 30% higher satisfaction rate in human evaluation compared to GPT4. When applied to medium-size language models (e.g., GPT2-large), Ctrl-G also beats its counterparts for constrained generation by large margins on standard benchmarks. Additionally, as a proof-of-concept study, we experiment Ctrl-G on the Grade School Math benchmark to assist LLM reasoning, foreshadowing the application of Ctrl-G, as well as other constrained generation approaches, beyond traditional language generation tasks.
翻訳日:2024-06-21 17:56:22 公開日:2024-06-19
# ガリシアンのためのオープンな生成型大規模言語モデル

Open Generative Large Language Models for Galician ( http://arxiv.org/abs/2406.13893v1 )

ライセンス: Link先を確認
Pablo Gamallo, Pablo Rodríguez, Iria de-Dios-Flores, Susana Sotelo, Silvia Paniagua, Daniel Bardanca, José Ramom Pichel, Marcos Garcia, (参考訳) 大規模言語モデル(LLM)は自然言語処理に変化をもたらした。 しかし、彼らの主に英語中心のトレーニングは、言語間でのバイアスとパフォーマンスの相違につながっている。 この不均衡は、ガリシア語のような低い資源を持つ言語にとって、NLP技術への公平なアクセスを困難にしている。 このギャップを埋めるために、ガリシアに焦点をあてた最初の2つの生成LDMを提示する。 これらのモデルはオープンソースリソースとして無料で利用可能であり、2.1Bワードのコーパスに1.3Bパラメータを持つGPTアーキテクチャを用いて訓練された。 継続事前トレーニングを活用することで、より大きなコーパスでトレーニングされたガリシアの2つの既存のLCMに適応し、トレーニングをゼロから実行した場合に発生するデータ制約を緩和する。 これらのモデルは、標準的なベンチマークから人間の判断とタスクベースのデータセットを用いて評価された。 これらの評価は有望な性能を示し、生成モデルにおける言語多様性の重要性を強調している。

Large language models (LLMs) have transformed natural language processing. Yet, their predominantly English-centric training has led to biases and performance disparities across languages. This imbalance marginalizes minoritized languages, making equitable access to NLP technologies more difficult for languages with lower resources, such as Galician. We present the first two generative LLMs focused on Galician to bridge this gap. These models, freely available as open-source resources, were trained using a GPT architecture with 1.3B parameters on a corpus of 2.1B words. Leveraging continual pretraining, we adapt to Galician two existing LLMs trained on larger corpora, thus mitigating the data constraints that would arise if the training were performed from scratch. The models were evaluated using human judgments and task-based datasets from standardized benchmarks. These evaluations reveal a promising performance, underscoring the importance of linguistic diversity in generative models.
翻訳日:2024-06-21 17:56:21 公開日:2024-06-19
# マルチモーダル大言語モデルを用いた交通安全臨界事象の自動検出

Using Multimodal Large Language Models for Automated Detection of Traffic Safety Critical Events ( http://arxiv.org/abs/2406.13894v1 )

ライセンス: Link先を確認
Mohammad Abu Tami, Huthaifa I. Ashqar, Mohammed Elhenawy, (参考訳) 自律システムにおける安全イベント分析への従来のアプローチは、複雑な機械学習モデルと、高精度で信頼性の高い広範なデータセットに依存してきた。 しかし、MLLM(Multimodal Large Language Models)の出現は、テキスト、ビジュアル、オーディオのモダリティを統合し、駆動ビデオの自動解析を提供することによって、新しいアプローチを提供する。 我々のフレームワークはMLLMの推論能力を活用し、その出力をコンテキスト固有のプロンプトを通じて指示することで、危険検出のための正確で信頼性があり、行動可能な洞察を確実にする。 Gemini-Pro-Vision 1.5 や Llava などのモデルを導入することで,安全クリティカルイベントの自動化と,MLLM 出力の幻覚などの共通問題を緩和する。 予備的な結果は、ゼロショット学習と正確なシナリオ分析におけるフレームワークの可能性を示しているが、より大きなデータセットに対するさらなる検証が必要である。 さらに、数ショットの学習と微調整モデルを通じて提案フレームワークの性能向上を検討するために、さらなる調査が必要である。 本研究は、複雑な環境との相互作用を検知し理解することで、自然主義的な運転映像の分析を進める上でのMLLMの重要性を裏付けるものである。

Traditional approaches to safety event analysis in autonomous systems have relied on complex machine learning models and extensive datasets for high accuracy and reliability. However, the advent of Multimodal Large Language Models (MLLMs) offers a novel approach by integrating textual, visual, and audio modalities, thereby providing automated analyses of driving videos. Our framework leverages the reasoning power of MLLMs, directing their output through context-specific prompts to ensure accurate, reliable, and actionable insights for hazard detection. By incorporating models like Gemini-Pro-Vision 1.5 and Llava, our methodology aims to automate the safety critical events and mitigate common issues such as hallucinations in MLLM outputs. Preliminary results demonstrate the framework's potential in zero-shot learning and accurate scenario analysis, though further validation on larger datasets is necessary. Furthermore, more investigations are required to explore the performance enhancements of the proposed framework through few-shot learning and fine-tuned models. This research underscores the significance of MLLMs in advancing the analysis of the naturalistic driving videos by improving safety-critical event detecting and understanding the interaction with complex environments.
翻訳日:2024-06-21 17:56:21 公開日:2024-06-19
# InFusion: Diffusion Regularized Implicit Neural Representation for 2D and 3DAccelerated MRI reconstruction (特集:MRI)

INFusion: Diffusion Regularized Implicit Neural Representations for 2D and 3D accelerated MRI reconstruction ( http://arxiv.org/abs/2406.13895v1 )

ライセンス: Link先を確認
Yamin Arefeen, Brett Levac, Zach Stoebner, Jonathan Tamir, (参考訳) Inlicit Neural Representations(INR)は、MRI(MRI)の取得を加速する学習ベースのアプローチである。 以前の研究では、INRはニューラルネットワークアーキテクチャによって課される固有の正規化を通じて、高速MRIを改善することが示されている。 通常、完全に接続されたニューラルネットワークによってパラメータ化され、INRは物理座標位置を入力とし、その座標に強度を出力することで、連続した画像表現をサポートする。 これまでの作業では、INRトレーニング中に未学習の正規化に先立って適用され、2Dまたは低解像度の3D取得に限られていた。 一方、拡散に基づく生成モデルは、測定モデルから分離された強力な画像の先行性を学ぶことで近年注目されている。 本研究は,インフュージョン(InFusion)を提案する。インフュージョン(InFusion)は,インフュージョン(INRs)のアンダーサンプルMR測定から,画像再構成を改善するための事前学習拡散モデルを用いた最適化手法である。 さらに,大規模な3次元MRデータセットにINRを適用可能な拡散正則化を用いたハイブリッド3次元手法を提案する。 2次元実験は, 提案した拡散正則化によるINRトレーニングの改善を示し, 3次元実験は, 256×80の3次元行列サイズでの拡散正則化によるINRトレーニングの実現可能性を示した。

Implicit Neural Representations (INRs) are a learning-based approach to accelerate Magnetic Resonance Imaging (MRI) acquisitions, particularly in scan-specific settings when only data from the under-sampled scan itself are available. Previous work demonstrates that INRs improve rapid MRI through inherent regularization imposed by neural network architectures. Typically parameterized by fully-connected neural networks, INRs support continuous image representations by taking a physical coordinate location as input and outputting the intensity at that coordinate. Previous work has applied unlearned regularization priors during INR training and have been limited to 2D or low-resolution 3D acquisitions. Meanwhile, diffusion based generative models have received recent attention as they learn powerful image priors decoupled from the measurement model. This work proposes INFusion, a technique that regularizes the optimization of INRs from under-sampled MR measurements with pre-trained diffusion models for improved image reconstruction. In addition, we propose a hybrid 3D approach with our diffusion regularization that enables INR application on large-scale 3D MR datasets. 2D experiments demonstrate improved INR training with our proposed diffusion regularization, and 3D experiments demonstrate feasibility of INR training with diffusion regularization on 3D matrix sizes of 256 by 256 by 80.
翻訳日:2024-06-21 17:56:21 公開日:2024-06-19
# 同時マップとオブジェクト再構成

Simultaneous Map and Object Reconstruction ( http://arxiv.org/abs/2406.13896v1 )

ライセンス: Link先を確認
Nathaniel Chodosh, Anish Madan, Deva Ramanan, Simon Lucey, (参考訳) 本稿では,LiDARから大規模都市景観を動的に再現する手法を提案する。 奥行きに基づく再構築は、移動物体を外れ値として扱う小さな物体や大規模なSLAM再構成に焦点を当てる傾向がある。 我々は、世界が厳格に動く物体と背景に分解される動的なシーンの構成モデルを総合的に捉え、最適化する。 そこで我々は,新しいビュー合成法から着想を得て,予測表面と入力LiDARスキャンの距離を最小化して,再構成問題を大域的最適化として提案する。 本稿では,この大域的最適化を登録と表面再構成の段階に分解し,再学習を伴わずに市販の手法でうまく処理できることを示す。 連続動作の慎重なモデリングにより, 回転するLiDARセンサの回転シャッター効果を補うことができる。 これにより、厳格に動く物体のLiDARスキャンを適切に動作させる最初のシステム(私たちの知る限り)が、静的なシーンの運動補償に広く使われているテクニックを補完する。 また, 動的再構成を目標とするだけでなく, 部分的にアノテートされたシーケンスを自動ラベル化して, 深度補完やシーンフローなどのハード・トゥ・ラベル問題に対して, 基底真理アノテーションを生成できることを示す。

In this paper, we present a method for dynamic surface reconstruction of large-scale urban scenes from LiDAR. Depth-based reconstructions tend to focus on small-scale objects or large-scale SLAM reconstructions that treat moving objects as outliers. We take a holistic perspective and optimize a compositional model of a dynamic scene that decomposes the world into rigidly moving objects and the background. To achieve this, we take inspiration from recent novel view synthesis methods and pose the reconstruction problem as a global optimization, minimizing the distance between our predicted surface and the input LiDAR scans. We show how this global optimization can be decomposed into registration and surface reconstruction steps, which are handled well by off-the-shelf methods without any re-training. By careful modeling of continuous-time motion, our reconstructions can compensate for the rolling shutter effects of rotating LiDAR sensors. This allows for the first system (to our knowledge) that properly motion compensates LiDAR scans for rigidly-moving objects, complementing widely-used techniques for motion compensation of static scenes. Beyond pursuing dynamic reconstruction as a goal in and of itself, we also show that such a system can be used to auto-label partially annotated sequences and produce ground truth annotation for hard-to-label problems such as depth completion and scene flow.
翻訳日:2024-06-21 17:56:21 公開日:2024-06-19
# キャビティQED材料:任意の光-物質結合強度における2つの線形応答理論の比較と検証

Cavity QED materials: Comparison and validation of two linear response theories at arbitrary light-matter coupling strengths ( http://arxiv.org/abs/2406.11971v2 )

ライセンス: Link先を確認
Juan Román-Roche, Álvaro Gómez-León, Fernando Luis, David Zueco, (参考訳) 共振器と共振器とを結合した材料に対する線形応答理論を開発し, 対称性破壊相を含む光物質結合のすべての状態に有効である。 我々は2つの異なるアプローチを提示し比較する。 まず、分割関数に対するコヒーレントパス積分定式化を用いて熱グリーン関数を得る。 このアプローチは作用のサドル点展開に依存しており、熱力学の極限で切り離すことができる。 第二に、グリーン関数の運動方程式を定式化し、それらを解く。 我々は、閉可解方程式系を得るために、高階グリーン関数の平均場分離を用いる。 どちらの手法もキャビティと材料に対する応答関数の計算において同じ結果をもたらす。 これらは素空洞と物質応答の点で得られる。 この2つの手法は, 相関した光物質系における平均場分離の有効性を明らかにし, 熱力学的限界に対する有限サイズ補正を補完する手段を提供する。 この理論は、長波長近似において、キャビティQED材料分野において一般的に考慮されるほとんどのシステムを含む一般的なモデルのために定式化されている。 最後に、量子ホール効果と磁気モデルの収集にこの理論の詳細な応用を与える。 解析的および有限サイズの正確な対角化結果に対する予測を検証する。

We develop a linear response theory for materials collectively coupled to a cavity that is valid in all regimes of light-matter coupling, including symmetry-broken phases. We present and compare two different approaches. First, using a coherent path integral formulation for the partition function to obtain thermal Green functions. This approach relies on a saddle point expansion for the action, that can be truncated in the thermodynamic limit. Second, by formulating the equations of motion for the retarded Green functions and solving them. We use a mean-field decoupling of high-order Green functions in order to obtain a closed, solvable system of equations. Both approaches yield identical results in the calculation of response functions for the cavity and material. These are obtained in terms of the bare cavity and material responses. In combination, the two techniques clarify the validity of a mean-field decoupling in correlated light-matter systems and provide complementary means to compute finite-size corrections to the thermodynamic limit. The theory is formulated for a general model that encompasses most of the systems typically considered in the field of cavity QED materials, within a long-wavelength approximation. Finally, we provide a detailed application of the theory to the Quantum Hall effect and to a collection of magnetic models. We validate our predictions against analytical and finite-size exact-diagonalization results.
翻訳日:2024-06-21 11:58:33 公開日:2024-06-19
# バイオメディカルベンチマークにおける薬物名と言語モデル

Language Models are Surprisingly Fragile to Drug Names in Biomedical Benchmarks ( http://arxiv.org/abs/2406.12066v2 )

ライセンス: Link先を確認
Jack Gallifant, Shan Chen, Pedro Moreira, Nikolaj Munch, Mingye Gao, Jackson Pond, Leo Anthony Celi, Hugo Aerts, Thomas Hartvigsen, Danielle Bitterman, (参考訳) 医学知識は文脈に依存しており、意味論的に等価なフレーズの様々な自然言語表現に対して一貫した推論を必要とする。 これは薬名にとって特に重要であり、患者は一般的な等価品の代わりにAdvilやTylenolといったブランド名を使うことが多い。 そこで本研究では,医用医用アノテーションを用いて医用ベンチマークの性能差を評価するために,新しい頑健性データセットであるRABBITSを作成した。 MedQA と MedMCQA のオープンソース LLM と API ベースの LLM を比較し,一貫した性能低下を 1-10 % から明らかにした。 さらに、この脆弱性の潜在的な源泉を、広く使われている事前学習データセットにおけるテストデータの汚染として同定する。 すべてのコードはhttps://github.com/BittermanLab/RABBITSでアクセスでき、HuggingFaceのリーダーボードはhttps://huggingface.co/spaces/AIM-Harvard/rabbits- Leaderboardで利用できる。

Medical knowledge is context-dependent and requires consistent reasoning across various natural language expressions of semantically equivalent phrases. This is particularly crucial for drug names, where patients often use brand names like Advil or Tylenol instead of their generic equivalents. To study this, we create a new robustness dataset, RABBITS, to evaluate performance differences on medical benchmarks after swapping brand and generic drug names using physician expert annotations. We assess both open-source and API-based LLMs on MedQA and MedMCQA, revealing a consistent performance drop ranging from 1-10\%. Furthermore, we identify a potential source of this fragility as the contamination of test data in widely used pre-training datasets. All code is accessible at https://github.com/BittermanLab/RABBITS, and a HuggingFace leaderboard is available at https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.
翻訳日:2024-06-21 11:58:33 公開日:2024-06-19
# DTGB: 動的テキスト分散グラフの総合ベンチマーク

DTGB: A Comprehensive Benchmark for Dynamic Text-Attributed Graphs ( http://arxiv.org/abs/2406.12072v2 )

ライセンス: Link先を確認
Jiasheng Zhang, Jialin Chen, Menglin Yang, Aosong Feng, Shuang Liang, Jie Shao, Rex Ying, (参考訳) 動的テキスト分散グラフ(DyTAG)は、各ノードとエッジがテキスト記述と関連付けられ、グラフ構造とテキスト記述の両方が時間とともに進化する様々な実世界のシナリオで一般的である。 適用性は広いが、DyTAGに合わせたベンチマークデータセットが不足しているため、多くの研究分野での潜在的な進歩を妨げている。 このギャップに対処するために、動的テキスト分散グラフベンチマーク(DTGB)を導入します。これは、テキスト属性とカテゴリを動的に変更することで、ノードとエッジを豊かにする、さまざまなドメインからの大規模で時間進化的なグラフのコレクションです。 DTGBの使用を容易にするため,将来的なリンク予測,宛先ノード検索,エッジ分類,テキスト関係生成の4つの実世界のユースケースに基づいた標準化された評価手順を設計した。 これらのタスクは、動的グラフ構造と自然言語の両方を理解するためにモデルを必要とし、DyTAGsによって引き起こされるユニークな課題を強調します。 さらに、DTGB上で広範囲なベンチマーク実験を行い、7つの人気のある動的グラフ学習アルゴリズムと、LLM埋め込みによるテキスト属性への適応のバリエーションを6つの強力な大言語モデル(LLM)とともに評価した。 以上の結果から,DyTAGの処理における既存モデルの限界が示唆された。 また, 構造力学とテキスト力学の一体化について, DTGBの有用性を考察した。 提案されたDTGBは、DyTAGとその幅広い応用に関する研究を促進する。 動的グラフ構造と自然言語間の相互作用を扱うためのモデルの評価と進化のための包括的なベンチマークを提供する。 データセットとソースコードはhttps://github.com/zjs123/DTGBで入手できる。

Dynamic text-attributed graphs (DyTAGs) are prevalent in various real-world scenarios, where each node and edge are associated with text descriptions, and both the graph structure and text descriptions evolve over time. Despite their broad applicability, there is a notable scarcity of benchmark datasets tailored to DyTAGs, which hinders the potential advancement in many research fields. To address this gap, we introduce Dynamic Text-attributed Graph Benchmark (DTGB), a collection of large-scale, time-evolving graphs from diverse domains, with nodes and edges enriched by dynamically changing text attributes and categories. To facilitate the use of DTGB, we design standardized evaluation procedures based on four real-world use cases: future link prediction, destination node retrieval, edge classification, and textual relation generation. These tasks require models to understand both dynamic graph structures and natural language, highlighting the unique challenges posed by DyTAGs. Moreover, we conduct extensive benchmark experiments on DTGB, evaluating 7 popular dynamic graph learning algorithms and their variants of adapting to text attributes with LLM embeddings, along with 6 powerful large language models (LLMs). Our results show the limitations of existing models in handling DyTAGs. Our analysis also demonstrates the utility of DTGB in investigating the incorporation of structural and textual dynamics. The proposed DTGB fosters research on DyTAGs and their broad applications. It offers a comprehensive benchmark for evaluating and advancing models to handle the interplay between dynamic graph structures and natural language. The dataset and source code are available at https://github.com/zjs123/DTGB.
翻訳日:2024-06-21 11:58:33 公開日:2024-06-19
# 生命科学におけるコンピューティング - 初期のアルゴリズムから現代AIへ

Computing in the Life Sciences: From Early Algorithms to Modern AI ( http://arxiv.org/abs/2406.12108v2 )

ライセンス: Link先を確認
Samuel A. Donkor, Matthew E. Walsh, Alexander J. Titus, (参考訳) 生命科学におけるコンピューティングは、1950年代の初期の計算モデルから、現在見られる人工知能(AI)と機械学習(ML)の応用まで、変革的な進化を遂げてきた。 本稿では,生命科学におけるコンピューティングの歴史的発展を通じて,重要なマイルストーンと技術進歩を強調した。 この議論には、生物学的プロセスの計算モデルの導入、バイオインフォマティクスツールの出現、現代の生命科学研究におけるAI/MLの統合が含まれる。 科学的な大規模言語モデルやバイオAIツールなど、生命科学で使用されるAI対応ツールに注意が向けられ、その能力、限界、生物学的リスクへの影響を調べる。 本研究は,諸分野における情報的意思決定と効果的なコミュニケーションを確保するために,本質的な用語と概念を明確にし,確立することを目的とする。

Computing in the life sciences has undergone a transformative evolution, from early computational models in the 1950s to the applications of artificial intelligence (AI) and machine learning (ML) seen today. This paper highlights key milestones and technological advancements through the historical development of computing in the life sciences. The discussion includes the inception of computational models for biological processes, the advent of bioinformatics tools, and the integration of AI/ML in modern life sciences research. Attention is given to AI-enabled tools used in the life sciences, such as scientific large language models and bio-AI tools, examining their capabilities, limitations, and impact to biological risk. This paper seeks to clarify and establish essential terminology and concepts to ensure informed decision-making and effective communication across disciplines.
翻訳日:2024-06-21 11:58:33 公開日:2024-06-19
# BPO:行動LLMの近さに則ったオンライン嗜好学習のスーパーチャージ

BPO: Supercharging Online Preference Learning by Adhering to the Proximity of Behavior LLM ( http://arxiv.org/abs/2406.12168v2 )

ライセンス: Link先を確認
Wenda Xu, Jiachen Li, William Yang Wang, Lei Li, (参考訳) 選好からの直接アライメント(DAP)は、事前コンパイルされたオフライン選好データセットからヒトデシダラタに大型言語モデル(LLM)をアライメントするための有望なパラダイムとして登場した。 最近の研究では、既存のオフラインDAPメソッドはオンライントレーニングサンプルから直接恩恵を受けられることが示されているが、オンライントレーニングのパワーを完全に活用するために、特定のオンラインDAPアルゴリズムを開発する必要性を強調している。 具体的には,学習したLLMが学習サンプルを収集する行動LLMの近接性に従わなければならないことを確認した。 そこで本稿では,LLMアライメントのための適切な信頼領域を構築することの重要性を強調し,行動LLM(BPO)に近接するオンライン優先度最適化を提案する。 我々は、様々なDAP手法と組み合わせることで、我々のアプローチの有効性と適用性を検証するための広範囲な実験を行い、同じ量の嗜好データでトレーニングを行う場合、幅広いタスクにおいて大幅な性能向上をもたらす。 新たなデータ収集フェーズを1つ導入するだけでも、オンラインBPOはオフラインのDAPベースラインをTL;DRで72.0%から80.2%に改善し、人文参照テキストに対する勝利率で82.2%から89.1%に改善します。

Direct alignment from preferences (DAP) has emerged as a promising paradigm for aligning large language models (LLMs) to human desiderata from pre-collected, offline preference datasets. While recent studies indicate that existing offline DAP methods can directly benefit from online training samples, we highlight the need to develop specific online DAP algorithms to fully harness the power of online training. Specifically, we identify that the learned LLM should adhere to the proximity of the behavior LLM, which collects the training samples. To this end, we propose online Preference Optimization in proximity to the Behavior LLM (BPO), emphasizing the importance of constructing a proper trust region for LLM alignment. We conduct extensive experiments to validate the effectiveness and applicability of our approach by integrating it with various DAP methods, resulting in significant performance improvements across a wide range of tasks when training with the same amount of preference data. Even when only introducing one additional data collection phase, our online BPO improves its offline DAP baseline from 72.0% to 80.2% on TL;DR and from 82.2% to 89.1% on Anthropic Helpfulness in terms of win rate against human reference text.
翻訳日:2024-06-21 11:58:33 公開日:2024-06-19
# MiSuReはイメージセグメンテーションを説明するだけ

MiSuRe is all you need to explain your image segmentation ( http://arxiv.org/abs/2406.12173v2 )

ライセンス: Link先を確認
Syed Nouman Hasany, Fabrice Mériaudeau, Caroline Petitjean, (参考訳) コンピュータビジョンの過去10年間は、Deep Learningのアーキテクチャが支配的だった。 しかしながら、それらのパフォーマンスは、しばしば、その非常に非線型性のため、説明可能性のコストがかかる。 その結果,eXplainable Artificial Intelligence (XAI) の並列分野は,ディープラーニングモデルの意思決定プロセスに関する洞察を生み出すことを目的として開発された。 XAIにおける重要な問題は、サリエンシマップの生成である。 これらは入力画像内の領域であり、モデルの最終的な決定に最も寄与した。 しかし、この点におけるほとんどの研究は画像分類に焦点を合わせており、ユビキタスなタスクであるにも関わらず、イメージセグメンテーションはそれほど注目されていない。 本研究では,画像セグメンテーションのためのサリエンシマップを生成するアルゴリズムとして,MiSuRe(Minimally Sufficient Region)を提案する。 MiSuReが生成するサリエンシマップの目標は、無関係な領域を排除し、画像分割決定に不可欠な入力画像内のこれらの領域のみをハイライトすることである。 トライアングル(人工構築)、COCO-2017(自然画像)、シナプス多臓器(医療画像)の3つのデータセットについて分析を行った。 さらに, セグメンテーションモデルのポストホック信頼性を実現するために, これらのポストホック・サリエンシ・マップの潜在的なユースケースを特定する。

The last decade of computer vision has been dominated by Deep Learning architectures, thanks to their unparalleled success. Their performance, however, often comes at the cost of explainability owing to their highly non-linear nature. Consequently, a parallel field of eXplainable Artificial Intelligence (XAI) has developed with the aim of generating insights regarding the decision making process of deep learning models. An important problem in XAI is that of the generation of saliency maps. These are regions in an input image which contributed most towards the model's final decision. Most work in this regard, however, has been focused on image classification, and image segmentation - despite being a ubiquitous task - has not received the same attention. In the present work, we propose MiSuRe (Minimally Sufficient Region) as an algorithm to generate saliency maps for image segmentation. The goal of the saliency maps generated by MiSuRe is to get rid of irrelevant regions, and only highlight those regions in the input image which are crucial to the image segmentation decision. We perform our analysis on 3 datasets: Triangle (artificially constructed), COCO-2017 (natural images), and the Synapse multi-organ (medical images). Additionally, we identify a potential usecase of these post-hoc saliency maps in order to perform post-hoc reliability of the segmentation model.
翻訳日:2024-06-21 11:58:33 公開日:2024-06-19
# CITADEL:コンテキスト類似性に基づくディープラーニングフレームワークのバグ検索

CITADEL: Context Similarity Based Deep Learning Framework Bug Finding ( http://arxiv.org/abs/2406.12196v2 )

ライセンス: Link先を確認
Xiaoyu Zhang, Juan Zhai, Shiqing Ma, Shiwei Wang, Chao Shen, (参考訳) ディープラーニング(DL)技術が新しいインテリジェントソフトウェアに不可欠な部分になることで、DLフレームワークのテストとバグフィリングのツールが要求される。 既存のDLフレームワークテストツールには、バグタイプが限定されている。 例えば、DLモデルのトレーニングやパフォーマンス、経済、環境に関する推論には重要なパフォーマンスバグを見つける能力がない。 この問題は、パフォーマンスのバグをテストするのが難しいため、難しい。 さらに、既存のツールは非効率で、数百のテストケースを生成し、トリガーバグが少ない。 本稿では,CITADELを提案する。CITADELは,効率と有効性の観点から,バグの発見を高速化する手法である。 DLフレームワークのバグの多くは、同じファミリーに属する演算子やアルゴリズム(例えば、Conv2D、Conv3D)の類似性のため、類似している。 既存のバグフィニングツールと直交して、CITADELは、テストのオーラクルが既知の報告されたものに似た、新しいバグを見つけることを目的としている。 これは、まず既存のバグレポートを収集し、問題のあるAPIを特定することで機能する。 CITADELは、DLフレームワークのAPIペアの類似度を測定するためにコンテキストの類似性を定義し、既存のバグレポートで問題のあるAPIに類似したAPIのオラクルを使ったテストケースを自動的に生成する。 CITADELは、それぞれ1,436 PyTorchと5,380 TensorFlow APIをカバーし、79と80のAPIバグを効果的に検出する。 さらに、CITADELが生成したテストケースの35.40%がバグを引き起こす可能性がある。これは最先端のメソッドであるDocTer、DeepREL、TitanFuzzによって示される0.74%、1.23%、および3.90%の比率を大幅に超える。

With deep learning (DL) technology becoming an integral part of the new intelligent software, tools of DL framework testing and bug-finding are in high demand. Existing DL framework testing tools have limited coverage on bug types. For example, they lack the capability of finding performance bugs, which are critical for DL model training and inference regarding performance, economics, and the environment. This problem is challenging due to the difficulty of getting test oracles of performance bugs. Moreover, existing tools are inefficient, generating hundreds of test cases with few trigger bugs. In this paper, we propose CITADEL, a method that accelerates the finding of bugs in terms of efficiency and effectiveness. We observe that many DL framework bugs are similar due to the similarity of operators and algorithms belonging to the same family (e.g., Conv2D and Conv3D). Orthogonal to existing bug-finding tools, CITADEL aims to find new bugs that are similar to reported ones that have known test oracles. It works by first collecting existing bug reports and identifying problematic APIs. CITADEL defines context similarity to measure the similarity of DL framework API pairs and automatically generates test cases with oracles for APIs that are similar to the problematic APIs in existing bug reports. CITADEL respectively covers 1,436 PyTorch and 5,380 TensorFlow APIs and effectively detects 79 and 80 API bugs, among which 58 and 68 are new, and 36 and 58 have been confirmed, many of which, e.g., the 11 performance bugs cannot be detected by existing tools. Moreover, a remarkable 35.40% of the test cases generated by CITADEL can trigger bugs, which significantly transcends the ratios of 0.74%, 1.23%, and 3.90% exhibited by the state-of-the-art methods, DocTer, DeepREL, and TitanFuzz.
翻訳日:2024-06-21 11:58:33 公開日:2024-06-19
# HDマップコンストラクタはセンサの故障下で信頼性が高いか?

Is Your HD Map Constructor Reliable under Sensor Corruptions? ( http://arxiv.org/abs/2406.12214v2 )

ライセンス: Link先を確認
Xiaoshuai Hao, Mengchuan Wei, Yifan Yang, Haimei Zhao, Hui Zhang, Yi Zhou, Qiang Wang, Weiming Li, Lingdong Kong, Jing Zhang, (参考訳) 運転システムは、しばしば計画とナビゲーションに不可欠である正確な環境情報のために高精細(HD)マップに頼っている。 現在のHDマップコンストラクタは理想的な条件下ではよく機能するが、現実の課題、すなわち悪天候やセンサーの故障に対するレジリエンスはよく理解されていない。 この研究は、様々なセンサの破損に対するHDマップ構築手法の堅牢性を評価するために設計された最初の総合的なベンチマークであるMapBenchを紹介する。 私たちのベンチマークでは、カメラとLiDARセンサーから発生した29種類の汚職を網羅しています。 31個のHDマップコンストラクタに対する広範囲な評価により, 気象条件やセンサ故障による既存手法の性能劣化が顕著であり, 重大な安全性上の懸念が浮き彫りにされている。 マルチモーダル融合、高度なデータ拡張、アーキテクチャ技術を活用した革新的なアプローチを含む、堅牢性向上のための効果的な戦略を特定します。 これらの知見は、自動運転技術の進歩に欠かせない、より信頼性の高いHDマップ構築手法を開発するための経路を提供する。 ベンチマークツールキットと関連するコードとモデルチェックポイントが一般に公開されている。

Driving systems often rely on high-definition (HD) maps for precise environmental information, which is crucial for planning and navigation. While current HD map constructors perform well under ideal conditions, their resilience to real-world challenges, \eg, adverse weather and sensor failures, is not well understood, raising safety concerns. This work introduces MapBench, the first comprehensive benchmark designed to evaluate the robustness of HD map construction methods against various sensor corruptions. Our benchmark encompasses a total of 29 types of corruptions that occur from cameras and LiDAR sensors. Extensive evaluations across 31 HD map constructors reveal significant performance degradation of existing methods under adverse weather conditions and sensor failures, underscoring critical safety concerns. We identify effective strategies for enhancing robustness, including innovative approaches that leverage multi-modal fusion, advanced data augmentation, and architectural techniques. These insights provide a pathway for developing more reliable HD map construction methods, which are essential for the advancement of autonomous driving technology. The benchmark toolkit and affiliated code and model checkpoints have been made publicly accessible.
翻訳日:2024-06-21 11:58:33 公開日:2024-06-19
# BECマイクロモーションの非対称動的局在と高精度測定

Asymmetric dynamical localization and precision measurement of BEC micromotion ( http://arxiv.org/abs/2406.12358v2 )

ライセンス: Link先を確認
S. Sagar Maurya, J. Bharathi Kannan, Kushal Patel, Pranab Dutta, Korak Biswas, M. S. Santhanam, Umakant D. Rapol, (参考訳) ボース・アインシュタイン凝縮体 (BEC) が非ゼロ初期運動量で周期的に駆動された光学格子に打ち上げられ、移動フレームに小さな初期電流を持つ非対称局在運動量分布が生じることを示す。 この非対称な局在は2つのシナリオで研究される。 (a)実験室のフレーム内でBECが動いているとき、 b) 光学格子が実験室フレーム内で動いているとき。 この非対称な特徴は、破壊されたパリティ対称性によって誘導される早期のダイナミクスから生じ、動的局在が安定化するにつれて漸近的に凍結することが示されている。 BECのマイクロモーションは、初期非対称性を用いて測定される。 この文脈では、マイクロモーションは格子方向に沿ったBECの初期速度が極端に低いことを指している。 これはハイブリッドトラップ電位をオフにしたときのジッタに由来する。 BECを蹴り動かして動く光学格子に利用することにより、初期時間力学における非対称性を測定し、量子系のマイクロモーション現象を正確に特徴づけ、定量化する。 マイクロモーション計測は、光パルス干渉計における系統的なシフトと不確かさの定量化に応用されている。

We show that a Bose-Einstein Condensate (BEC) launched with non-zero initial momentum into a periodically kicked optical lattice creates an asymmetrically localized momentum distribution in a moving frame with a small initial current. This asymmetric localization is investigated under two scenarios; (a) when the BEC is in motion in the laboratory frame and, (b) when the optical lattice is in motion in the laboratory frame. The asymmetric features are shown to arise from the early-time dynamics induced by the broken parity symmetry and, asymptotically, freeze as the dynamical localization stabilizes. The micromotion of BEC is measured using the early-time asymmetry. In this context, micromotion refers to the extremely low initial velocity of the BEC along the lattice direction. This originates from the jitter when the hybrid trap potential is turned off. By employing BEC in a kicked and moving optical lattice, the asymmetry in early-time dynamics is measured to precisely characterize and quantify the micromotion phenomena in the quantum system. Micromotion measurement has applications in quantifying systematic shifts and uncertainties in light-pulse interferometers.
翻訳日:2024-06-21 11:58:33 公開日:2024-06-19
# DCS Chain - 柔軟なプライベートブロックチェーンシステム

DCS Chain: A Flexible Private Blockchain System ( http://arxiv.org/abs/2406.12376v2 )

ライセンス: Link先を確認
Jianwu Zheng, Siyuan Zhao, Zheng Wang, Li Pan, Jianhua Li, (参考訳) ブロックチェーン技術はここ数年で大きな発展を遂げてきた。 多数のブロックチェーンシステムが出現したにもかかわらず、これらはすべてさまざまな制限に悩まされており、DCSのトリレンマによって引き起こされる根本的な問題に起因している。 これを踏まえて、この研究はDCS Chainという新しいプライベートブロックチェーンシステムを導入している。 中心となる考え方は、DCSメトリクスを定量化し、これらの3次元にわたってブロックチェーンのパフォーマンスを動的に調整し、理論的に最適なシステムパフォーマンスを達成することである。 全体として、当社のシステムはDCS定量化、コンセンサスプロトコル調整、通信ネットワークシミュレーションなど、ブロックチェーン必需品の包括的なスイートを提供しています。

Blockchain technology has seen tremendous development over the past few years. Despite the emergence of numerous blockchain systems, they all suffer from various limitations, which can all be attributed to the fundamental issue posed by the DCS trilemma. In light of this, this work introduces a novel private blockchain system named DCS Chain. The core idea is to quantify the DCS metrics and dynamically adjust the blockchain's performance across these three dimensions, to achieve theoretically optimal system performance. Overall, our system provides a comprehensive suite of blockchain essentials, including DCS quantification, consensus protocol adjustment, and communication network simulation.
翻訳日:2024-06-21 11:58:33 公開日:2024-06-19
# Mathador-LM:大規模言語モデルにおける数学的推論のための動的ベンチマーク

Mathador-LM: A Dynamic Benchmark for Mathematical Reasoning on Large Language Models ( http://arxiv.org/abs/2406.12572v2 )

ライセンス: Link先を確認
Eldar Kurtic, Amir Moeini, Dan Alistarh, (参考訳) 我々は,大言語モデル(LLM)の数学的推論を評価するための新しいベンチマークであるMathador-LMを紹介し,ルールセットの解釈,計画,問題解決を組み合わせた。 このベンチマークはMathadorゲームにインスパイアされたもので、目的はルールの単純なセットに従って、与えられたベースナンバーのセットの基本的な算術演算を用いてターゲット番号に到達することである。 先行するLLMに対して,ベンチマークインスタンスを動的に生成しながら,目標とする難易度に従って,安定した平均性能が得られることを示す。 このように、我々のベンチマークは、一般的なベンチマークを損なうことが多いトレーニングデータへのテストセットのリークに関する懸念を軽減する。 さらに,Mathador-LM上では,オープンソースとクローズドソースの両方のLCMを総合的に評価する。 その結果,現代モデルはMathador-LMと競合し,第3学年よりも有意に低い結果が得られた。 これは、人気のある数学的推論ベンチマークにおける強力なパフォーマンスとは対照的である。

We introduce Mathador-LM, a new benchmark for evaluating the mathematical reasoning on large language models (LLMs), combining ruleset interpretation, planning, and problem-solving. This benchmark is inspired by the Mathador game, where the objective is to reach a target number using basic arithmetic operations on a given set of base numbers, following a simple set of rules. We show that, across leading LLMs, we obtain stable average performance while generating benchmark instances dynamically, following a target difficulty level. Thus, our benchmark alleviates concerns about test-set leakage into training data, an issue that often undermines popular benchmarks. Additionally, we conduct a comprehensive evaluation of both open and closed-source state-of-the-art LLMs on Mathador-LM. Our findings reveal that contemporary models struggle with Mathador-LM, scoring significantly lower than average 3rd graders. This stands in stark contrast to their strong performance on popular mathematical reasoning benchmarks.
翻訳日:2024-06-21 11:58:33 公開日:2024-06-19
# 確率論的概念記述者:ビジョン基礎モデルのための信頼できる概念記述

Probabilistic Conceptual Explainers: Trustworthy Conceptual Explanations for Vision Foundation Models ( http://arxiv.org/abs/2406.12649v2 )

ライセンス: Link先を確認
Hengyi Wang, Shiwei Tan, Hao Wang, (参考訳) ビジョントランスフォーマー(ViT)は、特に大きな言語モデルと共同でトレーニングし、堅牢なビジョン基盤モデルとして機能する能力に重点を置いている。 しかし、ViTの信頼性のある説明法の開発は、特にViT予測のポストホック解釈の文脈において遅れを取っている。 特徴属性や概念モデルといった既存のサブイメージ選択アプローチは、この点では不十分である。 本稿では, 信頼度, 安定度, 疎度, マルチレベル構造, パーシモニーを5つのデシラタで説明し, これらの基準を包括的に満たす上での現在の手法の不十分さを実証する。 本稿では,PACE (ProbAbilistic Concept Explainers) と呼ばれる変分ベイズ的説明フレームワークを導入し,パッチ埋め込みの分布をモデル化し,信頼性の高いポストホックな概念的説明を提供する。 我々の定性的分析はパッチレベルの概念の分布を明らかにし、パッチ埋め込みとViTの予測の連成分布をモデル化することにより、ViTsの有効性を解明する。 さらに、これらのパッチレベルの説明は、画像レベルとデータセットレベルの説明のギャップを埋め、PACEのマルチレベル構造を完成させる。 合成と実世界の両方のデータセットに関する広範な実験を通じて、PACEが定義されたデシダラタ(deiderata)の観点で最先端の手法を超越していることが実証された。

Vision transformers (ViTs) have emerged as a significant area of focus, particularly for their capacity to be jointly trained with large language models and to serve as robust vision foundation models. Yet, the development of trustworthy explanation methods for ViTs has lagged, particularly in the context of post-hoc interpretations of ViT predictions. Existing sub-image selection approaches, such as feature-attribution and conceptual models, fall short in this regard. This paper proposes five desiderata for explaining ViTs -- faithfulness, stability, sparsity, multi-level structure, and parsimony -- and demonstrates the inadequacy of current methods in meeting these criteria comprehensively. We introduce a variational Bayesian explanation framework, dubbed ProbAbilistic Concept Explainers (PACE), which models the distributions of patch embeddings to provide trustworthy post-hoc conceptual explanations. Our qualitative analysis reveals the distributions of patch-level concepts, elucidating the effectiveness of ViTs by modeling the joint distribution of patch embeddings and ViT's predictions. Moreover, these patch-level explanations bridge the gap between image-level and dataset-level explanations, thus completing the multi-level structure of PACE. Through extensive experiments on both synthetic and real-world datasets, we demonstrate that PACE surpasses state-of-the-art methods in terms of the defined desiderata.
翻訳日:2024-06-21 11:58:33 公開日:2024-06-19
# ゼロショット知識に基づくVQAのためのRationaleに基づく複数QAストラテジーのアンサンブル

Rationale-based Ensemble of Multiple QA Strategies for Zero-shot Knowledge-based VQA ( http://arxiv.org/abs/2406.12746v2 )

ライセンス: Link先を確認
Miaoyu Li, Haoxin Li, Zilin Du, Boyang Li, (参考訳) K-VQA(Knowledge-based Visual Qustion-Awering)は、画像に描かれているもの以外の背景知識の使用を必要とする。 現在のゼロショットK-VQA法は、通常、1種類のテキスト決定コンテキストに画像を変換し、それに基づいてテキストベースのモデルを使用して質問に答えるが、K-VQAの質問は複数の質問答え戦略の組み合わせを必要とすることが多いという事実と矛盾する。 そこで本研究では,Rationale-based Ensemble of Answer Context Tactics (REACT) を提案し,AcG(Answer Candidate Generation)とRSF(Rationale-based Strategy Fusion)を含む複数の質問回答戦術の動的アンサンブルを実現する。 ACGでは、各質問に対して異なる戦略を提供するために3つの決定コンテキストを生成し、その結果、3つの回答候補が生成される。 RSFは、各候補に対する決定コンテキストから自動的および機械的合理性を生成し、モデルがすべての候補から正しい答えを選択することを可能にする。 我々はOK-VQAデータセットとA-OKVQAデータセットの総合的な実験を行い、この手法は全てのデータセットにおける最先端のLCMベースラインを大幅に上回っている。

Knowledge-based Visual Qustion-answering (K-VQA) necessitates the use of background knowledge beyond what is depicted in the image. Current zero-shot K-VQA methods usually translate an image to a single type of textual decision context and use a text-based model to answer the question based on it, which conflicts with the fact that K-VQA questions often require the combination of multiple question-answering strategies. In light of this, we propose Rationale-based Ensemble of Answer Context Tactics (REACT) to achieve a dynamic ensemble of multiple question-answering tactics, comprising Answer Candidate Generation (ACG) and Rationale-based Strategy Fusion (RSF). In ACG, we generate three distinctive decision contexts to provide different strategies for each question, resulting in the generation of three answer candidates. RSF generates automatic and mechanistic rationales from decision contexts for each candidate, allowing the model to select the correct answer from all candidates. We conduct comprehensive experiments on the OK-VQA and A-OKVQA datasets, and our method significantly outperforms state-of-the-art LLM-based baselines on all datasets.
翻訳日:2024-06-21 11:58:33 公開日:2024-06-19
# インフォマティクスと乳製品産業連合 : AIの動向と課題

Informatics & dairy industry coalition: AI trends and present challenges ( http://arxiv.org/abs/2406.12770v2 )

ライセンス: Link先を確認
Silvia García-Méndez, Francisco de Arriba-Pérez, María del Carmen Somoza-López, (参考訳) 人工知能(AI)は、産業を変革し、生産プロセスを強化し、手動で反復的なタスクを最小限にする可能性がある。 したがって、高性能コンピューティングと強力な数学的モデルとの相乗効果により、機械学習のような高度なデータ解析手法の適用が可能になる。 しかし、価値ある知識を生み出すために、効果的で効率的で柔軟な処理に関する課題が存在する。 結果として、この研究はAIを活用できる産業上の課題を包括的に記述し、乳製品産業に焦点を当てている。 結論は、牛のモニタリングと農家に対する新しいアプローチを、彼らのニーズに先進的な技術ソリューションを提案して適用する上で有効である。

Artificial Intelligence (AI) can potentially transform the industry, enhancing the production process and minimizing manual, repetitive tasks. Accordingly, the synergy between high-performance computing and powerful mathematical models enables the application of sophisticated data analysis procedures like Machine Learning. However, challenges exist regarding effective, efficient, and flexible processing to generate valuable knowledge. Consequently, this work comprehensively describes industrial challenges where AI can be exploited, focusing on the dairy industry. The conclusions presented can help researchers apply novel approaches for cattle monitoring and farmers by proposing advanced technological solutions to their needs.
翻訳日:2024-06-21 11:58:33 公開日:2024-06-19
# AITTI:テキスト・画像生成のための適応型包括学習

AITTI: Learning Adaptive Inclusive Token for Text-to-Image Generation ( http://arxiv.org/abs/2406.12805v2 )

ライセンス: Link先を確認
Xinyu Hou, Xiaoming Li, Chen Change Loy, (参考訳) テキスト・ツー・イメージ生成の高品質な結果にもかかわらず、その生成内容にステレオタイプバイアスが見られ、生成モデルの公正さを損なう。 本研究では,最終的な生成出力の属性分布をシフトするために適応的包摂的トークンを学習することを提案する。 既存の非バイアス化手法とは異なり、本手法では明示的な属性仕様やバイアス分布の事前知識は必要としない。 具体的には、本手法のコアとなるのは軽量適応型マッピングネットワークであり、デバイアスの概念に対して包括的トークンをカスタマイズすることで、元のバイアス分布によらず、未確認の概念を一般化することができる。 これは、アダプティブマッピングネットワークをアンカーロスを使用して、少数のバランスのとれた、包括的なサンプルでチューニングすることで達成される。 実験結果から,提案手法は,生成結果とテキスト記述との整合性を保ちつつ,属性仕様を使わずに従来のバイアス軽減手法よりも優れていることが示された。 さらに,本手法は,特定の属性や編集方向を必要とするモデルに匹敵する性能を実現する。 大規模実験では,テキスト・画像生成におけるステレオタイプバイアスの緩和に適応的包括トークンの有効性が示された。 コードはhttps://github.com/itsmag11/AITTIで入手できる。

Despite the high-quality results of text-to-image generation, stereotypical biases have been spotted in their generated contents, compromising the fairness of generative models. In this work, we propose to learn adaptive inclusive tokens to shift the attribute distribution of the final generative outputs. Unlike existing de-biasing approaches, our method requires neither explicit attribute specification nor prior knowledge of the bias distribution. Specifically, the core of our method is a lightweight adaptive mapping network, which can customize the inclusive tokens for the concepts to be de-biased, making the tokens generalizable to unseen concepts regardless of their original bias distributions. This is achieved by tuning the adaptive mapping network with a handful of balanced and inclusive samples using an anchor loss. Experimental results demonstrate that our method outperforms previous bias mitigation methods without attribute specification while preserving the alignment between generative results and text descriptions. Moreover, our method achieves comparable performance to models that require specific attributes or editing directions for generation. Extensive experiments showcase the effectiveness of our adaptive inclusive tokens in mitigating stereotypical bias in text-to-image generation. The code will be available at https://github.com/itsmag11/AITTI.
翻訳日:2024-06-21 11:58:32 公開日:2024-06-19