このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240818となっている論文です。

PDF登録状況(公開日: 20240818)

TitleAuthorsAbstract論文公表日・翻訳日
# ディープラーニングを再考する:バックプロパゲーションと統計的最適化のないニューラルネットワークにおける情報伝達

Rethinking Deep Learning: Propagating Information in Neural Networks without Backpropagation and Statistical Optimization ( http://arxiv.org/abs/2409.03760v1 )

ライセンス: Link先を確認
Kei Itoh, (参考訳) 強力なAIを開発することは、技術的特異点の到来を意味し、人類の文明の進化と社会問題の解決に大きく貢献する。 NN(Neural Network)とNN(Deep Learning)は、その生物学的ニューラルネットワークミミック構造のため、強力なAIにつながることが期待されている。 しかし、誤差のバックプロパゲーションや損失関数などの統計量最適化技術は、ニューラルネットワークの模倣を妨げる可能性がある。 本研究は,修正国立標準技術研究所(MNIST)データベースにおける手書き文字認識問題を,誤差のバックプロパゲーションのような統計的重み最適化手法を使わずに解くことで,構造を模倣するニューラルネットワークとしてのNNの情報伝達機能と潜在的実用性について考察する。 本研究では,段差関数をアクティベーション関数とし,0~15層を隠蔽し,重み更新を行わない完全連結層からなるNNsアーキテクチャを提案する。 ラベル毎のトレーニングデータの平均出力ベクトルとテストデータの出力ベクトルをベクトル類似度に基づいて比較して精度を算出する。 その結果,最大精度は約80%であった。 このことは、NNが統計量最適化を使わずに情報を正しく伝播できることを示している。 さらに,隠蔽層の増加に伴い精度が低下した。 これは、隠れた層の数が増えるにつれて出力ベクトルのばらつきが減少し、出力データが滑らかになることに起因する。 本研究のNNと精度計算法は単純で,様々な改善の余地がある。 さらに,「インプット -> 処理 -> 出力 -> 環境応答 -> 入力 -> 入力 -> 」を繰り返し循環するフィードフォワードNNを作成することで,実用的なソフトウェアアプリケーションを実現することができる。

Developing strong AI signifies the arrival of technological singularity, contributing greatly to advancing human civilization and resolving social issues. Neural networks (NNs) and deep learning, which utilize NNs, are expected to lead to strong AI due to their biological neural system-mimicking structures. However, the statistical weight optimization techniques commonly used, such as error backpropagation and loss functions, may hinder the mimicry of neural systems. This study discusses the information propagation capabilities and potential practical applications of NNs as neural system mimicking structures by solving the handwritten character recognition problem in the Modified National Institute of Standards and Technology (MNIST) database without using statistical weight optimization techniques like error backpropagation. In this study, the NNs architecture comprises fully connected layers using step functions as activation functions, with 0-15 hidden layers, and no weight updates. The accuracy is calculated by comparing the average output vectors of the training data for each label with the output vectors of the test data, based on vector similarity. The results showed that the maximum accuracy achieved is around 80%. This indicates that NNs can propagate information correctly without using statistical weight optimization. Additionally, the accuracy decreased with an increasing number of hidden layers. This is attributed to the decrease in the variance of the output vectors as the number of hidden layers increases, suggesting that the output data becomes smooth. This study's NNs and accuracy calculation methods are simple and have room for various improvements. Moreover, creating a feedforward NNs that repeatedly cycles through 'input -> processing -> output -> environmental response -> input -> ...' could pave the way for practical software applications.
翻訳日:2024-09-15 05:46:11 公開日:2024-08-18
# NeuralCRNs: 化学反応ネットワークにおける学習の自然な実装

NeuralCRNs: A Natural Implementation of Learning in Chemical Reaction Networks ( http://arxiv.org/abs/2409.00034v1 )

ライセンス: Link先を確認
Rajiv Teja Nagipogu, John H. Reif, (参考訳) 単細胞生物が環境の動的変化を感知し、反応する驚くべき能力は、その内部生化学回路の適応能力の証明である。 合成生物学の目標の1つは、生物化学過程を自律的に監視し制御するために、そのようなシステムの生化学的類似物を開発することである。 このようなシステムは、分子診断、スマート治療、生体内ナノメディシンなどの分野に影響を及ぼす可能性がある。 これまでのところ、このようなシステムを作る試みは、抽象的およびDNAベースの合成化学において、伝統的なフィードフォワードネットワークの振る舞いを機能的に複製することに焦点を当ててきた。 しかし、計算のデジタルモードと化学モードの固有の非互換性は、これらの実装にいくつかの非理想性をもたらすため、実際に実現することは困難である。 本研究では,決定論的化学反応ネットワーク(CRN)の集合体として構築された新しい教師あり学習フレームワークであるNeuralCRNを提案する。 従来の作業とは異なり、NeuralCRNsフレームワークは動的システムベースの学習実装に基づいており、結果として化学的に互換性のある計算が行われる。 まず,線形分類のための教師付き学習分類器の構築と訓練について述べる。 次に、非線形分類をサポートするためにこのフレームワークを拡張します。 次に、複雑なクラス分離境界を持つ複数のバイナリクラスおよびマルチクラス分類データセットに対して、トレーニングと評価により、構築の有効性を実証する。 最後に、NeuralCRNsフレームワークに関するいくつかの考察と、既存の研究と比較して方法論の長所と短所について詳述する。

The remarkable ability of single-celled organisms to sense and react to the dynamic changes in their environment is a testament to the adaptive capabilities of their internal biochemical circuitry. One of the goals of synthetic biology is to develop biochemical analogues of such systems to autonomously monitor and control biochemical processes. Such systems may have impactful applications in fields such as molecular diagnostics, smart therapeutics, and in vivo nanomedicine. So far, the attempts to create such systems have been focused on functionally replicating the behavior of traditional feedforward networks in abstract and DNA-based synthetic chemistries. However, the inherent incompatibility between digital and chemical modes of computation introduces several nonidealities into these implementations, making it challenging to realize them in practice. In this work, we present NeuralCRNs, a novel supervised learning framework constructed as a collection of deterministic chemical reaction networks (CRNs). Unlike prior works, the NeuralCRNs framework is founded on dynamical system-based learning implementations and, thus, results in chemically compatible computations. First, we show the construction and training of a supervised learning classifier for linear classification. We then extend this framework to support nonlinear classification. We then demonstrate the validity of our constructions by training and evaluating them first on several binary and multi-class classification datasets with complex class separation boundaries. Finally, we detail several considerations regarding the NeuralCRNs framework and elaborate on the pros and cons of our methodology compared to the existing works.
翻訳日:2024-09-08 15:40:57 公開日:2024-08-18
# 機械学習とハイブリッド双方向LSTM-GRUモデルを用いた脳波右・左手動作に基づく仮想脳-コンピュータインターフェースキーボード

EEG Right & Left Voluntary Hand Movement-based Virtual Brain-Computer Interfacing Keyboard with Machine Learning and a Hybrid Bi-Directional LSTM-GRU Model ( http://arxiv.org/abs/2409.00035v1 )

ライセンス: Link先を確認
Biplov Paneru, Bishwash Paneru, Sanjog Chhetri Sapkota, (参考訳) 本研究は,脳波を用いた随意性キーストローク検出のためのBMIに着目し,特に運動障害のある人を対象に,キーストロークをシミュレートし予測するための信頼性の高い脳-コンピュータインタフェース(BCI)を開発することを目的とする。 この手法には、広範囲なセグメンテーション、イベントアライメント、ERPプロット分析、信号解析が含まれる。 異なるディープラーニングモデルは、脳波データを、'resting state' (0)、'd' key press (1)、'l' key press (2)の3つのカテゴリに分類するように訓練される。 トキンタベースのグラフィカルユーザインタフェースとの統合により、ニューラルアクティビティに基づくリアルタイムキープレスシミュレーションが実現される。 特徴工学はERPウィンドウを利用し、SVCモデルはイベント分類において90.42%の精度を達成した。 さらに、BCIキーボードシミュレーションのために、MLP (89%の精度)、Catboost (87.39%の精度)、KNN (72.59%)、Gaussian Naive Bayes (79.21%)、Logistic Regression (90.81%の精度)、新しいBi-Directional LSTM-GRUハイブリッドモデル (89%の精度)が開発された。 最後に、トレーニングされたMLPモデルを使用してキーストロークを予測し、シミュレートするGUIが作成された。

This study focuses on EEG-based BMI for detecting voluntary keystrokes, aiming to develop a reliable brain-computer interface (BCI) to simulate and anticipate keystrokes, especially for individuals with motor impairments. The methodology includes extensive segmentation, event alignment, ERP plot analysis, and signal analysis. Different deep learning models are trained to classify EEG data into three categories -- `resting state' (0), `d' key press (1), and `l' key press (2). Real-time keypress simulation based on neural activity is enabled through integration with a tkinter-based graphical user interface. Feature engineering utilized ERP windows, and the SVC model achieved 90.42% accuracy in event classification. Additionally, deep learning models -- MLP (89% accuracy), Catboost (87.39% accuracy), KNN (72.59%), Gaussian Naive Bayes (79.21%), Logistic Regression (90.81% accuracy), and a novel Bi-Directional LSTM-GRU hybrid model (89% accuracy) -- were developed for BCI keyboard simulation. Finally, a GUI was created to predict and simulate keystrokes using the trained MLP model.
翻訳日:2024-09-08 15:40:57 公開日:2024-08-18
# マルチUAVネットワークにおけるAoI管理のためのGNNを利用した有効部分観察MARL法

GNN-Empowered Effective Partial Observation MARL Method for AoI Management in Multi-UAV Network ( http://arxiv.org/abs/2409.00036v1 )

ライセンス: Link先を確認
Yuhao Pan, Xiucheng Wang, Zhiyao Xu, Nan Cheng, Wenchao Xu, Jun-jie Zhang, (参考訳) 無人航空機(UAV)は低コストで柔軟性が高いため、ネットワーク性能を高めるために様々なシナリオで広く利用されている。 しかし、十分な事前情報のない未知の地域や地域でのUAV軌道の最適化は、計画性能の低さと分散実行の低さに関連する課題に直面している。 これらの課題は、UAVが自身の観測情報と通信可能な範囲内の他のUAVからの情報を、グローバルな情報にアクセスできることなく依存する場合に生じる。 これらの課題に対処するために、未知シナリオのユーザに対して、グラフニューラルネットワーク(GNN)とQMIXアルゴリズムを組み合わせたQedgixフレームワークを提案し、Age of Information(AoI)の分散最適化を実現する。 このフレームワークは、GNNを用いて、可観測範囲内のUAV、ユーザ、および通信可能な範囲内の他のUAVから情報を抽出し、効果的なUAV軌道計画を可能にする。 AoI指標の離散化と時間的特徴のため、QedgixフレームワークはQMIXを使用して、ユーザの平均AoI値に関して集中的なトレーニングと分散実行(CTDE)に基づいて、分散部分観測可能なマルコフ決定プロセス(Dec-POMDP)を最適化する。 AoIの観点からUAVネットワーク最適化問題をモデル化し、Kolmogorov-Arnold表現定理を適用することにより、Qedgixフレームワークは置換不変性に基づくパラメータ共有による効率的なニューラルネットワークトレーニングを実現する。 シミュレーションの結果,提案アルゴリズムはユーザの平均AoI値を低減しつつ,コンバージェンス速度を大幅に改善することを示した。 コードはhttps://github.com/UNIC-Lab/Qedgix.comで公開されている。

Unmanned Aerial Vehicles (UAVs), due to their low cost and high flexibility, have been widely used in various scenarios to enhance network performance. However, the optimization of UAV trajectories in unknown areas or areas without sufficient prior information, still faces challenges related to poor planning performance and low distributed execution. These challenges arise when UAVs rely solely on their own observation information and the information from other UAVs within their communicable range, without access to global information. To address these challenges, this paper proposes the Qedgix framework, which combines graph neural networks (GNNs) and the QMIX algorithm to achieve distributed optimization of the Age of Information (AoI) for users in unknown scenarios. The framework utilizes GNNs to extract information from UAVs, users within the observable range, and other UAVs within the communicable range, thereby enabling effective UAV trajectory planning. Due to the discretization and temporal features of AoI indicators, the Qedgix framework employs QMIX to optimize distributed partially observable Markov decision processes (Dec-POMDP) based on centralized training and distributed execution (CTDE) with respect to mean AoI values of users. By modeling the UAV network optimization problem in terms of AoI and applying the Kolmogorov-Arnold representation theorem, the Qedgix framework achieves efficient neural network training through parameter sharing based on permutation invariance. Simulation results demonstrate that the proposed algorithm significantly improves convergence speed while reducing the mean AoI values of users. The code is available at https://github.com/UNIC-Lab/Qedgix.
翻訳日:2024-09-08 15:40:57 公開日:2024-08-18
# 雑音画像の非アフィン変形画像登録のためのラドン変換に基づく方法

Methods based on Radon transform for non-affine deformable image registration of noisy images ( http://arxiv.org/abs/2409.00037v1 )

ライセンス: Link先を確認
Daniel E. Hurtado, Axel Osses, Rodrigo Quezada, (参考訳) 変形可能な画像登録は、物体の2つの画像を異なる状態で比較することによって、物体が経験する歪みを決定するのに使用される標準的な工学的問題である。 本研究では、ラドン変換を用いた類似度測定法と線形弾性変形エネルギーに基づく古典正規化器を用いて、非アフィン変形を捕捉する2つの新しいDIR手法を提案する。 両方法の解の存在と特異性に関する条件を確立し、二乗差分類似度尺度の和に基づく標準手法と比較した合成実験結果を示す。 これらの手法は、ノイズと非ノイズの双方で、画像中の様々な非アフィン変形を捉えるためにテストされ、それらの収束速度を解析した。 さらに,これらの手法の有効性を肺画像登録のシナリオで評価した。

Deformable image registration is a standard engineering problem used to determine the distortion experienced by a body by comparing two images of it in different states. This study introduces two new DIR methods designed to capture non-affine deformations using Radon transform-based similarity measures and a classical regularizer based on linear elastic deformation energy. It establishes conditions for the existence and uniqueness of solutions for both methods and presents synthetic experimental results comparing them with a standard method based on the sum of squared differences similarity measure. These methods have been tested to capture various non-affine deformations in images, both with and without noise, and their convergence rates have been analyzed. Furthermore, the effectiveness of these methods was also evaluated in a lung image registration scenario.
翻訳日:2024-09-08 15:40:57 公開日:2024-08-18
# 要求の緩和と分析のためのAIに基づくマルチエージェントアプローチ

AI based Multiagent Approach for Requirements Elicitation and Analysis ( http://arxiv.org/abs/2409.00038v1 )

ライセンス: Link先を確認
Malik Abdul Sami, Muhammad Waseem, Zheying Zhang, Zeeshan Rasheed, Kari Systä, Pekka Abrahamsson, (参考訳) 要件工学(RE)はソフトウェア開発において重要な役割を担い、要求の導出、分析、仕様、変更管理といったタスクを包含する。 その重要な重要性にもかかわらず、REはコミュニケーションの複雑さ、初期段階の不確実性、正確なリソース推定といった課題に直面している。 本研究では,大規模言語モデル(LLM)を用いた要求分析タスクの自動化の有効性を実証的に検討する。 エージェントとしてAIモデルをデプロイし、初期要件からユーザストーリを生成し、品質を評価し、改善し、選択したテクニックで優先順位付けするマルチエージェントシステムを実装した。 本実装では,GPT-3.5,GPT-4 Omni,LLaMA3-70,Mixtral-8Bの4つのモデルをデプロイし,実世界の4つのプロジェクトにおける要件分析実験を行った。 本研究では,異なるモデルのセマンティックな類似性やAPI性能を解析し,要求分析の有効性と効率性を評価し,ユーザの経験に対するフィードバックを収集した。 予備的な結果は,各モデルにおけるタスク完了の顕著な変化を示している。 Mixtral-8Bは最も高速な応答を提供する一方、GPT-3.5は複雑なユーザストーリーを高い類似度スコアで処理し、プロジェクト記述から正確なユーザストーリーを抽出する能力を示した。 4人のプロジェクトメンバーからのフィードバックと提案は、REフェーズの改善と合理化におけるLLMの有効性をさらに裏付けます。

Requirements Engineering (RE) plays a pivotal role in software development, encompassing tasks such as requirements elicitation, analysis, specification, and change management. Despite its critical importance, RE faces challenges including communication complexities, early-stage uncertainties, and accurate resource estimation. This study empirically investigates the effectiveness of utilizing Large Language Models (LLMs) to automate requirements analysis tasks. We implemented a multi-agent system that deploys AI models as agents to generate user stories from initial requirements, assess and improve their quality, and prioritize them using a selected technique. In our implementation, we deployed four models, namely GPT-3.5, GPT-4 Omni, LLaMA3-70, and Mixtral-8B, and conducted experiments to analyze requirements on four real-world projects. We evaluated the results by analyzing the semantic similarity and API performance of different models, as well as their effectiveness and efficiency in requirements analysis, gathering users' feedback on their experiences. Preliminary results indicate notable variations in task completion among the models. Mixtral-8B provided the quickest responses, while GPT-3.5 performed exceptionally well when processing complex user stories with a higher similarity score, demonstrating its capability in deriving accurate user stories from project descriptions. Feedback and suggestions from the four project members further corroborate the effectiveness of LLMs in improving and streamlining RE phases.
翻訳日:2024-09-08 15:40:57 公開日:2024-08-18
# ニードルスタックの針:ノイズ波形データに埋もれた有意義な臨床情報

Needles in Needle Stacks: Meaningful Clinical Information Buried in Noisy Waveform Data ( http://arxiv.org/abs/2409.00041v1 )

ライセンス: Link先を確認
Sujay Nagaraj, Andrew J. Goodwin, Dmytro Lopushanskyy, Danny Eytan, Robert W. Greer, Sebastian D. Goodfellow, Azadeh Assadi, Anand Jayarajan, Anna Goldenberg, Mjaye L. Mazwi, (参考訳) 中心静脈線(C-Lines)と動脈線(A-Lines)は、血液採取、薬物投与、高周波血圧測定のために、CCU(Critical Care Unit)で日常的に使用されている。 過剰利用は宿主の死亡率と死亡率に大きく関連しているため、これらの線に司法アクセスすることが重要である。 行アクセス頻度の文書化は、これらの有害な結果を減らすための重要なステップである。 残念ながら、現在のドキュメントのゴールドスタンダードはマニュアルであり、エラー、欠落、偏見を被っている。 これらのラインのセンサーからの高周波の血圧波形データは、しばしばノイズが多く、人工物でいっぱいです。 信号処理における標準的なアプローチは、意味のある分析の前にノイズアーティファクトを除去する。 しかし,ベッドサイドの観察から,C-LineおよびA-Line使用のそれぞれの症例で発生する別個のアーティファクトを特徴付けることができた。 これらの人工物は生理的な波形と外ノイズに埋もれている。 我々は、線アクセスのドキュメントを自動化するために、これらのアーティファクトを波形データからリアルタイムで検出できる機械学習(ML)モデルに焦点を当てている。 この目的を達成するため,大手小児病院でリアルタイムにML分類器を構築し,評価した。 本報告では,これらのツールの有用性について,文書の負担軽減,ベッドサイド臨床医の利用可能な情報の増加,患者の安全性向上のための単位レベルイニシアチブの実施について紹介する。

Central Venous Lines (C-Lines) and Arterial Lines (A-Lines) are routinely used in the Critical Care Unit (CCU) for blood sampling, medication administration, and high-frequency blood pressure measurement. Judiciously accessing these lines is important, as over-utilization is associated with significant in-hospital morbidity and mortality. Documenting the frequency of line-access is an important step in reducing these adverse outcomes. Unfortunately, the current gold-standard for documentation is manual and subject to error, omission, and bias. The high-frequency blood pressure waveform data from sensors in these lines are often noisy and full of artifacts. Standard approaches in signal processing remove noise artifacts before meaningful analysis. However, from bedside observations, we characterized a distinct artifact that occurs during each instance of C-Line or A-Line use. These artifacts are buried amongst physiological waveform and extraneous noise. We focus on Machine Learning (ML) models that can detect these artifacts from waveform data in real-time - finding needles in needle stacks, in order to automate the documentation of line-access. We built and evaluated ML classifiers running in real-time at a major children's hospital to achieve this goal. We demonstrate the utility of these tools for reducing documentation burden, increasing available information for bedside clinicians, and informing unit-level initiatives to improve patient safety.
翻訳日:2024-09-08 15:40:57 公開日:2024-08-18
# グリフに基づく時間変化ベクトル場の不確かさの可視化と解析

Glyph-Based Uncertainty Visualization and Analysis of Time-Varying Vector Fields ( http://arxiv.org/abs/2409.00042v1 )

ライセンス: Link先を確認
Timbwaoga A. J. Ouermi, Jixian Li, Zachary Morrow, Bart van Bloemen Waanders, Chris R. Johnson, (参考訳) 不確実性はベクトル場データを含むほとんどのデータに固有のものであるが、可視化や表現では省略されることが多い。 有効不確実性可視化はベクトル場データの理解と解釈可能性を高めることができる。 例えば、ハリケーンや山火事のような厳しい気象現象の文脈では、効果的な不確実性可視化は、火災の拡散やハリケーンの挙動に関する重要な洞察を与え、資源管理とリスク軽減の助けを与えることができる。 グリフはベクトルの不確かさを表すために一般的に使用されるが、しばしば2Dに制限される。 本研究では,3次元ベクトルの不確かさを正確に表現するためのグリフに基づく手法と,新しいグリフを用いた可視化,探索,解析のための包括的なフレームワークを提案する。 我々は, ハリケーンと山火事の例を用いて, ベクトル場の不確実性伝達におけるグリフ設計と可視化ツールの有効性を実証した。

Uncertainty is inherent to most data, including vector field data, yet it is often omitted in visualizations and representations. Effective uncertainty visualization can enhance the understanding and interpretability of vector field data. For instance, in the context of severe weather events such as hurricanes and wildfires, effective uncertainty visualization can provide crucial insights about fire spread or hurricane behavior and aid in resource management and risk mitigation. Glyphs are commonly used for representing vector uncertainty but are often limited to 2D. In this work, we present a glyph-based technique for accurately representing 3D vector uncertainty and a comprehensive framework for visualization, exploration, and analysis using our new glyphs. We employ hurricane and wildfire examples to demonstrate the efficacy of our glyph design and visualization tool in conveying vector field uncertainty.
翻訳日:2024-09-08 15:40:57 公開日:2024-08-18
# 認知力学入門

An Introduction to Cognidynamics ( http://arxiv.org/abs/2408.13112v1 )

ライセンス: Link先を確認
Marco Gori, (参考訳) 本稿では, 仮想空間や実環境との相互作用において, 時間とともに与えられた最適目的によって駆動される認知システムのダイナミクスについて紹介する。 提案された理論は、古典的なハミルトン方程式によって定式化された計算法則を考えることにつながる、動的プログラミングの一般的な枠組みで開発されている。 これらの方程式は、空間と時間の両方で局所性を示す動的ニューラルネットワークによってモデル化された認知エージェントの神経伝達スキームの定式化につながり、バックプロパゲーションのような学習アルゴリズムの生物学的妥当性に関する長年にわたる議論に寄与した。 我々は,環境とのエネルギー交換の観点から学習過程を解釈し,エネルギー散逸の重要な役割と,注意機構や意識行動に焦点をあてた関係を示す。

This paper gives an introduction to \textit{Cognidynamics}, that is to the dynamics of cognitive systems driven by optimal objectives imposed over time when they interact either with a defined virtual or with a real-world environment. The proposed theory is developed in the general framework of dynamic programming which leads to think of computational laws dictated by classic Hamiltonian equations. Those equations lead to the formulation of a neural propagation scheme in cognitive agents modeled by dynamic neural networks which exhibits locality in both space and time, thus contributing the longstanding debate on biological plausibility of learning algorithms like Backpropagation. We interpret the learning process in terms of energy exchange with the environment and show the crucial role of energy dissipation and its links with focus of attention mechanisms and conscious behavior.
翻訳日:2024-09-01 17:02:13 公開日:2024-08-18
# Retrieval-Augmented Generationは、時間的知識グラフ予測のためのデータ駆動型タビューララサアプローチを実現する

Retrieval-Augmented Generation Meets Data-Driven Tabula Rasa Approach for Temporal Knowledge Graph Forecasting ( http://arxiv.org/abs/2408.13273v1 )

ライセンス: Link先を確認
Geethan Sannidhi, Sagar Srinivas Sakhinana, Venkataramana Runkana, (参考訳) OpenAI ChatGPTやGoogle Geminiのような事前訓練された大規模言語モデル(PLLM)は、不正確な事実のリコール、幻覚、バイアス、時間的知識グラフ(tKG)予測のための将来のデータ漏洩といった課題に直面している。 これらの問題に対処するために,我々は tKG 予測のための sLA-tKGF を導入する。これは tKG 予測のための tKG 予測をスクラッチからタトゥーラ・ラサ・アプローチにより,RAG (Retrieval-Augmented Generation) を利用した小型言語モデルである。 本フレームワークは,tKGs,Web検索結果,PLLMs生成したテキスト記述から,対象時間前の歴史的実体関係を理解するために,関連する履歴データを用いた知識注入プロンプトを構築する。 文脈固有の意味と時間情報の深い理解と推論のために、これらの外部知識を注入したプロンプトをゼロショットのプロンプトに活用し、tKG内の将来の事象をより正確に予測する。 幻覚を減らし、時間とともに変化する傾向を理解することで分布シフトの課題を緩和する。 その結果、計算要求を最小限に抑えつつ、より正確で文脈的に将来の事象の予測を可能にする。 厳密な実証研究は、解釈可能で信頼性の高いtKG予測を伴うベンチマークデータセット上での我々のフレームワークの堅牢性、スケーラビリティ、およびSOTA(State-of-the-art)パフォーマンスを実証する。

Pre-trained large language models (PLLMs) like OpenAI ChatGPT and Google Gemini face challenges such as inaccurate factual recall, hallucinations, biases, and future data leakage for temporal Knowledge Graph (tKG) forecasting. To address these issues, we introduce sLA-tKGF (small-scale language assistant for tKG forecasting), which utilizes Retrieval-Augmented Generation (RAG) aided, custom-trained small-scale language models through a tabula rasa approach from scratch for effective tKG forecasting. Our framework constructs knowledge-infused prompts with relevant historical data from tKGs, web search results, and PLLMs-generated textual descriptions to understand historical entity relationships prior to the target time. It leverages these external knowledge-infused prompts for deeper understanding and reasoning of context-specific semantic and temporal information to zero-shot prompt small-scale language models for more accurate predictions of future events within tKGs. It reduces hallucinations and mitigates distributional shift challenges through comprehending changing trends over time. As a result, it enables more accurate and contextually grounded forecasts of future events while minimizing computational demands. Rigorous empirical studies demonstrate our framework robustness, scalability, and state-of-the-art (SOTA) performance on benchmark datasets with interpretable and trustworthy tKG forecasting.
翻訳日:2024-09-01 16:52:18 公開日:2024-08-18
# Gravix: 重力波分類アルゴリズムのためのアクティブラーニング

Gravix: Active Learning for Gravitational Waves Classification Algorithms ( http://arxiv.org/abs/2408.14483v1 )

ライセンス: Link先を確認
Raja Vavekanand, Kira Sam, Vavek Bharwani, (参考訳) このプロジェクトでは,背景雑音間の重力波を分類するために,ベイズ最適化(BO)アルゴリズムをベース機械学習モデル,特に畳み込みニューラルネットワーク(CNN)に統合することを検討する。 主な目的は、ベイズ最適化を用いたハイパーパラメータの最適化がベースモデルの性能を向上させるかどうかを評価することである。 この目的のために、実際のバックグラウンドノイズ(ラベル付き)を含むKaggle [1]データセット 0)と騒音(ラベル付き)による重力波信号のシミュレーション 1)が用いられる。 本物のノイズを持つデータは、LIGO Livingston、LIGO Hanford、Virgoの3つの検出器から収集される。 データ前処理とトレーニングを通じて、モデルは試験データを効果的に分類し、顕著なスコアを持つ重力波信号の存在を83.61%と予測した。 BOモデルはベースモデルと同等の精度を示すが、性能改善はあまり重要ではない(84.34%)。 しかし、BOモデルはハイパーパラメータ最適化に必要なイテレーションのために、追加の計算リソースと時間を必要としており、データセット全体の追加のトレーニングが必要であることに注意する必要がある。 このため、BOモデルは、重力波分類のベースモデルに比べて、資源の観点からは効率が低い。

This project explores the integration of Bayesian Optimization (BO) algorithms into a base machine learning model, specifically Convolutional Neural Networks (CNNs), for classifying gravitational waves among background noise. The primary objective is to evaluate whether optimizing hyperparameters using Bayesian Optimization enhances the base model's performance. For this purpose, a Kaggle [1] dataset that comprises real background noise (labeled 0) and simulated gravitational wave signals with noise (labeled 1) is used. Data with real noise is collected from three detectors: LIGO Livingston, LIGO Hanford, and Virgo. Through data preprocessing and training, the models effectively classify testing data, predicting the presence of gravitational wave signals with a remarkable score, of 83.61%. The BO model demonstrates comparable accuracy to the base model, but its performance improvement is not very significant (84.34%). However, it is worth noting that the BO model needs additional computational resources and time due to the iterations required for hyperparameter optimization, requiring additional training on the entire dataset. For this reason, the BO model is less efficient in terms of resources compared to the base model in gravitational wave classification
翻訳日:2024-09-01 16:52:18 公開日:2024-08-18
# 時系列解析のためのエージェント検索拡張生成

Agentic Retrieval-Augmented Generation for Time Series Analysis ( http://arxiv.org/abs/2408.14484v1 )

ライセンス: Link先を確認
Chidaksh Ravuru, Sagar Srinivas Sakhinana, Venkataramana Runkana, (参考訳) 時系列モデリングは多くのアプリケーションにおいて重要であるが、複雑な時空間依存や歴史的文脈から学び、タスク固有の結果を予測するための分散シフトといった課題に直面している。 これらの課題に対処するために,時系列解析のためのエージェント検索・拡張生成(RAG)フレームワークを用いた新しい手法を提案する。 このフレームワークは階層的なマルチエージェントアーキテクチャを利用しており、マスターエージェントは特別なサブエージェントを編成し、エンドユーザリクエストを関連するサブエージェントに委譲する。 サブエージェントは、命令チューニングと直接選好最適化を用いた微調整により、特定の時系列タスク用にカスタマイズされた、より小さな、事前訓練された言語モデル(SLM)を使用し、履歴パターンやトレンドに関する蒸留知識を含むプロンプトプールの共有リポジトリから関連するプロンプトを取得して、新しいデータの予測を改善する。 提案するモジュール型マルチエージェントRAGアプローチは,ベンチマークデータセット間のタスク固有のカスタマイズメソッドよりも,複雑な課題に効果的に取り組むことで,大規模時系列タスクにおける最先端のパフォーマンスを実現する。

Time series modeling is crucial for many applications, however, it faces challenges such as complex spatio-temporal dependencies and distribution shifts in learning from historical context to predict task-specific outcomes. To address these challenges, we propose a novel approach using an agentic Retrieval-Augmented Generation (RAG) framework for time series analysis. The framework leverages a hierarchical, multi-agent architecture where the master agent orchestrates specialized sub-agents and delegates the end-user request to the relevant sub-agent. The sub-agents utilize smaller, pre-trained language models (SLMs) customized for specific time series tasks through fine-tuning using instruction tuning and direct preference optimization, and retrieve relevant prompts from a shared repository of prompt pools containing distilled knowledge about historical patterns and trends to improve predictions on new data. Our proposed modular, multi-agent RAG approach offers flexibility and achieves state-of-the-art performance across major time series tasks by tackling complex challenges more effectively than task-specific customized methods across benchmark datasets.
翻訳日:2024-09-01 16:52:18 公開日:2024-08-18
# エゴセントリックなビジョンからスキルレベルとマシン操作の難しさを検出する

Detecting Clues for Skill Levels and Machine Operation Difficulty from Egocentric Vision ( http://arxiv.org/abs/1906.04002v2 )

ライセンス: Link先を確認
Chen Long-fei, Yuichi Nakamura, Kazuaki Kondo, (参考訳) 機械の操作タスクに関して、様々なスキルレベル演算子、特に初心者の経験は、操作環境を知覚し、様々な操作状況に対処するための知識を定式化する方法についての貴重な理解を提供することができる。 本研究では,操作中の頭部,手,操作位置(ホットスポット)の関係を利用して操作者の動作を説明する。 アマチュアオペレーターが行うミシン操作タスクに関連する合計40回の体験を、ヘッドマウントRGB-Dカメラで記録した。 異なるスキルレベル演算子における操作動作の重要な特徴について検討し,操作手順の難易度との相関性を確認した。 その結果,操作者のスキルが向上すると,純粋なゲージング動作が著しく低下することがわかった。 また、操作前の手作業時間と注意移動頻度は、そのような機械動作環境における操作上の困難さと強く相関する。

With respect to machine operation tasks, the experiences from different skill level operators, especially novices, can provide worthy understanding about the manner in which they perceive the operational environment and formulate knowledge to deal with various operation situations. In this study, we describe the operator's behaviors by utilizing the relations among their head, hand, and operation location (hotspot) during the operation. A total of 40 experiences associated with a sewing machine operation task performed by amateur operators was recorded via a head-mounted RGB-D camera. We examined important features of operational behaviors in different skill level operators and confirmed their correlation to the difficulties of the operation steps. The result shows that the pure-gazing behavior is significantly reduced when the operator's skill improved. Moreover, the hand-approaching duration and the frequency of attention movement before operation are strongly correlated to the operational difficulty in such machine operating environments.
翻訳日:2024-08-23 20:22:50 公開日:2024-08-18
# 変分ベイズ方程式の導出

Derivation of the Variational Bayes Equations ( http://arxiv.org/abs/1906.08804v6 )

ライセンス: Link先を確認
Alianna J. Maren, (参考訳) 変分ベイズアプローチの鍵方程式の導出は、ある円でよく知られている。 しかし、基本的な導出(例えば、ビールの作品に見られるような)をフリストンの表記に翻訳することはやや微妙である。 さらに、マルコフ毛布を持つ系の文脈で変分ベイズを使用するという概念には特別な注意が必要である。 本技術報告では、その派生について詳述する。 さらに、変分ベイズ法が新しい計算エンジンの枠組みを提供し、2次元クラスター変分法(CVM)を取り入れ、外部系と表象系の両方の状態を最小化できる必要自由エネルギー方程式を提供する。

The derivation of key equations for the variational Bayes approach is well-known in certain circles. However, translating the fundamental derivations (e.g., as found in Beal's work) to Friston's notation is somewhat delicate. Further, the notion of using variational Bayes in the context of a system with a Markov blanket requires special attention. This Technical Report presents the derivation in detail. It further illustrates how the variational Bayes method provides a framework for a new computational engine, incorporating the 2-D cluster variation method (CVM), which provides a necessary free energy equation that can be minimized across both the external and representational systems' states, respectively.
翻訳日:2024-08-23 20:22:50 公開日:2024-08-18
# 新しいフロンティアを横切る:ゼロショットテキストベースのDe Novo分子設計のための知識強化された大規模言語モデルプロンプト

Crossing New Frontiers: Knowledge-Augmented Large Language Model Prompting for Zero-Shot Text-Based De Novo Molecule Design ( http://arxiv.org/abs/2408.11866v1 )

ライセンス: Link先を確認
Sakhinana Sagar Srinivas, Venkataramana Runkana, (参考訳) 分子設計(英: Molecule design)は、分子特性の最適化、新しい薬物発見の迅速追跡、革新的な物質開発、より効率的な化学プロセスのための計算手法と実験を活用する多面的アプローチである。 近年、基礎的な視覚言語モデルに類似した次世代AIタスクに触発されて、テキストベースの分子設計が出現している。 本研究は,ゼロショットテキスト条件デノボ分子生成タスクにおいて,大規模言語モデル(LLM)の知識増進プロンプトの利用について検討する。 提案手法では,LLMを問合せし,技術的記述に整合した分子を生成するための拡張プロンプトを構築する際に,タスク固有の命令といくつかの実演を用いて,分散シフト問題に対処する。 本フレームワークは,ベンチマークデータセット上でのSOTA(State-of-the-art)ベースラインモデルの有効性を実証する。

Molecule design is a multifaceted approach that leverages computational methods and experiments to optimize molecular properties, fast-tracking new drug discoveries, innovative material development, and more efficient chemical processes. Recently, text-based molecule design has emerged, inspired by next-generation AI tasks analogous to foundational vision-language models. Our study explores the use of knowledge-augmented prompting of large language models (LLMs) for the zero-shot text-conditional de novo molecular generation task. Our approach uses task-specific instructions and a few demonstrations to address distributional shift challenges when constructing augmented prompts for querying LLMs to generate molecules consistent with technical descriptions. Our framework proves effective, outperforming state-of-the-art (SOTA) baseline models on benchmark datasets.
翻訳日:2024-08-23 18:26:17 公開日:2024-08-18
# DiffZOO: ゼロ次最適化によるテキスト・ツー・イメージ生成モデルに対する純粋クエリベースのブラックボックス攻撃

DiffZOO: A Purely Query-Based Black-Box Attack for Red-teaming Text-to-Image Generative Model via Zeroth Order Optimization ( http://arxiv.org/abs/2408.11071v1 )

ライセンス: Link先を確認
Pucheng Dang, Xing Hu, Dong Li, Rui Zhang, Qi Guo, Kaidi Xu, (参考訳) 現在のテキスト・ツー・イメージ(T2I)合成拡散モデルは、特に禁止または安全でない(NSFW)画像の作成において、誤用を懸念する。 これを解決するために、T2Iモデルが不適切なコンテンツを生成する能力を高めるために、様々な安全機構とレッド・チーム攻撃手法を提案する。 しかし、多くのレッド・チーム・アタック・メソッドはテキストエンコーダの知識を前提としており、実用的使用を制限している。 本研究では,T2lモデルの事前知識を必要とせずに,textit{purely black-box}攻撃の事例を再考する。 離散的なプロンプト空間内での攻撃の最適化が不可能な勾配の不有効性を克服するため、ゼロ次最適化を勾配近似に応用し、C-PRVとD-PRVを併用して離散的なプロンプト領域内の攻撃プロンプトを強化するDiffZOOを提案する。 提案手法は,T2I拡散モデルとオンラインサーバの複数の安全性機構にまたがって評価した。 複数の最先端安全メカニズムの実験により、DiffZOOは以前の作業よりも平均攻撃成功率が8.5%高いことが示され、T2lモデルの実用的なレッドチーム化ツールとして期待されている。

Current text-to-image (T2I) synthesis diffusion models raise misuse concerns, particularly in creating prohibited or not-safe-for-work (NSFW) images. To address this, various safety mechanisms and red teaming attack methods are proposed to enhance or expose the T2I model's capability to generate unsuitable content. However, many red teaming attack methods assume knowledge of the text encoders, limiting their practical usage. In this work, we rethink the case of \textit{purely black-box} attacks without prior knowledge of the T2l model. To overcome the unavailability of gradients and the inability to optimize attacks within a discrete prompt space, we propose DiffZOO which applies Zeroth Order Optimization to procure gradient approximations and harnesses both C-PRV and D-PRV to enhance attack prompts within the discrete prompt domain. We evaluated our method across multiple safety mechanisms of the T2I diffusion model and online servers. Experiments on multiple state-of-the-art safety mechanisms show that DiffZOO attains an 8.5% higher average attack success rate than previous works, hence its promise as a practical red teaming tool for T2l models.
翻訳日:2024-08-22 21:36:42 公開日:2024-08-18
# 7Gネットワークの可能性:サーベイ

Potential Enabling Technologies for 7G Networks: Survey ( http://arxiv.org/abs/2408.11072v1 )

ライセンス: Link先を確認
Savo Glisic, (参考訳) 新しい世代のモバイルネットワークは、レガシー技術におけるネットワークパラメータの強化と、ネットワークの設計における新しいパラダイムを実現する新しい技術の導入という、2つの分野において大きな進歩をもたらす。 第一級の強化では、データレートの向上、エネルギー効率の向上、接続性の向上、データ転送遅延の削減などに取り組んでいる。 6Gと7Gのイノベーションの第2のクラスでは、高度なMLとAIの一般的にの最適統合と、最適な量子鍵分布のための衛星ネットワークへの継続的な関心を伴う量子コンピューティングに焦点が当てられている。 量子技術の導入によって、7Gはネット上のコンピューティングプロセスを高速化し、ネットワークセキュリティを強化し、分散QCを可能にする。 本稿では、先進的なネットワークをシステム間統合の基本的な要素として用いて、ネットワークにおける期待されるイノベーションの第2セグメントのみに着目し、ネットワークの異なるセグメントで選択されたソリューションの相互依存性に特化して、上記の概念に対する潜在的な技術イネーブラーのサブセットについて調査する。 第2節では、期待されている6G/7G(システム型)ネットワーク最適化の例を紹介し、量子コンピューティングと量子コンピューティングに基づく最適化アルゴリズムの必要性を示す新しいネットワーク最適化のパラダイムを提示する。 第III節では量子暗号とQKDの研究について調査する。

Every new generation of mobile networks brings significant advances in two segments, enhancement of the network parameters within the legacy technologies and introduction of new technologies enabling new paradigms in designing the networks. In the first class of enhancements the effort is to increase data rates, improve energy efficiency, enhance connectivity, reduce data transmission latency etc. In the second class of innovations for 6G and 7G, we anticipate focus on optimum integration of advanced ML and AI in general, and quantum computing with the continuous interest in the satellite networks for optimal quantum key distribution . By introducing quantum technology 7G will be able to speed up computing processes in the net, enhance network security as well as to enable distributed QC, which is a new paradigm in computer sciences. Using advanced networks as a basic ingredient of inter system integration, here we focus only on the second segment of anticipated innovations in networking and present a survey of the subset of potential technology enablers for the above concept with special emphasis on the inter dependency of the solutions chosen in different segments of the network. In Section II, we present several anticipated 6G/7G (system of systems type) network optimization examples resulting in a new paradigm of network optimization indicating a need for quantum computing and quantum computing based optimization algorithms. In Section III we survey work on quantum cryptography and QKD.
翻訳日:2024-08-22 21:36:42 公開日:2024-08-18
# NoRA:高効率微調整大モデルのためのネスト低ランク適応

NoRA: Nested Low-Rank Adaptation for Efficient Fine-Tuning Large Models ( http://arxiv.org/abs/2408.10280v1 )

ライセンス: Link先を確認
Cheng Lin, Lujun Li, Dezhi Li, Jie Zou, Wenhan Luo, Wei Xue, Yike Guo, (参考訳) 本稿では,パラメータ効率向上のための新しい手法であるNested Low-Rank Adaptation (NoRA)を紹介する。 バニラ・ローラは訓練済みの重量継承を見落としており、多くのパラメータを微調整する必要がある。 これらの問題に対処するため、我々はSingular Value Decomposition (SVD) を用いた二重層ネスト構造を採用し、元の行列知識を効果的に活用し、調整可能なパラメータを削減した。 具体的には、NORAは外側のLoRA重量を凍結し、内部のLoRA設計を利用し、モデル最適化の制御を強化している。 このアプローチにより、モデルはコンパクトなパラメータ空間を維持しながら、特定のタスクにより正確に適応することができる。 外部のLoRA重みを凍結し、内部のLoRA設計を使用することで、NORAはコンパクトなパラメータ空間で正確なタスク適応を可能にする。 大きな言語モデルによる常識推論、微調整された視覚言語モデル、主観駆動生成などのタスクの評価は、LoRAとその変種に対するNoRAの優位性を示している。 特に、NoRAは、LLaMA-3 8B上のLoRAと比較して、微調整パラメータ|トレーニング時間|メモリ使用量を4\%|22.5\%|20.7\%削減し、性能は2.2\%向上した。 コードは受理時にリリースされる。

In this paper, we introduce Nested Low-Rank Adaptation (NoRA), a novel approach to parameter-efficient fine-tuning that extends the capabilities of Low-Rank Adaptation (LoRA) techniques. Vanilla LoRA overlooks pre-trained weight inheritance and still requires fine-tuning numerous parameters. To addresses these issues, our NoRA adopts a dual-layer nested structure with Singular Value Decomposition (SVD), effectively leveraging original matrix knowledge while reducing tunable parameters. Specifically, NoRA freezes the outer LoRA weights and utilizes an inner LoRA design, providing enhanced control over model optimization. This approach allows the model to more precisely adapt to specific tasks while maintaining a compact parameter space. By freezing outer LoRA weights and using an inner LoRA design, NoRA enables precise task adaptation with a compact parameter space. Evaluations on tasks including commonsense reasoning with large language models, fine-tuning vision-language models, and subject-driven generation demonstrate NoRA's superiority over LoRA and its variants. Notably, NoRA reduces fine-tuning parameters|training-time|memory-usage by 4\%|22.5\%|20.7\% compared to LoRA on LLaMA-3 8B, while achieving 2.2\% higher performance. Code will be released upon acceptance.
翻訳日:2024-08-21 18:14:26 公開日:2024-08-18
# ブレスティングK-平均:動的K-値によるK-平均の上位解

Breathing K-Means: Superior K-Means Solutions through Dynamic K-Values ( http://arxiv.org/abs/2006.15666v5 )

ライセンス: Link先を確認
Bernd Fritzke, (参考訳) そこで本研究では,k-means++アルゴリズムによって得られる解を平均的に大幅に改善する呼吸k-meansアルゴリズムを提案する。 改良は、局所誤差と実用性尺度に基づいて、周期的にセントロイドの数を増加・減少させる新しい `breathing'' 技術によって達成される。 我々は,greedy k-means++をベースラインとして実験を行い,呼吸k-meansおよび他の5つのk-meansアルゴリズムと比較した。 その結果,k-meansの呼吸とk-means++の呼吸は基線より一貫して優れ,k-meansの呼吸は有意なリードを示した。 この優れた性能は、他の全てのアルゴリズムの10ランの最良の結果と1ランの呼吸k-meansと比較しても維持され、その効果と速度を強調した。 以上の結果から,呼吸k-meansアルゴリズムは他のk-means法,特にgreedy k-means++を10回繰り返して上回り,解の質と速度の両方で優位であることがわかった。 これにより、k-meansの呼吸(greedy k-means++の単一実行による初期化が組み込まれている)は、greedy k-means++を単独で実行するより優れた代替手段として位置づけられる。

We introduce the breathing k-means algorithm, which on average significantly improves solutions obtained by the widely-known greedy k-means++ algorithm, the default method for k-means clustering in the scikit-learn package. The improvements are achieved through a novel ``breathing'' technique, that cyclically increases and decreases the number of centroids based on local error and utility measures. We conducted experiments using greedy k-means++ as a baseline, comparing it with breathing k-means and five other k-means algorithms. Among the methods investigated, only breathing k-means and better k-means++ consistently outperformed the baseline, with breathing k-means demonstrating a substantial lead. This superior performance was maintained even when comparing the best result of ten runs for all other algorithms to a single run of breathing k-means, highlighting its effectiveness and speed. Our findings indicate that the breathing k-means algorithm outperforms the other k-means techniques, especially greedy k-means++ with ten repetitions, which it dominates in both solution quality and speed. This positions breathing k-means (with the built-in initialization by a single run of greedy k-means++) as a superior alternative to running greedy k-means++ on its own.
翻訳日:2024-08-21 06:51:56 公開日:2024-08-18
# 予測機能付きオンライン施設立地のバウンド改善

Improved Bounds for Online Facility Location with Predictions ( http://arxiv.org/abs/2107.08277v4 )

ライセンス: Link先を確認
Dimitris Fotakis, Evangelia Gergatsouli, Themis Gouleakis, Nikolas Patris, Thanos Tolias, (参考訳) 学習強化オンラインアルゴリズムの枠組みとして,オンライン施設配置を考える。 オンライン施設位置情報(OFL)では、要求はメートル法空間で1対1で到着し、到着時に(不可解に)将来の要求について何も知らないままオープンな施設に割り当てられなければならない。 本稿では, 施設のオープンコストの均一化に着目し, 最適施設の位置に関する不完全な予測を生かしたOFLのオンラインアルゴリズムを提案する。 競合比は、要求数$n$から定数に減少し、いわゆる$\eta_1$エラー、すなわち予測位置から最適な施設位置までの距離の和が減少することを示す。 例えば、ある$\varepsilon > 0$, $\eta_1 = \mathrm{OPT} / n^\varepsilon$に対して、$\mathrm{OPT}$が最適解のコストであれば、競合比は$O(1/\varepsilon)$となる。 我々は、アルゴリズムの競合比の$\eta_1$エラーへの依存が、定数因子まで最適であることを示す、一致した下界で解析を補完する。 最後に,本アルゴリズムを実世界のデータ上で評価し,予測なしで最もよく知られたOFLアルゴリズムの性能に対する学習強化手法の性能を比較した。

We consider Online Facility Location in the framework of learning-augmented online algorithms. In Online Facility Location (OFL), demands arrive one-by-one in a metric space and must be (irrevocably) assigned to an open facility upon arrival, without any knowledge about future demands. We focus on uniform facility opening costs and present an online algorithm for OFL that exploits potentially imperfect predictions on the locations of the optimal facilities. We prove that the competitive ratio decreases from sublogarithmic in the number of demands $n$ to constant as the so-called $\eta_1$ error, i.e., the sum of distances of the predicted locations to the optimal facility locations, decreases. E.g., our analysis implies that if for some $\varepsilon > 0$, $\eta_1 = \mathrm{OPT} / n^\varepsilon$, where $\mathrm{OPT}$ is the cost of the optimal solution, the competitive ratio becomes $O(1/\varepsilon)$. We complement our analysis with a matching lower bound establishing that the dependence of the algorithm's competitive ratio on the $\eta_1$ error is optimal, up to constant factors. Finally, we evaluate our algorithm on real world data and compare the performance of our learning-augmented approach against the performance of the best known algorithm for OFL without predictions.
翻訳日:2024-08-21 06:51:56 公開日:2024-08-18
# GermEval 2021におけるデータサイエンスキッチン: オーブンから新鮮を届ける手描き特徴の選択

Data Science Kitchen at GermEval 2021: A Fine Selection of Hand-Picked Features, Delivered Fresh from the Oven ( http://arxiv.org/abs/2109.02383v2 )

ライセンス: Link先を確認
Niclas Hildebrandt, Benedikt Boenninghoff, Dennis Orth, Christopher Schymura, (参考訳) 本稿では,GermEval 2021におけるデータサイエンスキッチン(Data Science Kitchen)の,有毒なコメント,エンゲージメント,事実を主張するコメントの識別に関する共有タスクの貢献について述べる。 このタスクは、モデレーターやコミュニティマネージャがファクトチェックに優先すべきコメントを識別する追加のサブタスクを含め、攻撃的な言語の識別を拡張することを目的としている。 私たちのコントリビューションは,従来の分類バックエンドを備えた機能エンジニアリングアプローチに重点を置いています。 我々は、事前訓練されたディープニューラルネットワークから派生したセマンティックと書き込みスタイルの埋め込みと、このタスクのために特別に設計された追加の数値的特徴を組み合わせる。 分類アンサンブルは、多数決方式によって各サブタスクの予測を導出するために使用される。 我々のベストセプションは、毒性、エンゲージメント、事実を主張するコメントの識別において、66.8\%、\,69.9\%、および72.5\%のマクロ平均F1スコアを達成した。

This paper presents the contribution of the Data Science Kitchen at GermEval 2021 shared task on the identification of toxic, engaging, and fact-claiming comments. The task aims at extending the identification of offensive language, by including additional subtasks that identify comments which should be prioritized for fact-checking by moderators and community managers. Our contribution focuses on a feature-engineering approach with a conventional classification backend. We combine semantic and writing style embeddings derived from pre-trained deep neural networks with additional numerical features, specifically designed for this task. Classifier ensembles are used to derive predictions for each subtask via a majority voting scheme. Our best submission achieved macro-averaged F1-scores of 66.8\%,\,69.9\% and 72.5\% for the identification of toxic, engaging, and fact-claiming comments.
翻訳日:2024-08-21 06:51:56 公開日:2024-08-18
# 情報ボローイングとコンテキストベーススイッチングを用いたオフポリティ評価

Off-Policy Evaluation Using Information Borrowing and Context-Based Switching ( http://arxiv.org/abs/2112.09865v2 )

ライセンス: Link先を確認
Sutanoy Dasgupta, Yabo Niu, Kishan Panaganti, Dileep Kalathil, Debdeep Pati, Bani Mallick, (参考訳) 我々は,ログポリシによって収集されたデータを用いて,対象政策の価値を推定することを目的とする,文脈的帯域におけるオフ・ポリティィ・アセスメント(OPE)問題を考察する。 OPEに対する最も一般的なアプローチは、直接法(DM)推定器と逆確率スコア(IPS)を含む補正項を組み合わせた二重頑健(DR)推定器の変種である。 既存のアルゴリズムは主に、大きなIPSから生じるDR推定器のばらつきを減らす戦略に重点を置いている。 本稿では,情報を借りるダビリーロバストと,バイアスと分散の両面に着目したコンテキストベーススイッチング(DR-IC)推定器を提案する。 DR-IC推定器は、標準的なDM推定器を、IPSに依存する相関構造を通して「クローザー」コンテキストから情報を借りるパラメトリック報酬モデルに置き換える。 DR-IC推定器は、文脈固有のスイッチングルールに基づいて、この修正DM推定器と修正DR推定器とを適応的に補間する。 DR-IC推定器の性能保証を行う。 また,多くのベンチマーク問題において,最新のOPEアルゴリズムと比較してDR-IC推定器の性能が優れていることを示す。

We consider the off-policy evaluation (OPE) problem in contextual bandits, where the goal is to estimate the value of a target policy using the data collected by a logging policy. Most popular approaches to the OPE are variants of the doubly robust (DR) estimator obtained by combining a direct method (DM) estimator and a correction term involving the inverse propensity score (IPS). Existing algorithms primarily focus on strategies to reduce the variance of the DR estimator arising from large IPS. We propose a new approach called the Doubly Robust with Information borrowing and Context-based switching (DR-IC) estimator that focuses on reducing both bias and variance. The DR-IC estimator replaces the standard DM estimator with a parametric reward model that borrows information from the 'closer' contexts through a correlation structure that depends on the IPS. The DR-IC estimator also adaptively interpolates between this modified DM estimator and a modified DR estimator based on a context-specific switching rule. We give provable guarantees on the performance of the DR-IC estimator. We also demonstrate the superior performance of the DR-IC estimator compared to the state-of-the-art OPE algorithms on a number of benchmark problems.
翻訳日:2024-08-21 06:51:56 公開日:2024-08-18
# ヒューマンライクなメモリシステムを備えたマシン

A Machine With Human-Like Memory Systems ( http://arxiv.org/abs/2204.01611v2 )

ライセンス: Link先を確認
Taewoon Kim, Michael Cochez, Vincent Francois-Lavet, Mark Neerincx, Piek Vossen, (参考訳) 認知科学理論に触発されて,意味記憶システムとエピソード記憶システムの両方でエージェントを明示的にモデル化し,これら2つのメモリシステムのうちの1つよりも優れていることを示す。 これを示すために、我々はOpenAI Gymと互換性のある「The Room」という挑戦的な環境を設計、リリースしました。 Room環境は、マシンと人間が協力できるハイブリッドインテリジェンス設定を可能にする。 2人のエージェントが互いに協力し合うことで,1人のエージェントが単独で行動するよりも優れたパフォーマンスが得られることを示す。

Inspired by the cognitive science theory, we explicitly model an agent with both semantic and episodic memory systems, and show that it is better than having just one of the two memory systems. In order to show this, we have designed and released our own challenging environment, "the Room", compatible with OpenAI Gym, where an agent has to properly learn how to encode, store, and retrieve memories to maximize its rewards. The Room environment allows for a hybrid intelligence setup where machines and humans can collaborate. We show that two agents collaborating with each other results in better performance than one agent acting alone.
翻訳日:2024-08-21 06:51:56 公開日:2024-08-18
# 自律運転における3次元物体検出のための多様性に基づく能動学習の探索

Exploring Diversity-based Active Learning for 3D Object Detection in Autonomous Driving ( http://arxiv.org/abs/2205.07708v2 )

ライセンス: Link先を確認
Jinpeng Lin, Zhihao Liang, Shengheng Deng, Lile Cai, Tao Jiang, Tianrui Li, Kui Jia, Xun Xu, (参考訳) 3Dオブジェクト検出は、最近、自動運転車(AV)に大きな可能性を秘めているため、多くの注目を集めている。 ディープラーニングベースのオブジェクト検出器の成功は、特に3Dバウンディングボックスアノテーションにおいて、大規模なアノテーション付きデータセットが利用可能であることに依存している。 本研究では,多様性に基づくアクティブラーニング(AL)を,アノテーションの負担を軽減するための潜在的解決策として検討する。 アノテーションの予算が限られているため、人間が注釈を付けるための最も情報性の高いフレームとオブジェクトだけが自動的に選択される。 技術的には、AVデータセットに提供されるマルチモーダル情報の利点を生かし、選択したサンプルの空間的・時間的多様性を強制する新しい取得関数を提案する。 提案手法を現実的なアノテーションコスト測定に基づく他のAL戦略と比較し,フレームのアノテートと3次元バウンディングボックスの現実的なコストを考慮に入れた。 提案手法がnuScenesデータセットに与える影響を実証し,既存のAL戦略を著しく上回ることを示す。

3D object detection has recently received much attention due to its great potential in autonomous vehicle (AV). The success of deep learning based object detectors relies on the availability of large-scale annotated datasets, which is time-consuming and expensive to compile, especially for 3D bounding box annotation. In this work, we investigate diversity-based active learning (AL) as a potential solution to alleviate the annotation burden. Given limited annotation budget, only the most informative frames and objects are automatically selected for human to annotate. Technically, we take the advantage of the multimodal information provided in an AV dataset, and propose a novel acquisition function that enforces spatial and temporal diversity in the selected samples. We benchmark the proposed method against other AL strategies under realistic annotation cost measurement, where the realistic costs for annotating a frame and a 3D bounding box are both taken into consideration. We demonstrate the effectiveness of the proposed method on the nuScenes dataset and show that it outperforms existing AL strategies significantly.
翻訳日:2024-08-21 06:51:56 公開日:2024-08-18
# モデル並列性通信の最適化について

On Optimizing the Communication of Model Parallelism ( http://arxiv.org/abs/2211.05322v2 )

ライセンス: Link先を確認
Yonghao Zhuang, Hexu Zhao, Lianmin Zheng, Zhuohan Li, Eric P. Xing, Qirong Ho, Joseph E. Gonzalez, Ion Stoica, Hao Zhang, (参考訳) 我々は,大規模モデル並列ディープラーニング(DL)において,クロスメッシュ・リシャーディング(cross-mesh resharding)と呼ばれる新しい,重要なコミュニケーションパターンについて検討する。 このパターンは、大クラスタ上で大きなモデルをサポートするために、モデル並列性(演算子内と演算子間並列性)の2つのパラダイムが組み合わされたときに現れる。 クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。 我々はこれを多対多のマルチキャスト通信問題として定式化し、既存のアプローチがサブ最適か、あるいは異なるネットワークトポロジやテンソルレイアウトに一般化しないことを示す。 次に、効率的なブロードキャストベースの通信システムと「重複しやすい」パイプラインスケジュールという、2つのコントリビューションを提案する。 マイクロベンチマークでは、システム全体のパフォーマンスは、様々なテンソルとメッシュレイアウトで最大10倍に向上します。 GPT-3とU-Transformerの2つの大規模モデルのエンドツーエンドトレーニングでは,スループットをそれぞれ10%,U-Transformerは50%向上した。

We study a novel and important communication pattern in large-scale model-parallel deep learning (DL), which we call cross-mesh resharding. This pattern emerges when the two paradigms of model parallelism - intra-operator and inter-operator parallelism - are combined to support large models on large clusters. In cross-mesh resharding, a sharded tensor needs to be sent from a source device mesh to a destination device mesh, on which the tensor may be distributed with the same or different layouts. We formalize this as a many-to-many multicast communication problem, and show that existing approaches either are sub-optimal or do not generalize to different network topologies or tensor layouts, which result from different model architectures and parallelism strategies. We then propose two contributions to address cross-mesh resharding: an efficient broadcast-based communication system, and an "overlapping-friendly" pipeline schedule. On microbenchmarks, our overall system outperforms existing ones by up to 10x across various tensor and mesh layouts. On end-to-end training of two large models, GPT-3 and U-Transformer, we improve throughput by 10% and 50%, respectively.
翻訳日:2024-08-21 06:43:37 公開日:2024-08-18
# ラベル付きノードの少ないグラフベース半教師付き局所クラスタリング

Graph-based Semi-supervised Local Clustering with Few Labeled Nodes ( http://arxiv.org/abs/2211.11114v2 )

ライセンス: Link先を確認
Zhaiming Shen, Ming-Jun Lai, Sheng Li, (参考訳) 局所クラスタリングは、グラフ構造全体を知る必要なく、グラフ内の局所構造を抽出することを目的としている。 局所構造は通常グラフ全体と比較して小さいため、対象クラスタの指標を線形系のスパース解とみなすことができる圧縮センシング問題と考えることができる。 本稿では,このアイデアを同一のフレームワーク下での2つの先駆的作業に基づいて適用し,少数のラベル付きノードを用いた半教師付き局所クラスタリング手法を提案する。 提案手法は,初期カットを全グラフにすることで既存の作業を改善するため,初期カットの低品質である既存の作業の大幅な制限を克服する。 各種データセットに対する大規模な実験結果から,本手法の有効性が示された。

Local clustering aims at extracting a local structure inside a graph without the necessity of knowing the entire graph structure. As the local structure is usually small in size compared to the entire graph, one can think of it as a compressive sensing problem where the indices of target cluster can be thought as a sparse solution to a linear system. In this paper, we apply this idea based on two pioneering works under the same framework and propose a new semi-supervised local clustering approach using only few labeled nodes. Our approach improves the existing works by making the initial cut to be the entire graph and hence overcomes a major limitation of the existing works, which is the low quality of initial cut. Extensive experimental results on various datasets demonstrate the effectiveness of our approach.
翻訳日:2024-08-21 06:43:37 公開日:2024-08-18
# 短期・エピソディック・セマンティック記憶システムを有する機械

A Machine with Short-Term, Episodic, and Semantic Memory Systems ( http://arxiv.org/abs/2212.02098v3 )

ライセンス: Link先を確認
Taewoon Kim, Michael Cochez, Vincent François-Lavet, Mark Neerincx, Piek Vossen, (参考訳) 明示的な人間の記憶システムの認知科学理論に触発されて、我々は、短期的、エピソディクス的、セマンティックな記憶システムを持つエージェントをモデル化し、それぞれが知識グラフでモデル化されている。 このシステムを評価し,本エージェントの挙動を解析するために,エージェントが記憶をエンコードし,保存し,検索する方法を学習し,質問に答えてその帰還を最大化する「The Room」を設計・リリースした。 我々は,Q-ラーニングに基づくエージェントが,短期記憶を忘れるべきか,あるいはエピソード記憶システムやセマンティック記憶システムに格納すべきかをうまく学習していることを示す。 実験により,人間のような記憶システムを持つエージェントは,このメモリ構造を環境に残さずにエージェントよりも優れた性能を発揮できることが示唆された。

Inspired by the cognitive science theory of the explicit human memory systems, we have modeled an agent with short-term, episodic, and semantic memory systems, each of which is modeled with a knowledge graph. To evaluate this system and analyze the behavior of this agent, we designed and released our own reinforcement learning agent environment, "the Room", where an agent has to learn how to encode, store, and retrieve memories to maximize its return by answering questions. We show that our deep Q-learning based agent successfully learns whether a short-term memory should be forgotten, or rather be stored in the episodic or semantic memory systems. Our experiments indicate that an agent with human-like memory systems can outperform an agent without this memory structure in the environment.
翻訳日:2024-08-21 06:43:37 公開日:2024-08-18
# 連続型ハイパートランスフォーマー:連続型Few-Shot学習のためのメタラーナー

Continual HyperTransformer: A Meta-Learner for Continual Few-Shot Learning ( http://arxiv.org/abs/2301.04584v3 )

ライセンス: Link先を確認
Max Vladymyrov, Andrey Zhmoginov, Mark Sandler, (参考訳) 我々は,複数のタスクが連続して到着するのを忘れずに,学習の課題に焦点をあてる。 我々は最近発表されたHyperTransformer (HT) を用いてこの問題にアプローチする。これはTransformerベースのハイパーネットワークで、サポートセットから直接タスク固有のCNN重みを生成する。 連続的なタスク列から学習するために,生成した重みを次のタスクのHTへの入力として再帰的に再利用することを提案する。 このようにして生成されたCNNウェイトは、以前に学習したタスクの表現として機能し、HTは、過去のタスクを忘れずに新しいタスクを学習できるように、これらの重みを更新するように訓練される。 このアプローチは、通常、リプレイバッファの使用、重み付け正規化、タスク依存アーキテクチャの変更に依存するほとんどの連続的な学習アルゴリズムとは異なる。 提案手法は,タスク増分学習シナリオやクラス増分学習シナリオなど,様々なシナリオにおいて過去のタスクに関する知識を学習し,保持することができる。

We focus on the problem of learning without forgetting from multiple tasks arriving sequentially, where each task is defined using a few-shot episode of novel or already seen classes. We approach this problem using the recently published HyperTransformer (HT), a Transformer-based hypernetwork that generates specialized task-specific CNN weights directly from the support set. In order to learn from a continual sequence of tasks, we propose to recursively re-use the generated weights as input to the HT for the next task. This way, the generated CNN weights themselves act as a representation of previously learned tasks, and the HT is trained to update these weights so that the new task can be learned without forgetting past tasks. This approach is different from most continual learning algorithms that typically rely on using replay buffers, weight regularization or task-dependent architectural changes. We demonstrate that our proposed Continual HyperTransformer method equipped with a prototypical loss is capable of learning and retaining knowledge about past tasks for a variety of scenarios, including learning from mini-batches, and task-incremental and class-incremental learning scenarios.
翻訳日:2024-08-21 04:48:49 公開日:2024-08-18
# 熱浴に接する開放系の量子速度限界

Quantum speed limits for an open system in contact with a thermal bath ( http://arxiv.org/abs/2302.13639v2 )

ライセンス: Link先を確認
N. Il'in, A. Aristova, O. Lychkovskiy, (参考訳) 熱浴に結合した量子系における量子進化の速度に関する基礎的な厳密な境界を証明した。 境界は、システムバスハミルトニアンから導かれる少数体可観測物の期待値の観点で定式化される。 彼らはマルコフ近似に頼らず、結果として、弱い系-バス結合の極限を越えて適用できる。

We prove fundamental rigorous bounds on the speed of quantum evolution for a quantum system coupled to a thermal bath. The bounds are formulated in terms of expectation values of few-body observables derived from the system-bath Hamiltonian. They do not rely on the Markov approximation and, as a consequence, are applicable beyond the limit of weak system-bath coupling.
翻訳日:2024-08-21 04:48:49 公開日:2024-08-18
# 大規模言語モデルは意識的か?

Could a Large Language Model be Conscious? ( http://arxiv.org/abs/2303.07103v3 )

ライセンス: Link先を確認
David J. Chalmers, (参考訳) 最近、大きな言語モデルがセンシティブかどうかが広く議論されている。 私たちはこの考えを真剣に受け止めるべきだろうか? 私は最強の理由と反対の理由を断ち切る。 意識科学における主要な仮定を考えると、現在のモデルでは意識に重大な障害がある:例えば、リカレント処理の欠如、グローバルワークスペース、統合されたエージェンシーなどである。 同時に、これらの障害が今後10年ほどで克服される可能性は高い。 結論として、現在の大規模言語モデルが意識的であるとは考えられませんが、そう遠くない未来において、大規模言語モデルの後継モデルが意識されている可能性について真剣に考える必要があります。

There has recently been widespread discussion of whether large language models might be sentient. Should we take this idea seriously? I will break down the strongest reasons for and against. Given mainstream assumptions in the science of consciousness, there are significant obstacles to consciousness in current models: for example, their lack of recurrent processing, a global workspace, and unified agency. At the same time, it is quite possible that these obstacles will be overcome in the next decade or so. I conclude that while it is somewhat unlikely that current large language models are conscious, we should take seriously the possibility that successors to large language models may be conscious in the not-too-distant future.
翻訳日:2024-08-21 04:48:49 公開日:2024-08-18
# 効率的な分散強化学習のためのロス・アンド・リワード重み付け

Loss- and Reward-Weighting for Efficient Distributed Reinforcement Learning ( http://arxiv.org/abs/2304.12778v2 )

ライセンス: Link先を確認
Martin Holen, Per-Arne Andersen, Kristian Muri Knausgård, Morten Goodwin, (参考訳) 本稿では,Reinforcement Learning (RL)環境における分散エージェントの学習手法として,Reward-Weighted (R-Weighted) とLos-Weighted (L-Weighted) の2つの手法を提案する。 R/L重み付け法は、勾配の和や平均化など、複数のエージェントを訓練するための標準的な慣行を置き換える。 我々の手法のコアは、報酬(R-Weighted)や損失(L-Weighted)が他のアクターと比較してどれだけ高いかに基づいて、各アクターの勾配をスケールすることである。 トレーニング中、各エージェントは同じ環境の異なる初期化バージョンで動作し、異なるアクターとは異なる勾配を与える。 基本的に、各エージェントのR-重みとL-重みは、他のエージェントにその潜在能力を知らせ、学習のためにどの環境を優先すべきかを報告します。 分散学習のアプローチは、より高い報酬を得る環境、または低い損失をもたらす環境は、低い報酬を得る環境やより高い損失をもたらす環境よりも重要な情報を持っているため可能である。 R-Weighted法は複数のRL環境において最先端の手法よりも優れていることを実証的に実証した。

This paper introduces two learning schemes for distributed agents in Reinforcement Learning (RL) environments, namely Reward-Weighted (R-Weighted) and Loss-Weighted (L-Weighted) gradient merger. The R/L weighted methods replace standard practices for training multiple agents, such as summing or averaging the gradients. The core of our methods is to scale the gradient of each actor based on how high the reward (for R-Weighted) or the loss (for L-Weighted) is compared to the other actors. During training, each agent operates in differently initialized versions of the same environment, which gives different gradients from different actors. In essence, the R-Weights and L-Weights of each agent inform the other agents of its potential, which again reports which environment should be prioritized for learning. This approach of distributed learning is possible because environments that yield higher rewards, or low losses, have more critical information than environments that yield lower rewards or higher losses. We empirically demonstrate that the R-Weighted methods work superior to the state-of-the-art in multiple RL environments.
翻訳日:2024-08-21 04:48:49 公開日:2024-08-18
# リスク確率推定のための一般化可能な物理情報学習フレームワーク

A Generalizable Physics-informed Learning Framework for Risk Probability Estimation ( http://arxiv.org/abs/2305.06432v3 )

ライセンス: Link先を確認
Zhuoyuan Wang, Yorie Nakahira, (参考訳) 多くの確率論的安全制御手法において、長期的リスク確率とその勾配の正確な推定が重要である。 しかし、そのようなリスク確率をリアルタイムで計算したり、目に見えない環境や変化する環境で計算することは困難である。 モンテカルロ法(MC)はサンプリングノイズを増幅できる無限小デバイザとして確率とその勾配を正確に評価することはできない。 本稿では,長期的リスクの確率とその勾配を評価するための効率的な手法を開発する。 提案手法は,確率間の近接関係を特徴付けるある偏微分方程式(PDE)を長期的リスク確率で満たすという事実を利用して,MC法と物理インフォームドニューラルネットワークを統合する。 トレーニング構成の特定の選択から推定誤差を理論的に保証する。 数値計算の結果,提案手法はサンプル効率が向上し,未確認領域への一般化が可能であり,パラメータを変化させたシステムに適応できることがわかった。 提案手法は,リスク確率の勾配を正確に推定し,リスク確率の1次・2次手法を学習・制御に使用することができる。

Accurate estimates of long-term risk probabilities and their gradients are critical for many stochastic safe control methods. However, computing such risk probabilities in real-time and in unseen or changing environments is challenging. Monte Carlo (MC) methods cannot accurately evaluate the probabilities and their gradients as an infinitesimal devisor can amplify the sampling noise. In this paper, we develop an efficient method to evaluate the probabilities of long-term risk and their gradients. The proposed method exploits the fact that long-term risk probability satisfies certain partial differential equations (PDEs), which characterize the neighboring relations between the probabilities, to integrate MC methods and physics-informed neural networks. We provide theoretical guarantees of the estimation error given certain choices of training configurations. Numerical results show the proposed method has better sample efficiency, generalizes well to unseen regions, and can adapt to systems with changing parameters. The proposed method can also accurately estimate the gradients of risk probabilities, which enables first- and second-order techniques on risk probabilities to be used for learning and control.
翻訳日:2024-08-21 04:48:49 公開日:2024-08-18
# 最小不確かさ初期状態を有する霊長類の騒音による脱コヒーレンス

Decoherence Induced by the Noise of Primordial Graviton with Minimum Uncertainty Initial States ( http://arxiv.org/abs/2305.06534v4 )

ライセンス: Link先を確認
Anom Trenggana, Freddy P. Zen, Getbogi Hikmawan, (参考訳) 本手法は, 初期状態がバンチダビエス真空ではなく, 最低不確実性である場合, グラビトン検出に有効かどうかを, 影響関数法を用いて検討した。 この最小不確実性条件により、原始重力の初期状態は偏極状態またはより一般的には真空と絡み合いの間の重ね合わせ状態となる。 どちらの状態も、2つの偏極モードの間には古典的でない相関関係がある。 その結果, 初期状態の密度行列に非対角的要素が存在しない場合, 最大デコヒーレンス時間は約20秒であり, 干渉計の寸法が小さくなる場合, グラビトンの検出には依然として有効であることが判明した。

We have investigated the decoherence induced by the primordial graviton, using the influence functional method, to show whether this method is still effective in detecting graviton if the initial state is not a Bunch-Davies vacuum but rather a minimum uncertainty state. This minimum uncertainty condition allows the initial state of the primordial graviton to be an entanglement state between the polarization or, more generally, a superposition state between a vacuum and that entanglement. Both of those states have a non-classical correlation between the two polarization modes. We found that this method is still effective for detecting gravitons if the density matrix of the initial state does not have non-diagonal elements, where the maximum decoherence time is about 20 seconds, and the dimensions of the interferometer could be reduced if the total graviton increases.
翻訳日:2024-08-21 04:36:46 公開日:2024-08-18
# 知識グラフ構築と推論のためのLLM:最近の能力と将来の可能性

LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities ( http://arxiv.org/abs/2305.13168v3 )

ライセンス: Link先を確認
Yuqi Zhu, Xiaohan Wang, Jing Chen, Shuofei Qiao, Yixin Ou, Yunzhi Yao, Shumin Deng, Huajun Chen, Ningyu Zhang, (参考訳) 本稿では,知識グラフの構築と推論のためのLarge Language Models (LLMs) の定量的,定性的評価について述べる。 我々は,エンティティと関係抽出,イベント抽出,リンク予測,質問応答を含む4つの代表的なタスクに焦点をあてて,8つの多様なデータセットを対象とした実験を行い,建設と推論の領域におけるLLMのパフォーマンスを徹底的に調査した。 GPT-4で表されるLPMは,画像情報抽出装置よりも推論アシスタントとして好適であることが実証的に示唆された。 特に、GPT-4は、KG構築に関連するタスクにおいて優れた性能を示すが、特定の場合において細調整されたモデルを上回る、推論タスクにおいてさらに優れている。 さらに、情報抽出のためのLLMの潜在的な一般化能力についても検討を行い、仮想知識抽出タスクの提案と対応するVINEデータセットの開発につながった。 これらの経験的知見に基づいて,LLMを用いたマルチエージェントベースのアプローチであるAutoKGと,KGの構築と推論のための外部ソースを提案する。 我々は,この研究が知識グラフの分野における今後の取り組みに有意義な洞察をもたらすことを期待する。 コードとデータセットはhttps://github.com/zjunlp/AutoKGにある。

This paper presents an exhaustive quantitative and qualitative evaluation of Large Language Models (LLMs) for Knowledge Graph (KG) construction and reasoning. We engage in experiments across eight diverse datasets, focusing on four representative tasks encompassing entity and relation extraction, event extraction, link prediction, and question-answering, thereby thoroughly exploring LLMs' performance in the domain of construction and inference. Empirically, our findings suggest that LLMs, represented by GPT-4, are more suited as inference assistants rather than few-shot information extractors. Specifically, while GPT-4 exhibits good performance in tasks related to KG construction, it excels further in reasoning tasks, surpassing fine-tuned models in certain cases. Moreover, our investigation extends to the potential generalization ability of LLMs for information extraction, leading to the proposition of a Virtual Knowledge Extraction task and the development of the corresponding VINE dataset. Based on these empirical findings, we further propose AutoKG, a multi-agent-based approach employing LLMs and external sources for KG construction and reasoning. We anticipate that this research can provide invaluable insights for future undertakings in the field of knowledge graphs. The code and datasets are in https://github.com/zjunlp/AutoKG.
翻訳日:2024-08-21 04:36:46 公開日:2024-08-18
# 量子カオスとコヒーレンス:ランダムパラメトリック量子チャネル

Quantum Chaos and Coherence: Random Parametric Quantum Channels ( http://arxiv.org/abs/2305.19326v3 )

ライセンス: Link先を確認
Apollonas S. Matsoukas-Roubeas, Tomaž Prosen, Adolfo del Campo, (参考訳) 初期コヒーレントギブス状態(CGS)の生存確率は、開量子系へのスペクトル形成因子(SFF)の自然な拡張である。 量子カオスとデコヒーレンスの間の相互作用を半古典的極限から定量化するために、この一般化されたSFFと対応する$l_1$-normのコヒーレンスとの関係について検討する。 実例としてParametric Quantum Channels (PQC) を紹介する。これは単体進化の離散時間モデルであり、測定結果や環境との過渡的相互作用の影響が混在している。 エネルギーDephasing (ED) のダイナミクスはマルコフ極限の特定の場合として現れる。 実験結果を一連のランダム行列モデルで示す。

The survival probability of an initial Coherent Gibbs State (CGS) is a natural extension of the Spectral Form Factor (SFF) to open quantum systems. To quantify the interplay between quantum chaos and decoherence away from the semi-classical limit, we investigate the relation of this generalized SFF with the corresponding $l_1$-norm of coherence. As a working example, we introduce Parametric Quantum Channels (PQC), a discrete-time model of unitary evolution mixed with the effects of measurements or transient interactions with an environment. The Energy Dephasing (ED) dynamics arises as a specific case in the Markovian limit. We demonstrate our results in a series of random matrix models.
翻訳日:2024-08-21 04:36:46 公開日:2024-08-18
# MuZeroはどのようなモデルを学びますか?

What model does MuZero learn? ( http://arxiv.org/abs/2306.00840v3 )

ライセンス: Link先を確認
Jinke He, Thomas M. Moerland, Joery A. de Vries, Frans A. Oliehoek, (参考訳) モデルに基づく強化学習は、サンプル効率を改善するという約束から、近年、かなりの関心を集めている。 さらに、ディープラーニングモデルを使用する場合、複雑なセンサデータからコンパクトモデルを学ぶことが可能である。 しかし、これらの学習モデルの有効性、特に計画する能力、すなわち現在の方針を改善する能力は、まだ不明である。 本研究では,よく知られた深層モデルに基づく強化学習アルゴリズムであるMuZeroについて検討し,その学習目標である価値等価モデルの達成と,学習モデルが政策改善にどの程度有用かを検討する。 その他の様々な知見の中で,MuZeroが学習したモデルでは,目に見えない政策を効果的に評価することは不可能であり,モデルを用いて計画することで,現在の政策をさらに改善できる範囲を制限することができる。

Model-based reinforcement learning has drawn considerable interest in recent years, given its promise to improve sample efficiency. Moreover, when using deep-learned models, it is potentially possible to learn compact models from complex sensor data. However, the effectiveness of these learned models, particularly their capacity to plan, i.e., to improve the current policy, remains unclear. In this work, we study MuZero, a well-known deep model-based reinforcement learning algorithm, and explore how far it achieves its learning objective of a value-equivalent model and how useful the learned models are for policy improvement. Amongst various other insights, we conclude that the model learned by MuZero cannot effectively generalize to evaluate unseen policies, which limits the extent to which we can additionally improve the current policy by planning with the model.
翻訳日:2024-08-21 04:36:46 公開日:2024-08-18
# ベイジアン量子パラメータ推定による原子時計のロック:スキームと実験

Atomic clock locking with Bayesian quantum parameter estimation: scheme and experiment ( http://arxiv.org/abs/2306.06608v3 )

ライセンス: Link先を確認
Chengyin Han, Zhu Ma, Yuxiang Qiu, Ruihuan Fang, Jiatao Wu, Chang Zhan, Maojie Li, Jiahao Huang, Bo Lu, Chaohong Lee, (参考訳) 原子時計は科学と技術にとって不可欠であるが、その感度は標準量子限界によって制限されることが多い。 この限界を超えるためには、粒子と尋問時間の間の相関を利用する必要がある。 感度は量子エンタングルメントを用いてハイゼンベルク極限まで拡張できるが、全尋問時間による感度のスケーリングがハイゼンベルクスケーリングを達成できるかどうかは不明である。 本稿では,ハイゼンベルクスケーリングにアプローチした適応ベイズ量子周波数推定プロトコルを設計し,その妥当性をコールド原子コヒーレント・ポピュレーション・トッピング(CPT)クロックを用いて実験的に実証する。 さらに、ベイズ量子周波数推定プロトコルを用いて、冷原子CPTクロックのロバストで高精度な閉ループロックを実現する。 従来の比例積分差分ロックと比べ,ベイジアンロック方式では,周波数安定性が5.1(4)dB向上するだけでなく,技術的ノイズに対するロバスト性も向上する。 我々の発見は、原子時計をロックするための堅牢で高精度なアプローチを提供するだけでなく、量子磁気センサや原子干渉計など、様々な干渉計ベースの量子センサにも有望な応用が期待できる。

Atomic clocks are crucial for science and technology, but their sensitivity is often restricted by the standard quantum limit. To surpass this limit, correlations between particles or interrogation times must be leveraged. Although the sensitivity can be enhanced to the Heisenberg limit using quantum entanglement, it remains unclear whether the scaling of sensitivity with total interrogation time can achieve the Heisenberg scaling. Here, we design an adaptive Bayesian quantum frequency estimation protocol that approaches the Heisenberg scaling and experimentally demonstrate its validity with a cold-atom coherent-population-trapping (CPT) clock. In further, we achieve robust and high-precision closed-loop locking of the cold-atom CPT clock by utilizing our Bayesian quantum frequency estimation protocol. In comparison to the conventional proportional-integral-differential locking, our Bayesian locking scheme not only yields an improvement of 5.1(4) dB in fractional frequency stability, but also exhibits better robustness against technical noises. Our findings not only provide a robust and high-precision approach to lock atomic clocks, but also hold promising applications in various interferometry-based quantum sensors, such as quantum magnetometers and atomic interferometers.
翻訳日:2024-08-21 04:36:46 公開日:2024-08-18
# 二重不均質環境におけるオフ政治評価

Off-policy Evaluation in Doubly Inhomogeneous Environments ( http://arxiv.org/abs/2306.08719v4 )

ライセンス: Link先を確認
Zeyu Bian, Chengchun Shi, Zhengling Qi, Lan Wang, (参考訳) 本研究の目的は,2つの重要な強化学習(RL)の仮定 – 時間的定常性と個人的均質性の両方に違反するシナリオの下で,政治外評価(OPE)を研究することである。 二重不均一性」を扱うために、モデルベースとモデルフリーの両方のアプローチからなる一般的なOPEフレームワークを開発するために、報酬および観測遷移関数のための潜在因子モデルのクラスを提案する。 我々の知る限り、この論文は二重不均一なオフラインRLにおける統計的に健全なOPE法を開発した最初の論文である。 これは、標準のRL仮定が満たされていない環境でのOPEの深い理解に寄与し、これらの設定においていくつかの実践的なアプローチを提供する。 提案手法は時間的非定常性や個人的不均一性を無視する競合手法よりも優れていることを示す。 最後に,集中治療のための医療情報マートから得られたデータセットについて概説する。

This work aims to study off-policy evaluation (OPE) under scenarios where two key reinforcement learning (RL) assumptions -- temporal stationarity and individual homogeneity are both violated. To handle the ``double inhomogeneities", we propose a class of latent factor models for the reward and observation transition functions, under which we develop a general OPE framework that consists of both model-based and model-free approaches. To our knowledge, this is the first paper that develops statistically sound OPE methods in offline RL with double inhomogeneities. It contributes to a deeper understanding of OPE in environments, where standard RL assumptions are not met, and provides several practical approaches in these settings. We establish the theoretical properties of the proposed value estimators and empirically show that our approach outperforms competing methods that ignore either temporal nonstationarity or individual heterogeneity. Finally, we illustrate our method on a data set from the Medical Information Mart for Intensive Care.
翻訳日:2024-08-21 04:36:46 公開日:2024-08-18
# バイトペア符号化の形式的展望

A Formal Perspective on Byte-Pair Encoding ( http://arxiv.org/abs/2306.16837v2 )

ライセンス: Link先を確認
Vilém Zouhar, Clara Meister, Juan Luis Gastaldi, Li Du, Tim Vieira, Mrinmaya Sachan, Ryan Cotterell, (参考訳) Byte-Pair Encoding (BPE) は、当初圧縮法として考案されたものの、NLPでデータをトークン化するために使われる一般的なアルゴリズムである。 BPEは、顔の値にグリージーなアルゴリズムのように見えるが、BPEが解決しようとしている基礎となる最適化問題は、まだ定まっていない。 BPEを組合せ最適化問題として定式化する。 部分モジュラー函数により、反復グリーディ版が$\frac{1}{{\sigma(\boldsymbol{\mu}^\star)}}(1-e^{-{\sigma(\boldsymbol{\mu}^\star)}})$-approximation of a optimal merge sequence, where ${\sigma(\boldsymbol{\mu}^\star)}$は、最適マージ列に対する全後方曲率である。 経験的には近似の下位境界は$\approx 0.37$である。 我々は、ランタイムの複雑さを$\mathcal{O}\left(N M\right)$から$\mathcal{O}\left(N \log M\right)$に改善するBPEのより高速な実装を提供する。 最後に, メモリ化を用いた最適BPEに対して, ブルートフォースアルゴリズムを最適化する。

Byte-Pair Encoding (BPE) is a popular algorithm used for tokenizing data in NLP, despite being devised initially as a compression method. BPE appears to be a greedy algorithm at face value, but the underlying optimization problem that BPE seeks to solve has not yet been laid down. We formalize BPE as a combinatorial optimization problem. Via submodular functions, we prove that the iterative greedy version is a $\frac{1}{{\sigma(\boldsymbol{\mu}^\star)}}(1-e^{-{\sigma(\boldsymbol{\mu}^\star)}})$-approximation of an optimal merge sequence, where ${\sigma(\boldsymbol{\mu}^\star)}$ is the total backward curvature with respect to the optimal merge sequence $\boldsymbol{\mu}^\star$. Empirically the lower bound of the approximation is $\approx 0.37$. We provide a faster implementation of BPE which improves the runtime complexity from $\mathcal{O}\left(N M\right)$ to $\mathcal{O}\left(N \log M\right)$, where $N$ is the sequence length and $M$ is the merge count. Finally, we optimize the brute-force algorithm for optimal BPE using memoization.
翻訳日:2024-08-21 04:36:46 公開日:2024-08-18
# カメラキャリブレーションアルゴリズムの比較のための合成ベンチマークパイプライン

A Synthetic Benchmarking Pipeline to Compare Camera Calibration Algorithms ( http://arxiv.org/abs/2307.01013v2 )

ライセンス: Link先を確認
Lala Shakti Swarup Ray, Bo Zhou, Lars Krupp, Sungho Suh, Paul Lukowicz, (参考訳) 正確なカメラキャリブレーションは様々なコンピュータビジョンアプリケーションに不可欠である。 しかし, 実世界のキャリブレーション精度の測定は, 基礎的真理を持つデータセットが不足しているため困難である。 本稿では,カメラパラメータ推定におけるキャリブレーションアルゴリズムの性能の正確な定量化を実現するために,キャリブレーションパターンの画像を生成する合成カメラキャリブレーションベンチマークパイプラインであるSynthCalを提案する。 モノクロ・マルチカメラ・システムのための4つの共通パターン、2つのカメラタイプ、2つの環境、様々なビュー、歪み、照明、ノイズレベルを備えたSynthCal生成キャリブレーションデータセットを提案する。 このデータセットは、同一のパターンとカメラ設定に対する再投影とルート平均二乗誤差を測定することにより、単視点校正アルゴリズムと多視点校正アルゴリズムの両方を評価する。 さらに、異なるキャリブレーション構成を用いて、異なるパターンの重要性を分析する。 実験により,様々なキャリブレーションアルゴリズムとパターンを評価する上で,SynthCalの有効性が示された。

Accurate camera calibration is crucial for various computer vision applications. However, measuring calibration accuracy in the real world is challenging due to the lack of datasets with ground truth to evaluate them. In this paper, we present SynthCal, a synthetic camera calibration benchmarking pipeline that generates images of calibration patterns to measure and enable accurate quantification of calibration algorithm performance in camera parameter estimation. We present a SynthCal generated calibration dataset with four common patterns, two camera types, and two environments with varying view, distortion, lighting, and noise levels for both monocular and multi-camera systems. The dataset evaluates both single and multi-view calibration algorithms by measuring re-projection and root-mean-square errors for identical patterns and camera settings. Additionally, we analyze the significance of different patterns using different calibration configurations. The experimental results demonstrate the effectiveness of SynthCal in evaluating various calibration algorithms and patterns.
翻訳日:2024-08-21 04:26:45 公開日:2024-08-18
# 高次ストリームライン微分方程式を用いたバンドル固有トラクトグラム分布推定

Bundle-specific Tractogram Distribution Estimation Using Higher-order Streamline Differential Equation ( http://arxiv.org/abs/2307.02825v2 )

ライセンス: Link先を確認
Yuanjing Feng, Lei Xie, Jingqiang Wang, Qiyuan Tian, Jianzhong He, Qingrun Zeng, Fei Gao, (参考訳) トラクトグラフィーは、拡散方向と繊維幾何学との間の不明瞭な空間的対応に苦しむ繊維配向分布(FOD)から抽出されたピーク方向をトレースする。 ピークをベースとしたトラクトグラフィー手法は,"単一から単一"の方法でストリームラインを「局所的に」再構築し,ファイババンドル全体のトレンドに関するグローバルな情報を欠いた。 本研究では,高階のストリームライン微分方程式を用いて,バンドル固有のトラクトグラム分布関数に基づく新しいトラクトグラフィー手法を提案する。 任意の高階ストリームライン微分方程式の統一的フレームワークを示し、拡散テンソルベクトル場に基づいて定義される不整合ストリームラインを持つファイバーバンドルを記述する。 大域的なレベルでは、エネルギー最適化モデルを最小化することにより、束特異的なトラクトグラム分布(BTD)係数の推定を簡略化し、トラクトグラムバンドル情報を導入して解剖学的先行情報を提供することにより、事前指導の下でBTDと拡散テンソルベクトルの関係を特徴づける。 Hough, Sine, Circle data, ISMRM 2015 Tractography Challenge data, FiberCup data, and in vivo data from the Human Connectome Project (HCP) data for qualitative and quantitative evaluation。 その結果,本手法は,複素大域的ファイバーバンドルを直接再構成できることが示唆された。 BTDは、局所レベルでの誤差の偏差と蓄積を低減し、長距離、ねじれ、大きなファンニングトラクトを再構築するより良い結果を示す。

Tractography traces the peak directions extracted from fiber orientation distribution (FOD) suffering from ambiguous spatial correspondences between diffusion directions and fiber geometry, which is prone to producing erroneous tracks while missing true positive connections. The peaks-based tractography methods 'locally' reconstructed streamlines in 'single to single' manner, thus lacking of global information about the trend of the whole fiber bundle. In this work, we propose a novel tractography method based on a bundle-specific tractogram distribution function by using a higher-order streamline differential equation, which reconstructs the streamline bundles in 'cluster to cluster' manner. A unified framework for any higher-order streamline differential equation is presented to describe the fiber bundles with disjoint streamlines defined based on the diffusion tensor vector field. At the global level, the tractography process is simplified as the estimation of bundle-specific tractogram distribution (BTD) coefficients by minimizing the energy optimization model, and is used to characterize the relations between BTD and diffusion tensor vector under the prior guidance by introducing the tractogram bundle information to provide anatomic priors. Experiments are performed on simulated Hough, Sine, Circle data, ISMRM 2015 Tractography Challenge data, FiberCup data, and in vivo data from the Human Connectome Project (HCP) data for qualitative and quantitative evaluation. The results demonstrate that our approach can reconstruct the complex global fiber bundles directly. BTD reduces the error deviation and accumulation at the local level and shows better results in reconstructing long-range, twisting, and large fanning tracts.
翻訳日:2024-08-21 04:26:45 公開日:2024-08-18
# 動的自己同型符号からの量子計算

Quantum computation from dynamic automorphism codes ( http://arxiv.org/abs/2307.10353v3 )

ライセンス: Link先を確認
Margarita Davydova, Nathanan Tantivasadakarn, Shankar Balasubramanian, David Aasen, (参考訳) 本稿では,論理情報を同時に符号化し,誤り訂正を実現し,論理ゲートを適用した,低ウェイトな測定シーケンスからなる新しい量子計算モデルを提案する。 これらの測定シーケンスは、動的自己同型(DA)符号と呼ばれるフロケ符号を一般化する量子誤り訂正符号の新しいクラスを構成する。 我々は,2次元カラーコードの72個の自己同型を全て実現可能な,短い測定シーケンスから構築したDAカラーコードという明示的な例を構築した。 N$の三角形パッチのスタック上で、DAカラーコードは$N$論理量子ビットをエンコードし、2ビットおよびより稀に3ビットのパウリ測定で完全な論理クリフォード群を実装することができる。 また、3次元DAカラーコードを導入し、適応的な2量子ビット測定により非クリフォード論理ゲートを実現できることを示すことで、DA符号を用いた普遍量子計算への第一歩を踏み出す。

We propose a new model of quantum computation comprised of low-weight measurement sequences that simultaneously encode logical information, enable error correction, and apply logical gates. These measurement sequences constitute a new class of quantum error-correcting codes generalizing Floquet codes, which we call dynamic automorphism (DA) codes. We construct an explicit example, the DA color code, which is assembled from short measurement sequences that can realize all 72 automorphisms of the 2D color code. On a stack of $N$ triangular patches, the DA color code encodes $N$ logical qubits and can implement the full logical Clifford group by a sequence of two- and, more rarely, three-qubit Pauli measurements. We also make the first step towards universal quantum computation with DA codes by introducing a 3D DA color code and showing that a non-Clifford logical gate can be realized by adaptive two-qubit measurements.
翻訳日:2024-08-21 04:26:45 公開日:2024-08-18
# ロボット運動計画におけるインシシト行動クローンと動的運動プリミティブを用いた強化学習

Using Implicit Behavior Cloning and Dynamic Movement Primitive to Facilitate Reinforcement Learning for Robot Motion Planning ( http://arxiv.org/abs/2307.16062v2 )

ライセンス: Link先を確認
Zengjie Zhang, Jayden Hong, Amir Soufi Enayati, Homayoun Najjaran, (参考訳) 多自由度ロボットの運動計画のための強化学習(RL)は、遅い訓練速度と低い一般化性の観点からも、依然として低効率に悩まされている。 本稿では、暗黙的行動クローニング(IBC)と動的運動プリミティブ(DMP)を用いて、非政治的RLエージェントのトレーニング速度と一般化性を向上する新しいRLベースのロボット動作計画フレームワークを提案する。 IBCは人間の実演データを利用してRLの訓練速度を活用し、DMPはより単純な計画空間に運動計画を転送するヒューリスティックモデルとして機能する。 これをサポートするために、同様の研究に使用できるピック・アンド・プレイス実験を使用して、人間のデモデータセットを作成する。 シミュレーションによる比較研究により,より高速なトレーニング速度とより高いスコアを持つ従来のRLエージェントに対して,提案手法の利点が示された。 実ロボット実験は,提案手法が簡単な組立作業に適用可能であることを示す。 我々の研究は、ロボットアプリケーションにおけるRLの性能を活用するために、モーションプリミティブと人間のデモを利用する新しい視点を提供する。

Reinforcement learning (RL) for motion planning of multi-degree-of-freedom robots still suffers from low efficiency in terms of slow training speed and poor generalizability. In this paper, we propose a novel RL-based robot motion planning framework that uses implicit behavior cloning (IBC) and dynamic movement primitive (DMP) to improve the training speed and generalizability of an off-policy RL agent. IBC utilizes human demonstration data to leverage the training speed of RL, and DMP serves as a heuristic model that transfers motion planning into a simpler planning space. To support this, we also create a human demonstration dataset using a pick-and-place experiment that can be used for similar studies. Comparison studies in simulation reveal the advantage of the proposed method over the conventional RL agents with faster training speed and higher scores. A real-robot experiment indicates the applicability of the proposed method to a simple assembly task. Our work provides a novel perspective on using motion primitives and human demonstration to leverage the performance of RL for robot applications.
翻訳日:2024-08-21 04:26:45 公開日:2024-08-18
# 多言語多言語音声合成のためのテキスト・ユニット・ツー・ユニット・トレーニング

Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation ( http://arxiv.org/abs/2308.01831v2 )

ライセンス: Link先を確認
Minsu Kim, Jeongsoo Choi, Dahun Kim, Yong Man Ro, (参考訳) 本稿では,テキストベースシステムへの事前学習知識の伝達,テキスト音声合成,テキスト音声翻訳の恩恵を受けることができる多言語多言語音声音声合成のためのテキストレス学習手法を提案する。 この目的のために,自己教師型音声モデルから派生した音声特徴の離散化表現である音声単位を用いた多言語音声を表現する。 音声単位を疑似テキストとして扱うことにより、音声レベルの情報において、音声とテキストの両方に容易に関連付けることができる音声の言語内容に焦点を合わせることができる。 学習課題の入力と出力の両方を音声単位として設定することにより、多言語言語翻訳(UTUT)においてエンコーダ・デコーダモデルを訓練することを提案する。 具体的には、入力された音声言語を正しく理解するために、ソース言語トークンにエンコーダを条件付けし、デコーダをターゲット言語トークンに条件付けして、対象言語で翻訳された音声を生成する。 したがって、トレーニングの間、モデルは言語がどのように解釈され、どのように異なる言語に関連づけるかについての知識を構築することができる。 音声単位は、量子化と音素化によって、音声単位とテキストの両方から容易に関連付けることができるため、訓練されたモデルは、たとえテキストレスで訓練されたとしても、テキスト関連タスクに容易に移行できる。 提案するUTUTモデルは、音声音声合成(S2ST)だけでなく、多言語テキスト音声合成(T2S)やテキスト音声翻訳(T2ST)にも有効であり、テキスト入力に最小限の微調整ステップしか必要としないことを示す。 様々な言語を包含する包括的実験を行うことで,多言語タスクにまたがる提案手法の有効性を検証した。

This paper proposes a textless training method for many-to-many multilingual speech-to-speech translation that can also benefit the transfer of pre-trained knowledge to text-based systems, text-to-speech synthesis and text-to-speech translation. To this end, we represent multilingual speech with speech units that are the discretized representations of speech features derived from a self-supervised speech model. By treating the speech units as pseudo-text, we can focus on the linguistic content of the speech, which can be easily associated with both speech and text modalities at the phonetic level information. By setting both the inputs and outputs of our learning problem as speech units, we propose to train an encoder-decoder model in a many-to-many spoken language translation setting, namely Unit-to-Unit Translation (UTUT). Specifically, the encoder is conditioned on the source language token to correctly understand the input spoken language, while the decoder is conditioned on the target language token to generate the translated speech in the target language. Therefore, during the training, the model can build the knowledge of how languages are comprehended and how to relate them to different languages. Since speech units can be easily associated from both audio and text by quantization and phonemization respectively, the trained model can easily transferred to text-related tasks, even if it is trained in a textless manner. We demonstrate that the proposed UTUT model can be effectively utilized not only for Speech-to-Speech Translation (S2ST) but also for multilingual Text-to-Speech Synthesis (T2S) and Text-to-Speech Translation (T2ST), requiring only minimal fine-tuning steps on text inputs. By conducting comprehensive experiments encompassing various languages, we validate the efficacy of the proposed method across diverse multilingual tasks.
翻訳日:2024-08-21 04:26:45 公開日:2024-08-18
# TSAR-MVS: テクスチャレス認識セグメンテーションと相関リファインメントガイドによるマルチビューステレオ

TSAR-MVS: Textureless-aware Segmentation and Correlative Refinement Guided Multi-View Stereo ( http://arxiv.org/abs/2308.09990v3 )

ライセンス: Link先を確認
Zhenlong Yuan, Jiakai Cao, Zhaoqi Wang, Zhaoxin Li, (参考訳) テクスチャレス領域の再構成は、画像間の信頼性の高い画素対応が欠如しているため、MVSでは長年、難しい問題であった。 本稿では, テクスチャレス領域による3次元再構成の課題を, フィルタリング, 精細化, セグメンテーションにより効果的に解決する, マルチビューステレオ(TSAR-MVS)を提案する。 まず,不均一不連続検出器と信頼度推定器を融合させて不正確な深度推定を除去する手法であるジョイント仮説フィルタリングを実装した。 第2に、自信を持って画素を拡大するために、RANSACを利用してスーパーピクセルをベースとした3次元平面を生成する反復的相関補正戦略を導入し、重み付き中央フィルタにより、正確に決定された画素の影響を拡大する。 最後に,エッジ検出と線検出を利用したテクスチャレス認識セグメンテーション手法を提案する。 ETH3D, Tanks & Temples および Strecha データセットの実験により,提案手法の優れた性能と強力な一般化能力が示された。

The reconstruction of textureless areas has long been a challenging problem in MVS due to lack of reliable pixel correspondences between images. In this paper, we propose the Textureless-aware Segmentation And Correlative Refinement guided Multi-View Stereo (TSAR-MVS), a novel method that effectively tackles challenges posed by textureless areas in 3D reconstruction through filtering, refinement and segmentation. First, we implement the joint hypothesis filtering, a technique that merges a confidence estimator with a disparity discontinuity detector to eliminate incorrect depth estimations. Second, to spread the pixels with confident depth, we introduce an iterative correlation refinement strategy that leverages RANSAC to generate 3D planes based on superpixels, succeeded by a weighted median filter for broadening the influence of accurately determined pixels. Finally, we present a textureless-aware segmentation method that leverages edge detection and line detection for accurately identify large textureless regions for further depth completion. Experiments on ETH3D, Tanks & Temples and Strecha datasets demonstrate the superior performance and strong generalization capability of our proposed method.
翻訳日:2024-08-21 04:26:45 公開日:2024-08-18
# $\rm SP^3$:PCAプロジェクションによる構造化プルーニングの強化

$\rm SP^3$: Enhancing Structured Pruning via PCA Projection ( http://arxiv.org/abs/2308.16475v3 )

ライセンス: Link先を確認
Yuxuan Hu, Jing Zhang, Zhe Zhao, Chen Zhao, Xiaodong Chen, Cuiping Li, Hong Chen, (参考訳) 構造化プルーニング(Structured pruning)は、事前訓練された言語モデル(PLM)のサイズを減らす手法として広く使われているが、現在の手法は、モデルのサイズと効率に重要な次元であるPLMの隠れ次元(d)を圧縮する可能性を見落としていることが多い。 本稿では,PCAプロジェクションを用いた構造化プルーニング手法(SP3)を提案し,マスク前に主成分によって定義された空間に特徴を投影することで,効果的にdを減少させる手法を提案する。 ベンチマーク(GLUEとSQuAD)の大規模な実験は、SP3がdを70%削減し、BERTベースモデルの94%を圧縮し、96%以上の精度を維持し、同じ圧縮比でdを6%圧縮する他の方法よりも優れていることを示している。 SP3はOPTやLlamaなど他のモデルでも有効であることが証明されている。 私たちのデータとコードは匿名のリポジトリで利用可能です。

Structured pruning is a widely used technique for reducing the size of pre-trained language models (PLMs), but current methods often overlook the potential of compressing the hidden dimension (d) in PLMs, a dimension critical to model size and efficiency. This paper introduces a novel structured pruning approach, Structured Pruning with PCA Projection (SP3), targeting the effective reduction of d by projecting features into a space defined by principal components before masking. Extensive experiments on benchmarks (GLUE and SQuAD) show that SP3 can reduce d by 70%, compress 94% of the BERTbase model, maintain over 96% accuracy, and outperform other methods that compress d by 6% in accuracy at the same compression ratio. SP3 has also proven effective with other models, including OPT and Llama. Our data and code are available at an anonymous repo.
翻訳日:2024-08-21 04:26:45 公開日:2024-08-18
# DexCatch: 任意のオブジェクトをデクサラスハンドでキャッチする学習

DexCatch: Learning to Catch Arbitrary Objects with Dexterous Hands ( http://arxiv.org/abs/2310.08809v2 )

ライセンス: Link先を確認
Fengbo Lan, Shengjie Wang, Yunzhe Zhang, Haotian Xu, Oluwatosin Oseni, Ziye Zhang, Yang Gao, Tao Zhang, (参考訳) 人間のような巧妙な操作を実現することは、ロボット工学における重要な研究領域である。 現在の研究は、ピック・アンド・プレイス・タスクの成功率の向上に焦点を当てている。 ピック・アンド・プレイスと比較すると、投球行動は目的地への物体輸送の速度を増大させる可能性がある。 しかし、ダイナミックデキスタラスな操作は、多数の動的接触のために安定した制御を行う上で大きな課題となる。 本稿では,Dexterous Hand (LTC) を用いたThrowing-Catchingタスクのための学習ベースフレームワークを提案する。 提案手法は,45のシナリオ(さまざまなポーズやオブジェクト)に対して73 %の成功率を達成し,学習方針は未知のオブジェクトに対して強いゼロショット転送性能を示す。 さらに,手持ちの物体が横向きに向き合うタスクにおいて,手のひらからの支持が欠如しているため,非常に不安定なシナリオでは,すべてのベースラインがフェールする一方で,我々の手法は依然として60倍以上の成功率を達成している。

Achieving human-like dexterous manipulation remains a crucial area of research in robotics. Current research focuses on improving the success rate of pick-and-place tasks. Compared with pick-and-place, throwing-catching behavior has the potential to increase the speed of transporting objects to their destination. However, dynamic dexterous manipulation poses a major challenge for stable control due to a large number of dynamic contacts. In this paper, we propose a Learning-based framework for Throwing-Catching tasks using dexterous hands (LTC). Our method, LTC, achieves a 73\% success rate across 45 scenarios (diverse hand poses and objects), and the learned policies demonstrate strong zero-shot transfer performance on unseen objects. Additionally, in tasks where the object in hand faces sideways, an extremely unstable scenario due to the lack of support from the palm, all baselines fail, while our method still achieves a success rate of over 60\%.
翻訳日:2024-08-21 04:16:54 公開日:2024-08-18
# PEPSI: アンバランス設定における事実上効率的なプライベート・セット・インターセクション

PEPSI: Practically Efficient Private Set Intersection in the Unbalanced Setting ( http://arxiv.org/abs/2310.14565v2 )

ライセンス: Link先を確認
Rasoul Akhavan Mahdavi, Nils Lukas, Faezeh Ebrahimianghazani, Thomas Humphries, Bailey Kacsmar, John Premkumar, Xinda Li, Simon Oya, Ehsan Amjadian, Florian Kerschbaum, (参考訳) プライベートデータセットを持つ2つのパーティは、交差点を越えて情報を公開することなく、プライベートセットインターセクション(PSI)プロトコルを使用して共有要素を見つけることができる。 回路PSIプロトコルは、その濃度などの交叉の任意の関数をプライベートに計算し、一方が他方よりも多くのデータを持つ不均衡な環境でしばしば使用される。 既存のプロトコルは計算的に非効率であるか、より大きなセットの順序で大規模なサーバ側通信を必要とする。 本稿では,クライアントだけが暗号化されたデータを送信する非対話型ソリューションであるPSI(PEPSI)やPEPSIを紹介する。 PEPSIは1024のクライアントアイテムと100万のサーバアイテムを1秒未満で処理でき、通信量は5MB未満である。 我々の作業は、既存の非インタラクティブ回路PSIプロトコルよりも4桁以上高速で、通信の10%しか必要としない。 また、Ion et al の作業の最大20倍の速さで、関数の限られた集合を計算し、より大きな集合に比例する通信コストを持つ。 我々の研究は、非干渉回路PSIが非平衡環境で実際に適用可能であることを示す最初のものである。

Two parties with private data sets can find shared elements using a Private Set Intersection (PSI) protocol without revealing any information beyond the intersection. Circuit PSI protocols privately compute an arbitrary function of the intersection - such as its cardinality, and are often employed in an unbalanced setting where one party has more data than the other. Existing protocols are either computationally inefficient or require extensive server-client communication on the order of the larger set. We introduce Practically Efficient PSI or PEPSI, a non-interactive solution where only the client sends its encrypted data. PEPSI can process an intersection of 1024 client items with a million server items in under a second, using less than 5 MB of communication. Our work is over 4 orders of magnitude faster than an existing non-interactive circuit PSI protocol and requires only 10% of the communication. It is also up to 20 times faster than the work of Ion et al., which computes a limited set of functions and has communication costs proportional to the larger set. Our work is the first to demonstrate that non-interactive circuit PSI can be practically applied in an unbalanced setting.
翻訳日:2024-08-21 04:07:00 公開日:2024-08-18
# モデルを考える、エージェントではなく:モデルベースRLのプライマリバイアス

Mind the Model, Not the Agent: The Primacy Bias in Model-based RL ( http://arxiv.org/abs/2310.15017v3 )

ライセンス: Link先を確認
Zhongjian Qiao, Jiafei Lyu, Xiu Li, (参考訳) モデルフリー強化学習(MFRL)におけるプライマリーバイアスは、エージェントが早期データに過度に適合し、新しいデータから学習する能力を失う傾向を示すものであり、MFRLアルゴリズムの性能を著しく低下させる可能性がある。 これまでの研究では、エージェントのパラメータをリセットするといった単純な手法を用いることで、MFRLの優劣バイアスを大幅に緩和できることが示されている。 しかし、モデルベース強化学習(MBRL)の優位性バイアスは未解明のままである。 本研究は,MBRLにおけるプライマリーバイアスの調査に焦点をあてる。 まず、エージェントのパラメータのリセットがMBRLの文脈でその性能を損なうことを観察する。 さらに、MBRLのプライマシーバイアスは、エージェントのプライマシーバイアスではなく、世界モデルのプライマシーバイアスとより密接な関係があることが分かる。 そこで本研究では, MBRL のプライマリ性バイアスを軽減するため, 簡便かつ効果的な手法である textit{world model resetting} を提案する。 本手法をMBPOとDreamerV2の2つの異なるMBRLアルゴリズムに適用する。 本研究では, MuJoCo および DeepMind Control Suite 上の複数連続制御タスクにおける本手法の有効性と, Atari 100k ベンチマークにおける離散制御タスクの有効性を検証する。 実験結果から, <textit{world model resetting} は, モデルベース設定におけるプライマリーバイアスを大幅に軽減し, アルゴリズムの性能向上を図っている。 また、 'textit{world model resetting} を効果的に実行する方法についてのガイドも提供します。

The primacy bias in model-free reinforcement learning (MFRL), which refers to the agent's tendency to overfit early data and lose the ability to learn from new data, can significantly decrease the performance of MFRL algorithms. Previous studies have shown that employing simple techniques, such as resetting the agent's parameters, can substantially alleviate the primacy bias in MFRL. However, the primacy bias in model-based reinforcement learning (MBRL) remains unexplored. In this work, we focus on investigating the primacy bias in MBRL. We begin by observing that resetting the agent's parameters harms its performance in the context of MBRL. We further find that the primacy bias in MBRL is more closely related to the primacy bias of the world model instead of the primacy bias of the agent. Based on this finding, we propose \textit{world model resetting}, a simple yet effective technique to alleviate the primacy bias in MBRL. We apply our method to two different MBRL algorithms, MBPO and DreamerV2. We validate the effectiveness of our method on multiple continuous control tasks on MuJoCo and DeepMind Control Suite, as well as discrete control tasks on Atari 100k benchmark. The experimental results show that \textit{world model resetting} can significantly alleviate the primacy bias in the model-based setting and improve the algorithm's performance. We also give a guide on how to perform \textit{world model resetting} effectively.
翻訳日:2024-08-21 04:07:00 公開日:2024-08-18
# 公正性,プライバシ,規制規範を考慮した応答型機械学習データセットについて

On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms ( http://arxiv.org/abs/2310.15848v4 )

ライセンス: Link先を確認
Surbhi Mittal, Kartik Thakral, Richa Singh, Mayank Vatsa, Tamar Glaser, Cristian Canton Ferrer, Tal Hassner, (参考訳) 人工知能(AI)は様々な科学分野に進出し、様々なタスクのために既存のアルゴリズムよりも驚くほど改善されている。 近年、AI技術の信頼性に対する深刻な懸念が高まっている。 科学コミュニティは信頼できるAIアルゴリズムの開発に注力してきた。 しかし、今日のAIコミュニティで人気がある機械学習とディープラーニングのアルゴリズムは、開発に使われているデータに大きく依存している。 これらの学習アルゴリズムは、データのパターンを特定し、行動目標を学習する。 データ中のあらゆる欠陥は、直接アルゴリズムに翻訳する可能性がある。 本研究では,Responsible Machine Learning Datasetsの重要性を論じ,責任のあるルーリックを用いてデータセットを評価するためのフレームワークを提案する。 既存の研究は、アルゴリズムの信頼性に対するポストホックな評価に重点を置いているが、我々は、アルゴリズムにおけるその役割を理解するために、データコンポーネントを別々に検討するフレームワークを提供する。 フェアネス、プライバシ、規制コンプライアンスのレンズを通して責任あるデータセットについて議論し、将来のデータセットを構築するためのレコメンデーションを提供する。 100以上のデータセットを調査した後、分析に60のデータセットを使用し、公平性やプライバシ保護、規制コンプライアンスといった問題に対して、これらのデータセットが影響を受けないことを実証します。 私たちは、データセットのドキュメントを改善するために重要な追加を加えて、“データセット用のデータシート”を変更します。 世界中の政府がデータ保護法を規則化しているため、科学コミュニティでデータセットを作成するには修正が必要である。 この研究は、今日のAIの時代において、タイムリーで重要なものだと考えています。

Artificial Intelligence (AI) has made its way into various scientific fields, providing astonishing improvements over existing algorithms for a wide variety of tasks. In recent years, there have been severe concerns over the trustworthiness of AI technologies. The scientific community has focused on the development of trustworthy AI algorithms. However, machine and deep learning algorithms, popular in the AI community today, depend heavily on the data used during their development. These learning algorithms identify patterns in the data, learning the behavioral objective. Any flaws in the data have the potential to translate directly into algorithms. In this study, we discuss the importance of Responsible Machine Learning Datasets and propose a framework to evaluate the datasets through a responsible rubric. While existing work focuses on the post-hoc evaluation of algorithms for their trustworthiness, we provide a framework that considers the data component separately to understand its role in the algorithm. We discuss responsible datasets through the lens of fairness, privacy, and regulatory compliance and provide recommendations for constructing future datasets. After surveying over 100 datasets, we use 60 datasets for analysis and demonstrate that none of these datasets is immune to issues of fairness, privacy preservation, and regulatory compliance. We provide modifications to the ``datasheets for datasets" with important additions for improved dataset documentation. With governments around the world regularizing data protection laws, the method for the creation of datasets in the scientific community requires revision. We believe this study is timely and relevant in today's era of AI.
翻訳日:2024-08-21 04:07:00 公開日:2024-08-18
# マルチステップ推論における解答校正の統一的視点に向けて

Towards A Unified View of Answer Calibration for Multi-Step Reasoning ( http://arxiv.org/abs/2311.09101v3 )

ライセンス: Link先を確認
Shumin Deng, Ningyu Zhang, Nay Oo, Bryan Hooi, (参考訳) Chain-of-Thought (CoT) をプロンプトした大規模言語モデル (LLM) は、多段階推論機能の改善の範囲を広げた。 一般に、多段階推論を2つのフェーズに分けて、推論パスを生成する経路生成と、推論パスのキャリブレーション後処理を行い、最終的な答えを得る。 しかし、既存の文献は、異なる解答校正アプローチに関する体系的な分析を欠いている。 本稿では,近年の解答校正手法の分類を要約し,ステップレベルとパスレベルに分類する。 次に、これらの戦略を統一的な視点から徹底的に評価し、複数の経路にわたるステップレベルおよびパスレベル回答の校正を体系的に精査する。 実験結果から、両戦略の優位性の統合は最適な結果をもたらす傾向があることが明らかとなった。 本研究は,解答校正による多段階推論を最適化するための重要な知見を照らし出す可能性を秘めている。

Large Language Models (LLMs) employing Chain-of-Thought (CoT) prompting have broadened the scope for improving multi-step reasoning capabilities. We generally divide multi-step reasoning into two phases: path generation to generate the reasoning path(s); and answer calibration post-processing the reasoning path(s) to obtain a final answer. However, the existing literature lacks systematic analysis on different answer calibration approaches. In this paper, we summarize the taxonomy of recent answer calibration techniques and break them down into step-level and path-level strategies. We then conduct a thorough evaluation on these strategies from a unified view, systematically scrutinizing step-level and path-level answer calibration across multiple paths. Experimental results reveal that integrating the dominance of both strategies tends to derive optimal outcomes. Our study holds the potential to illuminate key insights for optimizing multi-step reasoning with answer calibration.
翻訳日:2024-08-21 04:07:00 公開日:2024-08-18
# 動的不変量による開量子系の制御

Control of open quantum systems via dynamical invariants ( http://arxiv.org/abs/2311.13164v2 )

ライセンス: Link先を確認
Loris Maria Cangemi, Hilario Espinós, Ricardo Puebla, Erik Torrontegui, Amikam Levy, (参考訳) 本研究では, 動的不変量の理論を用いて, 環境影響下での量子システム制御の課題に対処する。 我々は,環境騒音や散逸に対して堅牢な制御プロトコルを開発するために,リバースエンジニアリングアプローチを採用している。 この手法は、マスター方程式の時間依存散逸係数を考慮し、系のハミルトニアン(制御場)を変調することによって、従来の量子制御法よりも大幅に改善される。 さらに,本手法では,資源集約プロセスであるシステム状態の反復的伝播の必要性を排除している。 この方法は、時間依存マスター方程式を用いて記述できる任意の開系力学に適用できる。 熱浴と相互作用する2レベル量子システムと量子調和振動子という2つの基本モデルへのアプローチの有効性と実用性を実証する。

In this study, we address the challenge of controlling quantum systems under environmental influences using the theory of dynamical invariants. We employ a reverse engineering approach to develop control protocols designed to be robust against environmental noise and dissipation. This technique offers significant improvements over traditional quantum control methods by accounting for the time-dependent dissipation factor in the master equation, which results from modulating the system's Hamiltonian (the control fields). Additionally, our method obviates the need for iterative propagation of the system state, a resource-intensive process. The method can be applied to any open system dynamics that can be described using a time-dependent Master equation. We demonstrate the effectiveness and practicality of our approach through applications to two fundamental models: a two-level quantum system and a quantum harmonic oscillator, both interacting with a thermal bath.
翻訳日:2024-08-21 04:07:00 公開日:2024-08-18
# Bergeron: 良心に基づくアライメントフレームワークを通じて、敵対的攻撃を議論する

Bergeron: Combating Adversarial Attacks through a Conscience-Based Alignment Framework ( http://arxiv.org/abs/2312.00029v3 )

ライセンス: Link先を確認
Matthew Pisano, Peter Ly, Abraham Sanders, Bingsheng Yao, Dakuo Wang, Tomek Strzalkowski, Mei Si, (参考訳) AIアライメントの研究は、最近、より有能なLarge Language Models (LLMs)が導入されて以来、大きく成長している。 残念なことに、現代のアライメントの方法は、モデルが意図的に攻撃されたとき、有害な応答を完全に防ぐことができない。 このような脆弱性は、危険な物質を作るための指示から、暴力を誘発したり、非倫理的行動を支持したりまで、LSMを操作して有害なコンテンツを生成する可能性がある。 この問題を軽減するために,パラメータの微調整を伴わずに攻撃に対するLDMの堅牢性を改善するために設計されたフレームワークであるBergeronを紹介した。 ベルジェロンは2つの階層に分かれており、二次LLMは一次LLMの保護者として機能している。 このフレームワークは、有害なコンテンツのアウトプットを監視しながら、入ってくる攻撃に対して主要なモデルをよりよく保護する。 経験的分析では、既存のアライメントトレーニングでモデルを補完するためにBergeronを使用することで、複数の商用およびオープンソースのLCMの堅牢性と安全性を大幅に向上させることができる。 具体的には、Bergeronと統合されたモデルは、平均して、そのようなサポートのないモデルに比べて、攻撃に対する抵抗性が約7倍高いことがわかった。

Research into AI alignment has grown considerably since the recent introduction of increasingly capable Large Language Models (LLMs). Unfortunately, modern methods of alignment still fail to fully prevent harmful responses when models are deliberately attacked. Such vulnerabilities can lead to LLMs being manipulated into generating hazardous content: from instructions for creating dangerous materials to inciting violence or endorsing unethical behaviors. To help mitigate this issue, we introduce Bergeron: a framework designed to improve the robustness of LLMs against attacks without any additional parameter fine-tuning. Bergeron is organized into two tiers; with a secondary LLM acting as a guardian to the primary LLM. This framework better safeguards the primary model against incoming attacks while monitoring its output for any harmful content. Empirical analysis reviews that by using Bergeron to complement models with existing alignment training, we can significantly improve the robustness and safety of multiple, commonly used commercial and open-source LLMs. Specifically, we found that models integrated with Bergeron are, on average, nearly seven times more resistant to attacks compared to models without such support.
翻訳日:2024-08-21 03:57:15 公開日:2024-08-18
# OpenVoice:Versatile Instant Voiceのクローン

OpenVoice: Versatile Instant Voice Cloning ( http://arxiv.org/abs/2312.01479v6 )

ライセンス: Link先を確認
Zengyi Qin, Wenliang Zhao, Xumin Yu, Xin Sun, (参考訳) OpenVoiceは,参照話者からの短い音声クリップだけで音声を再現し,複数の言語で音声を生成する,汎用的な音声クローニング手法である。 OpenVoiceは、この分野における以下のオープンな課題に対処する上で、大きな進歩を示している。 1)フレキシブル音声スタイル制御。 OpenVoiceは、感情、アクセント、リズム、ポーズ、イントネーションなどの音声スタイルのきめ細かいコントロールを可能にし、参照話者のトーンカラーを再現する。 音声スタイルは、参照話者のスタイルによって直接コピーされ、制約されない。 以前のアプローチでは、クローン後の音声スタイルを柔軟に操作する能力が欠けていた。 2)ゼロショットクロスリンガル音声クローン。 OpenVoiceは、大規模なスピーカートレーニングセットに含まれていない言語に対して、ゼロショットの言語間音声クローンを実現する。 すべての言語に対して大規模なマルチリンガル(MSML)データセットを必要とする従来のアプローチとは異なり、OpenVoiceは、その言語のための大規模なスピーカートレーニングデータなしで、音声を新しい言語にクローンすることができる。 OpenVoiceは計算効率も高く、商用のAPIよりも何倍もコストがかかる。 この分野のさらなる研究を促進するため、私たちはソースコードとトレーニングされたモデルを公開して公開しました。 デモWebサイトでは質的な結果も提供しています。 OpenVoiceは世界中の200万人以上のユーザーがMyShell.aiの音声エンジンとして使っている。

We introduce OpenVoice, a versatile voice cloning approach that requires only a short audio clip from the reference speaker to replicate their voice and generate speech in multiple languages. OpenVoice represents a significant advancement in addressing the following open challenges in the field: 1) Flexible Voice Style Control. OpenVoice enables granular control over voice styles, including emotion, accent, rhythm, pauses, and intonation, in addition to replicating the tone color of the reference speaker. The voice styles are not directly copied from and constrained by the style of the reference speaker. Previous approaches lacked the ability to flexibly manipulate voice styles after cloning. 2) Zero-Shot Cross-Lingual Voice Cloning. OpenVoice achieves zero-shot cross-lingual voice cloning for languages not included in the massive-speaker training set. Unlike previous approaches, which typically require extensive massive-speaker multi-lingual (MSML) dataset for all languages, OpenVoice can clone voices into a new language without any massive-speaker training data for that language. OpenVoice is also computationally efficient, costing tens of times less than commercially available APIs that offer even inferior performance. To foster further research in the field, we have made the source code and trained model publicly accessible. We also provide qualitative results in our demo website. OpenVoice has been used by more than 2M users worldwide as the voice engine of MyShell.ai
翻訳日:2024-08-21 03:57:15 公開日:2024-08-18
# 異常運転行動検出のための安全対策を考慮したデータ駆動半教師付き機械学習

Data-driven Semi-supervised Machine Learning with Surrogate Measures of Safety for Abnormal Driving Behavior Detection ( http://arxiv.org/abs/2312.04610v6 )

ライセンス: Link先を確認
Yongqi Dong, Lanxin Zhang, Haneen Farah, Arkady Zgonnikov, Bart van Arem, (参考訳) 道路交通の安全と運転者の行動評価には,異常運転行動の検出が重要である。 機械学習(ML)アルゴリズムの進歩と自然主義駆動データの蓄積により,多くのMLモデルが異常運転行動の検出に採用されている(この論文では異常と呼ぶこともある)。 既存のMLベースの検出器の多くは(完全に)教師付きML法に依存しており、かなりのラベル付きデータを必要とする。 しかし、地上の真理ラベルは必ずしも現実世界で利用できておらず、大量のデータをラベル付けするのは面倒である。 したがって、異常検出プロセスをより効果的かつ効果的にするために、教師なしまたは半教師なしの手法を検討する必要がある。 このギャップを埋めるために,本研究では,複数の異常運転行動(例えば,急激な加速,高速車線変更)を明らかにする大規模実世界のデータを分析し,部分ラベル付きデータを用いて階層的エクストリーム学習マシン(HELM)に基づく半教師付きML法を開発し,その異常運転動作を正確に検出する。 さらに, 従来のMLベースアプローチでは, 異常運転行動のラベル付けと検出に, 基本車両の動作特徴(速度や加速度など)を主に利用していたが, 本研究では, MLモデルの入力特徴としてサロゲート対策(SMoS)を導入し, 検出性能を向上させることを目的としている。 提案する半教師付きMLモデルの有効性を実験的に検証し,SMoSが重要な特徴であることを示す。 提案した半教師付きML法は、様々な指標(例えば、99.58%で最高の精度、0.9913で最高のF-1測定値)に関して、他のベースラインの半教師付きあるいは教師なしの手法よりも優れている。 アブレーション研究は, 異常運転行動の検出性能向上におけるSMoSの重要性をさらに強調した。

Detecting abnormal driving behavior is critical for road traffic safety and the evaluation of drivers' behavior. With the advancement of machine learning (ML) algorithms and the accumulation of naturalistic driving data, many ML models have been adopted for abnormal driving behavior detection (also referred to in this paper as anomalies). Most existing ML-based detectors rely on (fully) supervised ML methods, which require substantial labeled data. However, ground truth labels are not always available in the real world, and labeling large amounts of data is tedious. Thus, there is a need to explore unsupervised or semi-supervised methods to make the anomaly detection process more feasible and efficient. To fill this research gap, this study analyzes large-scale real-world data revealing several abnormal driving behaviors (e.g., sudden acceleration, rapid lane-changing) and develops a Hierarchical Extreme Learning Machines (HELM) based semi-supervised ML method using partly labeled data to accurately detect the identified abnormal driving behaviors. Moreover, previous ML-based approaches predominantly utilized basic vehicle motion features (such as velocity and acceleration) to label and detect abnormal driving behaviors, while this study seeks to introduce Surrogate Measures of Safety (SMoS) as input features for ML models to improve the detection performance. Results from extensive experiments demonstrate the effectiveness of the proposed semi-supervised ML model with the introduced SMoS serving as important features. The proposed semi-supervised ML method outperforms other baseline semi-supervised or unsupervised methods regarding various metrics, e.g., delivering the best accuracy at 99.58% and the best F-1 measure at 0.9913. The ablation study further highlights the significance of SMoS for advancing the detection performance of abnormal driving behaviors.
翻訳日:2024-08-21 03:57:15 公開日:2024-08-18
# 多端子ジョセフソン-アンドレフ接合を持つ量子回路

Quantum circuits with multiterminal Josephson-Andreev junctions ( http://arxiv.org/abs/2312.17305v2 )

ライセンス: Link先を確認
F. J. Matute-Cañadas, L. Tosi, A. Levy Yeyati, (参考訳) 我々は、アンドレフ境界状態のフェルミオン構造が結果として生じる多重終端ジョセフソン接合におけるフェルミオン構造が全回路の状態に影響を及ぼすような、複数の鉛がトンネル系を超えて同時に接続される超伝導量子回路を探索する。 単一チャネル接触の単純なモデルと中間領域の単一レベルを用いて、リードが有限容量の島および/または有限インダクタンスを持つ形ループである異なる回路構成について議論する。 トンネル網のバイフラクソンと0{-}\pi$ qubitsにマップしたノイズ保護量子ビットを回路で定義できる実効性のある状況を見いだす。 また、これらの量子回路の力学を適切に記述するためのゲージ選択の微妙さを指摘した。

We explore superconducting quantum circuits where several leads are simultaneously connected beyond the tunneling regime, such that the fermionic structure of Andreev bound states in the resulting multiterminal Josephson junction influences the states of the full circuit. Using a simple model of single channel contacts and a single level in the middle region, we discuss different circuit configurations where the leads are islands with finite capacitance and/or form loops with finite inductance. We find situations of practical interest where the circuits can be used to define noise protected qubits, which map to the bifluxon and $0{-}\pi$ qubits in the tunneling regime. We also point out the subtleties of the gauge choice for a proper description of these quantum circuits dynamics.
翻訳日:2024-08-21 03:57:15 公開日:2024-08-18
# ストリートガウシアン:ガウシアンスプレイティングによる動的都市景観のモデル化

Street Gaussians: Modeling Dynamic Urban Scenes with Gaussian Splatting ( http://arxiv.org/abs/2401.01339v3 )

ライセンス: Link先を確認
Yunzhi Yan, Haotong Lin, Chenxu Zhou, Weijie Wang, Haiyang Sun, Kun Zhan, Xianpeng Lang, Xiaowei Zhou, Sida Peng, (参考訳) 本稿では,自律走行シーンの動的街路をモデル化する問題に取り組むことを目的とする。 近年の手法では、車両のアニメーション化に追従した車両のポーズを取り入れてNeRFを拡張し、ダイナミックな街路シーンの写実的なビュー合成を可能にしている。 しかし、トレーニングの遅さとレンダリングのスピードには大きな制限がある。 この制限に対処する新たな明示的なシーン表現であるStreet Gaussiansを紹介します。 具体的には、ダイナミックアーバンシーンは、セマンティックロジットと3Dガウスアンを備えた点雲の集合として表現され、それぞれが前景車両または背景に関連付けられている。 前景の物体車両の動力学をモデル化するために、各物体点雲は、動的外観のための4次元球面調和モデルとともに、最適化可能な追跡されたポーズで最適化される。 明示的な表現は、オブジェクト車両と背景の簡単な構成を可能にし、30分以内のトレーニングで、シーン編集操作とレンダリングを135 FPS (1066$\times$1600 resolution)で行うことができる。 提案手法は、KITTIやWaymo Openデータセットなど、複数の挑戦的なベンチマークで評価される。 実験の結果,提案手法はすべてのデータセットで常に最先端の手法よりも優れていた。 再現性を確保するために、コードはリリースされます。

This paper aims to tackle the problem of modeling dynamic urban streets for autonomous driving scenes. Recent methods extend NeRF by incorporating tracked vehicle poses to animate vehicles, enabling photo-realistic view synthesis of dynamic urban street scenes. However, significant limitations are their slow training and rendering speed. We introduce Street Gaussians, a new explicit scene representation that tackles these limitations. Specifically, the dynamic urban scene is represented as a set of point clouds equipped with semantic logits and 3D Gaussians, each associated with either a foreground vehicle or the background. To model the dynamics of foreground object vehicles, each object point cloud is optimized with optimizable tracked poses, along with a 4D spherical harmonics model for the dynamic appearance. The explicit representation allows easy composition of object vehicles and background, which in turn allows for scene editing operations and rendering at 135 FPS (1066 $\times$ 1600 resolution) within half an hour of training. The proposed method is evaluated on multiple challenging benchmarks, including KITTI and Waymo Open datasets. Experiments show that the proposed method consistently outperforms state-of-the-art methods across all datasets. The code will be released to ensure reproducibility.
翻訳日:2024-08-21 03:57:15 公開日:2024-08-18
# LLMテキスト強化における多様性インセンティブがサンプル多様性および下流モデル性能に及ぼす影響

Effects of diversity incentives on sample diversity and downstream model performance in LLM-based text augmentation ( http://arxiv.org/abs/2401.06643v3 )

ライセンス: Link先を確認
Jan Cegin, Branislav Pecher, Jakub Simko, Ivan Srba, Maria Bielikova, Peter Brusilovsky, (参考訳) 最新の生成型大規模言語モデル(LLM)は、少数のテキストサンプルをLLMで表現し、下流モデルの微調整に使用するデータ拡張タスクにその応用を見出した。 しかし、異なるプロンプト、シードデータ選択戦略、フィルタリング方法、モデル設定がパラフレーズデータ(および下流モデル)の品質にどのように影響するかを評価するには、さらなる研究が必要である。 本研究では,クラウドソーシングにおいて確立された3つのテキスト多様性インセンティブ手法について検討する。 これらのインセンティブ法を,LLMのテキストデータセット拡張命令の一部として用いて,テキストの語彙的多様性と下流モデルの性能に及ぼす影響を計測する。 5つの異なるLLM、6つのデータセット、2つの下流モデルに対する効果を比較した。 タブー語によって多様性が最も増大することが示されるが、下流モデルの性能はヒントを伴って最高である。

The latest generative large language models (LLMs) have found their application in data augmentation tasks, where small numbers of text samples are LLM-paraphrased and then used to fine-tune downstream models. However, more research is needed to assess how different prompts, seed data selection strategies, filtering methods, or model settings affect the quality of paraphrased data (and downstream models). In this study, we investigate three text diversity incentive methods well established in crowdsourcing: taboo words, hints by previous outlier solutions, and chaining on previous outlier solutions. Using these incentive methods as part of instructions to LLMs augmenting text datasets, we measure their effects on generated texts lexical diversity and downstream model performance. We compare the effects over 5 different LLMs, 6 datasets and 2 downstream models. We show that diversity is most increased by taboo words, but downstream model performance is highest with hints.
翻訳日:2024-08-21 03:47:26 公開日:2024-08-18
# 顔認識システムにおける偽造と疑似攻撃の再考

Rethinking Impersonation and Dodging Attacks on Face Recognition Systems ( http://arxiv.org/abs/2401.08903v4 )

ライセンス: Link先を確認
Fengfan Zhou, Qianyu Zhou, Bangjie Yin, Hui Zheng, Xuequan Lu, Lizhuang Ma, Hefei Ling, (参考訳) 顔認識(FR)システムは、知覚不能な摂動を通じて良質な顔画像を操作する敵の例によって容易に認識できる。 FRに対する敵対攻撃には、偽装(標的)攻撃とドッジ(対象外)攻撃の2種類がある。 従来の方法では、FRに対する偽装攻撃を成功させることが多いが、ブラックボックス設定でFRに対するドッジ攻撃を成功させるとは限らない。 本稿では,敵対的事例の生成を同時に行うことが重要視される。 そこで,本稿では,既存事例を微調整し,擬人化能力を維持しつつ,そのドッジ能力を高めるための,Adversarial Pruning (Adv-Pruning) と呼ばれる新たな攻撃手法を提案する。 アドブ・プルーニングはプライミング、プルーニング、修復段階で構成されている。 具体的には,従来の逆方向の摂動の領域的優先度を測定するための逆方向優先度定量化法を提案し,絶対モデル出力のばらつきに最小限の影響のあるものを同定・解放する。 次に、ビザドグラディエント適応(Biased Gradient Adaptation)を行い、攻撃者と被害者の双方の意思決定境界を横切るために、空き地に対する妨害攻撃に有利な摂動を追加し、元の摂動の特徴を優先的に保持し、ドッジ性能を向上させることにより、敵の例を適応させる。 その結果、ドッジ能力を効果的に向上しつつ、元の敵の例の偽装能力を維持できることがわかった。 包括的実験は、最先端の対角攻撃法と比較して、本手法の優位性を実証している。

Face Recognition (FR) systems can be easily deceived by adversarial examples that manipulate benign face images through imperceptible perturbations. Adversarial attacks on FR encompass two types: impersonation (targeted) attacks and dodging (untargeted) attacks. Previous methods often achieve a successful impersonation attack on FR, however, it does not necessarily guarantee a successful dodging attack on FR in the black-box setting. In this paper, our key insight is that the generation of adversarial examples should perform both impersonation and dodging attacks simultaneously. To this end, we propose a novel attack method termed as Adversarial Pruning (Adv-Pruning), to fine-tune existing adversarial examples to enhance their dodging capabilities while preserving their impersonation capabilities. Adv-Pruning consists of Priming, Pruning, and Restoration stages. Concretely, we propose Adversarial Priority Quantification to measure the region-wise priority of original adversarial perturbations, identifying and releasing those with minimal impact on absolute model output variances. Then, Biased Gradient Adaptation is presented to adapt the adversarial examples to traverse the decision boundaries of both the attacker and victim by adding perturbations favoring dodging attacks on the vacated regions, preserving the prioritized features of the original perturbations while boosting dodging performance. As a result, we can maintain the impersonation capabilities of original adversarial examples while effectively enhancing dodging capabilities. Comprehensive experiments demonstrate the superiority of our method compared with state-of-the-art adversarial attack methods.
翻訳日:2024-08-21 03:47:26 公開日:2024-08-18
# PowerGraph: グラフニューラルネットワークのための電力グリッドベンチマークデータセット

PowerGraph: A power grid benchmark dataset for graph neural networks ( http://arxiv.org/abs/2402.02827v3 )

ライセンス: Link先を確認
Anna Varbella, Kenza Amara, Blazhe Gjorgiev, Mennatallah El-Assady, Giovanni Sansavini, (参考訳) 電力網は現代社会にとって最も重要なインフラであり、様々な状況や失敗の下で運用するために設計された。 進行中のエネルギー遷移は、意思決定者とシステムオペレーターに新たな課題をもたらす。 したがって,グリッド解析アルゴリズムの開発は信頼性の高い操作を支援する上で重要である。 これらの主要なツールには、効率的な運用計画と戦略的計画に必要な電力フロー分析とシステムセキュリティ分析が含まれる。 文献レビューでは、これらの分析を効果的に実行する機械学習(ML)モデルの増加傾向が示されている。 特に、グラフニューラルネットワーク(GNN)は、電力グリッドのグラフに基づく構造のため、このようなアプリケーションにおいて際立っている。 しかし、電力グリッドアプリケーションでMLモデルをトレーニングし、ベンチマークするためのグラフデータセットが公開されていない。 まず、GNN対応のデータセットを含むPowerGraphを紹介する。 i) 電力の流れ 二 最適動力流、及び 三 送電網のカスケード故障解析 第二に、カスケード故障解析の真理的な説明を提供する。 最後に、ノードレベルおよびグラフレベルのタスクと説明可能性のためのGNN手法の完全なベンチマークを行う。 PowerGraphは、さまざまなタスクのための多面的GNNデータセットであり、実世界の説明を伴う電力の流れと障害シナリオを含み、ノードレベル、グラフレベルタスクのための改善されたGNNモデルを開発するための貴重なリソースを提供する。 データセットはhttps://figshare.com/articles/dataset/PowerGraph/22820534で、コードはhttps://github.com/PowerGraph-Datasetsで入手できる。

Power grids are critical infrastructures of paramount importance to modern society and, therefore, engineered to operate under diverse conditions and failures. The ongoing energy transition poses new challenges for the decision-makers and system operators. Therefore, developing grid analysis algorithms is important for supporting reliable operations. These key tools include power flow analysis and system security analysis, both needed for effective operational and strategic planning. The literature review shows a growing trend of machine learning (ML) models that perform these analyses effectively. In particular, Graph Neural Networks (GNNs) stand out in such applications because of the graph-based structure of power grids. However, there is a lack of publicly available graph datasets for training and benchmarking ML models in electrical power grid applications. First, we present PowerGraph, which comprises GNN-tailored datasets for i) power flows, ii) optimal power flows, and iii) cascading failure analyses of power grids. Second, we provide ground-truth explanations for the cascading failure analysis. Finally, we perform a complete benchmarking of GNN methods for node-level and graph-level tasks and explainability. Overall, PowerGraph is a multifaceted GNN dataset for diverse tasks that includes power flow and fault scenarios with real-world explanations, providing a valuable resource for developing improved GNN models for node-level, graph-level tasks and explainability methods in power system modeling. The dataset is available at https://figshare.com/articles/dataset/PowerGraph/22820534 and the code at https://github.com/PowerGraph-Datasets.
翻訳日:2024-08-21 03:47:26 公開日:2024-08-18
# スピンス・ディック状態とその準備

Spin-s Dicke states and their preparation ( http://arxiv.org/abs/2402.03233v2 )

ライセンス: Link先を確認
Rafael I. Nepomechie, Francesco Ravanini, David Raveh, (参考訳) 通常の(スピン-1/2)ディック状態の高スピン一般化である$su(2)$ spin-$s$ディック状態の概念を導入する。 これらの多重量子状態は、$su(2s+1)$qudit Dicke状態の重ね合わせとして表すことができる。 ここでは、$n$はクォーディットの数であり、$k$はスピンローア演算子を最大重み付け状態に適用する回数である。 このアルゴリズムは決定論的であり、補助クォーディットを必要としない。

We introduce the notion of $su(2)$ spin-$s$ Dicke states, which are higher-spin generalizations of usual (spin-1/2) Dicke states. These multi-qudit states can be expressed as superpositions of $su(2s+1)$ qudit Dicke states. They satisfy a recursion formula, which we use to formulate an efficient quantum circuit for their preparation, whose size scales as $sk(2sn-k)$, where $n$ is the number of qudits and $k$ is the number of times the total spin-lowering operator is applied to the highest-weight state. The algorithm is deterministic and does not require ancillary qudits.
翻訳日:2024-08-21 03:47:26 公開日:2024-08-18
# 名詞句における頭部の最適配置 : 形容詞・数字・形容詞・名詞の場合

The optimal placement of the head in the noun phrase. The case of demonstrative, numeral, adjective and noun ( http://arxiv.org/abs/2402.10311v6 )

ライセンス: Link先を確認
Ramon Ferrer-i-Cancho, (参考訳) 文の語順は複数の原則で表される。 統語的依存距離最小化の原理は、単一頭部統語的依存構造における部分最小化(または予測可能性最大化)の原理と矛盾する:前者は、頭部を線形配置の中心に置くべきであると予測する一方で、後者は、頭部を一方の端(第一または最後)に配置するべきであると予測する。 致命的な最小化(または予測可能性の最大化)が統語的依存距離を最小化するかどうかが重要な問題である。 単一頭部構造の文脈では、2つの条件、すなわち2つの条件が満たされた場合、これはより起こりやすいと予測されている。 a) 関係する単語が減り b) 単語が短い。 ここでは、指示詞、数字、形容詞、名詞からなる名詞句の予測をテストする。 言語において好まれる順序によって、名詞は終わりの1つに置かれる傾向にあり、理論的な予測が裏付けられる。 選択順序の構文依存性距離は、偶然に予想されるよりも長い。

The word order of a sentence is shaped by multiple principles. The principle of syntactic dependency distance minimization is in conflict with the principle of surprisal minimization (or predictability maximization) in single head syntactic dependency structures: while the former predicts that the head should be placed at the center of the linear arrangement, the latter predicts that the head should be placed at one of the ends (either first or last). A critical question is when surprisal minimization (or predictability maximization) should surpass syntactic dependency distance minimization. In the context of single head structures, it has been predicted that this is more likely to happen when two conditions are met, i.e. (a) fewer words are involved and (b) words are shorter. Here we test the prediction on the noun phrase when it is composed of a demonstrative, a numeral, an adjective and a noun. We find that, across preferred orders in languages, the noun tends to be placed at one of the ends, confirming the theoretical prediction. We also show evidence of anti locality effects: syntactic dependency distances in preferred orders are longer than expected by chance.
翻訳日:2024-08-21 03:37:26 公開日:2024-08-18
# 多様体学習を伴わない多様体上の学習

Learning on manifolds without manifold learning ( http://arxiv.org/abs/2402.12687v2 )

ライセンス: Link先を確認
H. N. Mhaskar, Ryan O'Dowd, (参考訳) 未知分布からランダムに描画されたデータに基づく関数近似は、機械学習において重要な問題である。 多様体仮説は、データは高次元ユークリッド空間の未知の部分多様体からサンプリングされると仮定する。 多くの研究は、ラプラス・ベルトラミ作用素の固有分解や座標チャートなどのこの多様体に関する情報を取得し、この情報を関数近似に利用する。 この2段階のアプローチは、関数近似に固有の誤差に加えて、データ多様体の基本量の推定から生じる近似の余分な誤差を示唆している。 本稿では, 周辺超球面の部分多様体として未知多様体を投影し, 超球面上の局所化された球面多項式核の特別に設計された列を用いて, ワンショット近似を構成する問題について考察する。 我々の手法は、その次元以外の多様体に関する情報を得るために、データの事前処理を必要としない。 相対的な ``rough'' 関数に対する近似の最適速度を与える。

Function approximation based on data drawn randomly from an unknown distribution is an important problem in machine learning. The manifold hypothesis assumes that the data is sampled from an unknown submanifold of a high dimensional Euclidean space. A great deal of research deals with obtaining information about this manifold, such as the eigendecomposition of the Laplace-Beltrami operator or coordinate charts, and using this information for function approximation. This two-step approach implies some extra errors in the approximation stemming from estimating the basic quantities of the data manifold in addition to the errors inherent in function approximation. In this paper, we project the unknown manifold as a submanifold of an ambient hypersphere and study the question of constructing a one-shot approximation using a specially designed sequence of localized spherical polynomial kernels on the hypersphere. Our approach does not require preprocessing of the data to obtain information about the manifold other than its dimension. We give optimal rates of approximation for relatively ``rough'' functions.
翻訳日:2024-08-21 03:37:26 公開日:2024-08-18
# フェルミオン非ガウスゲートの少ない量子状態の効率的な学習

Efficient learning of quantum states prepared with few fermionic non-Gaussian gates ( http://arxiv.org/abs/2402.18665v2 )

ライセンス: Link先を確認
Antonio Anna Mele, Yaroslav Herasymenko, (参考訳) ますます複雑な量子状態の実験的実現は、新しい状態学習と検証の方法の必要性を強く示している。 そのようなフレームワークである量子状態トモグラフィーでは、測定によって得られたデータから完全な量子状態を学ぶことが目的である。 事前の前提がなければ、このタスクは違法に難しい。 ここでは,ガウスゲートの任意の数と最大で$t$非ガウスゲートで用意された$n$フェルミオンモードについて,学習状態の効率的なアルゴリズムを提案する。 Jordan-Wigner のマッピングでは、最寄りのマッチゲート回路で作成される$n$-qubit状態と、少なくとも$t$ SWAP-gate を含む。 提案アルゴリズムは単一コピー計測のみに基づいており,対象状態とトレース距離が近い状態の古典的表現を生成する。 アルゴリズムのサンプルと時間の複雑さは$\mathrm{poly}(n,2^t)$であるので、$t=O(\log(n))$ならば効率的である。 また、$t$が対数的よりもわずかにスケールする場合、同じタスクを解く学習アルゴリズムは、共通の暗号的仮定の下で非効率でなければならないことも示している。 また、その状態が学習アルゴリズムが機能する状態の集合に近づいたかどうかを判断する、効率的なプロパティテストアルゴリズムも提供する。 量子回路の出力に加えて、トモグラフィーアルゴリズムは、時間力学や不純物モデルの低エネルギー物理など、いくつかの物理目標状態に対して効率的である。 トモグラフィ以外では、ガウス門がほとんどない状態の構造に光を当て、回路の複雑さを向上し、効率的な回路コンパイル法を実現する。

The experimental realization of increasingly complex quantum states underscores the pressing need for new methods of state learning and verification. In one such framework, quantum state tomography, the aim is to learn the full quantum state from data obtained by measurements. Without prior assumptions on the state, this task is prohibitively hard. Here, we present an efficient algorithm for learning states on $n$ fermion modes prepared by any number of Gaussian and at most $t$ non-Gaussian gates. By Jordan-Wigner mapping, this also includes $n$-qubit states prepared by nearest-neighbour matchgate circuits with at most $t$ SWAP-gates. Our algorithm is based exclusively on single-copy measurements and produces a classical representation of a state, guaranteed to be close in trace distance to the target state. The sample and time complexity of our algorithm is $\mathrm{poly}(n,2^t)$; thus if $t=O(\log(n))$, it is efficient. We also show that, if $t$ scales slightly more than logarithmically, any learning algorithm to solve the same task must be inefficient, under common cryptographic assumptions. We also provide an efficient property testing algorithm that, given access to copies of a state, determines whether such a state is far or close to the set of states for which our learning algorithm works. In addition to the outputs of quantum circuits, our tomography algorithm is efficient for some physical target states, such as those arising in time dynamics and low-energy physics of impurity models. Beyond tomography, our work sheds light on the structure of states prepared with few non-Gaussian gates and offers an improved upper bound on their circuit complexity, enabling an efficient circuit compilation method.
翻訳日:2024-08-21 03:37:26 公開日:2024-08-18
# XAIを用いたディープフェイク検知器の敵攻撃検出

XAI-Based Detection of Adversarial Attacks on Deepfake Detectors ( http://arxiv.org/abs/2403.02955v2 )

ライセンス: Link先を確認
Ben Pinhasov, Raz Lapid, Rony Ohayon, Moshe Sipper, Yehudit Aperstein, (参考訳) 我々は,eXplainable Artificial Intelligence (XAI)を用いて,ディープフェイク検出器に対する敵攻撃を識別する新しい手法を提案する。 デジタル化が特徴の時代には、ディープフェイクが強力なツールとして登場し、効率的な検知システムへの需要が高まっている。 しかし、これらのシステムは、その性能を阻害する敵攻撃によってしばしば標的にされる。 我々はこのギャップに対処し、XAIのパワーを活用して、防御可能なディープフェイク検出器を開発する。 提案手法は,XAIを用いて所定の方法の解釈可能性マップを生成し,AIモデル内の意思決定要因の明示的な可視化を提供する。 その後、入力画像と対応するXAI画像の両方を処理する事前訓練された特徴抽出器を用いる。 このプロセスから抽出された特徴埋め込みは、単純で効果的な分類器の訓練に使用される。 提案手法は, ディープフェイクの検出だけでなく, 敵攻撃の可能性の理解を深め, 潜在的な脆弱性の特定に寄与する。 さらに, ディープフェイク検出器の性能は変化しない。 本稿では,将来的なディープフェイク検出機構の可能性を示唆する有望な結果を示す。 この研究はコミュニティにとって貴重な貢献であり、ディープフェイク検出器の安全に関する議論を巻き起こすだろうと私たちは信じています。

We introduce a novel methodology for identifying adversarial attacks on deepfake detectors using eXplainable Artificial Intelligence (XAI). In an era characterized by digital advancement, deepfakes have emerged as a potent tool, creating a demand for efficient detection systems. However, these systems are frequently targeted by adversarial attacks that inhibit their performance. We address this gap, developing a defensible deepfake detector by leveraging the power of XAI. The proposed methodology uses XAI to generate interpretability maps for a given method, providing explicit visualizations of decision-making factors within the AI models. We subsequently employ a pretrained feature extractor that processes both the input image and its corresponding XAI image. The feature embeddings extracted from this process are then used for training a simple yet effective classifier. Our approach contributes not only to the detection of deepfakes but also enhances the understanding of possible adversarial attacks, pinpointing potential vulnerabilities. Furthermore, this approach does not change the performance of the deepfake detector. The paper demonstrates promising results suggesting a potential pathway for future deepfake detection mechanisms. We believe this study will serve as a valuable contribution to the community, sparking much-needed discourse on safeguarding deepfake detectors.
翻訳日:2024-08-21 03:27:41 公開日:2024-08-18
# MathVerse: あなたのマルチモーダルLCMは、視覚数学の問題でダイアグラムを本当に見ますか?

MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? ( http://arxiv.org/abs/2403.14624v2 )

ライセンス: Link先を確認
Renrui Zhang, Dongzhi Jiang, Yichi Zhang, Haokun Lin, Ziyu Guo, Pengshuo Qiu, Aojun Zhou, Pan Lu, Kai-Wei Chang, Peng Gao, Hongsheng Li, (参考訳) MLLM(Multi-modal Large Language Models)の顕著な進歩は、視覚的文脈における優れた性能のため、例外なく注目されている。 しかし、視覚数学の問題解決におけるそれらの能力は、まだ十分に評価され理解されていない。 本稿では,入力図を真に解釈することなく,MLLMによる解答の導出を支援するため,テキスト質問に過剰な視覚的コンテンツを組み込むための現在のベンチマークについて検討する。 この目的のために,MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。 我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。 それぞれの問題は、人間のアノテータによって6つの異なるバージョンに変換され、それぞれが多モードで様々な情報コンテンツを提供し、合計で15Kのテストサンプルに寄与する。 このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。 さらに,出力応答のきめ細かい評価のためのChain-of-Thought (CoT) 評価戦略を提案する。 我々はTrue や False を経時的に判断する代わりに GPT-4(V) を用いて重要な推論ステップを適応的に抽出し,各ステップを詳細な誤差解析によりスコアし,MLLM による中間的 CoT 推論品質を明らかにする。 MathVerseベンチマークがMLLMの今後の開発をガイドするためのユニークな洞察を提供することを期待している。 プロジェクトページ: https://mathverse-cuhk.github.io

The remarkable progress of Multi-modal Large Language Models (MLLMs) has garnered unparalleled attention, due to their superior performance in visual contexts. However, their capabilities in visual math problem-solving remain insufficiently evaluated and understood. We investigate current benchmarks to incorporate excessive visual content within textual questions, which potentially assist MLLMs in deducing answers without truly interpreting the input diagrams. To this end, we introduce MathVerse, an all-around visual math benchmark designed for an equitable and in-depth evaluation of MLLMs. We meticulously collect 2,612 high-quality, multi-subject math problems with diagrams from publicly available sources. Each problem is then transformed by human annotators into six distinct versions, each offering varying degrees of information content in multi-modality, contributing to 15K test samples in total. This approach allows MathVerse to comprehensively assess whether and how much MLLMs can truly understand the visual diagrams for mathematical reasoning. In addition, we propose a Chain-of-Thought (CoT) evaluation strategy for a fine-grained assessment of the output answers. Rather than naively judging True or False, we employ GPT-4(V) to adaptively extract crucial reasoning steps, and then score each step with detailed error analysis, which can reveal the intermediate CoT reasoning quality by MLLMs. We hope the MathVerse benchmark may provide unique insights to guide the future development of MLLMs. Project page: https://mathverse-cuhk.github.io
翻訳日:2024-08-21 03:17:53 公開日:2024-08-18
# IsoBench: 同型表現に関するマルチモーダル基礎モデルのベンチマーク

IsoBench: Benchmarking Multimodal Foundation Models on Isomorphic Representations ( http://arxiv.org/abs/2404.01266v3 )

ライセンス: Link先を確認
Deqing Fu, Ruohao Guo, Ghazal Khalighinejad, Ollie Liu, Bhuwan Dhingra, Dani Yogatama, Robin Jia, Willie Neiswanger, (参考訳) 現在の基礎モデルは、テキストのみ、または画像入力とテキスト入力の両方で、印象的な機能を示している。 しかし、それらの能力は入力のモダリティによって変わりますか? 本研究では,数学,科学,アルゴリズム,ゲームという4つの主要分野の問題を含むベンチマークデータセットである$\textbf{IsoBench}$を提案する。 各例には複数の$\textbf{isomorphic representations}$の入力、例えば視覚、テキスト、数学的プレゼンテーションが提示される。 IsoBenchは、表現形式に起因するパフォーマンスギャップを診断するために、きめ細かいフィードバックを提供する。 様々な基礎モデルにおいて、同じ問題において、モデルがテキスト表現に対して一貫した嗜好を持つことが観察される。 最も顕著な点として、すべてのIsoBench問題で評価すると、Claude-3 Opusはテキストの代わりに画像が提供されると28.7ポイント、GPT-4 Turboは18.7ポイント、Gemini Proは14.9ポイント悪い点がある。 最後に,2つのプロンプト技術, $\textit{IsoCombination}$ と $\textit{IsoScratchPad}$ を提示する。

Current foundation models exhibit impressive capabilities when prompted either with text only or with both image and text inputs. But do their capabilities change depending on the input modality? In this work, we propose $\textbf{IsoBench}$, a benchmark dataset containing problems from four major areas: math, science, algorithms, and games. Each example is presented with multiple $\textbf{isomorphic representations}$ of inputs, such as visual, textual, and mathematical presentations. IsoBench provides fine-grained feedback to diagnose performance gaps caused by the form of the representation. Across various foundation models, we observe that on the same problem, models have a consistent preference towards textual representations. Most prominently, when evaluated on all IsoBench problems, Claude-3 Opus performs 28.7 points worse when provided with images instead of text; similarly, GPT-4 Turbo is 18.7 points worse and Gemini Pro is 14.9 points worse. Finally, we present two prompting techniques, $\textit{IsoCombination}$ and $\textit{IsoScratchPad}$, which improve model performance by considering combinations of, and translations between, different input representations.
翻訳日:2024-08-21 03:08:08 公開日:2024-08-18
# Edisum: Wikipedia編集の要約と解説

Edisum: Summarizing and Explaining Wikipedia Edits at Scale ( http://arxiv.org/abs/2404.03428v2 )

ライセンス: Link先を確認
Marija Šakota, Isaac Johnson, Guosheng Feng, Robert West, (参考訳) 編集要約はウィキペディアの編集者が書いた簡潔なコメントで、ウィキペディアのページへの編集の性質と理由を説明する。 編集サマリーは百科事典の維持に不可欠であり、コンテンツモデレーターが最初に見るもので、編集を受理するか拒否するかを決めるのに役立ちます。 さらに、要約編集は研究者にとって貴重なデータソースとなっている。 残念なことに、多くの編集では要約が欠落しているか不完全である。 この問題を克服し、編集者が有用な編集要約を書くのを助けるために、編集差分を表現して優れた編集要約を生成するために訓練された言語モデルによって生成された編集要約を推薦するモデルを提案する。 ウィキペディアの規模によって課せられる、混合品質のトレーニングデータと効率要件の課題を克服するために、我々は、人間と合成データのキュレートされた混合に基づいて、小さな生成言語モデルを微調整する。 我々のモデルは人間の編集者と同等に機能する。 商用の大規模言語モデルは、このタスクを人間のエディタよりもうまく解決することができるが、ウィキペディアには適していない。 より広い範囲で、Web上で最大かつ最も目に見えるプロジェクトの1つを維持する上で、言語モデリング技術が人間をサポートする方法を紹介します。

An edit summary is a succinct comment written by a Wikipedia editor explaining the nature of, and reasons for, an edit to a Wikipedia page. Edit summaries are crucial for maintaining the encyclopedia: they are the first thing seen by content moderators and they help them decide whether to accept or reject an edit. Additionally, edit summaries constitute a valuable data source for researchers. Unfortunately, as we show, for many edits, summaries are either missing or incomplete. To overcome this problem and help editors write useful edit summaries, we propose a model for recommending edit summaries generated by a language model trained to produce good edit summaries given the representation of an edit diff. To overcome the challenges of mixed-quality training data and efficiency requirements imposed by the scale of Wikipedia, we fine-tune a small generative language model on a curated mix of human and synthetic data. Our model performs on par with human editors. Commercial large language models are able to solve this task better than human editors, but are not well suited for Wikipedia, while open-source ones fail on this task. More broadly, we showcase how language modeling technology can be used to support humans in maintaining one of the largest and most visible projects on the Web.
翻訳日:2024-08-21 03:08:08 公開日:2024-08-18
# Latent Guard: テキスト・ツー・イメージ・ジェネレーションのための安全フレームワーク

Latent Guard: a Safety Framework for Text-to-image Generation ( http://arxiv.org/abs/2404.08031v2 )

ライセンス: Link先を確認
Runtao Liu, Ashkan Khakzar, Jindong Gu, Qifeng Chen, Philip Torr, Fabio Pizzati, (参考訳) 高品質な画像を生成する能力により、テキスト・ツー・イメージ(T2I)モデルは不適切なコンテンツを作成するために利用される。 誤用を防ぐため、既存の安全対策は、容易に回避できるテキストブラックリスト、あるいは有害なコンテンツ分類に基づいており、トレーニングのために大規模なデータセットを必要とし、柔軟性が低い。 そこで本稿では,テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。 ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダ上に潜伏空間を学習し、入力テキスト埋め込みにおける有害な概念の存在を確認することができる。 提案するフレームワークは,大規模言語モデルとアドホックなアーキテクチャコンポーネントを用いたタスク固有のデータ生成パイプラインと,生成したデータから恩恵を受けるための対照的な学習戦略から構成される。 本手法の有効性を3つのデータセットと4つのベースラインに対して検証した。 コードとデータはhttps://latentguard.github.io/で共有される。

With the ability to generate high-quality images, text-to-image (T2I) models can be exploited for creating inappropriate content. To prevent misuse, existing safety measures are either based on text blacklists, which can be easily circumvented, or harmful content classification, requiring large datasets for training and offering low flexibility. Hence, we propose Latent Guard, a framework designed to improve safety measures in text-to-image generation. Inspired by blacklist-based approaches, Latent Guard learns a latent space on top of the T2I model's text encoder, where it is possible to check the presence of harmful concepts in the input text embeddings. Our proposed framework is composed of a data generation pipeline specific to the task using large language models, ad-hoc architectural components, and a contrastive learning strategy to benefit from the generated data. The effectiveness of our method is verified on three datasets and against four baselines. Code and data will be shared at https://latentguard.github.io/.
翻訳日:2024-08-21 02:58:10 公開日:2024-08-18
# 完全群速度マッチングによるI型パラメトリックダウンコンバージョンにおけるFewモードスクイーズ

Few-mode squeezing in type-I parametric downconversion by complete group velocity matching ( http://arxiv.org/abs/2404.10560v2 )

ライセンス: Link先を確認
Dmitri B. Horoshko, Mikhail I. Kolobov, Valentina Parigi, Nicolas Treps, (参考訳) 周波数縮退パルス型Iパラメトリックダウンコンバージョンは、多くの量子光学応用のために広く使われているシャープ光の源である。 しかし、この源は典型的にはスペクトル多重であり、生成されたスクイーズは、多くのスペクトルモードに分散し、モードごとにスクイーズする程度に制限される。 非線形結晶において、ポンプと信号に対する完全群速度マッチング(GVM)の条件が満たされている場合、生成モードの数は2、3モード以下であることが示される。 MgOをドープしたニオブ酸リチウム結晶を775nmで励起し、1.55$\mu$mで硬化した光を発生させた例を示す。 本モデルでは, ポンプと結晶の性質からスクイーズ度を導出し, 80mmの周期的偏極結晶で12dBのスクイーズが得られることを示した。

Frequency-degenerate pulsed type-I parametric downconversion is a widely used source of squeezed light for numerous quantum optical applications. However, this source is typically spectrally multimode and the generated squeezing is distributed between many spectral modes with a limited degree of squeezing per mode. We show that in a nonlinear crystal, where the condition of complete group velocity matching (GVM) for the pump and the signal is satisfied, the number of generated modes may be as low as two or three modes. We illustrate the general theory with the example of the MgO-doped lithium niobate crystal pumped at 775 nm and generating squeezed light at 1.55 $\mu$m. Our model includes the derivation of the degree of squeezing from the properties of the pump and the crystal and shows that 12 dB of squeezing can be obtained in a periodically poled crystal of length 80 mm.
翻訳日:2024-08-21 02:58:10 公開日:2024-08-18
# 機械学習に基づく無線位置決めにおける複雑さ低減のための最小記述特徴選択

Minimum Description Feature Selection for Complexity Reduction in Machine Learning-based Wireless Positioning ( http://arxiv.org/abs/2404.15374v2 )

ライセンス: Link先を確認
Myeung Suk Oh, Anindya Bijoy Das, Taejoon Kim, David J. Love, Christopher G. Brinton, (参考訳) 近年,無線位置決め(WP)の難問に対するディープラーニング手法が提案されている。 これらのWPアルゴリズムは複雑なチャネル環境に対して優れた一貫した性能を達成したが、高次元特徴の処理による計算複雑性はモバイルアプリケーションでは禁止される。 本研究では、最小記述機能を利用して、深層学習に基づくWPの複雑さを大幅に低減する新しい位置決めニューラルネットワーク(P-NN)を設計する。 P-NNの特徴選択戦略は、WPを行うために必要な情報を伝えるために、最大電力測定とその時間的位置に基づいている。 スパース画像と測定行列の2種類の入力をインテリジェントに処理することで,P-NNの学習能力を向上させる。 具体的には、ネットワークのトレーニング能力を強化するために、自己注意層を実装します。 また,信号ビン選択に関する情報理論的尺度で定量化された情報ゲインと分類能力を最適化し,特徴空間サイズを適応させる手法を開発した。 計算結果から,P-NNは全電力遅延プロファイル(PDP)を利用する深層学習ベースラインに対して,性能・複雑性トレードオフにおいて大きな優位性を発揮することが示された。 特に,P-NNは最小記述量で不要な計測値が破棄されるため,低SNRの性能が大幅に向上することがわかった。

Recently, deep learning approaches have provided solutions to difficult problems in wireless positioning (WP). Although these WP algorithms have attained excellent and consistent performance against complex channel environments, the computational complexity coming from processing high-dimensional features can be prohibitive for mobile applications. In this work, we design a novel positioning neural network (P-NN) that utilizes the minimum description features to substantially reduce the complexity of deep learning-based WP. P-NN's feature selection strategy is based on maximum power measurements and their temporal locations to convey information needed to conduct WP. We improve P-NN's learning ability by intelligently processing two different types of inputs: sparse image and measurement matrices. Specifically, we implement a self-attention layer to reinforce the training ability of our network. We also develop a technique to adapt feature space size, optimizing over the expected information gain and the classification capability quantified with information-theoretic measures on signal bin selection. Numerical results show that P-NN achieves a significant advantage in performance-complexity tradeoff over deep learning baselines that leverage the full power delay profile (PDP). In particular, we find that P-NN achieves a large improvement in performance for low SNR, as unnecessary measurements are discarded in our minimum description features.
翻訳日:2024-08-21 02:58:10 公開日:2024-08-18
# 組込みシステムの協調開発のための遠隔操作支援の検討

Investigating Remote Hands-On Assistance for Collaborative Development of Embedded Systems ( http://arxiv.org/abs/2404.17604v2 )

ライセンス: Link先を確認
Yan Chen, Jasmine Jones, (参考訳) 組み込みシステムの開発は複雑な取り組みであり、共同作業を必要とすることが多い。 フリーランスの作業の増加と、リモートワークへの世界的なシフトにより、多くの開発者や顧客にとって効果的なリモートコラボレーションの必要性が重要になっている。 しかしながら、現在のコミュニケーションとコーディネーションツールは、主にハードウェアにフォーカスしたタスクではなく、ソフトウェア開発に向いています。 本研究では,組み込みシステム開発に特化して設計された遠隔支援ツールの可能性を検討する。 12人の経験豊富な組み込みシステム開発者へのインタビューを通じて、既存のリモートワークプラクティスや課題、要件を調査しました。 また,カスタムデザインの遠隔操作エージェントであるHandyを理論的アシスタントとして利用し,開発者が協調作業においてどのような種類の支援を行うかを明らかにする。 本研究は,遠隔作業におけるシナリオと戦略,特定の支援ニーズ,情報交換,調整,実行に関わる課題を明らかにする。 さらに、リモート物理操作ツールを使用する際のプライバシ、コントロール、信頼に関する懸念についても検討する。 本研究は,組込みシステムとリモート・オンデマンド・コラボレーションとソフトウェア環境の典型的支援を統合し,遠隔操作エージェントの今後の研究のための確固たる実証的基盤を提供する。

Developing embedded systems is a complex endeavor that frequently requires collaborative teamwork. With the rise of freelance work and the global shift towards remote work, the need for effective remote collaboration has become crucial for many developers and their clients. However, current communication and coordination tools are predominantly tailored for software development rather than hardware-focused tasks. This study investigates the potential for remote support tools specifically designed for embedded systems development. Through interviews with 12 experienced embedded systems developers, we explored their existing remote work practices, challenges, and requirements. We also conducted a user enactment study featuring a custom-designed remote manipulation agent, Handy, as a theoretical assistant, to identify the kinds of support developers would value in a collaborative setting. Our findings highlight the scenarios and strategies employed in remote work, the specific support needs, and the challenges related to information exchange, coordination, and execution. Additionally, we explore concerns around privacy, control, and trust when using remote physical manipulation tools. This research contributes to the field by integrating the development of embedded systems with the remote, on-demand collaboration and assistance typical of software environments, offering a solid empirical foundation for future research on remote manipulation agents in this area.
翻訳日:2024-08-21 02:58:10 公開日:2024-08-18
# 複数エージェント強化学習における選択的相互作用と長期経験による協調の強化

Enhancing Cooperation through Selective Interaction and Long-term Experiences in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2405.02654v2 )

ライセンス: Link先を確認
Tianyu Ren, Xiao-Jun Zeng, (参考訳) 社会的ジレンマにおけるグループ協力の促進におけるネットワーク構造の重要性は広く認識されている。 以前の研究では、このファシリテーションは空間的相互作用によって引き起こされる戦略の体系化に起因している。 強化学習は、動的相互作用が協調の進化に与える影響を調べるために用いられているが、エージェントが隣り合う選択行動をどのように発達するか、そして明示的な相互作用構造の中で戦略的な配置を形成するかについての理解の欠如が依然として残っている。 そこで本研究では,空間的囚人のジレンマゲームにおけるマルチエージェント強化学習に基づく計算フレームワークを提案する。 この枠組みにより、エージェントは、事前に設定された社会的規範や外部インセンティブに依存する既存の研究とは異なる、長期の経験に基づいてジレンマ戦略を選択し、近隣住民と対話することができる。 2つの異なるQ-ネットを用いて各エージェントをモデル化することにより、協調と相互作用の共進化ダイナミクスを解き放つ。 その結果, 長期経験により, 非協力的隣人を識別し, 協力的隣人との交流を優先できる可能性が示唆された。 この創発的な自己組織化行動は、同様の戦略でエージェントのクラスタ化を招き、ネットワークの相互性を高め、グループ協力を強化する。

The significance of network structures in promoting group cooperation within social dilemmas has been widely recognized. Prior studies attribute this facilitation to the assortment of strategies driven by spatial interactions. Although reinforcement learning has been employed to investigate the impact of dynamic interaction on the evolution of cooperation, there remains a lack of understanding about how agents develop neighbour selection behaviours and the formation of strategic assortment within an explicit interaction structure. To address this, our study introduces a computational framework based on multi-agent reinforcement learning in the spatial Prisoner's Dilemma game. This framework allows agents to select dilemma strategies and interacting neighbours based on their long-term experiences, differing from existing research that relies on preset social norms or external incentives. By modelling each agent using two distinct Q-networks, we disentangle the coevolutionary dynamics between cooperation and interaction. The results indicate that long-term experience enables agents to develop the ability to identify non-cooperative neighbours and exhibit a preference for interaction with cooperative ones. This emergent self-organizing behaviour leads to the clustering of agents with similar strategies, thereby increasing network reciprocity and enhancing group cooperation.
翻訳日:2024-08-21 02:48:22 公開日:2024-08-18
# 共鳴蛍光のマルチモードアレイフィルタ

Multi-Mode Array Filtering of Resonance Fluorescence ( http://arxiv.org/abs/2405.03900v4 )

ライセンス: Link先を確認
Jacob Ngaha, Scott Parkins, Howard J. Carmichael, (参考訳) 本稿では,周波数フィルタによる光子相関の測定と計算のための新しい周波数フィルタ法を提案する。 本手法は共振器を多モードアレイフィルタと呼ぶ空洞型システムであり,周波数が等間隔である可変単一モードキャビティのアレイで構成されている。 モード依存位相変調を導入することで、周波数分離を犠牲にすることなく、ほぼ長方形の周波数応答を生成する。 フィルタのバックアクションを完全に無視するカスケード量子オープンシステムアプローチを用いて周波数フィルタリングをモデル化する。 これにより、ソースおよびフィルタ系演算子に対する閉作用素モーメント方程式の導出が可能となり、周波数フィルタリングされた1次および2次相関関数を計算するための極めて効率的な方法が提供される。 共振駆動2レベル原子に印加することで, この新しいフィルタ法を実証する。 単一モードフィルタ上でのマルチモードアレイフィルタの周波数分離を改良した周波数フィルタパワースペクトルの例を示す。 次に、単モードおよび多モードアレイフィルタによる2階自動・相互相関関数の結果を示す。 これらは俗的な近似から派生した表現と比較される。 マルチモードアレイフィルタの周波数分離の改善により、2光子跳躍過程のような周波数フィルタリング光子相関の新たな状態と、フィルタされた自己相関関数に対する帯域幅の消滅の影響を解明することができる。

We present a novel frequency-filtering method for measuring and calculating frequency-filtered photon-correlations. This novel method is a cavity-based system we call the multi-mode array filter, which consists of an array of tunable single-mode cavities that are equally spaced in frequency. By introducing a mode-dependent phase modulation, we produce a near rectangular frequency response, allowing us to increase the filter bandwidth -- and thus the temporal response -- without sacrificing frequency isolation. We model the frequency filtering using a cascaded quantum open systems approach which completely neglects any back-action of the filter onto the source system. This allows us to derive a closed set of operator moment equations for source and filter system operators, thus providing an extremely efficient method to calculate frequency-filtered first- and second-order correlation functions. We demonstrate this novel filtering method by applying it to a resonantly driven two-level atom. We present examples of frequency-filtered power spectra to demonstrate the improved frequency isolation of the multi-mode array filter over the single-mode filter. We then present results for the single-mode and multi-mode-array filtered second-order auto- and cross-correlation functions. These are compared against expressions derived in the secular approximation. The improved frequency isolation of the multi-mode array filter allows us to investigate new regimes of frequency-filtered photon correlations, such as two-photon leapfrog processes, and the effect of vanishing bandwidth on filtered auto-correlation functions.
翻訳日:2024-08-21 02:48:22 公開日:2024-08-18
# 缶の因果性:ダイエットコークスが健康に与える影響

Causality in the Can: Diet Coke's Impact on Fatness ( http://arxiv.org/abs/2405.10746v2 )

ライセンス: Link先を確認
Yicheng Qi, Ang Li, (参考訳) ダイエットコーラのような人工甘味付け飲料は、しばしば砂糖飲料のより良い代替品と考えられているが、健康への影響、特に肥満に関する議論は続いている。 これまでの研究では、食事のコークス消費と肥満の因果関係を正確に把握できない、観察的またはランダム化制御試験(RCT)データによる関連性に基づく手法が主流であり、潜在的に限定的な結論をもたらす可能性がある。 対照的に、構造因果モデルを用いた因果推論手法を採用し、観測データとRCTデータを統合した。 具体的には,NHANES(National Health and Nutrition Examination Survey)のデータを利用した。 このデータを因果グラフの構築に利用し、その調整式とともにバックドア基準を適用してRCTデータを推定した。 次に,NHANESデータと推定RTTデータの両方を用いて,PNS(Probability of Necessity and Sufficiency)を計算した。 PNSはダイエットコークスが肥満に与える影響を評価するための重要な指標である。 以上の結果から,食事習慣の悪い人の20~50%がダイエットコークスの体重増加傾向が示唆された。 逆に、健康な食事を持つ若い女性のようなグループでは、ダイエットコークスによる体重増加はわずかである。 これらの知見は,ダイエットコークの食生活が公衆衛生に与える影響を理解するための新たな枠組みとして,ライフスタイルやホルモン要因の影響を浮き彫りにしたものである。

Artificially sweetened beverages like Diet Coke are often considered better alternatives to sugary drinks, but the debate over their impact on health, particularly in relation to obesity, continues. Previous research has predominantly used association-based methods with observational or Randomized Controlled Trial (RCT) data, which may not accurately capture the causal relationship between Diet Coke consumption and obesity, leading to potentially limited conclusions. In contrast, we employed causal inference methods using structural causal models, integrating both observational and RCT data. Specifically, we utilized data from the National Health and Nutrition Examination Survey (NHANES), which includes diverse demographic information, as our observational data source. This data was then used to construct a causal graph, and the back-door criterion, along with its adjustment formula, was applied to estimate the RCT data. We then calculated the counterfactual quantity, the Probability of Necessity and Sufficiency (PNS), using both NHANES data and estimated RCT data. We propose that PNS is the essential metric for assessing the impact of Diet Coke on obesity. Our results indicate that between 20 to 50 percent of individuals, especially those with poor dietary habits, are more likely to gain weight from Diet Coke. Conversely, in groups like young females with healthier diets, only a small proportion experience weight gain due to Diet Coke. These findings highlight the influence of individual lifestyle and potential hormonal factors on the varied effects of Diet Coke, providing a new framework for understanding its nutritional impacts on public health.
翻訳日:2024-08-21 02:48:22 公開日:2024-08-18
# 近接量子デバイス上でのアルゴリズム性能向上のための相乗的動的デカップリングと回路設計

Synergistic Dynamical Decoupling and Circuit Design for Enhanced Algorithm Performance on Near-Term Quantum Devices ( http://arxiv.org/abs/2405.17230v2 )

ライセンス: Link先を確認
Yanjun Ji, Ilia Polian, (参考訳) 動的デカップリング(DD)は、短期量子デバイスにおけるエラーを軽減するための有望な手法である。 しかし、その有効性はハードウェアの特性とアルゴリズムの実装の詳細に依存する。 本稿では, 動的デカップリングと最適化回路設計の相乗効果について検討し, 短期量子デバイスにおけるアルゴリズムの性能とロバスト性を最大化する。 8つのIBM量子デバイスを利用することで、ハードウェア機能とアルゴリズム設計がDDの有効性にどのように影響するかを分析する。 本分析では,回路の忠実度,スケジューリング時間,ハードウェアネイティブゲートセットなどの要因を考慮に入れた。 また、特定のゲート分解、DDシーケンス、最適化レベルを含むアルゴリズム実装の詳細の影響についても検討する。 その結果,DDの有効性とアルゴリズム固有の性能との逆関係が明らかとなった。 さらに,性能向上におけるゲート指向性と回路対称性の重要性を強調した。 本研究は、DDプロトコルと回路設計の最適化に有用な洞察を提供し、ハードウェアの特徴とアルゴリズム設計の両方を生かし、短期量子アルゴリズムの高品質かつ信頼性の高い実行に活用する全体的なアプローチの重要性を強調した。

Dynamical decoupling (DD) is a promising technique for mitigating errors in near-term quantum devices. However, its effectiveness depends on both hardware characteristics and algorithm implementation details. This paper explores the synergistic effects of dynamical decoupling and optimized circuit design in maximizing the performance and robustness of algorithms on near-term quantum devices. By utilizing eight IBM quantum devices, we analyze how hardware features and algorithm design impact the effectiveness of DD for error mitigation. Our analysis takes into account factors such as circuit fidelity, scheduling duration, and hardware-native gate set. We also examine the influence of algorithmic implementation details, including specific gate decompositions, DD sequences, and optimization levels. The results reveal an inverse relationship between the effectiveness of DD and the inherent performance of the algorithm. Furthermore, we emphasize the importance of gate directionality and circuit symmetry in improving performance. This study offers valuable insights for optimizing DD protocols and circuit designs, highlighting the significance of a holistic approach that leverages both hardware features and algorithm design for the high-quality and reliable execution of near-term quantum algorithms.
翻訳日:2024-08-21 02:38:38 公開日:2024-08-18
# マニフォールド最適化と進化的メタヒューリスティックスによる多分解能行列因子分解の学習

Learning to Solve Multiresolution Matrix Factorization by Manifold Optimization and Evolutionary Metaheuristics ( http://arxiv.org/abs/2406.00469v2 )

ライセンス: Link先を確認
Truong Son Hy, Thieu Khang, Risi Kondor, (参考訳) 多分解能行列因数分解(MMF)は、低ランクの仮定をしない高速行列因数分解アルゴリズムの中でも珍しい。 これにより、MMFは複雑なマルチスケールまたは階層的なストラクタを持つある種のグラフをモデル化するのに特に適している。 MMFは有用なウェーブレット基底を生成することを約束するが、分解そのものを見つけることは困難であり、既存のグリーディ法は脆い傾向にある。 本稿では,メタヒューリスティックス(メタヒューリスティックス,特に進化的アルゴリズムと有向進化)を用いた因子分解を,バックプロパゲートエラーによるスティーフェル多様体の最適化とともに巧みに最適化するMMFの'learnable'バージョンを提案する。 得られたウェーブレット基底は、従来のMMFアルゴリズムよりも優れており、グラフ上の標準学習タスクに匹敵する性能を示す。 さらに、スペクトル領域上のウェーブレットニューラルネットワーク(WNN)学習グラフを、MMF学習アルゴリズムによって生成されたウェーブレットベースで構築する。 我々のウェーブレットネットワークは、分子グラフの分類と引用グラフのノード分類において、他の最先端の手法と競合する。 実装はhttps://github.com/HySonLab/LearnMMFで公開しています。

Multiresolution Matrix Factorization (MMF) is unusual amongst fast matrix factorization algorithms in that it does not make a low rank assumption. This makes MMF especially well suited to modeling certain types of graphs with complex multiscale or hierarchical strucutre. While MMF promises to yields a useful wavelet basis, finding the factorization itself is hard, and existing greedy methods tend to be brittle. In this paper, we propose a ``learnable'' version of MMF that carfully optimizes the factorization using metaheuristics, specifically evolutionary algorithms and directed evolution, along with Stiefel manifold optimization through backpropagating errors. We show that the resulting wavelet basis far outperforms prior MMF algorithms and gives comparable performance on standard learning tasks on graphs. Furthermore, we construct the wavelet neural networks (WNNs) learning graphs on the spectral domain with the wavelet basis produced by our MMF learning algorithm. Our wavelet networks are competitive against other state-of-the-art methods in molecular graphs classification and node classification on citation graphs. We release our implementation at https://github.com/HySonLab/LearnMMF
翻訳日:2024-08-21 02:38:38 公開日:2024-08-18
# ブラックボックスLCMによるロジット不要なロジットベース検出器の改良

Improving Logits-based Detector without Logits from Black-box LLMs ( http://arxiv.org/abs/2406.05232v3 )

ライセンス: Link先を確認
Cong Zeng, Shengkun Tang, Xianjun Yang, Yuanzhou Chen, Yiyou Sun, zhiqiang xu, Yao Li, Haifeng Chen, Wei Cheng, Dongkuan Xu, (参考訳) LLM(Large Language Models)の出現はテキスト生成に革命をもたらした。 この機械文と人文文の線がぼやけていることは、プロプライエタリなLLMの頻繁な更新とクローズドな性質によって、一方と他方を区別する作業がさらに複雑になる、という新たな課題を示している。 従来のロジットに基づく検出手法では、ブラックボックスのLLMから正確なロジットが利用できない場合に、Surrogateモデルを用いてLCM生成したコンテンツを識別する。 しかし、これらの手法はサロゲートの分布としばしば開示されるターゲットモデルとのミスアライメントに対処し、特に新しいクローズドソースモデルの導入による性能劣化につながった。 さらに、現在の方法論は、ソースモデルが特定されると一般的に有効であるが、モデルバージョンが不明なシナリオや、テストセットが様々なソースモデルから出力を出力するシナリオに干渉する。 これらの制約に対処するため、我々は、ソースLLMからのロジットを使わずに、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDis Distribution-Aligned LLMs Detection (DALD)を提案する。 DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、最小限のトレーニング投資で高速モデルイテレーションに対する検出能力とレジリエンスを向上させるように設計されている。 コーパスサンプルをChatGPT, GPT-4, Claude-3などの先進モデルの公開出力から活用することにより、DALDファイントゥインシュロゲートモデルを未知のソースモデル分布と効率的に同期させる。

The advent of Large Language Models (LLMs) has revolutionized text generation, producing outputs that closely mimic human writing. This blurring of lines between machine- and human-written text presents new challenges in distinguishing one from the other a task further complicated by the frequent updates and closed nature of leading proprietary LLMs. Traditional logits-based detection methods leverage surrogate models for identifying LLM-generated content when the exact logits are unavailable from black-box LLMs. However, these methods grapple with the misalignment between the distributions of the surrogate and the often undisclosed target models, leading to performance degradation, particularly with the introduction of new, closed-source models. Furthermore, while current methodologies are generally effective when the source model is identified, they falter in scenarios where the model version remains unknown, or the test set comprises outputs from various source models. To address these limitations, we present Distribution-Aligned LLMs Detection (DALD), an innovative framework that redefines the state-of-the-art performance in black-box text detection even without logits from source LLMs. DALD is designed to align the surrogate model's distribution with that of unknown target LLMs, ensuring enhanced detection capability and resilience against rapid model iterations with minimal training investment. By leveraging corpus samples from publicly accessible outputs of advanced models such as ChatGPT, GPT-4 and Claude-3, DALD fine-tunes surrogate models to synchronize with unknown source model distributions effectively.
翻訳日:2024-08-21 02:28:42 公開日:2024-08-18
# C-Mamba:多変量時系列予測のためのチャネル相関強化状態空間モデル

C-Mamba: Channel Correlation Enhanced State Space Models for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2406.05316v2 )

ライセンス: Link先を確認
Chaolv Zeng, Zhanyu Liu, Guanjie Zheng, Linghe Kong, (参考訳) 近年,線形ベース,トランスフォーマーベース,コンボリューションベースモデルを用いた時系列の多変量予測が大幅に進歩している。 線形予測器は表現能力に悩まされ、注意機構は二次的な複雑さに悩まされ、畳み込みモデルは受容力に制限がある。 これらの制約は、複雑な時系列、特に多くの変数を持つ時系列のモデリングにおいて、それらの効果を妨げた。 さらに、多くのモデルはChannel-Independent(CI)戦略を採用し、多変量時系列を相関を無視しながら非相関な単変量系列として扱う。 チャネル間の関係を考慮したモデルでは、自己アテンション機構、線形結合、あるいは畳み込みによって、いずれも高い計算コストを発生させ、チャネル間の潜在的な比例関係を無視して重み付けされた和関係にのみ焦点をあてる。 本研究では,新たに導入された状態空間モデルを活用してこれらの問題に対処し,グローバルな受容場を失うことなく線形複雑性を維持しながらチャネル間の依存関係を捉える新しいアプローチである「textbf{C-Mamba}」を提案する。 私たちのモデルは2つの重要なコンポーネントで構成されています。 (i)訓練セットを強化するため、2つのチャンネルを混合するチャンネル混成 (II) チャネルアテンションにより, チャネル間の相互依存を捉える状態空間モデルと, 重み関係をマイニングすることでチャネル間の相関をモデル化するパッチワイド・マンバエンコーダが強化された。 本モデルは、7つの実世界の時系列データセット上での最先端のパフォーマンスを実現する。 さらに、提案したミックスアップとアテンション戦略は、他のフレームワーク間で強力な一般化性を示している。

In recent years, significant progress has been made in multivariate time series forecasting using Linear-based, Transformer-based, and Convolution-based models. However, these approaches face notable limitations: linear forecasters struggle with representation capacities, attention mechanisms suffer from quadratic complexity, and convolutional models have a restricted receptive field. These constraints impede their effectiveness in modeling complex time series, particularly those with numerous variables. Additionally, many models adopt the Channel-Independent (CI) strategy, treating multivariate time series as uncorrelated univariate series while ignoring their correlations. For models considering inter-channel relationships, whether through the self-attention mechanism, linear combination, or convolution, they all incur high computational costs and focus solely on weighted summation relationships, neglecting potential proportional relationships between channels. In this work, we address these issues by leveraging the newly introduced state space model and propose \textbf{C-Mamba}, a novel approach that captures cross-channel dependencies while maintaining linear complexity without losing the global receptive field. Our model consists of two key components: (i) channel mixup, where two channels are mixed to enhance the training sets; (ii) channel attention enhanced patch-wise Mamba encoder that leverages the ability of the state space models to capture cross-time dependencies and models correlations between channels by mining their weight relationships. Our model achieves state-of-the-art performance on seven real-world time series datasets. Moreover, the proposed mixup and attention strategy exhibits strong generalizability across other frameworks.
翻訳日:2024-08-21 02:28:42 公開日:2024-08-18
# TokenRec: LLMに基づくジェネレーティブレコメンデーションのためのトークンIDの学習

TokenRec: Learning to Tokenize ID for LLM-based Generative Recommendation ( http://arxiv.org/abs/2406.10450v2 )

ライセンス: Link先を確認
Haohao Qu, Wenqi Fan, Zihuai Zhao, Qing Li, (参考訳) 大規模言語モデル(LLM)を利用した次世代Recommender Systems(RecSys)の進化への関心が高まっている。 このシナリオでは、LLMとレコメンデーションのシームレスなアライメントを保証するために、ユーザとアイテムのトークン化(インデックス化)が不可欠である。 ユーザやアイテムをテキストの内容や潜在表現で表現する研究はいくつかあるが、LLMと互換性のある個別のトークンに高次協調的な知識を効率よく取得する上での課題は残る。 さらに、既存のトークン化アプローチの大半は、トレーニングコーパスにない新規/未使用のユーザやアイテムに効果的に一般化する上で困難に直面していることが多い。 これらの課題に対処するために,TokenRecという新しいフレームワークを提案する。これは,有効なIDトークン化戦略だけでなく,LLMベースのレコメンデーションのための効率的な検索パラダイムも導入する。 具体的には、トークン化戦略であるMasked Vector-Quantized (MQ) Tokenizerは、協調フィルタリングから学んだマスク付きユーザ/イテム表現を離散トークンに定量化することで、高次協調知識のスムーズな取り込みとLLMベースのRecSysのユーザおよびアイテムの一般化可能なトークン化を実現する。 一方,我々の生成検索パラダイムは,LLMが使用する自動回帰復号法やビーム探索法の必要性を解消し,推論時間を大幅に削減するために,ユーザに対してKドル以上のアイテムを効率的に推奨するように設計されている。 提案手法の有効性を総合的に検証し,TokenRecが従来のレコメンデータシステムとLLMベースのレコメンデータシステムの両方を含む競合ベンチマークより優れていることを示した。

There is a growing interest in utilizing large-scale language models (LLMs) to advance next-generation Recommender Systems (RecSys), driven by their outstanding language understanding and in-context learning capabilities. In this scenario, tokenizing (i.e., indexing) users and items becomes essential for ensuring a seamless alignment of LLMs with recommendations. While several studies have made progress in representing users and items through textual contents or latent representations, challenges remain in efficiently capturing high-order collaborative knowledge into discrete tokens that are compatible with LLMs. Additionally, the majority of existing tokenization approaches often face difficulties in generalizing effectively to new/unseen users or items that were not in the training corpus. To address these challenges, we propose a novel framework called TokenRec, which introduces not only an effective ID tokenization strategy but also an efficient retrieval paradigm for LLM-based recommendations. Specifically, our tokenization strategy, Masked Vector-Quantized (MQ) Tokenizer, involves quantizing the masked user/item representations learned from collaborative filtering into discrete tokens, thus achieving a smooth incorporation of high-order collaborative knowledge and a generalizable tokenization of users and items for LLM-based RecSys. Meanwhile, our generative retrieval paradigm is designed to efficiently recommend top-$K$ items for users to eliminate the need for the time-consuming auto-regressive decoding and beam search processes used by LLMs, thus significantly reducing inference time. Comprehensive experiments validate the effectiveness of the proposed methods, demonstrating that TokenRec outperforms competitive benchmarks, including both traditional recommender systems and emerging LLM-based recommender systems.
翻訳日:2024-08-21 02:28:42 公開日:2024-08-18
# SLEGO: LLMレコメンダを用いた分散データ分析システム

SLEGO: A Collaborative Data Analytics System with LLM Recommender for Diverse Users ( http://arxiv.org/abs/2406.11232v2 )

ライセンス: Link先を確認
Siu Lung Ng, Hirad Baradaran Rezaei, Fethi Rabhi, (参考訳) 本稿では、モジュール化された再利用可能なマイクロサービスを備えたクラウドベースのプラットフォームを使用して、経験豊富な開発者と初心者ユーザのギャップを埋める、共同分析プラットフォームであるSLEGO(Software-Lego)システムを提案する。 これらのマイクロサービスにより、開発者は分析ツールとワークフローを共有できる。一方、単純なグラフィカルユーザインターフェース(GUI)により、初心者のユーザはプログラミングスキルなしで包括的な分析パイプラインを構築することができる。 ナレッジベースとLLM(Large Language Model)を使用したレコメンデーションシステムによってSLEGOは、マイクロサービスの選択と統合を強化し、分析パイプライン構築の効率を高める。 金融と機械学習のケーススタディでは、SLEGOがモジュラーマイクロサービスの共有とアセンブリを促進し、リソース再利用性とチームのコラボレーションを大幅に改善する様子が示されている。 その結果、モジュール設計、知識ベース、レコメンデーションシステムを統合し、より包括的で効率的な分析環境を育むことによって、データ分析を民主化するSLEGOの役割を強調した。

This paper presents the SLEGO (Software-Lego) system, a collaborative analytics platform that bridges the gap between experienced developers and novice users using a cloud-based platform with modular, reusable microservices. These microservices enable developers to share their analytical tools and workflows, while a simple graphical user interface (GUI) allows novice users to build comprehensive analytics pipelines without programming skills. Supported by a knowledge base and a Large Language Model (LLM) powered recommendation system, SLEGO enhances the selection and integration of microservices, increasing the efficiency of analytics pipeline construction. Case studies in finance and machine learning illustrate how SLEGO promotes the sharing and assembly of modular microservices, significantly improving resource reusability and team collaboration. The results highlight SLEGO's role in democratizing data analytics by integrating modular design, knowledge bases, and recommendation systems, fostering a more inclusive and efficient analytical environment.
翻訳日:2024-08-21 02:28:42 公開日:2024-08-18
# ジェネレーティブAI投票: 公正な集団選択はLLMのバイアスと矛盾に耐性がある

Generative AI Voting: Fair Collective Choice is Resilient to LLM Biases and Inconsistencies ( http://arxiv.org/abs/2406.11871v2 )

ライセンス: Link先を確認
Srijoni Majumdar, Edith Elkind, Evangelos Pournaras, (参考訳) 討論や投票の参加を拡大することは長年にわたる取り組みであり、直接民主主義と正統な集団選択の基盤となっている。 生成人工知能(AI)と大規模言語モデル(LLM)の最近のブレークスルーは、AIパーソナルアシスタントが人間の認知的帯域幅の制限を克服し、意思決定支援や、大規模な人間の有権者の直接表現を提供する、という新たな能力を生み出している。 しかしながら、この表現の質と、LCMに集団決定を委譲する際の根底にあるバイアスは、対処する上で危険かつタイムリーな課題である。 実世界の81の選挙において,50K以上の投票者に対して高いリアリズムを厳格にエミュレートすることにより,LLMS(GPT 3, GPT 3.5, Llama2)における異なるバイアスの性質を解消する。 複雑な選好投票形式は、より単純な多数派選挙では一貫性が増すのに対して、大きな矛盾を示している。 しかし、実世界で初めて、直接民主主義における有権者の比例表現を示すことによって、平等な株式のような公正な投票集約手法が、より公平なAI表現を持つ人間のより公平な投票結果であることを示すことができる。 この新たな関係は、低投票率とAI代表者が支持する有権者疲労による進歩主義のシナリオにおいて、民主的弾力性にとって最重要であることを証明している: 棄権された有権者は、より公平な、非常に代表的な投票結果の回復によって緩和される。 これらの学際的洞察は、科学、政策立案者、市民にとって、民主的イノベーションにおけるAIリスクに対する保護とレジリエンスを開発するための驚くべき基盤を提供する。

Scaling up deliberative and voting participation is a longstanding endeavor -- a cornerstone for direct democracy and legitimate collective choice. Recent breakthroughs in generative artificial intelligence (AI) and large language models (LLMs) unravel new capabilities for AI personal assistants to overcome cognitive bandwidth limitations of humans, providing decision support or even direct representation of human voters at large scale. However, the quality of this representation and what underlying biases manifest when delegating collective decision-making to LLMs is an alarming and timely challenge to tackle. By rigorously emulating with high realism more than >50K LLM voting personas in 81 real-world voting elections, we disentangle the nature of different biases in LLMS (GPT 3, GPT 3.5, and Llama2). Complex preferential ballot formats exhibit significant inconsistencies compared to simpler majoritarian elections that show higher consistency. Strikingly though, by demonstrating for the first time in real-world a proportional representation of voters in direct democracy, we are also able to show that fair ballot aggregation methods, such as equal shares, prove to be a win-win: fairer voting outcomes for humans with fairer AI representation. This novel underlying relationship proves paramount for democratic resilience in progressives scenarios with low voters turnout and voter fatigue supported by AI representatives: abstained voters are mitigated by recovering highly representative voting outcomes that are fairer. These interdisciplinary insights provide remarkable foundations for science, policymakers, and citizens to develop safeguards and resilience for AI risks in democratic innovations.
翻訳日:2024-08-21 02:28:42 公開日:2024-08-18
# 医用画像の効果的なデータ拡張のための自己監督型脳病変生成

Self-supervised Brain Lesion Generation for Effective Data Augmentation of Medical Images ( http://arxiv.org/abs/2406.14826v2 )

ライセンス: Link先を確認
Jiayu Huo, Sebastien Ourselin, Rachel Sparks, (参考訳) 正確な脳病変の脱線は神経外科治療の計画に重要である。 畳み込みニューラルネットワークに基づく自動脳病変分割法は顕著な性能を示した。 しかしながら、ニューラルネットワークのパフォーマンスは、大規模に注釈付けされたトレーニングデータセットの欠如によって制限されている。 そこで本論文では,脳病変セグメンテーションモデルをトレーニングするための新しいサンプルを効率的に生成するための包括的枠組みを提案する。 まず, 対向型自己エンコーダに基づく病変発生器を自己管理的に訓練する。 次に、新しい画像合成アルゴリズムであるSoft Poisson Blendingを用いて、合成病変と脳画像をシームレスに組み合わせてトレーニングサンプルを得る。 最後に,脳病変セグメンテーションモデルを拡張画像で効果的に訓練するために,実像と合成像を整列させるための新しいプロトタイプを導入する。 我々のフレームワークは、ATLAS v2.0とShift MSの2つのパブリック脳病変セグメンテーションデータセットに関する広範な実験によって検証されている。 例えば、我々の方法では、従来のATLAS v2.0データセットのデータ拡張技術を用いて、U-Netと比較して、Diceを50.36%から60.23%に改善する。

Accurate brain lesion delineation is important for planning neurosurgical treatment. Automatic brain lesion segmentation methods based on convolutional neural networks have demonstrated remarkable performance. However, neural network performance is constrained by the lack of large-scale well-annotated training datasets. In this manuscript, we propose a comprehensive framework to efficiently generate new samples for training a brain lesion segmentation model. We first train a lesion generator, based on an adversarial autoencoder, in a self-supervised manner. Next, we utilize a novel image composition algorithm, Soft Poisson Blending, to seamlessly combine synthetic lesions and brain images to obtain training samples. Finally, to effectively train the brain lesion segmentation model with augmented images we introduce a new prototype consistence regularization to align real and synthetic features. Our framework is validated by extensive experiments on two public brain lesion segmentation datasets: ATLAS v2.0 and Shift MS. Our method outperforms existing brain image data augmentation schemes. For instance, our method improves the Dice from 50.36% to 60.23% compared to the U-Net with conventional data augmentation techniques for the ATLAS v2.0 dataset.
翻訳日:2024-08-21 02:18:57 公開日:2024-08-18
# AEM:マルチインスタンス学習に基づく全スライド画像分類のための注意エントロピー最大化

AEM: Attention Entropy Maximization for Multiple Instance Learning based Whole Slide Image Classification ( http://arxiv.org/abs/2406.15303v2 )

ライセンス: Link先を確認
Yunlong Zhang, Zhongyi Shui, Yunxuan Sun, Honglin Li, Jingxiong Li, Chenglu Zhu, Lin Yang, (参考訳) MIL(Multiple Instance Learning)は、スライド画像全体(WSI)を解析する効果を実証している。 この問題を緩和するための既存の手法では、多段階の訓練や教師・学生の蒸留といった複雑なモジュールや処理手順が導入されたが、本研究では、シンプルながら効果的な正規化:注意エントロピー最大化(AEM)を提案する。 本研究は,注意エントロピーとモデル性能の正の相関関係を明らかにすることにより,注意値に対する負のエントロピー損失を標準MILフレームワークに含み,過度に集中した注意をペナルティ化し,WSIにおける幅広い情報領域の検討を奨励し,一般化能力の向上を図っている。 既存のオーバーフィッティング緩和手法と比較して、AEMアプローチは単純さ、効率、汎用性の利点を提供します。 追加のモジュールや処理ステップは不要で、ハイパーパラメータは1つだけで、MILフレームワークやテクニックとの互換性を示す。 これらの利点により、AEMは特に実用用途に魅力的なものとなる。 AEMを3つのベンチマークデータセットで評価し、既存の手法よりも一貫した性能改善を実証した。 さらに、4つの特徴抽出器、2つの先進的なMILフレームワーク、3つの注意機構、サブサンプリング強化技術と効果的に統合された高汎用性を示す。 ソースコードは \url{https://github.com/dazhangyu123/AEM} で公開されている。

Multiple Instance Learning (MIL) has demonstrated effectiveness in analyzing whole slide images (WSIs), yet it often encounters overfitting challenges in real-world applications, particularly in the form of attention over-concentration. While existing methods to alleviate this issue introduce complex modules or processing steps, such as multiple-stage training and teacher-student distillation, this paper proposes a simple yet effective regularization: Attention Entropy Maximization (AEM). Motivated by our investigation revealing a positive correlation between attention entropy and model performance, AEM incorporates a negative entropy loss for attention values into the standard MIL framework, penalizing overly concentrated attention and encouraging the model to consider a broader range of informative regions in WSIs, potentially improving its generalization capabilities. Compared to existing overfitting mitigation methods, our AEM approach offers advantages of simplicity, efficiency, and versatility. It requires no additional modules or processing steps, involves only one hyperparameter, and demonstrates compatibility with MIL frameworks and techniques. These advantages make AEM particularly attractive for practical applications. We evaluate AEM on three benchmark datasets, demonstrating consistent performance improvements over existing methods. Furthermore, AEM shows high versatility, integrating effectively with four feature extractors, two advanced MIL frameworks, three attention mechanisms, and Subsampling augmentation technique. The source code is available at \url{https://github.com/dazhangyu123/AEM}.
翻訳日:2024-08-21 02:18:57 公開日:2024-08-18
# 連続的に変化する環境における物体検出のためのテスト時間適応の探索

Exploring Test-Time Adaptation for Object Detection in Continually Changing Environments ( http://arxiv.org/abs/2406.16439v3 )

ライセンス: Link先を確認
Shilei Cao, Yan Liu, Juepeng Zheng, Weijia Li, Runmin Dong, Haohuan Fu, (参考訳) 現実のアプリケーションモデルは、ターゲットのドメイン分布が時間的変化を受ける動的環境に一般的にデプロイされます。 最近CTTA(Continuous Test-Time Adaptation)が、ターゲットドメインを継続的に変更するソーストレーニングモデルに徐々に適応する、有望なテクニックとして登場した。 近年のCTTA対応の進歩にもかかわらず,2つの重要な課題が残っている。 1) 既存手法における擬似ラベルの固定閾値は、モデル信頼性がカテゴリやドメインによって異なるため、低品質な擬似ラベルを生成する。 2) 破壊的忘れを緩和するための確率的パラメータ復元法は, その内在的ランダム性により重要な情報を効果的に保存することができない。 CTTAシナリオにおける検出モデルに対するこれらの課題に対処するため、3つのコアコンポーネントを特徴とするCTAODを提案する。 まず、オブジェクトレベルのコントラスト学習モジュールは、対象領域における特徴表現を洗練させるために、コントラスト学習のためのオブジェクトレベルの特徴を抽出する。 第2に、適応監視モジュールは、不要な適応を動的にスキップし、予測された信頼度スコアに基づいてカテゴリ固有のしきい値を更新して、効率を向上し、擬似ラベルの品質を向上させる。 最後に、データ駆動確率的復元機構は、より高い可能性で不活性パラメータを選択的にリセットし、本質的な知識の保持を保証する。 CTAODは既存の方法よりも優れ,特に3.2mAPの改善とCityscapes-to-Cityscapes-C CTTAタスクの効率20%向上を実現している。 コードはリリースされます。

Real-world application models are commonly deployed in dynamic environments, where the target domain distribution undergoes temporal changes. Continual Test-Time Adaptation (CTTA) has recently emerged as a promising technique to gradually adapt a source-trained model to continually changing target domains. Despite recent advancements in addressing CTTA, two critical issues remain: 1) Fixed thresholds for pseudo-labeling in existing methodologies generate low-quality pseudo-labels, as model confidence varies across categories and domains; 2) Stochastic parameter restoration methods for mitigating catastrophic forgetting fail to effectively preserve critical information due to their intrinsic randomness. To tackle these challenges for detection models in CTTA scenarios, we present CTAOD, featuring three core components. Firstly, the object-level contrastive learning module extracts object-level features for contrastive learning to refine the feature representation in the target domain. Secondly, the adaptive monitoring module dynamically skips unnecessary adaptation and updates the category-specific threshold based on predicted confidence scores to enable efficiency and improve the quality of pseudo-labels. Lastly, the data-driven stochastic restoration mechanism selectively reset inactive parameters with higher possibilities, ensuring the retention of essential knowledge. We demonstrate the effectiveness of CTAOD on four CTTA object detection tasks, where CTAOD outperforms existing methods, especially achieving a 3.2 mAP improvement and a 20% increase in efficiency on the Cityscapes-to-Cityscapes-C CTTA task. The code will be released.
翻訳日:2024-08-21 02:18:57 公開日:2024-08-18
# VSA分散表現を用いた帰納的推論学習に向けて

Towards Learning Abductive Reasoning using VSA Distributed Representations ( http://arxiv.org/abs/2406.19121v2 )

ライセンス: Link先を確認
Giacomo Camposampiero, Michael Hersche, Aleksandar Terzić, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi, (参考訳) 本稿では,Abductive Rule Learner with Context-Awareness(ARLC)を紹介する。 ARLCは、誘導的推論のための新しくより広く適用可能な訓練目標を特徴とし、Ravenの進行行列(RPM)を解く際に、より良い解釈可能性と高い精度をもたらす。 ARLCはドメイン知識のプログラミングとデータ分散の基礎となるルールの学習を可能にする。 我々は、I-RAVENデータセット上でARLCを評価し、分布内および分布外の両方(属性-ルール対)テストで最先端の精度を示す。 ARLCは、桁数が桁違いに少ないにもかかわらず、大きな言語モデルを含む、ニューロシンボリックおよびコネクショニストのベースラインを超越している。 プログラムされた知識の上の例から漸進的に学習することで、ARLCのプログラム後のトレーニングに対する堅牢性を示す。 我々は、ARLCの2x2 RPM星座から目に見えない星座へのシームレスな転移学習を検証する。 私たちのコードはhttps://github.com/IBM/abductive-rule-learner-with-context-awarenessで利用可能です。

We introduce the Abductive Rule Learner with Context-awareness (ARLC), a model that solves abstract reasoning tasks based on Learn-VRF. ARLC features a novel and more broadly applicable training objective for abductive reasoning, resulting in better interpretability and higher accuracy when solving Raven's progressive matrices (RPM). ARLC allows both programming domain knowledge and learning the rules underlying a data distribution. We evaluate ARLC on the I-RAVEN dataset, showcasing state-of-the-art accuracy across both in-distribution and out-of-distribution (unseen attribute-rule pairs) tests. ARLC surpasses neuro-symbolic and connectionist baselines, including large language models, despite having orders of magnitude fewer parameters. We show ARLC's robustness to post-programming training by incrementally learning from examples on top of programmed knowledge, which only improves its performance and does not result in catastrophic forgetting of the programmed solution. We validate ARLC's seamless transfer learning from a 2x2 RPM constellation to unseen constellations. Our code is available at https://github.com/IBM/abductive-rule-learner-with-context-awareness.
翻訳日:2024-08-21 02:18:57 公開日:2024-08-18
# 持続的捕食問題に対する時間依存のオンライン学習

Online Learning of Temporal Dependencies for Sustainable Foraging Problem ( http://arxiv.org/abs/2407.01501v2 )

ライセンス: Link先を確認
John Payne, Aishwaryaprajna, Peter R. Lewis, (参考訳) 持続可能な採餌問題は、マルチエージェント環境での社会的ジレンマを扱う際のエージェント認知の形式を探究するための動的環境テストベッドである。 エージェントは、食餌を通じて個人の報酬の誘惑に抵抗し、持続可能性という集合的な長期的な目標を選択する必要がある。 本稿では,ニューロ進化とディープ・リカレントQ-ネットワークスにおけるオンライン学習の手法を検討した。 さらに,長期記憶による時間的依存関係の学習が,長期にわたる持続的捕食戦略の発達に役立てられるかどうかについても検討する。 その結果, 長期記憶支援エージェントの統合は, 単一エージェントの持続可能な戦略開発に有効であったが, 多エージェントシナリオにおいて生じる社会的ジレンマの管理には役に立たなかった。

The sustainable foraging problem is a dynamic environment testbed for exploring the forms of agent cognition in dealing with social dilemmas in a multi-agent setting. The agents need to resist the temptation of individual rewards through foraging and choose the collective long-term goal of sustainability. We investigate methods of online learning in Neuro-Evolution and Deep Recurrent Q-Networks to enable agents to attempt the problem one-shot as is often required by wicked social problems. We further explore if learning temporal dependencies with Long Short-Term Memory may be able to aid the agents in developing sustainable foraging strategies in the long term. It was found that the integration of Long Short-Term Memory assisted agents in developing sustainable strategies for a single agent, however failed to assist agents in managing the social dilemma that arises in the multi-agent scenario.
翻訳日:2024-08-21 02:18:56 公開日:2024-08-18
# CogErgLLM:認知エルゴノミクスを用いた大規模言語モデルシステム設計の展望

CogErgLLM: Exploring Large Language Model Systems Design Perspective Using Cognitive Ergonomics ( http://arxiv.org/abs/2407.02885v3 )

ライセンス: Link先を確認
Azmine Toushik Wasi, (参考訳) LLMと認知エルゴノミクスを統合することは、人間とAIの相互作用における安全性、信頼性、およびユーザ満足度を高めるために不可欠である。 現在のLLM設計では、この統合が欠如していることが多く、人間の認知能力や制限を完全に満たさないシステムにつながっている。 認知科学手法を取り入れることに十分な焦点が当てられると、LLM出力のバイアスが悪化する一方、ユーザ中心の設計原則の一貫性のない適用は、準最適ユーザー体験をもたらす。 これらの課題に対処するため,本論文では,認知人間工学の原則をLLM設計に重要な統合し,倫理的LLM開発のための包括的枠組みと実践的ガイドラインを提供することを目的としている。 我々の貢献を通じて、認知人間工学をLLMシステムに統合し、より安全で信頼性が高く倫理的に健全な人間とAIの相互作用を育むための理解と実践の促進を目指しています。

Integrating cognitive ergonomics with LLMs is essential for enhancing safety, reliability, and user satisfaction in human-AI interactions. Current LLM design often lacks this integration, leading to systems that may not fully align with human cognitive capabilities and limitations. Insufficient focus on incorporating cognitive science methods exacerbates biases in LLM outputs, while inconsistent application of user-centered design principles results in sub-optimal user experiences. To address these challenges, our position paper explores the critical integration of cognitive ergonomics principles into LLM design, aiming to provide a comprehensive framework and practical guidelines for ethical LLM development. Through our contributions, we seek to advance understanding and practice in integrating cognitive ergonomics into LLM systems, fostering safer, more reliable, and ethically sound human-AI interactions.
翻訳日:2024-08-21 02:18:56 公開日:2024-08-18
# 命令の追従を超えて:大言語モデルの推論規則の追従を評価する

Beyond Instruction Following: Evaluating Inferential Rule Following of Large Language Models ( http://arxiv.org/abs/2407.08440v2 )

ライセンス: Link先を確認
Wangtao Sun, Chenxiang Zhang, Xueyou Zhang, Ziyang Huang, Haotian Xu, Pei Chen, Shizhu He, Jun Zhao, Kang Liu, (参考訳) LLM(Large Language Models)は、強力な命令追従能力を示しているが、現実のシナリオにおけるルールによって制御され、ガイドされ、安全で正確でインテリジェントである。 これにより、LLMの推論規則追従能力の保持が要求される。 しかし、LLMの推論規則追従能力について明確に評価する研究はほとんどない。 LLMの推論規則追従能力を評価しようとする従来の研究は、推論規則追従のシナリオと命令追従のシナリオを区別することができない。 そこで本研究では,まず,推論規則追従の概念を明確にし,推論規則追従能力の多様化範囲を評価するための総合的なベンチマークであるルールベンチを提案する。 各種LLMに関する実験結果から, 以下のルールで制限されていることが明らかとなった。 評価結果に基づく分析により,LLMの改良に関する知見が得られた。 また、LLMがルールベンチを解くのに役立つIRFT(Inferential Rule-Following Tuning)を提案する。 https://anonymous.4open.science/r/llm-rule-following-B3E3/

Although Large Language Models (LLMs) have demonstrated strong instruction-following ability, they are further supposed to be controlled and guided by rules in real-world scenarios to be safe, accurate, and intelligent. This demands the possession of inferential rule-following capability of LLMs. However, few works have made a clear evaluation of the inferential rule-following capability of LLMs. Previous studies that try to evaluate the inferential rule-following capability of LLMs fail to distinguish the inferential rule-following scenarios from the instruction-following scenarios. Therefore, this paper first clarifies the concept of inferential rule-following and proposes a comprehensive benchmark, RuleBench, to evaluate a diversified range of inferential rule-following abilities. Our experimental results on a variety of LLMs show that they are still limited in following rules. Our analysis based on the evaluation results provides insights into the improvements for LLMs toward a better inferential rule-following intelligent agent. We further propose Inferential Rule-Following Tuning (IRFT), which outperforms IFT in helping LLMs solve RuleBench. The data and code can be found at: https://anonymous.4open.science/r/llm-rule-following-B3E3/
翻訳日:2024-08-21 02:09:01 公開日:2024-08-18
# 深部ニューラルネットワークのグラフ展開と拡張限界

Graph Expansions of Deep Neural Networks and their Universal Scaling Limits ( http://arxiv.org/abs/2407.08459v3 )

ライセンス: Link先を確認
Nicola Muca Cirone, Jad Hamdan, Cristopher Salvi, (参考訳) 本稿では,乱数行列理論からの属拡大手法を用いて,ニューラルネットワークのスケーリング限界を求める統一的な手法を提案する。 このアプローチは、ODE のブッチャー級数に類似したニューラルネットワークの新たな拡張から始まり、ファ=ア・ディ・ブルーノの公式を任意の数の合成に一般化することで得られる。 この拡張において、単項写像の役割は、辺がランダム行列に対応する有向グラフによってインデックス付けされた無作為な多重線型写像によって演じられ、これは作用素グラフと呼ばれる。 この拡張は活性化関数の効果を線形化し、各項の期待値を計算するウィックの原理を直接適用することができる。 次に、対応するグラフを曲面に埋め込み、それらのオイラー特性を計算することによって、各項への主要な寄与を決定する。 さらに、解析演算とグラフィカル演算の対応性を開発することにより、ニューラルネットワークの入力出力ジャコビアンと同様のグラフ展開を求め、その無限幅限界を相対的容易性で導出する。 特に、ジャコビアンの極限特異値分布のモーメントに対する明示的な公式が見つかる。 すると、これらの結果は、モーメント仮定を満たすエントリ、複素行列、スパース行列など、より一般的な重みを持つネットワークに対して成り立つことを示す。

We present a unified approach to obtain scaling limits of neural networks using the genus expansion technique from random matrix theory. This approach begins with a novel expansion of neural networks which is reminiscent of Butcher series for ODEs, and is obtained through a generalisation of Fa\`a di Bruno's formula to an arbitrary number of compositions. In this expansion, the role of monomials is played by random multilinear maps indexed by directed graphs whose edges correspond to random matrices, which we call operator graphs. This expansion linearises the effect of the activation functions, allowing for the direct application of Wick's principle to compute the expectation of each of its terms. We then determine the leading contribution to each term by embedding the corresponding graphs onto surfaces, and computing their Euler characteristic. Furthermore, by developing a correspondence between analytic and graphical operations, we obtain similar graph expansions for the neural tangent kernel as well as the input-output Jacobian of the original neural network, and derive their infinite-width limits with relative ease. Notably, we find explicit formulae for the moments of the limiting singular value distribution of the Jacobian. We then show that all of these results hold for networks with more general weights, such as general matrices with i.i.d. entries satisfying moment assumptions, complex matrices and sparse matrices.
翻訳日:2024-08-21 02:09:01 公開日:2024-08-18
# 確率論的安全批判システムのための一般化可能な物理インフォームドラーニング

Generalizable Physics-Informed Learning for Stochastic Safety-Critical Systems ( http://arxiv.org/abs/2407.08868v4 )

ライセンス: Link先を確認
Zhuoyuan Wang, Albert Chern, Yorie Nakahira, (参考訳) 安全な意思決定には、長期的リスクの正確な見積もりが不可欠であるが、稀なリスクイベントや長期的トラジェクトリからのサンプリングは、違法にコストがかかる可能性がある。 リスク勾配は、学習と制御のための多くの一階法で利用できるが、無限小因子がサンプリングノイズを著しく増幅するので、モンテカルロ法(MC)を用いて勾配推定を得るのは難しい。 このギャップを生かして,十分なリスクイベントを伴わない短期サンプルを用いて,長期的リスク確率とその勾配を評価するための効率的な手法を提案する。 まず、4種類の長期リスク確率が、ある偏微分方程式(PDE)の解であることが導かれる。 そこで本研究では,データと物理情報(前述のPDE)を統合した物理インフォームド学習手法を提案する。 物理情報は、利用可能なデータを超えて情報を伝達し、利用可能なデータを超えて証明可能な一般化を得るのに役立つ。 最後に,提案手法がサンプル効率を向上し,未確認領域を一般化し,システムパラメータの変化に適応できることをシミュレーションで実証した。

Accurate estimate of long-term risk is critical for safe decision-making, but sampling from rare risk events and long-term trajectories can be prohibitively costly. Risk gradient can be used in many first-order techniques for learning and control methods, but gradient estimate is difficult to obtain using Monte Carlo (MC) methods because the infinitesimal divisor may significantly amplify sampling noise. Motivated by this gap, we propose an efficient method to evaluate long-term risk probabilities and their gradients using short-term samples without sufficient risk events. We first derive that four types of long-term risk probability are solutions of certain partial differential equations (PDEs). Then, we propose a physics-informed learning technique that integrates data and physics information (aforementioned PDEs). The physics information helps propagate information beyond available data and obtain provable generalization beyond available data, which in turn enables long-term risk to be estimated using short-term samples of safe events. Finally, we demonstrate in simulation that the proposed technique has improved sample efficiency, generalizes well to unseen regions, and adapts to changing system parameters.
翻訳日:2024-08-21 02:09:01 公開日:2024-08-18
# Show, Don't Tell: ChildPlayによるテキスト理解以上の大規模言語モデルの評価

Show, Don't Tell: Evaluating Large Language Models Beyond Textual Understanding with ChildPlay ( http://arxiv.org/abs/2407.11068v3 )

ライセンス: Link先を確認
Gonçalo Hora de Carvalho, Oscar Knap, Robert Pollice, (参考訳) GPT-3.5 や GPT-4 のような LLM は、特に非言語領域において、より広い認知機能を持つという仮説を探求する。 我々のアプローチは、戦略的思考と意思決定を評価するために、ASCIIでエンコードされたTic-Tac-Toe、Connect Four、Battleshipといったゲームを統合することで、標準的な言語ベンチマークを超えて拡張されます。 モデルがトレーニングデータを超えて一般化できる能力を評価するために,さらに2つのゲームを導入する。 最初のゲームであるLEGO Connect Language (LCL)は、空間論理を理解してアセンブリ命令に従うためにモデルの能力をテストする。 第2のゲーム、形状のゲームは、ゼロの行列内で1sで表される形状を識別するためにモデルに挑戦し、さらに空間推論のスキルをテストする。 この"Show, don't tell"戦略は、単にモデルに問い合わせるのではなく、ゲームを使用する。 その結果,GPT-3.5 と GPT-4 のプレイ能力は標準ベンチマークに習熟しているにもかかわらず,事前学習をせずに完全に観察可能なゲームについて推論できることが示唆された。 どちらのモデルも、Tic-Tac-ToeとConnect Fourでの敗戦を予測できず、バトルシップを正しくプレイすることができない。 GPT-4は形状のゲームである程度成功したが、両方のモデルはLCLゲームで提示された組立タスクで失敗する。 これらの結果は,GPTモデルが会話の熟練度や基本ルールの理解をエミュレートできる一方で,戦略ゲームプレイや空間推論タスクにおける性能は極めて限定的であることを示唆している。 重要なことに、これは現在のLLMベンチマークの盲点であり、ゲームプレイベンチマークスイートであるChildPlay(https://github.com/child-play-neurips/child-play)で強調します。 本研究は, GPT-3.5 と GPT-4 とほぼ同じ大きさの LLM の創発的知能の主張と推論能力に関する注意深い物語を提供する。

We explore the hypothesis that LLMs, such as GPT-3.5 and GPT-4, possess broader cognitive functions, particularly in non-linguistic domains. Our approach extends beyond standard linguistic benchmarks by incorporating games like Tic-Tac-Toe, Connect Four, and Battleship, encoded via ASCII, to assess strategic thinking and decision-making. To evaluate the models' ability to generalize beyond their training data, we introduce two additional games. The first game, LEGO Connect Language (LCL), tests the models' capacity to understand spatial logic and follow assembly instructions. The second game, the game of shapes, challenges the models to identify shapes represented by 1s within a matrix of zeros, further testing their spatial reasoning skills. This "show, don't tell" strategy uses games instead of simply querying the models. Our results show that despite their proficiency on standard benchmarks, GPT-3.5 and GPT-4's abilities to play and reason about fully observable games without pre-training is mediocre. Both models fail to anticipate losing moves in Tic-Tac-Toe and Connect Four, and they are unable to play Battleship correctly. While GPT-4 shows some success in the game of shapes, both models fail at the assembly tasks presented in the LCL game. These results suggest that while GPT models can emulate conversational proficiency and basic rule comprehension, their performance in strategic gameplay and spatial reasoning tasks is very limited. Importantly, this reveals a blind spot in current LLM benchmarks that we highlight with our gameplay benchmark suite ChildPlay (https://github.com/child-play-neurips/child-play). Our findings provide a cautionary tale about claims of emergent intelligence and reasoning capabilities of LLMs that are roughly the size of GPT-3.5 and GPT-4.
翻訳日:2024-08-21 02:09:01 公開日:2024-08-18
# ESP-MedSAM:Universal Domain-Generalized Medical Image Segmentationのための効率的なセルフプロンピングSAM

ESP-MedSAM: Efficient Self-Prompting SAM for Universal Domain-Generalized Medical Image Segmentation ( http://arxiv.org/abs/2407.14153v4 )

ライセンス: Link先を確認
Qing Xu, Jiaxuan Li, Xiangjian He, Ziyu Liu, Zhen Chen, Wenting Duan, Chenxin Li, Maggie M. He, Fiseha B. Tesema, Wooi P. Cheah, Yi Wang, Rong Qu, Jonathan M. Garibaldi, (参考訳) 異なるモダリティにまたがるディープニューラルネットワークの普遍性と、未確認領域への一般化能力は、医療画像セグメンテーションにおいて重要な役割を果たす。 最近のSegment Anything Model (SAM)は、両方の設定でその可能性を実証している。 しかし、膨大な計算コスト、プロンプトとしての手動アノテーションの要求、SAMの競合を起こしやすいデコードプロセスは、臨床シナリオにおけるその一般化性と適用性を低下させる。 これらの課題に対処するために,ESP-MedSAM という汎用医療画像分割のための効率的なセルフプロンプトSAMを提案する。 具体的には、まずMMDKD(Multi-Modal Decoupled Knowledge Distillation)戦略を考案し、多様なモダリティのための識別視覚特徴を生成する軽量なセミパラメータ共有画像エンコーダを構築する。 さらに、セグメント化復号を導くための高品質な高密度プロンプト埋め込みを自動生成するセルフパッチ・プロンプト・ジェネレータ(SPPG)を導入する。 最後に,QDMD(Query-Decoupled Modality Decoder)の設計を行った。 ESP-MedSAMは様々な医用画像のセグメンテーションタスクにおいて最先端の成果を上げ、優れたモダリティの普遍性と一般化能力を示す。 特に ESP-MedSAM では SAM-H と比較して 4.5 % のパラメータしか使用していない。 ソースコードはhttps://github.com/xq141839/ESP-MedSAMで入手できる。

The universality of deep neural networks across different modalities and their generalization capabilities to unseen domains play an essential role in medical image segmentation. The recent Segment Anything Model (SAM) has demonstrated its potential in both settings. However, the huge computational costs, demand for manual annotations as prompts and conflict-prone decoding process of SAM degrade its generalizability and applicability in clinical scenarios. To address these issues, we propose an efficient self-prompting SAM for universal domain-generalized medical image segmentation, named ESP-MedSAM. Specifically, we first devise the Multi-Modal Decoupled Knowledge Distillation (MMDKD) strategy to construct a lightweight semi-parameter sharing image encoder that produces discriminative visual features for diverse modalities. Further, we introduce the Self-Patch Prompt Generator (SPPG) to automatically generate high-quality dense prompt embeddings for guiding segmentation decoding. Finally, we design the Query-Decoupled Modality Decoder (QDMD) that leverages a one-to-one strategy to provide an independent decoding channel for every modality. Extensive experiments indicate that ESP-MedSAM outperforms state-of-the-arts in diverse medical imaging segmentation tasks, displaying superior modality universality and generalization capabilities. Especially, ESP-MedSAM uses only 4.5\% parameters compared to SAM-H. The source code is available at https://github.com/xq141839/ESP-MedSAM.
翻訳日:2024-08-21 02:09:01 公開日:2024-08-18
# M&M:Mamba-based Mastoidectomy for cochlear implant surgery with noisy data

M&M: Unsupervised Mamba-based Mastoidectomy for Cochlear Implant Surgery with Noisy Data ( http://arxiv.org/abs/2407.15787v3 )

ライセンス: Link先を確認
Yike Zhang, Eduardo Davalos, Dingjie Su, Ange Lou, Jack H. Noble, (参考訳) コクラーインプラント(CI)法では、内耳内にあるコクリーに電極の配列を挿入する。 マストイドミー (Mastoidectomy) は、高速ドリルを用いて側頭骨のマストイド領域の一部を除去し、中耳と内耳を通して内耳への安全なアクセスを可能にする外科手術である。 術前CT(Computerized Tomography)ボリュームを用いて作成した計画を2次元手術顕微鏡で記録する術中ナビゲーションシステムを開発することを目的としている。 そこで本研究では, 術前CTのみを用いて, マストイドの容積を合成する方法を提案する。 マストイドを合成するための教師なし学習フレームワークを提案する。 本手法は,マストイド切除時に摘出された領域が可視であるが,金属加工物,低信号-雑音比,電極配線の影響を受けても,手動によるデータのクリーニングやラベル付けを避けるために,術後CTスキャンを用いる。 術式別では, 口径70.0%, 口径70.0%の乳頭切除術を施行した。 本手法は,術中顕微鏡に術前計画の登録に使用可能な術前計画において,現実的なマストイド切除領域を予測し,術中ナビゲーションの進歩を示すものである。

Cochlear Implant (CI) procedures involve inserting an array of electrodes into the cochlea located inside the inner ear. Mastoidectomy is a surgical procedure that uses a high-speed drill to remove part of the mastoid region of the temporal bone, providing safe access to the cochlea through the middle and inner ear. We aim to develop an intraoperative navigation system that registers plans created using 3D preoperative Computerized Tomography (CT) volumes with the 2D surgical microscope view. Herein, we propose a method to synthesize the mastoidectomy volume using only the preoperative CT scan, where the mastoid is intact. We introduce an unsupervised learning framework designed to synthesize mastoidectomy. For model training purposes, this method uses postoperative CT scans to avoid manual data cleaning or labeling, even when the region removed during mastoidectomy is visible but affected by metal artifacts, low signal-to-noise ratio, or electrode wiring. Our approach estimates mastoidectomy regions with a mean dice score of 70.0%. This approach represents a major step forward for CI intraoperative navigation by predicting realistic mastoidectomy-removed regions in preoperative planning that can be used to register the pre-surgery plan to intraoperative microscopy.
翻訳日:2024-08-21 01:59:09 公開日:2024-08-18
# DHGS:ハイブリッド・ガウシアン・スプレイティングを分離して運転シーンを撮影

DHGS: Decoupled Hybrid Gaussian Splatting for Driving Scene ( http://arxiv.org/abs/2407.16600v3 )

ライセンス: Link先を確認
Xi Shi, Lingli Chen, Peng Wei, Xi Wu, Tian Jiang, Yonggang Luo, Lecheng Xie, (参考訳) 既存のガウシアン・スプレイティングの手法は、駆動シーンにおいて満足のいく斬新なビュー・シンセサイザーを実現するのに不足することが多いが、主な原因は、工芸的なデザインや、関連する要素の幾何学的制約の欠如である。 本稿では,DHGS(Decoupled Hybrid Gaussian Splatting)と呼ばれるニューラルレンダリング手法を提案する。 この研究の斬新さは、道路と非道路の層のための分離されたハイブリッドピクセルレベルのブレンダーにある。 それでも、重ね合わせにおける一貫性と連続性は、提案した深度順序ハイブリッドレンダリング戦略を通じて保存される。 さらに,SDF(Signed Distance Function)からなる暗黙の道路表現を訓練し,微妙な幾何学的特性で道路表面を監督する。 補助透過率損失と整合性損失とを併用して、知覚不能境界と高次忠実度を有する新規な画像を得る。 Waymoデータセットの実質的な実験は、DHGSが最先端の手法より優れていることを証明している。 より多くのビデオ証拠が与えられるプロジェクトページは、https://ironbrotherstyle.github.io/dhgs_webである。

Existing Gaussian splatting methods often fall short in achieving satisfactory novel view synthesis in driving scenes, primarily due to the absence of crafty designs and geometric constraints for the involved elements. This paper introduces a novel neural rendering method termed Decoupled Hybrid Gaussian Splatting (DHGS), targeting at promoting the rendering quality of novel view synthesis for static driving scenes. The novelty of this work lies in the decoupled and hybrid pixel-level blender for road and non-road layers, without the conventional unified differentiable rendering logic for the entire scene. Still, consistency and continuity in superimposition are preserved through the proposed depth-ordered hybrid rendering strategy. Additionally, an implicit road representation comprised of a Signed Distance Function (SDF) is trained to supervise the road surface with subtle geometric attributes. Accompanied by the use of auxiliary transmittance loss and consistency loss, novel images with imperceptible boundary and elevated fidelity are ultimately obtained. Substantial experiments on the Waymo dataset prove that DHGS outperforms the state-of-the-art methods. The project page where more video evidences are given is: https://ironbrotherstyle.github.io/dhgs_web.
翻訳日:2024-08-21 01:59:09 公開日:2024-08-18
# グローバル信頼度に基づくファイナンシャルフラッド検出のためのグラフニューラルネットワーク

Global Confidence Degree Based Graph Neural Network for Financial Fraud Detection ( http://arxiv.org/abs/2407.17333v2 )

ライセンス: Link先を確認
Jiaxun Liu, Yue Tian, Guanjun Liu, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化財務データを扱う能力や、隣人の情報を集約して多層接続をモデル化する能力に優れており、金融不正検出に広く利用されている。 しかし、これらのGNNベースの手法は、近隣の情報を抽出することに重点を置いているが、グローバルな視点を無視している。 本稿では,GCD(Global Confidence Degree)の概念と計算公式を提示し,不正行為におけるカモフラージュの課題に対処し,より多くのグローバル情報をキャプチャできるGCDベースのGNN(GCD-GNN)を設計する。 各ノードに対して正確なGCDを得るために,多層パーセプトロンを用いて特徴を変換し,新しい特徴とそれに対応するプロトタイプを用いて不要な情報を除去する。 ノードのGCDはノードの典型性を評価し,GCDを利用してメッセージアグリゲーションの注意値を生成する。 このプロセスは、元のGCDとその逆の両方を通して行われ、高いGCDを持つ典型的な隣人と低いGCDを持つ非定型隣人の両方を捕捉することができる。 2つの公開データセットに対する大規模な実験により、GCD-GNNは最先端のベースラインよりも優れており、GCDの有効性を強調している。 また,GCD-GNN(GCD-GNN$_{light}$)の軽量なGCD-GNN(GCD-GNN$_{light}$)も設計した。 しかし、GCD-GNN$_{light}$はGCD-GNNよりも収束速度と推論速度が優れていることは明らかである。

Graph Neural Networks (GNNs) are widely used in financial fraud detection due to their excellent ability on handling graph-structured financial data and modeling multilayer connections by aggregating information of neighbors. However, these GNN-based methods focus on extracting neighbor-level information but neglect a global perspective. This paper presents the concept and calculation formula of Global Confidence Degree (GCD) and thus designs GCD-based GNN (GCD-GNN) that can address the challenges of camouflage in fraudulent activities and thus can capture more global information. To obtain a precise GCD for each node, we use a multilayer perceptron to transform features and then the new features and the corresponding prototype are used to eliminate unnecessary information. The GCD of a node evaluates the typicality of the node and thus we can leverage GCD to generate attention values for message aggregation. This process is carried out through both the original GCD and its inverse, allowing us to capture both the typical neighbors with high GCD and the atypical ones with low GCD. Extensive experiments on two public datasets demonstrate that GCD-GNN outperforms state-of-the-art baselines, highlighting the effectiveness of GCD. We also design a lightweight GCD-GNN (GCD-GNN$_{light}$) that also outperforms the baselines but is slightly weaker than GCD-GNN on fraud detection performance. However, GCD-GNN$_{light}$ obviously outperforms GCD-GNN on convergence and inference speed.
翻訳日:2024-08-21 01:59:09 公開日:2024-08-18
# 多目的最適化におけるNSGA-IIの困難を解消する群集距離

A Crowding Distance That Provably Solves the Difficulties of the NSGA-II in Many-Objective Optimization ( http://arxiv.org/abs/2407.17687v2 )

ライセンス: Link先を確認
Weijie Zheng, Yao Gao, Benjamin Doerr, (参考訳) 最近の理論的研究により、NSGA-IIは2つ以上の目的を持つ問題を解くのに非常に困難であることが示されている。 対照的に、NSGA-IIIやSMS-EMOAのようなアルゴリズムは、NSGA-IIとは二次選択基準のみが異なるため、これらの状況下では良好に機能する。 NSGA-IIのこの欠点を解決するため、同時に広く受け入れられている群集距離の利点を保ちながら、これらの過去の研究の洞察を用いて、真に群集距離と呼ばれる群集距離の変種を定義する。 古典的な群集距離と異なり、任意の目的に対して、小さな群集距離値が、他の解が同様の目的ベクトルを持つことを示す望ましい性質を持つ。 この特性に基づいて,真に群集距離を持つNSGA-IIの数学的実行時解析を行う。 このアルゴリズムは、NSGA-IIIやSMS-EMOAと同じ(多項式)漸近型ランタイムにおいて、OneMinMax、COCZ、LOTZ、OJZJ$_k$の多目的バージョンを解くことができることを示す。 これは、古典的なNSGA-IIに対して示されている指数的な下界とは対照的である。 これらの問題に対して、NSGA-IIは古典的なNSGA-IIと類似した性能を有しており、より小さい許容個体数から得られる。 双目的のOneMinMax問題に対しては、Paretoフロントを近似する際の(最小限の)パフォーマンスも観察する。 これらの結果から,NSGA-IIの真正版は従来のNSGA-IIと2つの目的において同等に優れた性能を示すが,2つ以上の目的において劇的な問題を解決できることが示唆された。

Recent theoretical works have shown that the NSGA-II can have enormous difficulties to solve problems with more than two objectives. In contrast, algorithms like the NSGA-III or SMS-EMOA, differing from the NSGA-II only in the secondary selection criterion, provably perform well in these situations. To remedy this shortcoming of the NSGA-II, but at the same time keep the advantages of the widely accepted crowding distance, we use the insights of these previous work to define a variant of the crowding distance, called truthful crowding distance. Different from the classic crowding distance, it has for any number of objectives the desirable property that a small crowding distance value indicates that some other solution has a similar objective vector. Building on this property, we conduct mathematical runtime analyses for the NSGA-II with truthful crowding distance. We show that this algorithm can solve the many-objective versions of the OneMinMax, COCZ, LOTZ, and OJZJ$_k$ problems in the same (polynomial) asymptotic runtimes as the NSGA-III and the SMS-EMOA. This contrasts the exponential lower bounds previously shown for the classic NSGA-II. For the bi-objective versions of these problems, our NSGA-II has a similar performance as the classic NSGA-II, gaining however from smaller admissible population sizes. For the bi-objective OneMinMax problem, we also observe a (minimally) better performance in approximating the Pareto front. These results suggest that our truthful version of the NSGA-II has the same good performance as the classic NSGA-II in two objectives, but can resolve the drastic problems in more than two objectives.
翻訳日:2024-08-21 01:59:09 公開日:2024-08-18
# 多目的特徴選択における多様性の促進

Enhancing Diversity in Multi-objective Feature Selection ( http://arxiv.org/abs/2407.17795v2 )

ライセンス: Link先を確認
Sevil Zanjani Miyandoab, Shahryar Rahnamayan, Azam Asilian Bidgoli, Sevda Ebrahimi, Masoud Makrehchi, (参考訳) データ前処理とモデル構築パイプラインにおいて、機能選択は重要な役割を果たす。 個体群に基づく最適化手法では, 多様な個体群の生成は, 特に多目的多目的最適化問題において, 問題を適切に探索する上で最も重要である。 本研究は,いくつかの先行研究論文から得られた知見に則って,クロスオーバーと突然変異操作が一般的であり,高品質な多種多様な個体を生産する能力が欠如しており,各地域において限られた地域に限定される傾向にあることを示す。 本稿では,遺伝的アルゴリズムNSGA-IIの確立された多目的スキームにおける個体群の多様性の向上について紹介する。 この強化は、真の初期化法と、各世代における再初期化アプローチとして、新しいランダムに生成された個人に対する最悪の個人の置換という、2つの重要な構成要素によって達成される。 提案する多目的特徴選択法は,12の現実世界の分類問題に対して,2,400から5万近い特徴量で検証を行う。 以上の結果から,本手法を用いて生み出した個体群を同一数の新規ランダム個体群に置き換えることにより,個体群の品質が著しく向上し,多目的アルゴリズムの性能が向上することが示唆された。

Feature selection plays a pivotal role in the data preprocessing and model-building pipeline, significantly enhancing model performance, interpretability, and resource efficiency across diverse domains. In population-based optimization methods, the generation of diverse individuals holds utmost importance for adequately exploring the problem landscape, particularly in highly multi-modal multi-objective optimization problems. Our study reveals that, in line with findings from several prior research papers, commonly employed crossover and mutation operations lack the capability to generate high-quality diverse individuals and tend to become confined to limited areas around various local optima. This paper introduces an augmentation to the diversity of the population in the well-established multi-objective scheme of the genetic algorithm, NSGA-II. This enhancement is achieved through two key components: the genuine initialization method and the substitution of the worst individuals with new randomly generated individuals as a re-initialization approach in each generation. The proposed multi-objective feature selection method undergoes testing on twelve real-world classification problems, with the number of features ranging from 2,400 to nearly 50,000. The results demonstrate that replacing the last front of the population with an equivalent number of new random individuals generated using the genuine initialization method and featuring a limited number of features substantially improves the population's quality and, consequently, enhances the performance of the multi-objective algorithm.
翻訳日:2024-08-21 01:59:09 公開日:2024-08-18
# 量子調和振動子における隠れオントロジーの変動

The Hidden Ontological Variable in Quantum Harmonic Oscillators ( http://arxiv.org/abs/2407.18153v3 )

ライセンス: Link先を確認
Gerard t Hooft, (参考訳) すべての量子調和振動子は、古典論理の観点から解釈できるような存在論的変数を持つ。 多くの量子モデルは量子調和振動子に基づいているため、この観測は量子力学の解釈方法の理解を深める道を開く可能性がある。

All quantum harmonic oscillators possess an ontological variable, which implies that they may be interpreted in terms of classical logic. Since many quantum models are based on quantum harmonic oscillators, this observation may open pathways towards a better understanding of how to interpret quantum mechanics.
翻訳日:2024-08-21 01:59:09 公開日:2024-08-18
# トポロジー行動による日内電力グリッド運用のための模擬学習

Imitation Learning for Intra-Day Power Grid Operation through Topology Actions ( http://arxiv.org/abs/2407.19865v2 )

ライセンス: Link先を確認
Matthijs de Jong, Jan Viebahn, Yuliya Shapovalova, (参考訳) 再生可能エネルギーの発生の増加により電力グリッドの運用は複雑化しつつある。 近年のL2RPN(Learning To Run a Power Network)コンペティションでは、人間の送電網の運用を支援するために人工エージェントの使用が奨励されている。 本稿では,トポロジ動作による実時間電力グリッド動作における模擬学習の性能について検討する。 特に、グリージーエージェントとN-1エージェントの2つのルールベースの専門家エージェントについて検討する。 N-1の安全性を考慮に入れているため、後者の方が計算コストが高いが、運用性能ははるかに高い。 我々は、専門家のステートアクションペアに完全接続ニューラルネットワーク(FCNN)をトレーニングし、それを2つの方法で評価する。 まず,クラス不均衡とクラス重複のため,広範なハイパーパラメータチューニングにもかかわらず,分類精度が制限されていることを発見した。 第2に、パワーシステムエージェントとして、FCNNは専門家エージェントよりもわずかに劣っている。 さらに、最小限の追加シミュレーションを取り入れたハイブリッドエージェントは、専門家エージェントのパフォーマンスと大幅に低い計算コストで一致させる。 その結果、模倣学習は高速で高性能なグリッドエージェントの開発を約束し、将来のL2RPN研究におけるさらなる探索の動機となっている。

Power grid operation is becoming increasingly complex due to the increase in generation of renewable energy. The recent series of Learning To Run a Power Network (L2RPN) competitions have encouraged the use of artificial agents to assist human dispatchers in operating power grids. In this paper we study the performance of imitation learning for day-ahead power grid operation through topology actions. In particular, we consider two rule-based expert agents: a greedy agent and a N-1 agent. While the latter is more computationally expensive since it takes N-1 safety considerations into account, it exhibits a much higher operational performance. We train a fully-connected neural network (FCNN) on expert state-action pairs and evaluate it in two ways. First, we find that classification accuracy is limited despite extensive hyperparameter tuning, due to class imbalance and class overlap. Second, as a power system agent, the FCNN performs only slightly worse than expert agents. Furthermore, hybrid agents, which incorporate minimal additional simulations, match expert agents' performance with significantly lower computational cost. Consequently, imitation learning shows promise for developing fast, high-performing power grid agents, motivating its further exploration in future L2RPN studies.
翻訳日:2024-08-21 01:49:20 公開日:2024-08-18
# 拡散フィードバックがCLIPの改善に役立つ

Diffusion Feedback Helps CLIP See Better ( http://arxiv.org/abs/2407.20171v3 )

ライセンス: Link先を確認
Wenxuan Wang, Quan Sun, Fan Zhang, Yepeng Tang, Jing Liu, Xinlong Wang, (参考訳) ドメインやモダリティ間のオープンワールド表現を抽象化するコントラスト言語-画像事前学習(CLIP)は、さまざまなビジョンやマルチモーダルタスクの基盤となっている。 しかし、最近の研究では、CLIPには、方向、量、色、構造などの区別がほとんどできない、深刻な視覚的欠点があることが示されている。 これらの視覚的欠点は、CLIP上に構築されたマルチモーダルな大規模言語モデル(MLLM)の認識能力を制限している。 主な理由は、CLIPのトレーニングに使用される画像テキストペアが、テキストの特異性や画像の多様性が欠如しているため、本質的にバイアスがあるためかもしれない。 本稿では,CLIPモデルに対して,自己教師付き拡散プロセスを通じて視覚的欠点を克服する,簡単なポストトレーニング手法を提案する。 私たちはDIVAを導入し、DIffusionモデルをCLIPのビジュアルアシスタントとして使用します。 特に、DIVAはテキストから画像への拡散モデルからの生成的フィードバックを活用して、画像のみ(対応するテキストなしで)CLIP表現を最適化する。 本研究では,MMVP-VLMベンチマークにおけるCLIPの性能向上を実証し,マルチモーダル理解とセグメンテーションタスクにおけるMLLMとビジョンモデルの性能向上を図る。 29の画像分類と検索ベンチマークの大規模な評価により、我々のフレームワークはCLIPの強力なゼロショット能力を保っていることを確認した。 コードはhttps://github.com/baaivision/DIVA.comで公開されている。

Contrastive Language-Image Pre-training (CLIP), which excels at abstracting open-world representations across domains and modalities, has become a foundation for a variety of vision and multimodal tasks. However, recent studies reveal that CLIP has severe visual shortcomings, such as which can hardly distinguish orientation, quantity, color, structure, etc. These visual shortcomings also limit the perception capabilities of multimodal large language models (MLLMs) built on CLIP. The main reason could be that the image-text pairs used to train CLIP are inherently biased, due to the lack of the distinctiveness of the text and the diversity of images. In this work, we present a simple post-training approach for CLIP models, which largely overcomes its visual shortcomings via a self-supervised diffusion process. We introduce DIVA, which uses the DIffusion model as a Visual Assistant for CLIP. Specifically, DIVA leverages generative feedback from text-to-image diffusion models to optimize CLIP representations, with only images (without corresponding text). We demonstrate that DIVA improves CLIP's performance on the challenging MMVP-VLM benchmark which assesses fine-grained visual abilities to a large extent (e.g., 3-7%), and enhances the performance of MLLMs and vision models on multimodal understanding and segmentation tasks. Extensive evaluation on 29 image classification and retrieval benchmarks confirms that our framework preserves CLIP's strong zero-shot capabilities. The code is available at https://github.com/baaivision/DIVA.
翻訳日:2024-08-21 01:49:20 公開日:2024-08-18
# GABInsight:ビジョンランゲージモデルにおけるジェンダー・アクティビティ結合バイアスの探索

GABInsight: Exploring Gender-Activity Binding Bias in Vision-Language Models ( http://arxiv.org/abs/2407.21001v2 )

ライセンス: Link先を確認
Ali Abdollahi, Mahdi Ghaznavi, Mohammad Reza Karimi Nejad, Arash Mari Oriyad, Reza Abbasi, Ali Salesi, Melika Behjati, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah, (参考訳) 視覚言語モデル(VLM)は、画像に現れる個人の評価を必要とするものを含む、多くの下流タスクで集中的に使用される。 VLMは単純なシングルパーソンのシナリオではうまく機能するが、現実のアプリケーションでは、異なる性別の人が異なる活動を行う複雑な状況に直面していることが多い。 このような場合、VLMは、期待される性別(モデルその他のサンプル選択バイアスの詳細な性別ステレオタイプによる)を行動のパフォーマーとして特定する傾向を示す。 画像やテキスト中の実際のパフォーマーのジェンダーに関連付けるバイアスを、ジェンダー・アクティビティ・バインド(GAB)バイアスと呼び、このバイアスがどのようにVLMの内部化されるかを分析する。 このバイアスを評価するために、私たちはGABデータセットを導入し、いくつかのシナリオにおいて現実世界のイメージの不足に対処する、さまざまなアクティビティを表す約5500のAI生成イメージを作成しました。 広範に品質制御を行うため、生成した画像は、その多様性、品質、リアリズムについて評価される。 我々は,テキスト・ツー・イメージ検索と画像・ツー・テキスト検索の文脈で,このデータセット上で12の有名な事前学習VLMをテストし,そのバイアスが予測に与える影響を計測した。 さらに,VLMのテキストエンコーダのバイアスを定量化し,VLMのアクティビティ認識能力を評価するための補足実験を行った。 以上の結果から,VLMは性活動性結合バイアスに直面すると平均で約13.2%の低下を経験することが示唆された。

Vision-language models (VLMs) are intensively used in many downstream tasks, including those requiring assessments of individuals appearing in the images. While VLMs perform well in simple single-person scenarios, in real-world applications, we often face complex situations in which there are persons of different genders doing different activities. We show that in such cases, VLMs are biased towards identifying the individual with the expected gender (according to ingrained gender stereotypes in the model or other forms of sample selection bias) as the performer of the activity. We refer to this bias in associating an activity with the gender of its actual performer in an image or text as the Gender-Activity Binding (GAB) bias and analyze how this bias is internalized in VLMs. To assess this bias, we have introduced the GAB dataset with approximately 5500 AI-generated images that represent a variety of activities, addressing the scarcity of real-world images for some scenarios. To have extensive quality control, the generated images are evaluated for their diversity, quality, and realism. We have tested 12 renowned pre-trained VLMs on this dataset in the context of text-to-image and image-to-text retrieval to measure the effect of this bias on their predictions. Additionally, we have carried out supplementary experiments to quantify the bias in VLMs' text encoders and to evaluate VLMs' capability to recognize activities. Our experiments indicate that VLMs experience an average performance decline of about 13.2% when confronted with gender-activity binding bias.
翻訳日:2024-08-21 01:49:20 公開日:2024-08-18
# WIP: TLA+を使ったソフトウエアエンジニアリングにおけるモデルチェックのための大学院生の紹介

WIP: An Engaging Undergraduate Intro to Model Checking in Software Engineering Using TLA+ ( http://arxiv.org/abs/2407.21152v2 )

ライセンス: Link先を確認
Konstantin Läufer, Gunda Mertin, George K. Thiruvathukal, (参考訳) 背景: 本稿では, 時間的行動論理(TLA+)で記述されたモデルチェック仕様を, 大学生や大学院生を対象にしたコンピュータサイエンス教育に取り入れることを目的とした, フォーマルな手法の統合に向けた最初の取り組みについて述べる。 形式的手法は、安全クリティカルなシステムの正しい行動を保証する上で重要な役割を果たすが、教育や産業の文脈では未利用のままである。 目的:(1)コンピュータサイエンスプログラムにおける形式的手法の実態を質的に評価すること,(2)学部生の学習の途中で含めることができるレベル適合例の構築,(3)段階的に厳格な安全性と生活性の要件を通じて連続した「障害」に対処する方法の実証,(4)学生の関心と関連性を評価するための継続的な枠組みを確立することを目指す。 方法: 数学的論理学のリフレッシュから始めると、生徒はTLA+の単純なパズルのルールを指定し、その内包されたモデルチェッカー(TLC)を使って解を見つける。 マイクロ波オーブンの制御ロジックなど、より複雑でダイナミックなイベント駆動システムに徐々にエスカレートし、学生は安全と生活性の要件を学習する。 その後、境界カウンタとバッファをモデル化することにより、スレッド安全性とデッドロック回避とともに、明示的な並行性について議論する。 結果: 初期の知見から, 慎重に設計し, 実例やツールの選択を行うことで, 新世代のソフトウェアエンジニアが形式的な手法で熟達し, 育成できることが示唆された。 結論:最初の取り組みは,学生の84%が形式的方法のコースで肯定的な経験をしていたことを示唆した。 今後の計画には、当社の機関内での縦断的な分析や、他の機関とパートナーシップを結び、当社のオープンソースおよびオープンアクセスモジュールの有効性を探求する提案が含まれます。

Background: In this paper, we present our initial efforts to integrate formal methods, with a focus on model-checking specifications written in Temporal Logic of Actions (TLA+), into computer science education, targeting undergraduate juniors/seniors and graduate students. Formal methods can play a key role in ensuring correct behavior of safety-critical systems, yet remain underutilized in educational and industry contexts. Aims: We aim to (1) qualitatively assess the state of formal methods in computer science programs, (2) construct level-appropriate examples that could be included midway into one's undergraduate studies, (3) demonstrate how to address successive "failures" through progressively stringent safety and liveness requirements, and (4) establish an ongoing framework for assessing interest and relevance among students. Methods: After starting with a refresher on mathematical logic, students specify the rules of simple puzzles in TLA+ and use its included model checker (known as TLC) to find a solution. We gradually escalate to more complex, dynamic, event-driven systems, such as the control logic of a microwave oven, where students will study safety and liveness requirements. We subsequently discuss explicit concurrency, along with thread safety and deadlock avoidance, by modeling bounded counters and buffers. Results: Our initial findings suggest that through careful curricular design and choice of examples and tools, it is possible to inspire and cultivate a new generation of software engineers proficient in formal methods. Conclusions: Our initial efforts suggest that 84% of our students had a positive experience in our formal methods course. Future plans include a longitudinal analysis within our own institution and proposals to partner with other institutions to explore the effectiveness of our open-source and open-access modules.
翻訳日:2024-08-21 01:49:20 公開日:2024-08-18
# 長寿命Metastable-qubitメモリ

Long-lived metastable-qubit memory ( http://arxiv.org/abs/2408.00975v2 )

ライセンス: Link先を確認
Xiaoyang Shi, Jasmine Sinanan-Singh, Kyle DeBry, Susanna L. Todaro, Isaac L. Chuang, John Chiaverini, (参考訳) 量子情報のコヒーレントな保存は多くの量子技術にとって不可欠である。 長いコヒーレンス時間は閉じ込められたイオン量子ビットで示されており、典型的には1つのイオンの基底状態における超微細な準位を用いている。 しかし、最近の研究では、量子ビットを準安定状態に符号化することで、単一種システムにおける効果的な二重種操作の可能性や、フォールトトレラント量子コンピューティングにおける消去エラー変換といった、量子情報処理にアーキテクチャ上の利点をもたらす可能性が示唆されている。 ここでは、捕捉されたイオンの準安定状態における量子状態の長寿命符号化を示す。 同調的に同じ種の他のイオンと冷却し、常に消去エラーをモニタリングすることにより、準安定な5D_{5/2}$状態の量子ビットで136(42)秒のコヒーレンス時間を示す。 動的デカップリングに基づくノイズスペクトロスコピーによる実験結果に基づくモデルと一致して, 消去誤差が除去されると, メタスタブルレベルのデフォーカスがエラーの原因となることが判明した。

Coherent storage of quantum information is crucial to many quantum technologies. Long coherence times have been demonstrated in trapped-ion qubits, typically using the hyperfine levels within the ground state of a single ion. However, recent research suggests qubits encoded in metastable states could provide architectural benefits for quantum information processing, such as the possibility of effective dual-species operation in a single-species system and erasure-error conversion for fault-tolerant quantum computing. Here we demonstrate long-lived encoding of a quantum state in the metastable states of a trapped ion. By sympathetically cooling with another ion of the same species and constantly monitoring for erasure errors, we demonstrate a coherence time of 136(42) seconds with a qubit encoded in the metastable $5D_{5/2}$ state of a single $^{137}$Ba$^+$ ion. In agreement with a model based on empirical results from dynamical-decoupling-based noise spectroscopy, we find that dephasing of the metastable levels is the dominant source of error once erasure errors are removed.
翻訳日:2024-08-21 01:39:16 公開日:2024-08-18
# マンバのサーベイ

A Survey of Mamba ( http://arxiv.org/abs/2408.01129v2 )

ライセンス: Link先を確認
Haohao Qu, Liangbo Ning, Rui An, Wenqi Fan, Tyler Derr, Xin Xu, Qing Li, (参考訳) ディープラーニングは重要な技術であり、人工知能に顕著な革命をもたらした。 最も代表的なアーキテクチャとして、トランスフォーマーは多くの高度なモデル、特に数十億のパラメータからなる大規模言語モデルが強化され、ディープラーニングの基盤となっている。 素晴らしい成果にもかかわらず、トランスフォーマーは依然として固有の制限に直面しており、特に注意計算の2次計算の複雑さから生じる時間を要する推論である。 近年、古典的状態空間モデルからインスピレーションを得た新しいアーキテクチャであるMambaが、基盤モデル構築のための有望な代替として登場し、トランスフォーマーに匹敵するモデリング能力を提供しながら、シーケンス長に関するほぼ直線的スケーラビリティを保っている。 このことが、様々な領域で印象的なパフォーマンスを達成するためのマンバの可能性を積極的に探究する研究を活発に進めるきっかけとなった。 このような急速な進化を考えると、既存のマンバ駆動モデルを統合する体系的なレビューが不可欠であり、この新たなモデルアーキテクチャの包括的理解を提供する。 そこで本研究では,近年のマンバ関連研究を詳細に調査し,マンバモデルの発展,さまざまなデータにマンバを適応させる技術,およびマンバが卓越できる応用の3つの側面から取り上げる。 具体的には,まず,様々な代表的深層学習モデルの基礎知識と,マンバの詳細を予備研究として思い出す。 そこで,本研究では,Mambaのアーキテクチャ設計,データ適応性,アプリケーションに焦点をあてた,Mambaの意義を概観する。 最後に,現状の限界について論じ,将来的な研究の方向性を探究し,今後の研究に深い洞察を与える。

Deep learning, as a vital technique, has sparked a notable revolution in artificial intelligence. As the most representative architecture, Transformers have empowered numerous advanced models, especially the large language models that comprise billions of parameters, becoming a cornerstone in deep learning. Despite the impressive achievements, Transformers still face inherent limitations, particularly the time-consuming inference resulting from the quadratic computation complexity of attention calculation. Recently, a novel architecture named Mamba, drawing inspiration from classical state space models, has emerged as a promising alternative for building foundation models, delivering comparable modeling abilities to Transformers while preserving near-linear scalability concerning sequence length. This has sparked an increasing number of studies actively exploring Mamba's potential to achieve impressive performance across diverse domains. Given such rapid evolution, there is a critical need for a systematic review that consolidates existing Mamba-empowered models, offering a comprehensive understanding of this emerging model architecture. In this survey, we therefore conduct an in-depth investigation of recent Mamba-associated studies, covering from three main aspects: the advancements of Mamba-based models, the techniques of adapting Mamba to diverse data, and the applications where Mamba can excel. Specifically, we first recall the foundational knowledge of various representative deep learning models and the details of Mamba as preliminaries. Then, to showcase the significance of Mamba, we comprehensively review the related studies focusing on Mamba models' architecture design, data adaptability, and applications. Finally, we present an discussion of current limitations and explore various promising research directions to provide deeper insights for future investigations.
翻訳日:2024-08-21 01:39:16 公開日:2024-08-18
# Axiomatic Spectral Importance Decomposition を用いた画像モデルの大域的摂動ロバスト性の解析

Interpreting Global Perturbation Robustness of Image Models using Axiomatic Spectral Importance Decomposition ( http://arxiv.org/abs/2408.01139v2 )

ライセンス: Link先を確認
Róisín Luo, James McDermott, Colm O'Riordan, (参考訳) 摂動堅牢性は、データ破損や敵攻撃など、さまざまな摂動から生じるモデルの脆弱性を評価する。 摂動堅牢性のメカニズムを理解することは、大域的解釈可能性にとって重要である。 本稿では,画像モデルの摂動ロバスト性を理解するために,モデルに依存しない大域的機械論的解釈法を提案する。 この研究は2つの重要な側面によって動機付けられている。 第一に、従来のグローバルな解釈可能性の研究は、例えば、画像モデル内での摂動堅牢性のメカニズムを直接解釈するようには設計されていない。 第2に、摂動自然画像のスペクトル信号-雑音比(SNR)が周波数上で指数関数的に減衰していることに気づく。 低周波信号は一般的に高周波信号よりも強いが、低周波信号だけでは高い分類精度は達成できない。 本手法は,Shapley値理論の適用により,情報理論フレームワーク内でのロバストな特徴と非ロバストな特徴の予測力を軸に定量化する。 提案手法は, モデルロバストネス機構について, モデルロバストネス機構に関するユニークな知見を提供する。 我々は、ImageNet上で事前訓練された様々な視覚モデルに対して広範な実験を行い、 \textbf{I-ASIDE} が摂動ロバスト性だけでなく、そのメカニズムの \textbf{provide 解釈も可能であることを示す。

Perturbation robustness evaluates the vulnerabilities of models, arising from a variety of perturbations, such as data corruptions and adversarial attacks. Understanding the mechanisms of perturbation robustness is critical for global interpretability. We present a model-agnostic, global mechanistic interpretability method to interpret the perturbation robustness of image models. This research is motivated by two key aspects. First, previous global interpretability works, in tandem with robustness benchmarks, e.g. mean corruption error (mCE), are not designed to directly interpret the mechanisms of perturbation robustness within image models. Second, we notice that the spectral signal-to-noise ratios (SNR) of perturbed natural images exponentially decay over the frequency. This power-law-like decay implies that: Low-frequency signals are generally more robust than high-frequency signals -- yet high classification accuracy can not be achieved by low-frequency signals alone. By applying Shapley value theory, our method axiomatically quantifies the predictive powers of robust features and non-robust features within an information theory framework. Our method, dubbed as \textbf{I-ASIDE} (\textbf{I}mage \textbf{A}xiomatic \textbf{S}pectral \textbf{I}mportance \textbf{D}ecomposition \textbf{E}xplanation), provides a unique insight into model robustness mechanisms. We conduct extensive experiments over a variety of vision models pre-trained on ImageNet to show that \textbf{I-ASIDE} can not only \textbf{measure} the perturbation robustness but also \textbf{provide interpretations} of its mechanisms.
翻訳日:2024-08-21 01:39:16 公開日:2024-08-18
# RAGEval:シナリオ固有のRAG評価データセット生成フレームワーク

RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework ( http://arxiv.org/abs/2408.01262v2 )

ライセンス: Link先を確認
Kunlun Zhu, Yifan Luo, Dingling Xu, Ruobing Wang, Shi Yu, Shuo Wang, Yukun Yan, Zhenghao Liu, Xu Han, Zhiyuan Liu, Maosong Sun, (参考訳) Retrieval-Augmented Generation (RAG) システムは,Large Language Models (LLM) の幻覚を緩和する上で,その利点を実証している。 既存のRAGベンチマークは主に、LLMが一般的な知識に正しく答えられるかどうかを評価することに焦点を当てている。 しかし、異なる垂直領域のデータを扱う場合、RAGシステムの有効性は評価できない。 本稿では,異なるシナリオにおける異なるLLMの知識利用能力を評価するために,評価データセットを自動生成するフレームワークであるRAGEvalを紹介する。 具体的には、RAGEvalはシードドキュメントからスキーマを要約し、さまざまなドキュメントを生成するために構成を適用し、記事と構成の両方に応じて質問応答ペアを構築する。 LLMが生み出す応答を慎重に評価するために, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。 RAGEvalは、垂直領域のRAGモデルをベンチマークすることで、LCMの知識使用能力をよりよく評価する能力を持ち、既存のQAデータセットにおける知識の源泉に関する混乱を避ける。 コードとデータセットがリリースされる。

Retrieval-Augmented Generation (RAG) systems have demonstrated their advantages in alleviating the hallucination of Large Language Models (LLMs). Existing RAG benchmarks mainly focus on evaluating whether LLMs can correctly answer the general knowledge. However, they are unable to evaluate the effectiveness of the RAG system in dealing with the data from different vertical domains. This paper introduces RAGEval, a framework for automatically generating evaluation datasets to evaluate the knowledge usage ability of different LLMs in different scenarios. Specifically, RAGEval summarizes a schema from seed documents, applies the configurations to generate diverse documents, and constructs question-answering pairs according to both articles and configurations. We propose three novel metrics, Completeness, Hallucination, and Irrelevance, to carefully evaluate the responses generated by LLMs. By benchmarking RAG models in vertical domains, RAGEval has the ability to better evaluate the knowledge usage ability of LLMs, which avoids the confusion regarding the source of knowledge in answering question in existing QA datasets--whether it comes from parameterized memory or retrieval. The code and dataset will be released.
翻訳日:2024-08-21 01:39:16 公開日:2024-08-18
# SynopGround:テレビドラマとSynopsのマルチパラグラフビデオグラウンドのための大規模データセット

SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses ( http://arxiv.org/abs/2408.01669v4 )

ライセンス: Link先を確認
Chaolei Tan, Zihang Lin, Junfu Pu, Zhongang Qi, Wei-Yi Pei, Zhi Qu, Yexin Wang, Ying Shan, Wei-Shi Zheng, Jian-Fang Hu, (参考訳) ビデオグラウンディングはマルチモーダルなコンテンツ理解における基本的な問題であり、特定の自然言語クエリを、トリミングされていないビデオにローカライズすることを目的としている。 しかし、現在のビデオグラウンドデータセットは単に単純なイベントのみに焦点を当てており、短いビデオや短い文に制限されているため、モデルがより強力なマルチモーダル理解能力へと進化するのを妨げている。 この制限に対処するために、SynopGroundという大規模なビデオグラウンドデータセットを紹介します。 シナプスの各段落は言語クエリとして機能し、長いビデオの正確な時間境界で手動で注釈付けされる。 これらの段落クエリは相互に密接な相関関係があり、ビデオストーリーラインを要約する豊富な抽象表現と、イベントの詳細を描写する特定の記述が含まれており、より長いコンテキスト依存よりも複雑な概念についてマルチモーダルな認識を学習することができる。 このデータセットに基づいて,MPVG(Multi-Paragraph Video Grounding)と呼ばれる,より複雑なビデオグラウンドの設定を導入する。 さらに,MPVGの長期マルチモーダル入力の局所的グローバル構造を明示的にモデル化するための,LGMR(Local-Global Multimodal Reasoner)を提案する。 提案手法は,マルチパラグラフビデオグラウンド問題に対する効果的なベースラインソリューションを提供する。 先行技術に対する長期マルチパラグラフビデオグラウンドにおけるモデルの有効性と,その優位性を検証する。 データセットとコードは公開されています。 プロジェクトページ: https://synopground.github.io/.com

Video grounding is a fundamental problem in multimodal content understanding, aiming to localize specific natural language queries in an untrimmed video. However, current video grounding datasets merely focus on simple events and are either limited to shorter videos or brief sentences, which hinders the model from evolving toward stronger multimodal understanding capabilities. To address these limitations, we present a large-scale video grounding dataset named SynopGround, in which more than 2800 hours of videos are sourced from popular TV dramas and are paired with accurately localized human-written synopses. Each paragraph in the synopsis serves as a language query and is manually annotated with precise temporal boundaries in the long video. These paragraph queries are tightly correlated to each other and contain a wealth of abstract expressions summarizing video storylines and specific descriptions portraying event details, which enables the model to learn multimodal perception on more intricate concepts over longer context dependencies. Based on the dataset, we further introduce a more complex setting of video grounding dubbed Multi-Paragraph Video Grounding (MPVG), which takes as input multiple paragraphs and a long video for grounding each paragraph query to its temporal interval. In addition, we propose a novel Local-Global Multimodal Reasoner (LGMR) to explicitly model the local-global structures of long-term multimodal inputs for MPVG. Our method provides an effective baseline solution to the multi-paragraph video grounding problem. Extensive experiments verify the proposed model's effectiveness as well as its superiority in long-term multi-paragraph video grounding over prior state-of-the-arts. Dataset and code are publicly available. Project page: https://synopground.github.io/.
翻訳日:2024-08-21 01:39:16 公開日:2024-08-18
# 8.4kmの都市大気における単一光子干渉--光子を用いた湾曲時空における量子効果の検証に向けて

Single-photon interference over 8.4 km urban atmosphere: towards testing quantum effects in curved spacetime with photons ( http://arxiv.org/abs/2408.03259v2 )

ライセンス: Link先を確認
Hui-Nan Wu, Yu-Huai Li, Bo Li, Xiang You, Run-Ze Liu, Ji-Gang Ren, Juan Yin, Chao-Yang Lu, Yuan Cao, Cheng-Zhi Peng, Jian-Wei Pan, (参考訳) 量子力学と一般相対性理論の出現は、我々の自然界に対する理解を大きく変えた。 しかし、これら2つの理論を統合することは大きな課題であり、それらの相互作用はいまだに実証されていない。 最近の理論的研究は、巨大な空間を覆う単一光子干渉は、量子力学と一般相対性理論の間の界面を効果的に探究することができることを示唆している。 我々は、この問題に対処するために、アンバランスなマイケルソン干渉計を用いた代替設計を開発し、8.4km自由空間チャネル上で実現可能であることを検証した。 量子ドットに基づく高輝度単一光子源を用いて、この長距離ベースラインに沿って単一光子干渉を実演した。 静止軌道における重力赤方偏移の測定条件を標準偏差の5倍に満たした16.2mdの位相測定精度を達成した。 この結果から,コレラ・オヴェルハウザー・ワーナー実験の単光子版による曲線時空における量子効果の検証の可能性が確認された。

The emergence of quantum mechanics and general relativity has transformed our understanding of the natural world significantly. However, integrating these two theories presents immense challenges, and their interplay remains untested. Recent theoretical studies suggest that the single-photon interference covering huge space can effectively probe the interface between quantum mechanics and general relativity. We developed an alternative design using unbalanced Michelson interferometers to address this and validated its feasibility over an 8.4 km free-space channel. Using a high-brightness single-photon source based on quantum dots, we demonstrated single-photon interference along this long-distance baseline. We achieved a phase measurement precision of 16.2 mrad, which satisfied the measurement requirements for a gravitational redshift at the geosynchronous orbit by five times the standard deviation. Our results confirm the feasibility of the single-photon version of the Colella-Overhauser-Werner experiment for testing the quantum effects in curved spacetime.
翻訳日:2024-08-20 23:45:42 公開日:2024-08-18
# SAMSA: 多くのデータモダリティのための効率的なトランスフォーマ

SAMSA: Efficient Transformer for Many Data Modalities ( http://arxiv.org/abs/2408.05391v2 )

ライセンス: Link先を確認
Minh Lenhat, Viet Anh Nguyen, Khoa Nguyen, Duong Duc Hieu, Dao Huu Hung, Truong Son Hy, (参考訳) 自己保持機構の汎用性は、ほぼ全てのデータモダリティにおいてトランスフォーマーに大きな成功を収め、二次的な複雑さと訓練の難しさに制限を与えた。 一方、効率的な変換器は、変換器の二次的な複雑さを克服するために、巧妙なデータモダリティに依存した構成に依存することが多い。 これは、現代の基礎モデリングの柱の1つである異なるデータモダリティへの彼らの応用を著しく妨げている。 本稿では, SAMSA-SAMpling-Self-Attentionを提案することによって, 効率的な基礎モデル構築の基盤となる課題について述べる。 我々のメカニズムは、私たちが発見した代替手法を使わずに、微分可能なサンプリングに基づいています。 これにより、自己アテンションモジュールは、データによって定義される最も重要なトークンセットに参加することができる。 さらに、推論において微分可能性を必要としないため、我々の手法のスパース定式化はオーバーヘッドを少なくし、さらに計算コストを下げる。 要するにSAMSAは、多くのベンチマークにおいて、他の非常に特殊なモデルと比較して、推論が高速でありながら、競争力やSOTA結果さえも達成した。 完全な自己アテンションに対して、実際の推論時間は著しく減少するが、性能は無視できる劣化からパフォーマンスの低下まで様々である。 私たちはリポジトリでソースコードをリリースします。

The versatility of self-attention mechanism earned transformers great success in almost all data modalities, with limitations on the quadratic complexity and difficulty of training. Efficient transformers, on the other hand, often rely on clever data-modality-dependent construction to get over the quadratic complexity of transformers. This greatly hinders their applications on different data modalities, which is one of the pillars of contemporary foundational modeling. In this paper, we lay the groundwork for efficient foundational modeling by proposing SAMSA - SAMpling-Self-Attention, a context-aware linear complexity self-attention mechanism that works well on multiple data modalities. Our mechanism is based on a differentiable sampling without replacement method we discovered. This enables the self-attention module to attend to the most important token set, where the importance is defined by data. Moreover, as differentiability is not needed in inference, the sparse formulation of our method costs little time overhead, further lowering computational costs. In short, SAMSA achieved competitive or even SOTA results on many benchmarks, while being faster in inference, compared to other very specialized models. Against full self-attention, real inference time significantly decreases while performance ranges from negligible degradation to outperformance. We release our source code in the repository: https://github.com/HySonLab/SAMSA
翻訳日:2024-08-20 23:45:42 公開日:2024-08-18
# 知識グラフに基づくヒューマンライクメモリシステムによる部分観測可能なマルコフ決定過程の解法

Leveraging Knowledge Graph-Based Human-Like Memory Systems to Solve Partially Observable Markov Decision Processes ( http://arxiv.org/abs/2408.05861v2 )

ライセンス: Link先を確認
Taewoon Kim, Vincent François-Lavet, Michael Cochez, (参考訳) 人間はいつでも環境の一部だけを観察するが、私たちの長期記憶のおかげで、複雑な長期的な決定を下すことができる。 長期記憶の学習と利用をAIが行うかをテストするため、我々は部分的に観察可能なマルコフ決定プロセス(POMDP)環境を開発し、エージェントは迷路をナビゲートしながら質問に答えなければならない。 環境は完全に知識グラフ(KG)に基づいており、隠れた状態は動的KGである。 KGは人間でも機械でも読みやすいので、エージェントが何を覚えて忘れているかを簡単に確認できる。 私たちはエージェントを異なるメモリシステムで訓練し比較し、人間の脳が自身のメモリを管理する際にどのように機能するかを明らかにします。 学習目標をメモリ管理ポリシの学習として再利用することで,解釈可能なだけでなく,再利用可能な,最も可能性の高い隠れ状態の取得が可能になった。

Humans observe only part of their environment at any moment but can still make complex, long-term decisions thanks to our long-term memory. To test how an AI can learn and utilize its long-term memory, we have developed a partially observable Markov decision processes (POMDP) environment, where the agent has to answer questions while navigating a maze. The environment is completely knowledge graph (KG) based, where the hidden states are dynamic KGs. A KG is both human- and machine-readable, making it easy to see what the agents remember and forget. We train and compare agents with different memory systems, to shed light on how human brains work when it comes to managing its own memory. By repurposing the given learning objective as learning a memory management policy, we were able to capture the most likely hidden state, which is not only interpretable but also reusable.
翻訳日:2024-08-20 23:35:59 公開日:2024-08-18
# EqNIO: 準同変神経慣性オドメトリー

EqNIO: Subequivariant Neural Inertial Odometry ( http://arxiv.org/abs/2408.06321v2 )

ライセンス: Link先を確認
Royina Karegoudra Jayanth, Yinshuang Xu, Ziyun Wang, Evangelos Chatzipantazis, Daniel Gehrig, Kostas Daniilidis, (参考訳) ニューラルネットワークは純粋に慣性オドメトリーにおいて急速に普及しており、商品慣性測定ユニット(IMU)からの加速度計とジャイロスコープの測定は変位や関連する不確実性を抑制するために用いられる。 情報偏差の先行を学習し、オフザシェルの非線形フィルタで生データと直接融合することができる。 しかしながら、これらのネットワークはIMUデータに固有の物理ロト反射対称性を考慮せず、一般化を妨げるあらゆる運動方向について同じ先行を記憶する必要がある。 本研究では、これらの対称性を特徴付け、重力ベクトルの周囲を回転させ、重力に平行な任意の平面に対して反射する際に、IMUデータと結果の変位と共分散が等しく変化することを示す。 まず、IMUデータから導出される等変ベクトルと不変スカラーから等変重力整列フレームを推定し、基礎となる対称性変換と共起するように調整された表現線形および非線形層を利用する。 そして、IMUデータをこのフレームにマッピングし、既製の慣性オドメトリーネットワークで直接使用できる不変な正準化を実現する。 最後に、これらのネットワーク出力を元のフレームにマッピングし、同変の共分散と変位を求める。 我々は、TLIOに基づくフィルタベースのアプローチとエンドツーエンドのRONINアーキテクチャに適用することで、フレームワークの汎用性を実証し、TLIO、Aria、RIDI、OxIODデータセットにおいて既存の手法よりも優れた性能を示す。

Neural networks are seeing rapid adoption in purely inertial odometry, where accelerometer and gyroscope measurements from commodity inertial measurement units (IMU) are used to regress displacements and associated uncertainties. They can learn informative displacement priors, which can be directly fused with the raw data with off-the-shelf non-linear filters. Nevertheless, these networks do not consider the physical roto-reflective symmetries inherent in IMU data, leading to the need to memorize the same priors for every possible motion direction, which hinders generalization. In this work, we characterize these symmetries and show that the IMU data and the resulting displacement and covariance transform equivariantly, when rotated around the gravity vector and reflected with respect to arbitrary planes parallel to gravity. We design a neural network that respects these symmetries by design through equivariant processing in three steps: First, it estimates an equivariant gravity-aligned frame from equivariant vectors and invariant scalars derived from IMU data, leveraging expressive linear and non-linear layers tailored to commute with the underlying symmetry transformation. We then map the IMU data into this frame, thereby achieving an invariant canonicalization that can be directly used with off-the-shelf inertial odometry networks. Finally, we map these network outputs back into the original frame, thereby obtaining equivariant covariances and displacements. We demonstrate the generality of our framework by applying it to the filter-based approach based on TLIO, and the end-to-end RONIN architecture, and show better performance on the TLIO, Aria, RIDI and OxIOD datasets than existing methods.
翻訳日:2024-08-20 23:35:59 公開日:2024-08-18
# 非線形多スケール状態空間モデルにおけるベイズ学習

Bayesian Learning in a Nonlinear Multiscale State-Space Model ( http://arxiv.org/abs/2408.06425v3 )

ライセンス: Link先を確認
Nayely Vélez-Cruz, Manfred D. Laubichler, (参考訳) 複雑なシステムにおけるマルチスケール相互作用の普遍性はよく認識されており、発達と遺伝性は、異なる時間スケールのプロセスが相互にどのように影響するかを示す主要な例である。 この研究は、異なる時間スケールで相互作用するシステム間の動的相互作用を、各スケール間のフィードバックで探索する、新しいマルチスケール状態空間モデルを導入している。 本稿では,このマルチスケールモデルにおける未知のプロセスノイズ共分散を学習することにより,未知の状態の推定を行うためのベイズ学習フレームワークを提案する。 本研究では,提案手法の有効性をシミュレーションし,提案手法の有効性を実証するPGASアルゴリズムを開発した。

The ubiquity of multiscale interactions in complex systems is well-recognized, with development and heredity serving as a prime example of how processes at different temporal scales influence one another. This work introduces a novel multiscale state-space model to explore the dynamic interplay between systems interacting across different time scales, with feedback between each scale. We propose a Bayesian learning framework to estimate unknown states by learning the unknown process noise covariances within this multiscale model. We develop a Particle Gibbs with Ancestor Sampling (PGAS) algorithm for inference and demonstrate through simulations the efficacy of our approach.
翻訳日:2024-08-20 23:35:59 公開日:2024-08-18
# 二重間隔による訓練後スパース注意

Post-Training Sparse Attention with Double Sparsity ( http://arxiv.org/abs/2408.07092v2 )

ライセンス: Link先を確認
Shuo Yang, Ying Sheng, Joseph E. Gonzalez, Ion Stoica, Lianmin Zheng, (参考訳) 大きな言語モデルの推論プロセスは遅く、メモリ集約的であり、最も重要なボトルネックの1つはキーバリュー(KV)キャッシュアクセス過剰である。 本稿では,KVキャッシュアクセスを削減し,このボトルネックを軽減するために設計された,新しい訓練後スパースアテンション技術である「ダブルスパシティ」を紹介する。 Double Sparsityは、自己アテンションを計算するための重要なトークンのみを活用するトークンのスペシャリティと、重要なトークンを識別するための重要な機能チャネルを使用するチャネルのスペシャリティを組み合わせたものだ。 私たちの重要な洞察は、チャネル空間のパターンは比較的静的であり、オフラインキャリブレーションを使用して実行時に効率良くし、重要なトークンの正確かつ効率的な識別を可能にします。 さらに、この手法をオフロードと組み合わせることで、メモリ使用量を大幅に削減することができる。 Llama-2-7B, Llama-2-70B, Mixtral-8x7Bなどのモデルを用いて, wiki-2のパープレキシティ, キー値検索, 長期コンテキストベンチマークなど, さまざまなタスクの精度に最小限の影響を伴って, トークンとチャネルのスペーサを$\frac{1}{16}$で実現できることを示す実験結果が得られた。 注意操作の14.1$\times$アクセラレーションとGPUのエンドツーエンド推論の1.9$\times$改善をもたらす。 オフローディングにより、16.3$\times$のデコード速度を、256Kのシークエンス長の最先端のソリューションと比較して達成する。 私たちのコードはhttps://github.com/andy-yang-1/DoubleSparse.comで公開されています。

The inference process for large language models is slow and memory-intensive, with one of the most critical bottlenecks being excessive Key-Value (KV) cache accesses. This paper introduces "Double Sparsity," a novel post-training sparse attention technique designed to alleviate this bottleneck by reducing KV cache access. Double Sparsity combines token sparsity, which focuses on utilizing only the important tokens for computing self-attention, with channel sparsity, an approach that uses important feature channels for identifying important tokens. Our key insight is that the pattern of channel sparsity is relatively static, allowing us to use offline calibration to make it efficient at runtime, thereby enabling accurate and efficient identification of important tokens. Moreover, this method can be combined with offloading to achieve significant memory usage reduction. Experimental results demonstrate that Double Sparsity can achieve $\frac{1}{16}$ token and channel sparsity with minimal impact on accuracy across various tasks, including wiki-2 perplexity, key-value retrieval, and long context benchmarks with models including Llama-2-7B, Llama-2-70B, and Mixtral-8x7B. It brings up to a 14.1$\times$ acceleration in attention operations and a 1.9$\times$ improvement in end-to-end inference on GPUs. With offloading, it achieves a decoding speed acceleration of 16.3$\times$ compared to state-of-the-art solutions at a sequence length of 256K. Our code is publicly available at https://github.com/andy-yang-1/DoubleSparse.
翻訳日:2024-08-20 23:35:59 公開日:2024-08-18
# 共変量と相関シフトの同時による公平な不変表現の学習

Learning Fair Invariant Representations under Covariate and Correlation Shifts Simultaneously ( http://arxiv.org/abs/2408.09312v1 )

ライセンス: Link先を確認
Dong Li, Chen Zhao, Minglai Shao, Wenjun Wang, (参考訳) モデルフェアネスを同時に考慮しながら、トレーニングドメインからシフトテストドメインへの不変な分類器の一般化を実現することは、機械学習における実質的で複雑な課題である。 既存手法は、共変量シフトまたは相関シフトに焦点をあてて、公平性に配慮した領域一般化の問題に対処するが、両方を同時に考えることは滅多にない。 本稿では,コバリアイトと相関シフトの両方に同時に対処するフレームワーク内で,公平性を意識したドメイン不変予測器の学習に焦点をあて,学習中に到達できない未知のテスト領域への一般化を保証する新しいアプローチを提案する。 提案手法では,データを遅延空間内のコンテンツやスタイル要素に分割する。 さらに、センシティブな情報を緩和し、できるだけ多くの情報を保持することで、フェアネスを意識したドメイン不変コンテンツ表現を学習することができる。 ベンチマークデータセットに関する大規模な実証研究により、我々のアプローチは、モデル精度だけでなく、グループと個人の公正性の両方に関して最先端の手法を超越していることが示された。

Achieving the generalization of an invariant classifier from training domains to shifted test domains while simultaneously considering model fairness is a substantial and complex challenge in machine learning. Existing methods address the problem of fairness-aware domain generalization, focusing on either covariate shift or correlation shift, but rarely consider both at the same time. In this paper, we introduce a novel approach that focuses on learning a fairness-aware domain-invariant predictor within a framework addressing both covariate and correlation shifts simultaneously, ensuring its generalization to unknown test domains inaccessible during training. In our approach, data are first disentangled into content and style factors in latent spaces. Furthermore, fairness-aware domain-invariant content representations can be learned by mitigating sensitive information and retaining as much other information as possible. Extensive empirical studies on benchmark datasets demonstrate that our approach surpasses state-of-the-art methods with respect to model accuracy as well as both group and individual fairness.
翻訳日:2024-08-20 21:19:42 公開日:2024-08-18
# 条件付き潜伏拡散を伴う脳MRIの容積高調波化

Unpaired Volumetric Harmonization of Brain MRI with Conditional Latent Diffusion ( http://arxiv.org/abs/2408.09315v1 )

ライセンス: Link先を確認
Mengqi Wu, Minhui Yu, Shuaiming Jing, Pew-Thian Yap, Zhengwu Zhang, Mingxia Liu, (参考訳) マルチサイト構造MRIは、被験者のコホートを多様化するために神経画像研究にますます利用されている。 しかし、様々なサイトやセンターから取得したMR画像を組み合わせることで、サイトに関連する非生物学的なバリエーションがもたらされる可能性がある。 振り返り画像の調和はこの問題に対処するのに役立つが、現在の手法は通常、あらかじめ抽出した手作りの放射能特性を調和させ、下流適用性を制限する。 いくつかの画像レベルのアプローチは、2Dスライスに焦点を当て、固有のボリューム情報を無視し、最適以下の結果をもたらす。 そこで本研究では,画像スタイルと脳解剖を明示的に考慮し,条件付き潜在拡散(HCLD)による新しい3次元MRI高調波化フレームワークを提案する。 一般化可能な3Dオートエンコーダで、4D潜時空間を符号化しデコードすると共に、潜時分布を学習し、目標画像スタイルを条件付けながらソースMRIから解剖情報と調和したMRIを生成する条件付き潜時拡散モデルを備える。 これにより、トレーニング中にターゲットドメインとソースドメインのペア画像を必要とすることなく、潜在スタイルの翻訳による効率的なボリュームレベルのMRIハーモニゼーションが可能になる。 HCLDは、3つのデータセットから4,158T1重み付けされた脳MRIを3つのタスクでトレーニングし、評価し、重要な生物学的特徴を維持しながらサイト関連の変化を除去する能力を評価する。 定性的および定量的実験は、いくつかの最先端技術におけるHCLDの有効性を示唆する

Multi-site structural MRI is increasingly used in neuroimaging studies to diversify subject cohorts. However, combining MR images acquired from various sites/centers may introduce site-related non-biological variations. Retrospective image harmonization helps address this issue, but current methods usually perform harmonization on pre-extracted hand-crafted radiomic features, limiting downstream applicability. Several image-level approaches focus on 2D slices, disregarding inherent volumetric information, leading to suboptimal outcomes. To this end, we propose a novel 3D MRI Harmonization framework through Conditional Latent Diffusion (HCLD) by explicitly considering image style and brain anatomy. It comprises a generalizable 3D autoencoder that encodes and decodes MRIs through a 4D latent space, and a conditional latent diffusion model that learns the latent distribution and generates harmonized MRIs with anatomical information from source MRIs while conditioned on target image style. This enables efficient volume-level MRI harmonization through latent style translation, without requiring paired images from target and source domains during training. The HCLD is trained and evaluated on 4,158 T1-weighted brain MRIs from three datasets in three tasks, assessing its ability to remove site-related variations while retaining essential biological features. Qualitative and quantitative experiments suggest the effectiveness of HCLD over several state-of-the-arts
翻訳日:2024-08-20 21:19:42 公開日:2024-08-18
# グラフ畳み込みニューラルネットワークを用いた自転車共有システムの走行需要予測

Predicting travel demand of a bike sharing system using graph convolutional neural networks ( http://arxiv.org/abs/2408.09317v1 )

ライセンス: Link先を確認
Ali Behroozi, Ali Edrisi, (参考訳) 公共交通機関は、日々の通勤、事業活動、レジャー活動において重要な役割を担い、公共の要求を満たすための効果的な管理の必要性を強調している。 この目標を達成するための1つのアプローチは、駅レベルでの需要を予測することである。 自転車シェアリングシステムは、交通サービスの一形態として、空気と騒音の汚染を減らすだけでなく、交通渋滞にも貢献している。 本研究は,自転車共有システムにおける旅行需要の予測に焦点を当てた。 ゲートグラフ畳み込みニューラルネットワークと呼ばれる新しいハイブリッドディープラーニングモデルが導入された。 このモデルにより、駅レベルでの移動需要の予測が可能となる。 軌跡データ、気象データ、アクセスデータを統合し、ゲートグラフ畳み込みネットワークを活用することにより、旅行需要予測の精度を大幅に向上する。 シカゴシティの自転車シェアリングシステムはケーススタディに選ばれている。 本研究では,本モデルがベースモデルよりも優れた性能を示すことを示すため,従来の文献で使用したベースモデルと比較した。 この枠組みを利用することで、輸送計画立案者は資源配分と再バランス管理について情報的な決定を下すことができる。

Public transportation systems play a crucial role in daily commutes, business operations, and leisure activities, emphasizing the need for effective management to meet public demands. One approach to achieve this goal is by predicting demand at the station level. Bike-sharing systems, as a form of transit service, contribute to the reduction of air and noise pollution, as well as traffic congestion. This study focuses on predicting travel demand within a bike-sharing system. A novel hybrid deep learning model called the gate graph convolutional neural network is introduced. This model enables prediction of the travel demand at station level. By integrating trajectory data, weather data, access data, and leveraging gate graph convolution networks, the accuracy of travel demand forecasting is significantly improved. Chicago City bike-sharing system is chosen as the case study. In this investigation, the proposed model is compared to the base models used in previous literature to evaluate their performance, demonstrating that the main model exhibits better performance than the base models. By utilizing this framework, transportation planners can make informed decisions on resource allocation and rebalancing management.
翻訳日:2024-08-20 21:19:42 公開日:2024-08-18
# 波長スイッチングアタックによるツインフィールド量子鍵分布の実用的安全性

Practical security of twin-field quantum key distribution under wavelength-switching attack ( http://arxiv.org/abs/2408.09318v1 )

ライセンス: Link先を確認
Qingquan Peng, Jiu-Peng Chen, Tianyi Xing, Dongyang Wang, Yizhi Wang, Yang Liu, Anqi Huang, (参考訳) ツインフィールドクラス量子鍵分布(TFクラスQKD)は、量子リピータを必要とせずに基本速度距離限界を超える能力を革命的なマイルストーンとして実験的に証明した。 TFクラスQKD実装では、光学位相同期ループ(OPLL)構造が一般的に用いられ、位相の相関した参照光を生成し、アリスとボブの光学場のコヒーレンスを確保する。 この構成では、典型的には信頼できないチャーリーにある参照光は、OPLLの波長参照のみを提供し、量子状態符号化には参加しない。 しかし、基準光は、イーブが十分に保護されているはずの基地に入るための扉を開くかもしれない。 本稿では,OPLL方式の脆弱性を同定し,TFクラスQKDシステムに対する波長スイッチング攻撃を提案する。 この攻撃は、イーブが基準光の波長を意図的に操作して準備された量子状態の平均光子数を増加させる一方で、TFクラスQKDプロトコルで要求されるアリスとボブの間の安定した干渉を維持している。 平均光子数の最大増加率は8.7%であり、TFクラスQKDシステムのセキュリティを損なうことが理論的に証明されている。 さらに,変調器のキャリブレーションが良好であれば,攻撃を除去できることを示した。 本研究では,TFクラスQKD実装における実用セキュリティにおけるシステム校正の重要性を強調した。

The twin-field class quantum key distribution (TF-class QKD) has experimentally demonstrated the ability to surpass the fundamental rate-distance limit without requiring a quantum repeater, as a revolutional milestone. In TF-class QKD implementation, an optical phase-locked loop (OPLL) structure is commonly employed to generate a reference light with correlated phase, ensuring coherence of optical fields between Alice and Bob. In this configuration, the reference light, typically located in the untrusted station Charlie, solely provides wavelength reference for OPLL and does not participate in quantum-state encoding. However, the reference light may open a door for Eve to enter the source stations that are supposed to be well protected. Here, by identifying vulnerabilities in the OPLL scheme, we propose and demonstrate a wavelength-switching attack on a TF-class QKD system. This attack involves Eve deliberately manipulating the wavelength of the reference light to increase mean photon number of prepared quantum states, while maintaining stable interference between Alice and Bob as required by TF-class QKD protocols. The maximum observed increase in mean photon number is 8.7%, which has been theoretically proven to compromise the security of a TF-class QKD system. Moreover, we have shown that with well calibration of the modulators, the attack can be eliminated. Through this study, we highlight the importance of system calibration in the practical security in TF-class QKD implementation.
翻訳日:2024-08-20 21:19:42 公開日:2024-08-18
# Exciton-Phonon Cavity QEDによるSqueezed Light

Squeezed Light via Exciton-Phonon Cavity QED ( http://arxiv.org/abs/2408.09323v1 )

ライセンス: Link先を確認
Xuan Zuo, Zi-Xu Lu, Zhi-Yuan Fan, Jie Li, (参考訳) スクイーズド光は特に有用な量子資源であり、量子情報処理、量子メトロジーとセンシング、生物学的測定に広く応用されている。 様々な物理的システムで成功している。 ここでは,エキシトンフォノンキャビティ-QEDシステムを用いて,励起光を発生させる機構とシステムを紹介する。 具体的には、量子井戸に埋め込まれた半導体マイクロキャビティを採用し、励起子、フォノン、キャビティ光子間の線形相互作用と非線形相互作用の両方をサポートする。 本研究では, 強い励起子-フォノンの非線形相互作用は, 二次的な共振器出力場を誘導し, スクイーズスペクトルの工学における励起子-フォトンカップリングの重要な役割を明らかにし, サーマルノイズに対するスキューズリングの堅牢性を向上させることを明らかにする。 以上の結果から, 励起子結合エネルギーの高い材料では, 光の室温スクイーズが可能であることが示唆された。

Squeezed light is a particularly useful quantum resource, which finds broad applications in quantum information processing, quantum metrology and sensing, and biological measurements. It has been successfully generated in various physical systems. Here we introduce a new mechanism and system to produce squeezed light using an exciton-phonon cavity-QED system. Specifically, we adopt a semiconductor microcavity embedded with a quantum well, which supports both linear and nonlinear interactions among excitons, phonons, and cavity photons. We show that the strong exciton-phonon nonlinear interaction can induce a quadrature-squeezed cavity output field, and reveal an important role of the exciton-photon coupling in engineering the squeezing spectrum and improving the robustness of the squeezing against thermal noise. Our results indicate that room-temperature squeezing of light is possible for materials with high exciton binding energy.
翻訳日:2024-08-20 21:19:42 公開日:2024-08-18
# データストリームにおける概念の変更と再帰に適応するための確率的フレームワーク

A Probabilistic Framework for Adapting to Changing and Recurring Concepts in Data Streams ( http://arxiv.org/abs/2408.09324v1 )

ライセンス: Link先を確認
Ben Halstead, Yun Sing Koh, Patricia Riddle, Mykola Pechenizkiy, Albert Bifet, (参考訳) ストリーミングデータの分布は、コンセプトドリフトと呼ばれる現象である条件が変化するにつれて、時間とともに変化することが多い。 類似した条件で収集された過去の経験のサブセットのみが、現在のデータの正確な分類器の学習に関係している。 異なる概念を記述する無関係な経験から学ぶことは、パフォーマンスを低下させる可能性がある。 ストリーミングデータから学習するシステムは、状況が変化したときの最近の経験と、気象イベントや金融パターンが繰り返されるときに、概念が再起した場合の過去の経験とを区別しなければならない。 既存のストリーミングアプローチでは、時間とともに関連性を変更する経験を考慮せず、概念のドリフトを処理できないか、あるいは経験の正確さを考慮できないため、繰り返しコンセプトを処理できないか、あるいは、コンセプトドリフトが見逃された場合にのみ関連性を評価し、失敗する。 本研究では,過去の経験の関連性を継続的に評価する確率的手法であるSELeCTを提案する。 SELeCTは概念ごとに異なる内部状態を維持しており、ユニークな分類器で関連する経験を表現している。 状態関係を推定するためのベイジアンアルゴリズムを提案し、与えられた状態から最新の観測結果を引き出す可能性と、システムの現在の状態に基づく遷移パターンとを組み合わせる。

The distribution of streaming data often changes over time as conditions change, a phenomenon known as concept drift. Only a subset of previous experience, collected in similar conditions, is relevant to learning an accurate classifier for current data. Learning from irrelevant experience describing a different concept can degrade performance. A system learning from streaming data must identify which recent experience is irrelevant when conditions change and which past experience is relevant when concepts reoccur, \textit{e.g.,} when weather events or financial patterns repeat. Existing streaming approaches either do not consider experience to change in relevance over time and thus cannot handle concept drift, or only consider the recency of experience and thus cannot handle recurring concepts, or only sparsely evaluate relevance and thus fail when concept drift is missed. To enable learning in changing conditions, we propose SELeCT, a probabilistic method for continuously evaluating the relevance of past experience. SELeCT maintains a distinct internal state for each concept, representing relevant experience with a unique classifier. We propose a Bayesian algorithm for estimating state relevance, combining the likelihood of drawing recent observations from a given state with a transition pattern prior based on the system's current state.
翻訳日:2024-08-20 21:19:42 公開日:2024-08-18
# C++におけるstd::string_viewオブジェクトの寿命エラーの検出

Detecting lifetime errors of std::string_view objects in C++ ( http://arxiv.org/abs/2408.09325v1 )

ライセンス: Link先を確認
Reka Kovacs, Gabor Horvath, Zoltan Porkolab, (参考訳) std::string viewはC++ Standard Template Library(STL)の参照のようなデータ構造で、読み取り専用文字列の高速で安価な処理を可能にする。 幅広い適用性とパフォーマンス向上力のため、std::string viewはC++17標準の導入以来非常に人気がある。 しかし、不注意な使用は、深刻なメモリ管理のバグを引き起こす可能性がある。 std::stringビューのライフタイムは、参照された文字列のライフタイムと何らかの方法で結び付けられていないため、ビューがライブでバッファが再配置されていない間にのみ使用されることを保証するのは、ユーザの責任である。 本稿では,std::string viewの誤用によるプログラミングエラーを検出する静的解析ツールについて述べる。 我々の研究には、解析におけるstd::stringビュー操作のモデリング、ライフタイムエラーの検出手順の定義、ユーザフレンドリーな診断メッセージの構築、チェッカーの評価などが含まれました。

std::string view is a reference-like data structure in the C++ Standard Template Library (STL) that enables fast and cheap processing of read-only strings. Due to its wide applicability and performance enhancing power, std::string view has been very popular since its introduction in the C++17 standard. However, its careless use can lead to serious memory management bugs. As the lifetime of a std::string view is not tied to the lifetime of the referenced string in any way, it is the user's responsibility to ensure that the view is only used while the viewed string is live and its buffer is not reallocated. This paper describes a static analysis tool that finds programming errors caused by the incorrect use of std::string view. Our work included modeling std::string view operations in the analysis, defining steps to detect lifetime errors, constructing user-friendly diagnostic messages, and performing an evaluation of the checker.
翻訳日:2024-08-20 21:19:42 公開日:2024-08-18
# LLMのジェイルブレイク攻撃に対する信頼性の評価と評価

Characterizing and Evaluating the Reliability of LLMs against Jailbreak Attacks ( http://arxiv.org/abs/2408.09326v1 )

ライセンス: Link先を確認
Kexin Chen, Yi Liu, Dongxia Wang, Jiaying Chen, Wenhai Wang, (参考訳) 大規模言語モデル(LLM)は、社会的影響の顕著なコンテンツ生成において、ますます重要になっている。 これらのモデルには、有害と思われるコンテンツを生成する可能性を秘めており、このリスクを緩和するためには、LLMが社会倫理に準拠するように保護措置を実施することなどが含まれる。 脱獄戦術によって引き起こされる継続的な脅威とLLMの信頼性の高い使用に対する彼らの反発を認識し、そのような攻撃に対するモデルの堅牢さを厳格に評価することが不可欠である。 本研究は、総合的な評価フレームワークを導入し、このニーズに対処するための大規模な実証実験を行う。 我々は,3つのカテゴリ,61の特定の有害なカテゴリからの1525の質問,13の人気のあるLDMを含む,最先端のジェイルブレイク戦略に重点を置いている。 攻撃成功率(ASR)、毒性スコア(Toxicity Score)、Fluency(Fluency)、Token Length(Token Length)、文法エラー(Grammatical Errors)などの多次元指標を用いて、ジェイルブレイク下でのLLMのアウトプットを徹底的に評価する。 これらの指標の正規化と集約により、異なるLSMに対する詳細な信頼性スコアと、そのような脆弱性に対する感受性を低減するための戦略的勧告が提示される。 さらに, モデル間の関係, 攻撃戦略, 有害コンテンツのタイプ, 評価指標間の相関について検討し, 多面的評価フレームワークの有効性を実証する。 実験結果から,LLMの信頼性に重点を置くことの必要性が示唆された。 我々は,LLMのセキュリティ評価をドメイン内のジェイルブレイクに対して向上させる上で,重要な洞察を与えることができると考えている。

Large Language Models (LLMs) have increasingly become pivotal in content generation with notable societal impact. These models hold the potential to generate content that could be deemed harmful.Efforts to mitigate this risk include implementing safeguards to ensure LLMs adhere to social ethics.However, despite such measures, the phenomenon of "jailbreaking" -- where carefully crafted prompts elicit harmful responses from models -- persists as a significant challenge. Recognizing the continuous threat posed by jailbreaking tactics and their repercussions for the trustworthy use of LLMs, a rigorous assessment of the models' robustness against such attacks is essential. This study introduces an comprehensive evaluation framework and conducts an large-scale empirical experiment to address this need. We concentrate on 10 cutting-edge jailbreak strategies across three categories, 1525 questions from 61 specific harmful categories, and 13 popular LLMs. We adopt multi-dimensional metrics such as Attack Success Rate (ASR), Toxicity Score, Fluency, Token Length, and Grammatical Errors to thoroughly assess the LLMs' outputs under jailbreak. By normalizing and aggregating these metrics, we present a detailed reliability score for different LLMs, coupled with strategic recommendations to reduce their susceptibility to such vulnerabilities. Additionally, we explore the relationships among the models, attack strategies, and types of harmful content, as well as the correlations between the evaluation metrics, which proves the validity of our multifaceted evaluation framework. Our extensive experimental results demonstrate a lack of resilience among all tested LLMs against certain strategies, and highlight the need to concentrate on the reliability facets of LLMs. We believe our study can provide valuable insights into enhancing the security evaluation of LLMs against jailbreak within the domain.
翻訳日:2024-08-20 21:19:42 公開日:2024-08-18
# 改良ファインチューニングのための閾値フィルタリングパッケージ:パッケージ内の関連サンプルのトレーニング

Threshold Filtering Packing for Supervised Fine-Tuning: Training Related Samples within Packs ( http://arxiv.org/abs/2408.09327v1 )

ライセンス: Link先を確認
Jiancheng Dong, Lei Jiang, Wei Jin, Lu Cheng, (参考訳) 自動回帰モデルにおけるsupervised Fine-Tuning (SFT)のパッキングは、GPU処理を容易にするために設計された最大長に到達するまで、様々な長さのデータポイントを連結する。 しかし、データポイントをランダムに結合し、それらを自己回帰変換器に供給すると、対象物に有意な違いがあるため、配列のクロス汚染につながる可能性がある。 SFTの主流のアプローチは、注意計算フェーズの各トークンが、前のコンテキストに付加的な学習信号を与えることなく、自身の短いシーケンス内のトークンのみに焦点を当てることを保証する。 これらの課題に対処するために、我々はThreshold Filtering Packing (TFP)を導入し、同じパック内で十分な多様性を維持しながら、関連するコンテキストでサンプルを選択する方法を紹介した。 GSM8Kでは最大7倍,HumanEvalでは4倍,成人センサス所得データセットでは15倍の改善が見られた。

Packing for Supervised Fine-Tuning (SFT) in autoregressive models involves concatenating data points of varying lengths until reaching the designed maximum length to facilitate GPU processing. However, randomly concatenating data points and feeding them into an autoregressive transformer can lead to cross-contamination of sequences due to the significant difference in their subject matter. The mainstream approaches in SFT ensure that each token in the attention calculation phase only focuses on tokens within its own short sequence, without providing additional learning signals for the preceding context. To address these challenges, we introduce Threshold Filtering Packing (TFP), a method that selects samples with related context while maintaining sufficient diversity within the same pack. Our experiments show that TFP offers a simple-to-implement and scalable approach that significantly enhances SFT performance, with observed improvements of up to 7\% on GSM8K, 4\% on HumanEval, and 15\% on the adult-census-income dataset.
翻訳日:2024-08-20 21:19:42 公開日:2024-08-18
# 変分R行列法のBe原子へのディラック方程式への応用

Application of the Variational R-matrix Method for the Dirac Equation to the Be Atom ( http://arxiv.org/abs/2408.09329v1 )

ライセンス: Link先を確認
Chris H. Greene, Miguel A. Alarcón, (参考訳) 本稿ではディラック方程式に対する非定位固有チャネルR行列法の実装について述べる。 これには、ベリリウム原子の光イオン化断面積の簡単な導入、実装の詳細、および結果が含まれる。 ベリリウムは、小さいが重要な相対論的効果のために便利な試験である。 現在の計算は他のR行列計算や実験と一致している。 2pnd)1P系列のファノ線形状の変化を観察し、基底状態の光電離断面積で観測可能な三重項と一重項級数の間の以前には知られていなかった結合を明らかにする。

This paper presents an implementation of the non-iterative eigenchannel R-matrix method for the Dirac equation. It includes a brief introduction, implementation details, and results for the photoionization cross-section of the beryllium atom. Beryllium is a convenient test due to small but significant relativistic effects. The current calculation aligns with other R-matrix calculations and experiments. It observes the change in the Fano line shape of the (2pnd)1P series and, reveals a previously unnoticed coupling between triplet and singlet series observable in the ground state photoionization cross-section.
翻訳日:2024-08-20 21:19:42 公開日:2024-08-18
# NICOを用いた大規模言語モデルにおける自然な会話の育成:自然対話型会話データセット

Fostering Natural Conversation in Large Language Models with NICO: a Natural Interactive COnversation dataset ( http://arxiv.org/abs/2408.09330v1 )

ライセンス: Link先を確認
Renliang Sun, Mengyuan Liu, Shiping Yang, Rui Wang, Junqing He, Jiaxing Zhang, (参考訳) 多様な命令データセットから恩恵を受け、現代のLarge Language Models(LLM)は、人間との共同作業においてAIアシスタントとして効果的に機能する。 しかし、LLMはチャットボットや心理学的なカウンセリングなど、より人間的な対話を必要とする現実世界のアプリケーションにおいて、自然な、口語的な応答を生成するのに依然として苦労している。 これらの制限に対処するため、中国語でNatural Interactive ConversationデータセットであるNICOを紹介した。 まず,GPT-4-turboを用いて対話草案を作成し,20の日常生活トピックと5種類のソーシャルインタラクションをカバーさせる。 そして、これらの対話を改訂するために労働者を雇い、文法的誤りや不自然な発話のないことを保証します。 不自然な文を識別・書き直しする2つの対話レベル自然な会話タスクと2つの文レベルタスクを定義する。 複数のオープンソースおよびクローズドソース LLM がテストされ、詳細に分析されている。 実験の結果はタスクの課題を浮き彫りにし、NICOがLLMの自然な対話能力をいかに育むかを示した。 データセットはリリースされます。

Benefiting from diverse instruction datasets, contemporary Large Language Models (LLMs) perform effectively as AI assistants in collaborating with humans. However, LLMs still struggle to generate natural and colloquial responses in real-world applications such as chatbots and psychological counseling that require more human-like interactions. To address these limitations, we introduce NICO, a Natural Interactive COnversation dataset in Chinese. We first use GPT-4-turbo to generate dialogue drafts and make them cover 20 daily-life topics and 5 types of social interactions. Then, we hire workers to revise these dialogues to ensure that they are free of grammatical errors and unnatural utterances. We define two dialogue-level natural conversation tasks and two sentence-level tasks for identifying and rewriting unnatural sentences. Multiple open-source and closed-source LLMs are tested and analyzed in detail. The experimental results highlight the challenge of the tasks and demonstrate how NICO can help foster the natural dialogue capabilities of LLMs. The dataset will be released.
翻訳日:2024-08-20 21:19:42 公開日:2024-08-18
# YOLOv1からYOLOv10: 高速かつ高精度なリアルタイム物体検出システム

YOLOv1 to YOLOv10: The fastest and most accurate real-time object detection systems ( http://arxiv.org/abs/2408.09332v1 )

ライセンス: Link先を確認
Chien-Yao Wang, Hong-Yuan Mark Liao, (参考訳) これは、YOLOシリーズの総合的なレビューである。 これまでの文献調査とは違って, 最新の技術的観点から, YOLOシリーズの特徴を再検討する。 同時に、YOLOシリーズがリアルタイムコンピュータビジョン関連研究にどのように影響し続け、その後のコンピュータビジョンと言語モデルの発展に繋がったかを分析し、過去10年間のYOLOシリーズの提案した手法がその後の技術の発展にどのように影響しているかを詳しく調べ、様々な分野におけるYOLOの応用を示す。 この記事は、その後のリアルタイムコンピュータビジョン開発において、優れた指針となることを願っている。

This is a comprehensive review of the YOLO series of systems. Different from previous literature surveys, this review article re-examines the characteristics of the YOLO series from the latest technical point of view. At the same time, we also analyzed how the YOLO series continued to influence and promote real-time computer vision-related research and led to the subsequent development of computer vision and language models.We take a closer look at how the methods proposed by the YOLO series in the past ten years have affected the development of subsequent technologies and show the applications of YOLO in various fields. We hope this article can play a good guiding role in subsequent real-time computer vision development.
翻訳日:2024-08-20 21:09:49 公開日:2024-08-18
# SkyScript-100M:1000,000,000のスクリプトとショートドラマ用シューティングスクリプト

SkyScript-100M: 1,000,000,000 Pairs of Scripts and Shooting Scripts for Short Drama ( http://arxiv.org/abs/2408.09333v1 )

ライセンス: Link先を確認
Jing Tang, Quanlu Jia, Yuqiang Xie, Zeyu Gong, Xiang Wen, Jiayi Zhang, Yalong Guo, Guibin Chen, Jiangping Yang, (参考訳) ショートドラマの脚本生成には、シーンやショット言語などの情報を含む高品質な撮影スクリプトの生成が不可欠である。 我々はインターネットから6,660の人気の短編ドラマを収集し、それぞれ平均で100の短編エピソードを収集し、合計で約8,000回、合計で約2000時間、合計で10テラバイト(TB)の短いエピソードを収集した。 我々は各エピソードのキーフレーム抽出とアノテーションを実行し、約1万のシューティングスクリプトを取得する。 我々は,自作の大規模短編ドラマ生成モデルであるSkyReelsに基づいて,抽出した撮影スクリプトに対して,100の脚本復元を行う。 これにより、1000,000,000のスクリプトと、SkyScript-100Mと呼ばれるショートドラマ用のシューティングスクリプトを含むデータセットが生成される。 SkyScript-100Mと既存のデータセットを詳細に比較し、SkyScript-100Mに基づいて達成可能な、より深い洞察を実証する。 SkyScript-100Mに基づいて、研究者はより深く、より遠いスクリプト最適化目標を達成することができる。 データとコードはhttps://github.com/vaew/SkyScript-100Mで入手できる。

Generating high-quality shooting scripts containing information such as scene and shot language is essential for short drama script generation. We collect 6,660 popular short drama episodes from the Internet, each with an average of 100 short episodes, and the total number of short episodes is about 80,000, with a total duration of about 2,000 hours and totaling 10 terabytes (TB). We perform keyframe extraction and annotation on each episode to obtain about 10,000,000 shooting scripts. We perform 100 script restorations on the extracted shooting scripts based on our self-developed large short drama generation model SkyReels. This leads to a dataset containing 1,000,000,000 pairs of scripts and shooting scripts for short dramas, called SkyScript-100M. We compare SkyScript-100M with the existing dataset in detail and demonstrate some deeper insights that can be achieved based on SkyScript-100M. Based on SkyScript-100M, researchers can achieve several deeper and more far-reaching script optimization goals, which may drive a paradigm shift in the entire field of text-to-video and significantly advance the field of short drama video generation. The data and code are available at https://github.com/vaew/SkyScript-100M.
翻訳日:2024-08-20 21:09:49 公開日:2024-08-18
# 探索的最適停止:特異制御の定式化

Exploratory Optimal Stopping: A Singular Control Formulation ( http://arxiv.org/abs/2408.09335v1 )

ライセンス: Link先を確認
Jodi Dianetti, Giorgio Ferrari, Renyuan Xu, (参考訳) 本稿では,強化学習の観点から,連続時間と状態空間の最適停止問題について検討する。 まず、ランダムな停止時間を用いて停止問題を定式化し、決定者の制御を与えられた時間内に停止する確率で表す。 探索の促進と学習の促進を目的として,ランダム化された停止時間の累積残エントロピーを用いて,問題の正規化版を導入する。 正規化問題は、有限燃料による(n+1)次元退化特異確率制御の形を取る。 動的プログラミングの原理によってこの問題に対処し、ユニークな探索戦略を特定できる。 実オプション問題の特定の場合には、正規化問題に対する半明示的な解を導出し、エントロピー正則化の影響を評価し、消滅するエントロピー極限を分析する。 最後に,政策反復に基づく強化学習アルゴリズムを提案する。 本稿では,提案アルゴリズムの政策改善と政策収束結果について述べる。

This paper explores continuous-time and state-space optimal stopping problems from a reinforcement learning perspective. We begin by formulating the stopping problem using randomized stopping times, where the decision maker's control is represented by the probability of stopping within a given time--specifically, a bounded, non-decreasing, c\`adl\`ag control process. To encourage exploration and facilitate learning, we introduce a regularized version of the problem by penalizing it with the cumulative residual entropy of the randomized stopping time. The regularized problem takes the form of an (n+1)-dimensional degenerate singular stochastic control with finite-fuel. We address this through the dynamic programming principle, which enables us to identify the unique optimal exploratory strategy. For the specific case of a real option problem, we derive a semi-explicit solution to the regularized problem, allowing us to assess the impact of entropy regularization and analyze the vanishing entropy limit. Finally, we propose a reinforcement learning algorithm based on policy iteration. We show both policy improvement and policy convergence results for our proposed algorithm.
翻訳日:2024-08-20 21:09:49 公開日:2024-08-18
# Elite360M:バイプロジェクション融合とクロスタスク協調による360度マルチタスク学習

Elite360M: Efficient 360 Multi-task Learning via Bi-projection Fusion and Cross-task Collaboration ( http://arxiv.org/abs/2408.09336v1 )

ライセンス: Link先を確認
Hao Ai, Lin Wang, (参考訳) 360カメラは周囲の環境全体を大きなFoVで捉え、3D構造を直接推測するための総合的な視覚情報、例えば深さと表面の正常さ、およびセマンティック情報を同時に提示する。 既存の作品は、主に1つのタスクに特化しており、3次元幾何学と意味論のマルチタスク学習はほとんど探索されていない。 しかし、このような目的を達成することは、以下によって困難である。 1) 平面等角射影(ERP)の固有球面歪みと360度画像の超広視野FoVによる大域的認識の不十分 2) 相互利益を達成するために, 異なるタスク間の幾何学的・意味論を効果的に融合させる非自明な進歩。 本稿では,深度と表面の正規推定による3次元構造推定と,セマンティックセグメンテーションによるセマンティックスを同時に行うことができる,新しいエンドツーエンドマルチタスク学習フレームワークであるElite360Mを提案する。 我々のキーとなる考え方は、幾何学と意味論の相互および横断的な関係を探求しながら、強いグローバルな認識と歪みの少ない表現を構築することである。 我々は、歪みのない、空間的に連続するイコサヘドロン射影(ICOSAP)の点を取り入れ、ERPと組み合わせて世界的知覚を高める。 これにより、領域対応ERP機能とICOSAPポイント機能セットの各ピクセル間のセマンティック・アンド・距離対応の依存関係をキャプチャするために、Bi-Projection Bi-attention Fusionモジュールが設計される。 さらに,学習した表現からタスク固有の幾何学的・意味的な情報を明示的に抽出し,事前予測を行うクロスタスク協調モジュールを提案する。 その後、タスク間で空間的コンテキスト情報を統合して、タスク間の融合を実現する。 大規模な実験は、Elite360Mの有効性と有効性を示した。

360 cameras capture the entire surrounding environment with a large FoV, exhibiting comprehensive visual information to directly infer the 3D structures, e.g., depth and surface normal, and semantic information simultaneously. Existing works predominantly specialize in a single task, leaving multi-task learning of 3D geometry and semantics largely unexplored. Achieving such an objective is, however, challenging due to: 1) inherent spherical distortion of planar equirectangular projection (ERP) and insufficient global perception induced by 360 image's ultra-wide FoV; 2) non-trivial progress in effectively merging geometry and semantics among different tasks to achieve mutual benefits. In this paper, we propose a novel end-to-end multi-task learning framework, named Elite360M, capable of inferring 3D structures via depth and surface normal estimation, and semantics via semantic segmentation simultaneously. Our key idea is to build a representation with strong global perception and less distortion while exploring the inter- and cross-task relationships between geometry and semantics. We incorporate the distortion-free and spatially continuous icosahedron projection (ICOSAP) points and combine them with ERP to enhance global perception. With a negligible cost, a Bi-projection Bi-attention Fusion module is thus designed to capture the semantic- and distance-aware dependencies between each pixel of the region-aware ERP feature and the ICOSAP point feature set. Moreover, we propose a novel Cross-task Collaboration module to explicitly extract task-specific geometric and semantic information from the learned representation to achieve preliminary predictions. It then integrates the spatial contextual information among tasks to realize cross-task fusion. Extensive experiments demonstrate the effectiveness and efficacy of Elite360M.
翻訳日:2024-08-20 21:09:49 公開日:2024-08-18
# マルチスケールPDEの雑音分解におけるベイジアンPINNトレーニング収束性の改善

Improvement of Bayesian PINN Training Convergence in Solving Multi-scale PDEs with Noise ( http://arxiv.org/abs/2408.09340v1 )

ライセンス: Link先を確認
Yilong Hou, Xi'an Li, Jinran Wu, (参考訳) ベイズ物理学Informed Neural Networks (BPINN) は、雑音観測に基づいて微分方程式の系状態と物理パラメータを推定するためにかなりの注意を払っている。 しかし、実際には、ハミルトン・モンテカルロ (HMC) は、BPINNの内部パラメータを推定するのによく使われており、そのパラメータの運動量を調整するために使用される所定のステップサイズに対して、性能の低下やひどい収束などの問題に直面している。 BPINN法におけるHMC収束の有効性を向上し,その適用範囲を多スケール偏微分方程式(PDE)に拡張するために,マルチスケールディープニューラルネットワーク(MscaleDNN)とベイズ推論を統合することで,頑健なマルチスケールベイズ PINN (dubed MBPINN) 法を開発した。 新たに提案したMBPINN法では,HMCをStochastic Gradient Descent (SGD) で再構成し,最も `likely' な推定が常に可能であることを保証し,その解法をフーリエ特徴マッピングによるMscaleDNNとして構成する。 MBPINN法は,1)HMCよりも頑健であり,(2)HMCよりも計算コストが低く,(3)複雑な問題に対して柔軟である。 本稿では,1次元から3次元の空間における一般ポアソン問題と多スケール楕円問題による提案手法の適用性と性能について述べる。 その結果,提案手法はHMCの故障を回避し,有効な結果が得られることがわかった。 さらに,本手法は複雑なPDEを処理し,一般PDEに匹敵する結果が得られる。 これらの結果から,提案手法は,パラメータ推定や解の回復に物理インフォームド・機械学習が有効である可能性が示唆された。

Bayesian Physics Informed Neural Networks (BPINN) have received considerable attention for inferring differential equations' system states and physical parameters according to noisy observations. However, in practice, Hamiltonian Monte Carlo (HMC) used to estimate the internal parameters of BPINN often encounters troubles, including poor performance and awful convergence for a given step size used to adjust the momentum of those parameters. To improve the efficacy of HMC convergence for the BPINN method and extend its application scope to multi-scale partial differential equations (PDE), we developed a robust multi-scale Bayesian PINN (dubbed MBPINN) method by integrating multi-scale deep neural networks (MscaleDNN) and Bayesian inference. In this newly proposed MBPINN method, we reframe HMC with Stochastic Gradient Descent (SGD) to ensure the most ``likely'' estimation is always provided, and we configure its solver as a Fourier feature mapping-induced MscaleDNN. The MBPINN method offers several key advantages: (1) it is more robust than HMC, (2) it incurs less computational cost than HMC, and (3) it is more flexible for complex problems. We demonstrate the applicability and performance of the proposed method through general Poisson and multi-scale elliptic problems in one- to three-dimensional spaces. Our findings indicate that the proposed method can avoid HMC failures and provide valid results. Additionally, our method can handle complex PDE and produce comparable results for general PDE. These findings suggest that our proposed approach has excellent potential for physics-informed machine learning for parameter estimation and solution recovery in the case of ill-posed problems.
翻訳日:2024-08-20 21:09:49 公開日:2024-08-18
# Naming-Agnostic Contrastive Multi-View Learningを用いた深層コード検索

Deep Code Search with Naming-Agnostic Contrastive Multi-View Learning ( http://arxiv.org/abs/2408.09345v1 )

ライセンス: Link先を確認
Jiadong Feng, Wei Li, Zhao Wei, Yong Xu, Juhong Wang, Hui Li, (参考訳) ソフトウェア開発は、開発者が通常既存の実装を再利用したり、インスピレーションを得たりするため、反復的なタスクである。 コード検索は、開発者がクエリとして表現した意図に従ってコードベースから関連するコードスニペットを検索することを指すもので、ソフトウェア開発プロセスにおいてますます重要になっている。 様々なアプリケーションにおけるディープラーニングの成功により、多くのディープラーニングベースのコード検索アプローチが生まれ、有望な結果を得た。 しかし、開発者は同じ命名規則に従わないかもしれないし、同じ変数は異なる実装で異なる変数名を持つかもしれない。 この課題を克服するために、コントラッシブなマルチビューコード表現学習に基づく命名に依存しないコード探索法(NACS)を提案する。 NACSは、ソースコードの抽象構文構造の表現であるAST(Abstract Syntax Tree)から変数名に結びついた情報を取り除き、AST構造のみから固有のプロパティを取得することに重点を置いている。 我々は、意味レベルと構文レベルの拡張技術を用いて、現実的に合理的なデータを作成し、対照的な学習を採用して、NACSのグラフビューモデリングコンポーネントを設計し、コードスニペットの理解を深める。 我々はさらに、多視点学習を通してグラフビューモデリングコンポーネントを強化するために、パスビューでASTをモデル化する。 大規模な実験により、NACSはベースラインよりも優れたコード検索性能を提供し、NACSは既存のコード検索手法が異なる命名規則の影響を克服するのに役立つことが示されている。

Software development is a repetitive task, as developers usually reuse or get inspiration from existing implementations. Code search, which refers to the retrieval of relevant code snippets from a codebase according to the developer's intent that has been expressed as a query, has become increasingly important in the software development process. Due to the success of deep learning in various applications, a great number of deep learning based code search approaches have sprung up and achieved promising results. However, developers may not follow the same naming conventions and the same variable may have different variable names in different implementations, bringing a challenge to deep learning based code search methods that rely on explicit variable correspondences to understand source code. To overcome this challenge, we propose a naming-agnostic code search method (NACS) based on contrastive multi-view code representation learning. NACS strips information bound to variable names from Abstract Syntax Tree (AST), the representation of the abstract syntactic structure of source code, and focuses on capturing intrinsic properties solely from AST structures. We use semantic-level and syntax-level augmentation techniques to prepare realistically rational data and adopt contrastive learning to design a graph-view modeling component in NACS to enhance the understanding of code snippets. We further model ASTs in a path view to strengthen the graph-view modeling component through multi-view learning. Extensive experiments show that NACS provides superior code search performance compared to baselines and NACS can be adapted to help existing code search methods overcome the impact of different naming conventions.
翻訳日:2024-08-20 21:09:49 公開日:2024-08-18
# S^3D-NeRF:高忠実トーキングヘッド合成のためのシングルショット音声駆動型ニューラルラジアンス場

S^3D-NeRF: Single-Shot Speech-Driven Neural Radiance Field for High Fidelity Talking Head Synthesis ( http://arxiv.org/abs/2408.09347v1 )

ライセンス: Link先を確認
Dongze Li, Kang Zhao, Wei Wang, Yifeng Ma, Bo Peng, Yingya Zhang, Jing Dong, (参考訳) 頭部合成は幅広い応用の実践的手法である。 現在のNeRF(Neural Radiance Field)ベースのアプローチは、音声から抑圧されたビデオや信号でワンショットの音声ヘッドを駆動する上で、その優位性を示している。 しかし、そのほとんどは、音声を直接駆動する情報として捉えることができず、音声の柔軟性と可用性を享受できなかった。 音声信号を顔の変形にマッピングするのは簡単ではないため,本論文では,各個人に対する代表的外観特徴の学習,異なる顔領域の動作のモデル化,唇領域の時間的一貫性の維持という3つの課題に対処するため,シングルショット音声駆動型ニューラルレーシアンスフィールド(S^3D-NeRF)法を設計する。 この目的のために、異なる話者の出現を捉えるためのマルチスケール表現を学習するための階層的顔の出現エンコーダを導入し、音声信号と異なる顔領域の関係に応じて音声アニメーションを行うクロスモーダル顔の変形場を精査する。 さらに,重要な唇領域の時間的一貫性を高めるために,非同期音声視覚系列をペナルライズするリップ同期判別器を導入する。 我々のS^3D-NeRFは、ビデオの忠実度とオーディオ-リップ同期の両方において、従来の技術を上回っている。

Talking head synthesis is a practical technique with wide applications. Current Neural Radiance Field (NeRF) based approaches have shown their superiority on driving one-shot talking heads with videos or signals regressed from audio. However, most of them failed to take the audio as driven information directly, unable to enjoy the flexibility and availability of speech. Since mapping audio signals to face deformation is non-trivial, we design a Single-Shot Speech-Driven Neural Radiance Field (S^3D-NeRF) method in this paper to tackle the following three difficulties: learning a representative appearance feature for each identity, modeling motion of different face regions with audio, and keeping the temporal consistency of the lip area. To this end, we introduce a Hierarchical Facial Appearance Encoder to learn multi-scale representations for catching the appearance of different speakers, and elaborate a Cross-modal Facial Deformation Field to perform speech animation according to the relationship between the audio signal and different face regions. Moreover, to enhance the temporal consistency of the important lip area, we introduce a lip-sync discriminator to penalize the out-of-sync audio-visual sequences. Extensive experiments have shown that our S^3D-NeRF surpasses previous arts on both video fidelity and audio-lip synchronization.
翻訳日:2024-08-20 21:09:49 公開日:2024-08-18
# Hyperstroke: アート描画のための新しい高品質なストローク表現

Hyperstroke: A Novel High-quality Stroke Representation for Assistive Artistic Drawing ( http://arxiv.org/abs/2408.09348v1 )

ライセンス: Link先を確認
Haoyun Qin, Jian Lin, Hanyuan Liu, Xueting Liu, Chengze Li, (参考訳) 補助図面は、芸術家にインテリジェントなガイダンスを提供することによって創造的なプロセスを促進することを目的としている。 既存のソリューションは、複雑なストロークの詳細を効果的にモデル化したり、図面の時間的側面に適切に対処するのに失敗することが多い。 RGB外見やαチャネル不透明度を含む細かなストロークの詳細を正確に捉えるために設計された,新しいストローク表現であるHyperstrokeを導入する。 ベクトル量子化アプローチを用いて、ハイパーストロークは、アートドローイングのリアルライフドローイングビデオからストロークのコンパクトなトークン化表現を学習する。 ハイパーストロークを用いてトランスフォーマーアーキテクチャを用いて補助描画をモデル化し,直感的かつユーザフレンドリな描画アプリケーションを実現することを提案する。

Assistive drawing aims to facilitate the creative process by providing intelligent guidance to artists. Existing solutions often fail to effectively model intricate stroke details or adequately address the temporal aspects of drawing. We introduce hyperstroke, a novel stroke representation designed to capture precise fine stroke details, including RGB appearance and alpha-channel opacity. Using a Vector Quantization approach, hyperstroke learns compact tokenized representations of strokes from real-life drawing videos of artistic drawing. With hyperstroke, we propose to model assistive drawing via a transformer-based architecture, to enable intuitive and user-friendly drawing applications, which are experimented in our exploratory evaluation.
翻訳日:2024-08-20 21:09:49 公開日:2024-08-18
# E-CGL: 継続的なグラフ学習の効率化

E-CGL: An Efficient Continual Graph Learner ( http://arxiv.org/abs/2408.09350v1 )

ライセンス: Link先を確認
Jianhao Guo, Zixuan Ni, Yun Zhu, Siliang Tang, (参考訳) 連続学習は、先行知識を保ちながらシーケンシャルデータから学ぶための重要なパラダイムとして現れてきた。 連続グラフ学習の領域では、グラフはストリーミンググラフデータに基づいて連続的に進化するが、連続グラフ学習は破滅的忘れの問題に加えて、適応的で効率的なグラフ学習方法を必要とする固有の課題を提示する。 最初の課題は、前のグラフが新しいデータ分散に影響を与える、異なるグラフデータ間の相互依存性から生じます。 2つ目の課題は、大きなグラフを扱う際の効率上の問題である。 本稿では,この2つの問題に対処するために,効率的な連続グラフ学習器(E-CGL)を提案する。 我々は,リプレイ戦略の有効性を実証し,ノードの重要度と多様性を両立したサンプリング戦略を導入することで,相互依存の問題に取り組む。 効率の限界を克服するため、E-CGLは、訓練中にGCNと重みを共有できるシンプルだが効果的なMLPモデルを活用し、計算コストの高いメッセージパッシングプロセスを回避して加速を実現する。 提案手法は4つのグラフ連続学習データセットを2つの設定で総合的に9つのベースラインを超え,一方E-CGLは破滅的な忘れ込み問題を平均1.1%まで削減する。 さらに、E-CGLは4つのデータセットで平均15.83倍のトレーニングタイムアクセラレーションと4.89倍の推論タイムアクセラレーションを達成する。 これらの結果から,E-CGLは連続学習中に異なるグラフデータ間の相関を効果的に管理するだけでなく,大規模グラフ上での連続学習の効率を高めることが示唆された。 コードはhttps://github.com/aubreygjh/E-CGLで公開されている。

Continual learning has emerged as a crucial paradigm for learning from sequential data while preserving previous knowledge. In the realm of continual graph learning, where graphs continuously evolve based on streaming graph data, continual graph learning presents unique challenges that require adaptive and efficient graph learning methods in addition to the problem of catastrophic forgetting. The first challenge arises from the interdependencies between different graph data, where previous graphs can influence new data distributions. The second challenge lies in the efficiency concern when dealing with large graphs. To addresses these two problems, we produce an Efficient Continual Graph Learner (E-CGL) in this paper. We tackle the interdependencies issue by demonstrating the effectiveness of replay strategies and introducing a combined sampling strategy that considers both node importance and diversity. To overcome the limitation of efficiency, E-CGL leverages a simple yet effective MLP model that shares weights with a GCN during training, achieving acceleration by circumventing the computationally expensive message passing process. Our method comprehensively surpasses nine baselines on four graph continual learning datasets under two settings, meanwhile E-CGL largely reduces the catastrophic forgetting problem down to an average of -1.1%. Additionally, E-CGL achieves an average of 15.83x training time acceleration and 4.89x inference time acceleration across the four datasets. These results indicate that E-CGL not only effectively manages the correlation between different graph data during continual training but also enhances the efficiency of continual learning on large graphs. The code is publicly available at https://github.com/aubreygjh/E-CGL.
翻訳日:2024-08-20 21:09:49 公開日:2024-08-18
# 時間的行動検出のための境界回復ネットワーク

Boundary-Recovering Network for Temporal Action Detection ( http://arxiv.org/abs/2408.09354v1 )

ライセンス: Link先を確認
Jihwan Kim, Jaehyun Choi, Yerim Jeon, Jae-Pil Heo, (参考訳) 時間的行動検出(TAD)は、現実の動画アプリケーションには難しいが、基本的なものである。 行動の時間スケールの大きな変動は、TADの最も大きな問題の1つである。 自然界において、多スケールの特徴は、物体検出に広く用いられるように、様々な長さの作用を局所化する可能性がある。 それでも、画像のオブジェクトとは異なり、アクションは境界においてよりあいまいである。 すなわち、小さな隣接した物体は大きな物体とはみなされないが、短い隣接した行動は長い物体と誤解されることがある。 疎水化による粗大な特徴ピラミッドでは、これらのあいまいな作用境界がフェードアウトし、これを「消滅境界問題」と呼ぶ。 そこで本研究では,消滅する境界問題に対処するため,境界回復ネットワーク(BRN)を提案する。 BRNは、マルチスケール特徴を同じ時間長に補間することにより、スケールディメンションと呼ばれる新しい軸を導入することで、スケールタイム特徴を構築する。 スケールタイム機能に加えて、スケールタイムブロックはスケールレベルの機能交換を学ぶことで、この問題を効果的に解決することができる。 大規模な実験により,我々のモデルは2つの挑戦的ベンチマークである ActivityNet-v1.3 と THUMOS14 よりも優れており,消滅する境界問題の程度は著しく減少していることがわかった。

Temporal action detection (TAD) is challenging, yet fundamental for real-world video applications. Large temporal scale variation of actions is one of the most primary difficulties in TAD. Naturally, multi-scale features have potential in localizing actions of diverse lengths as widely used in object detection. Nevertheless, unlike objects in images, actions have more ambiguity in their boundaries. That is, small neighboring objects are not considered as a large one while short adjoining actions can be misunderstood as a long one. In the coarse-to-fine feature pyramid via pooling, these vague action boundaries can fade out, which we call 'vanishing boundary problem'. To this end, we propose Boundary-Recovering Network (BRN) to address the vanishing boundary problem. BRN constructs scale-time features by introducing a new axis called scale dimension by interpolating multi-scale features to the same temporal length. On top of scale-time features, scale-time blocks learn to exchange features across scale levels, which can effectively settle down the issue. Our extensive experiments demonstrate that our model outperforms the state-of-the-art on the two challenging benchmarks, ActivityNet-v1.3 and THUMOS14, with remarkably reduced degree of the vanishing boundary problem.
翻訳日:2024-08-20 21:09:49 公開日:2024-08-18
# 骨格に基づく行動認識改善のための同時時空間プーリング

Joint Temporal Pooling for Improving Skeleton-based Action Recognition ( http://arxiv.org/abs/2408.09356v1 )

ライセンス: Link先を確認
Shanaka Ramesh Gunasekara, Wanqing Li, Jack Yang, Philip Ogunbona, (参考訳) 骨格に基づく人間の行動認識において、時間プーリングは関節力学の時空間的関係を捉える重要なステップである。 従来のプール法は動作情報の保存を見落とし,各フレームを等しく扱う。 しかし、アクションシーケンスでは、いくつかのフレームだけがアクションに関連する識別情報を持っている。 本稿では,骨格に基づく行動認識を改善するために,新しいJMAP法を提案する。 フレームワイドプールとジョイントワイドプールの2種類のJMAPが導入された。 JMAPの有効性は、人気のあるNTU RGB+D 120とPKU-MMDデータセットの実験を通じて検証されている。

In skeleton-based human action recognition, temporal pooling is a critical step for capturing spatiotemporal relationship of joint dynamics. Conventional pooling methods overlook the preservation of motion information and treat each frame equally. However, in an action sequence, only a few segments of frames carry discriminative information related to the action. This paper presents a novel Joint Motion Adaptive Temporal Pooling (JMAP) method for improving skeleton-based action recognition. Two variants of JMAP, frame-wise pooling and joint-wise pooling, are introduced. The efficacy of JMAP has been validated through experiments on the popular NTU RGB+D 120 and PKU-MMD datasets.
翻訳日:2024-08-20 21:09:49 公開日:2024-08-18
# Meta-Learning Empowered Meta-Face:Personalized Speech Style Adaptation for Audio-Driven 3D Talking Face Animation (英語)

Meta-Learning Empowered Meta-Face: Personalized Speaking Style Adaptation for Audio-Driven 3D Talking Face Animation ( http://arxiv.org/abs/2408.09357v1 )

ライセンス: Link先を確認
Xukun Zhou, Fengxin Li, Ziqiao Peng, Kejian Wu, Jun He, Biao Qin, Zhaoxin Fan, Hongyan Liu, (参考訳) オーディオ駆動の3D顔アニメーションは、ライブストリーミングや拡張現実アプリケーションでますます重要になっている。 顕著な進歩が見られたが、既存のアプローチのほとんどは、事前に定義された話し方を持つ特定の個人向けに設計されており、それによって様々な話し方への適応性を無視している。 この制限に対処するため,本研究ではMetaFaceを紹介した。 MetaFaceはメタラーニングという新しい概念に基づいており、基本的な話し方適応のためのRobust Meta Initialization Stage (RMIS)、観察された話し方と観測されていない話し方の接続を鍛えるDynamic Relation Mining Neural Process (DRMN)、学習スタイルの詳細だけでなくモデル最適化の効率を高めるための低ランクマトリックスメモリリダクション・アプローチ (Low-rank Matrix Memory Reduction Approach) といった重要なコンポーネントで構成されている。 これらの新しいデザインを活用することで、MetaFaceはロバストな既存のベースラインを著しく上回るだけでなく、実験結果によって裏付けられた新しい最先端技術を確立します。

Audio-driven 3D face animation is increasingly vital in live streaming and augmented reality applications. While remarkable progress has been observed, most existing approaches are designed for specific individuals with predefined speaking styles, thus neglecting the adaptability to varied speaking styles. To address this limitation, this paper introduces MetaFace, a novel methodology meticulously crafted for speaking style adaptation. Grounded in the novel concept of meta-learning, MetaFace is composed of several key components: the Robust Meta Initialization Stage (RMIS) for fundamental speaking style adaptation, the Dynamic Relation Mining Neural Process (DRMN) for forging connections between observed and unobserved speaking styles, and the Low-rank Matrix Memory Reduction Approach to enhance the efficiency of model optimization as well as learning style details. Leveraging these novel designs, MetaFace not only significantly outperforms robust existing baselines but also establishes a new state-of-the-art, as substantiated by our experimental results.
翻訳日:2024-08-20 21:09:49 公開日:2024-08-18
# シミュレーション投影幾何学による頭部CBCTからのパノラマ生合成

Panorama Tomosynthesis from Head CBCT with Simulated Projection Geometry ( http://arxiv.org/abs/2408.09358v1 )

ライセンス: Link先を確認
Anusree P. S., Bikram Keshari Parida, Seong Yong Moon, Wonsang You, (参考訳) コーンビームCT (CBCT) とパノラマX線は, 歯科医療において最もよく用いられる画像モダリティである。 CBCTは患者の頭部の3次元像を作成でき、臨床医により良い診断能力を提供する一方、パノラマX線は単一の画像で顎顔面領域全体を捉えることができる。 CBCTが既に利用可能であれば、パノラマX線を合成し、即時追加スキャンや余分な放射線曝露を避けることが有用である。 既存の方法は、近似的な歯科用アーチを規定し、このアーチに沿って直交する突起を作成することに重点を置いている。 しかし、このような歯科用アーチの抽出には黄金の標準は利用できないため、この選択は合成X線の品質に影響を及ぼす可能性がある。 このような問題を回避するために,シミュレーション投影幾何と動的回転中心を用いた様々な頭部CBCTからパノラマX線を合成する方法を提案する。 本手法は, 欠損歯や非欠損歯, 重金属インプラントの存在下においてもCBCTからパノラマ像を効果的に合成する。 本手法はCBCTスキャナーによらず,高品質なパノラマ画像を生成することができることを示す。

Cone Beam Computed Tomography (CBCT) and Panoramic X-rays are the most commonly used imaging modalities in dental health care. CBCT can produce three-dimensional views of a patient's head, providing clinicians with better diagnostic capability, whereas Panoramic X-ray can capture the entire maxillofacial region in a single image. If the CBCT is already available, it can be beneficial to synthesize a Panoramic X-ray, thereby avoiding an immediate additional scan and extra radiation exposure. Existing methods focus on delineating an approximate dental arch and creating orthogonal projections along this arch. However, no golden standard is available for such dental arch extractions, and this choice can affect the quality of synthesized X-rays. To avoid such issues, we propose a novel method for synthesizing Panoramic X-rays from diverse head CBCTs, employing a simulated projection geometry and dynamic rotation centers. Our method effectively synthesized panoramic views from CBCT, even for patients with missing or nonexistent teeth and in the presence of severe metal implants. Our results demonstrate that this method can generate high-quality panoramic images irrespective of the CBCT scanner geometry.
翻訳日:2024-08-20 21:09:49 公開日:2024-08-18
# 援助率を考慮した断続的直接指導に基づくディッシュリンクとスクラブの行動学習

Behavioral Learning of Dish Rinsing and Scrubbing based on Interruptive Direct Teaching Considering Assistance Rate ( http://arxiv.org/abs/2408.09360v1 )

ライセンス: Link先を確認
Shumpei Wakabayashi, Kento Kawaharazuka, Kei Okada, Masayuki Inaba, (参考訳) ロボットは安全で巧妙な方法で物体を操作することが期待されている。 例えば、皿を洗うことは、スポンジで皿をこすって水で洗うという豪華な作業である。 水をはねることなく、皿を落とすことなく安全に学ぶ必要がある。 本研究では,安全かつ巧妙な操作システムを提案する。 % 汚れた皿を洗って洗うことができる。 ロボットは、物体とロボット自体の状態と制御入力と、人間がロボットの手の最初の軌跡を割り込み直接指導によって補正した後に必要な人的援助の量(補助率)を推定することにより、物体の力学モデルを学ぶ。 取得したダイナミクスモデルを用いて、推定値と基準値%の誤差を次回にバックプロパゲートすることにより、例えば、基準値に近づいた制御入力を生成することができ、例えば、人的補助が不要で、料理が過度に動かない。 これにより、形状や性質が不明な皿を適応的に洗うことができる。 結果として、人的援助の少ない安全な行動を生成することができる。

Robots are expected to manipulate objects in a safe and dexterous way. For example, washing dishes is a dexterous operation that involves scrubbing the dishes with a sponge and rinsing them with water. It is necessary to learn it safely without splashing water and without dropping the dishes. In this study, we propose a safe and dexterous manipulation system. %that can scrub and rinse dirty dishes. The robot learns a dynamics model of the object by estimating the state of the object and the robot itself, the control input, and the amount of human assistance required (assistance rate) after the human corrects the initial trajectory of the robot's hands by interruptive direct teaching. By backpropagating the error between the estimated and the reference value %at the next time using the acquired dynamics model, the robot can generate a control input that approaches the reference value, for example, so that human assistance is not required and the dish does not move excessively. This allows for adaptive rinsing and scrubbing of dishes with unknown shapes and properties. As a result, it is possible to generate safe actions that require less human assistance.
翻訳日:2024-08-20 21:09:49 公開日:2024-08-18
# 変圧器による位置推定の角度:ゼロショット機能を有するスパース・グリッドレス法

Angle of Arrival Estimation with Transformer: A Sparse and Gridless Method with Zero-Shot Capability ( http://arxiv.org/abs/2408.09362v1 )

ライセンス: Link先を確認
Zhaoxuan Zhu, Chulong Chen, Bo Yang, (参考訳) 自動車用多入力多重出力(MIMO)レーダーは、コスト効率、運転条件への弾力性、検知範囲の延長などにより、先進運転支援システム(ADAS)と自律走行車(AV)で大きな注目を集めている。 MIMOレーダの利点をフル活用するためには、合理的な計算負荷で高い性能を実現するアングル・オブ・アーリバル(AOA)アルゴリズムを開発することが重要である。 本研究では,高速グリッドレスAOA推定のためのAAETR (Angle of Arrival Estimation with TRansformer)を提案する。 様々な信号対雑音比(SNR)とマルチターゲットシナリオの総合的な評価は、IAA(Iterative Adaptive Approach)のような超高分解能AOAアルゴリズムと比較してAAETRの優れた性能を示している。 提案アーキテクチャは、グリッドベースIAAに関連する高計算コストとSNRのトラドリング損失の問題を克服し、効率よく、スケーラブルで、スパースで、グリッドレスのアングルフィニング機能を備えている。 AAETRは調整可能なハイパーパラメータを少なくし、ディープラーニングレーダー認識パイプラインでエンドツーエンドのトレーニングが可能である。 大規模なシミュレートされたデータセットをトレーニングして実際のデータセットで評価すると、AAETRは目覚ましいゼロショットのシミュレート可能性と創発的なサイドローブ抑制能力を示す。 これは、提案手法の有効性と実用システムにおけるドロップインモジュールとしての可能性を強調している。

Automotive Multiple-Input Multiple-Output (MIMO) radars have gained significant traction in Advanced Driver Assistance Systems (ADAS) and Autonomous Vehicles (AV) due to their cost-effectiveness, resilience to challenging operating conditions, and extended detection range. To fully leverage the advantages of MIMO radars, it is crucial to develop an Angle of Arrival (AOA) algorithm that delivers high performance with reasonable computational workload. This work introduces AAETR (Angle of Arrival Estimation with TRansformer) for high performance gridless AOA estimation. Comprehensive evaluations across various signal-to-noise ratios (SNRs) and multi-target scenarios demonstrate AAETR's superior performance compared to super resolution AOA algorithms such as Iterative Adaptive Approach (IAA). The proposed architecture features efficient, scalable, sparse and gridless angle-finding capability, overcoming the issues of high computational cost and straddling loss in SNR associated with grid-based IAA. AAETR requires fewer tunable hyper-parameters and is end-to-end trainable in a deep learning radar perception pipeline. When trained on large-scale simulated datasets then evaluated on real dataset, AAETR exhibits remarkable zero-shot sim-to-real transferability and emergent sidelobe suppression capability. This highlights the effectiveness of the proposed approach and its potential as a drop-in module in practical systems.
翻訳日:2024-08-20 21:09:49 公開日:2024-08-18
# Kerrパラメトリック発振器結合系における量子アニールの断熱条件の実験的検討

Proposal to experimentally evaluate the adiabatic condition of quantum annealing in coupled systems of Kerr parametric oscillators ( http://arxiv.org/abs/2408.09363v1 )

ライセンス: Link先を確認
Yuichiro Mori, Harunobu Hiratsuka, Yuichiro Matsuzaki, (参考訳) 量子アニーリング(Quantum annealing, QA)は、アディアバティック時間進化を用いてハミルトン問題の基底状態を求めるアルゴリズムである。 近年,分光法を応用した実験における断熱性の評価手法が提案されている。 しかし、この方法はQA中の相互作用強度の時間的振動を必要とし、実験的な実験の課題を提起する。 本稿では,Kerr非線形性(KPO)を持つパラメトリック発振器を用いてQAを行う際の断熱性を評価する実験手法を提案する。 重要なことは、この提案は、QA中の相互作用の時間的振動を不要にすることで大きな利点をもたらす。 本手法の有効性を数値シミュレーションにより検証し,本手法の有効性を示す。

Quantum annealing (QA) is an algorithm to find the ground state of the problem Hamiltonian by using an adiabatic time evolution. An approach to evaluate adiabaticity in the experiment by applying spectroscopic techniques has recently been suggested. However, this method requires temporal oscillation of interaction strength during QA, posing challenges for experimental demonstration. Here, we propose an experimental method for evaluating adiabaticity when performing QA with a parametric oscillator with Kerr nonlinearity (KPO). Importantly, our proposal offers a significant advantage by eliminating the need for temporal oscillation of interactions during QA. We investigate its performance through numerical simulations, and we show the feasibility of our method.
翻訳日:2024-08-20 20:59:59 公開日:2024-08-18
# 仮説から理論へのアプローチによる強弱モデルからの概念蒸留

Concept Distillation from Strong to Weak Models via Hypotheses-to-Theories Prompting ( http://arxiv.org/abs/2408.09365v1 )

ライセンス: Link先を確認
Emmanuel Aboah Boateng, Cassiano O. Becker, Nabiha Asghar, Kabir Walia, Ashwin Srinivasan, Ehi Nosakhare, Victor Dibia, Soundar Srinivasan, (参考訳) 言語モデルのパフォーマンスを最適化するための手作りの高品質なプロンプトは、複雑で労働集約的なプロセスである。 さらに、より新しく、より小さく、より弱いモデルに移行する場合(おそらくレイテンシやコストの上昇による)、タスクパフォーマンスを再最適化するためには、プロンプトを更新する必要がある。 本稿では,複雑なタスクにおいてより弱いモデルを改善するための自動プロンプト最適化手法である概念蒸留(CD)を提案する。 CDは、(1)ベースプロンプト(初期化)による弱いモデルによるミスの収集、(2)強力なモデルを使用してこれらのミスの原因を生成し、弱いモデルのためのルール/概念を作成する(推論)、(3)検証セットのパフォーマンスに基づいてこれらのルールをフィルタリングし、ベースプロンプトに統合する(推論/検証)。 我々はNL2Codeと数学的推論タスクにおけるCDの評価を行い、より小型で弱い言語モデルに対する顕著な性能向上を観察した。 特に、Mistral-7BのMulti-Arithでの精度は20%上昇し、Phi-3-mini-3.8BのHumanEvalでの精度は34%上昇した。 他の自動化手法と比較して、CDは複雑なタスクにおける弱いモデルの性能を改善する効果的なコスト効率の戦略を提供し、パフォーマンスを損なうことなく、異なる言語モデル間のシームレスなワークロードマイグレーションを可能にする。

Hand-crafting high quality prompts to optimize the performance of language models is a complicated and labor-intensive process. Furthermore, when migrating to newer, smaller, or weaker models (possibly due to latency or cost gains), prompts need to be updated to re-optimize the task performance. We propose Concept Distillation (CD), an automatic prompt optimization technique for enhancing weaker models on complex tasks. CD involves: (1) collecting mistakes made by weak models with a base prompt (initialization), (2) using a strong model to generate reasons for these mistakes and create rules/concepts for weak models (induction), and (3) filtering these rules based on validation set performance and integrating them into the base prompt (deduction/verification). We evaluated CD on NL2Code and mathematical reasoning tasks, observing significant performance boosts for small and weaker language models. Notably, Mistral-7B's accuracy on Multi-Arith increased by 20%, and Phi-3-mini-3.8B's accuracy on HumanEval rose by 34%. Compared to other automated methods, CD offers an effective, cost-efficient strategy for improving weak models' performance on complex tasks and enables seamless workload migration across different language models without compromising performance.
翻訳日:2024-08-20 20:59:59 公開日:2024-08-18
# オンラインコミュニティにおける大規模言語モデルの適合性向上と評価

Improving and Assessing the Fidelity of Large Language Models Alignment to Online Communities ( http://arxiv.org/abs/2408.09366v1 )

ライセンス: Link先を確認
Minh Duc Chu, Zihao He, Rebecca Dorn, Kristina Lerman, (参考訳) 大規模言語モデル(LLM)は個人やコミュニティを表現し、複雑な社会力学を研究する新しい方法を提供している。 しかしながら、LLMを特定のヒトグループと効果的に整列し、アライメントの忠実さを体系的に評価することは依然として課題である。 本稿では,LLMとオンラインコミュニティの整合性を評価するための堅牢な枠組みとして,信頼度,感情的トーン,毒性,有害度など,言語の各側面のアライメントを総合的に評価する。 ダイエットと体像を中心としたオンラインコミュニティに適用することで,我々のアプローチの有用性を実証する。 我々は,摂食障害の精神測定テストを実施し,不健康な信念を明らかにするとともに,摂食障害リスクのレベルが異なる地域社会の差別化に成功している。 本研究は, 自動モデレーションにおけるLCMsの可能性と, 公衆衛生・社会科学研究における幅広い応用を明らかにするものである。

Large language models (LLMs) have shown promise in representing individuals and communities, offering new ways to study complex social dynamics. However, effectively aligning LLMs with specific human groups and systematically assessing the fidelity of the alignment remains a challenge. This paper presents a robust framework for aligning LLMs with online communities via instruction-tuning and comprehensively evaluating alignment across various aspects of language, including authenticity, emotional tone, toxicity, and harm. We demonstrate the utility of our approach by applying it to online communities centered on dieting and body image. We administer an eating disorder psychometric test to the aligned LLMs to reveal unhealthy beliefs and successfully differentiate communities with varying levels of eating disorder risk. Our results highlight the potential of LLMs in automated moderation and broader applications in public health and social science research.
翻訳日:2024-08-20 20:59:59 公開日:2024-08-18
# ディープラーニングとCTによる肺癌診断と生存予測の改善

Improving Lung Cancer Diagnosis and Survival Prediction with Deep Learning and CT Imaging ( http://arxiv.org/abs/2408.09367v1 )

ライセンス: Link先を確認
Xiawei Wang, James Sharpnack, Thomas C. M. Lee, (参考訳) 肺癌はがん死の主要な原因であり、早期診断と治療は患者の生存率を改善するために重要である。 本稿では, 肺がんリスクとCT画像中の肺形態との非線形関係をモデル化するために, 畳み込みニューラルネットワークを用いることを提案する。 我々は、ニューラルネットワークによって誘導される非凸性を扱うために、Cox比例ハザードモデルを拡張したミニバッチロスを適用し、大規模なデータセットのトレーニングを可能にする。 また,肺がんの発生と死亡リスクを予測するために,ミニバッチ・ロスとバイナリ・クロスエントロピーを組み合わせることを提案する。 シミュレーションの結果, 検閲機構と非検閲機構の併用, バイナリ・クロスエントロピーの併用による小型バッチ損失の有効性が示された。 肺がんの分類と生存予測のための高AUC, C-indexスコアを得られた3次元畳み込みニューラルネットワークアーキテクチャを用いて, 肺がんスクリーニング試験(National Lung Screening Trial set)に対するアプローチを評価した。 これらの結果は, 肺がんの診断と治療を改善するためのアプローチの可能性を明らかにするものである。

Lung cancer is a major cause of cancer-related deaths, and early diagnosis and treatment are crucial for improving patients' survival outcomes. In this paper, we propose to employ convolutional neural networks to model the non-linear relationship between the risk of lung cancer and the lungs' morphology revealed in the CT images. We apply a mini-batched loss that extends the Cox proportional hazards model to handle the non-convexity induced by neural networks, which also enables the training of large data sets. Additionally, we propose to combine mini-batched loss and binary cross-entropy to predict both lung cancer occurrence and the risk of mortality. Simulation results demonstrate the effectiveness of both the mini-batched loss with and without the censoring mechanism, as well as its combination with binary cross-entropy. We evaluate our approach on the National Lung Screening Trial data set with several 3D convolutional neural network architectures, achieving high AUC and C-index scores for lung cancer classification and survival prediction. These results, obtained from simulations and real data experiments, highlight the potential of our approach to improving the diagnosis and treatment of lung cancer.
翻訳日:2024-08-20 20:59:59 公開日:2024-08-18
# Flemme:医療画像のためのフレキシブルでモジュラーな学習プラットフォーム

Flemme: A Flexible and Modular Learning Platform for Medical Images ( http://arxiv.org/abs/2408.09369v1 )

ライセンス: Link先を確認
Guoqing Zhang, Jingyun Yang, Yang Li, (参考訳) コンピュータビジョンの急速な発展と強力なネットワークバックボーンやアーキテクチャの出現に伴い、深層学習の医療画像への応用はますます重要になっている。 自然画像とは異なり、医用画像には大量のデータがないが、よりモダリティが特徴であり、様々なデータセットで十分なパフォーマンスを持つ一般的なモデルを訓練することは困難である。 実際には、実践者は独立したバックボーンとアーキテクチャを組み合わせたモデルの作成とテストに苦しむことが多い。 本稿では,メディア画像のためのFLExible and Modular LearningプラットフォームであるFlemmeを提案する。 我々のプラットフォームは、サポートするエンコーダとアーキテクチャの様々な組み合わせを通じて、異なるモデルを構築できるように、エンコーダをモデルアーキテクチャから分離する。 コンボリューション,トランスフォーマー,状態空間モデル(SSM)に基づくビルディングブロックを用いてエンコーダを構築し,2次元画像パッチと3次元画像パッチの両処理を行う。 ベースアーキテクチャはエンコーダ-デコーダスタイルに従って実装され、画像分割、再構成、生成タスクのための派生アーキテクチャがいくつかある。 さらに,ピラミッド損失を取り入れた一般的な階層型アーキテクチャを提案し,垂直特性の最適化と融合を行う。 実験の結果、この単純な設計はディススコアの5.60%、セグメンテーションモデルのユニットの平均相互作用(mIoU)が7.81%向上し、再建モデルのピーク信号-雑音比(PSNR)が5.57%、構造類似度(SSIM)が8.22%向上した。 さらにFlemmeを解析ツールとして利用し、様々なタスクにおける様々なエンコーダの有効性と効率を評価する。 コードはhttps://github.com/wlsdzyzl/flemme.comで入手できる。

As the rapid development of computer vision and the emergence of powerful network backbones and architectures, the application of deep learning in medical imaging has become increasingly significant. Unlike natural images, medical images lack huge volumes of data but feature more modalities, making it difficult to train a general model that has satisfactory performance across various datasets. In practice, practitioners often suffer from manually creating and testing models combining independent backbones and architectures, which is a laborious and time-consuming process. We propose Flemme, a FLExible and Modular learning platform for MEdical images. Our platform separates encoders from the model architectures so that different models can be constructed via various combinations of supported encoders and architectures. We construct encoders using building blocks based on convolution, transformer, and state-space model (SSM) to process both 2D and 3D image patches. A base architecture is implemented following an encoder-decoder style, with several derived architectures for image segmentation, reconstruction, and generation tasks. In addition, we propose a general hierarchical architecture incorporating a pyramid loss to optimize and fuse vertical features. Experiments demonstrate that this simple design leads to an average improvement of 5.60% in Dice score and 7.81% in mean interaction of units (mIoU) for segmentation models, as well as an enhancement of 5.57% in peak signal-to-noise ratio (PSNR) and 8.22% in structural similarity (SSIM) for reconstruction models. We further utilize Flemme as an analytical tool to assess the effectiveness and efficiency of various encoders across different tasks. Code is available at https://github.com/wlsdzyzl/flemme.
翻訳日:2024-08-20 20:59:59 公開日:2024-08-18
# 検出不能:Kolmogorov-ArnoldネットワークとMLPを組み合わせたAI生成画像検出

Detecting the Undetectable: Combining Kolmogorov-Arnold Networks and MLP for AI-Generated Image Detection ( http://arxiv.org/abs/2408.09371v1 )

ライセンス: Link先を確認
Taharim Rahman Anon, Jakaria Islam Emon, (参考訳) 人工知能が進歩するにつれて、実画像とAI生成画像を区別する作業は、洗練された生成モデルによってますます複雑化している。 本稿では,DALL-E3,MidJourney,Stable Diffusion 3などの最先端生成型AIモデルによって生成された画像の堅牢な識別が可能な,新しい検出フレームワークを提案する。 我々は、これらの高度なジェネレータの画像を含むように調整された包括的データセットを導入し、広範囲な評価の基礎となる。 本稿では,従来の多層パーセプトロン(MLP)とセマンティックイメージの埋め込みを統合した分類システムを提案する。 このベースラインシステムは、様々な困難な条件下で、実画像とAI生成画像を効果的に区別するように設計されている。 このアプローチの強化として,KAN(Kolmogorov-Arnold Networks)とMLPを組み合わせたハイブリッドアーキテクチャを導入する。 このハイブリッドモデルは、KANの適応的で高解像度な特徴変換機能を活用し、従来のモデルでは見落とされるAI生成画像の複雑なパターンをキャプチャして分析することを可能にする。 アウト・オブ・ディストリビューションテストでは,提案したモデルは,分散テストデータセットの3つ中3つにまたがって標準MPPを一貫して上回り,F1スコアの印象的なAI生成画像から実像を分類する上で,優れたパフォーマンスと堅牢性を示した。

As artificial intelligence progresses, the task of distinguishing between real and AI-generated images is increasingly complicated by sophisticated generative models. This paper presents a novel detection framework adept at robustly identifying images produced by cutting-edge generative AI models, such as DALL-E 3, MidJourney, and Stable Diffusion 3. We introduce a comprehensive dataset, tailored to include images from these advanced generators, which serves as the foundation for extensive evaluation. we propose a classification system that integrates semantic image embeddings with a traditional Multilayer Perceptron (MLP). This baseline system is designed to effectively differentiate between real and AI-generated images under various challenging conditions. Enhancing this approach, we introduce a hybrid architecture that combines Kolmogorov-Arnold Networks (KAN) with the MLP. This hybrid model leverages the adaptive, high-resolution feature transformation capabilities of KAN, enabling our system to capture and analyze complex patterns in AI-generated images that are typically overlooked by conventional models. In out-of-distribution testing, our proposed model consistently outperformed the standard MLP across three out of distribution test datasets, demonstrating superior performance and robustness in classifying real images from AI-generated images with impressive F1 scores.
翻訳日:2024-08-20 20:59:59 公開日:2024-08-18
# 相互情報多重パラメータ推定

Mutual Information Multinomial Estimation ( http://arxiv.org/abs/2408.09377v1 )

ライセンス: Link先を確認
Yanzhi Chen, Zijing Ou, Adrian Weller, Yingzhen Li, (参考訳) 相互情報(MI)の推定は、データサイエンスと機械学習の基本的な課題である。 本研究は,相互情報のための新しい推定器を提案する。 我々の主な発見は、データ分布の予備的な推定が、劇的に予測に役立ちます。 この予備推定は関節分布と縁分布の間の橋梁として機能し、この橋梁分布と比較することにより、関節分布と縁分布の真の違いを容易に得ることができる。 非ガウス的合成問題を含む多種多様な課題に対する実験は,本手法の利点を実証している。

Estimating mutual information (MI) is a fundamental yet challenging task in data science and machine learning. This work proposes a new estimator for mutual information. Our main discovery is that a preliminary estimate of the data distribution can dramatically help estimate. This preliminary estimate serves as a bridge between the joint and the marginal distribution, and by comparing with this bridge distribution we can easily obtain the true difference between the joint distributions and the marginal distributions. Experiments on diverse tasks including non-Gaussian synthetic problems with known ground-truth and real-world applications demonstrate the advantages of our method.
翻訳日:2024-08-20 20:59:59 公開日:2024-08-18
# ELASTIC:シークエンス圧縮のための効率的な線形アテンション

ELASTIC: Efficient Linear Attention for Sequential Interest Compression ( http://arxiv.org/abs/2408.09380v1 )

ライセンス: Link先を確認
Jiaxin Deng, Shiyao Wang, Song Lu, Yinfeng Li, Xinchen Luo, Yuanjun Liu, Peixing Xu, Guorui Zhou, (参考訳) 最先端のシーケンシャルレコメンデーションモデルは、トランスフォーマーの注意機構に大きく依存している。 しかし、自己注意の二次計算とメモリの複雑さは、ユーザの長距離動作シーケンスをモデル化するためのスケーラビリティを制限している。 この問題に対処するために、線形時間複雑性と計算コストからのモデルキャパシティの分離を必要とせず、SequenTial Interest Compressionの効率的な線形アテンションであるELASTICを提案する。 具体的には、線形ディスパッチアテンション機構を備えた固定長関心の専門家を導入し、長期の動作シーケンスをよりコンパクトな表現に圧縮し、x2.7推論速度で最大90%のGPUメモリ使用量を削減した。 提案した線形ディスパッチアテンション機構は2次複雑性を著しく低減し、非常に長いシーケンスを適切にモデル化できるモデルを実現する。 さらに、多様なユーザ関心をモデル化する能力を維持するため、ELASTICは、膨大な学習可能な関心記憶バンクを初期化し、圧縮されたユーザ関心を、無視可能な計算オーバーヘッドでメモリからわずかに回収する。 提案手法は,同じ計算コストを維持しつつ,利用可能な関心空間の濃度を著しく拡張し,推奨精度と効率のトレードオフを生じさせる。 提案するELASTICの有効性を検証するため,様々な公開データセットに対する広範囲な実験を行い,複数の強力なシーケンシャルなレコメンデータと比較した。 実験結果から、ELASTICはベースラインをかなりのマージンで一貫した性能を示し、長いシーケンスをモデル化する際の計算効率を強調した。 実装コードを公開します。

State-of-the-art sequential recommendation models heavily rely on transformer's attention mechanism. However, the quadratic computational and memory complexities of self attention have limited its scalability for modeling users' long range behaviour sequences. To address this problem, we propose ELASTIC, an Efficient Linear Attention for SequenTial Interest Compression, requiring only linear time complexity and decoupling model capacity from computational cost. Specifically, ELASTIC introduces a fixed length interest experts with linear dispatcher attention mechanism which compresses the long-term behaviour sequences to a significantly more compact representation which reduces up to 90% GPU memory usage with x2.7 inference speed up. The proposed linear dispatcher attention mechanism significantly reduces the quadratic complexity and makes the model feasible for adequately modeling extremely long sequences. Moreover, in order to retain the capacity for modeling various user interests, ELASTIC initializes a vast learnable interest memory bank and sparsely retrieves compressed user's interests from the memory with a negligible computational overhead. The proposed interest memory retrieval technique significantly expands the cardinality of available interest space while keeping the same computational cost, thereby striking a trade-off between recommendation accuracy and efficiency. To validate the effectiveness of our proposed ELASTIC, we conduct extensive experiments on various public datasets and compare it with several strong sequential recommenders. Experimental results demonstrate that ELASTIC consistently outperforms baselines by a significant margin and also highlight the computational efficiency of ELASTIC when modeling long sequences. We will make our implementation code publicly available.
翻訳日:2024-08-20 20:59:59 公開日:2024-08-18
# VRCopilot:VRで生成するAIモデルで3Dレイアウトを作成

VRCopilot: Authoring 3D Layouts with Generative AI Models in VR ( http://arxiv.org/abs/2408.09382v1 )

ライセンス: Link先を確認
Lei Zhang, Jin Pan, Jacob Gettig, Steve Oney, Anhong Guo, (参考訳) Immersiveのオーサリングは、VR(Virtual Reality)を直接操作することで、ユーザが3Dシーンを作成するための直感的な媒体を提供する。 生成AIの最近の進歩により、現実的な3Dレイアウトの自動作成が可能になった。 しかし, 流体相互作用, ユーザエージェンシー, 創造性をサポートするために, 没入型オーサリングにおいて, 生成AIの能力がどの程度有効かは明らかでない。 我々は、VRにおける人間とAIの共創を促進するために、事前学習された生成AIモデルを没入型オーサリングに統合する混合開始システムであるVRCopilotを紹介する。 VRCopilotは、AIによる迅速なプロトタイピングとイテレーションをサポートするためのマルチモーダルインタラクションと、生成されたコンテンツのユーザコントロール性を向上するワイヤフレームなどの中間表現を提供する。 一連のユーザスタディを通じて,没入型オーサリングにおける手動,足場,自動生成の可能性と課題を評価した。 ワイヤーフレームを用いた足場生成により,自動生成よりもユーザエージェンシーが向上することが判明した。 また、マルチモーダル仕様による手作業による作成が、創造性とエージェンシーの最高の感覚を提供することもわかりました。

Immersive authoring provides an intuitive medium for users to create 3D scenes via direct manipulation in Virtual Reality (VR). Recent advances in generative AI have enabled the automatic creation of realistic 3D layouts. However, it is unclear how capabilities of generative AI can be used in immersive authoring to support fluid interactions, user agency, and creativity. We introduce VRCopilot, a mixed-initiative system that integrates pre-trained generative AI models into immersive authoring to facilitate human-AI co-creation in VR. VRCopilot presents multimodal interactions to support rapid prototyping and iterations with AI, and intermediate representations such as wireframes to augment user controllability over the created content. Through a series of user studies, we evaluated the potential and challenges in manual, scaffolded, and automatic creation in immersive authoring. We found that scaffolded creation using wireframes enhanced the user agency compared to automatic creation. We also found that manual creation via multimodal specification offers the highest sense of creativity and agency.
翻訳日:2024-08-20 20:59:59 公開日:2024-08-18
# FD2Talk: 顔分離拡散モデルを用いた一般化話者生成に向けて

FD2Talk: Towards Generalized Talking Head Generation with Facial Decoupled Diffusion Model ( http://arxiv.org/abs/2408.09384v1 )

ライセンス: Link先を確認
Ziyu Yao, Xuxin Cheng, Zhiqi Huang, (参考訳) ヘッドジェネレーションについて語ることは、まだ多くの課題に直面している重要な研究トピックである。 以前の研究はしばしば、生成品質と平均的な顔形状の問題に悩まされている、生成的対向ネットワークまたは回帰モデルを採用する。 拡散モデルは印象的な生成能力を示すが、その発話ヘッド生成における探索は相変わらず不十分である。 これは、拡散モデルのみを使用して中間表現を取得し、訓練済みの別のレンダラーを使用するか、あるいは表現、頭部ポーズ、外観テクスチャといった複雑な顔の細部を分離する特徴を見落としているためである。 そこで本稿では,FD2Talk と呼ばれる音声音声の音声生成のための表情分離拡散モデルを提案し,その利点をフル活用し,複雑な顔の細部を多段階に分解する。 具体的には、顔の詳細を動きと外観に分けます。 最初の段階では、生音声から動き係数を正確に予測する拡散変換器を設計する。 これらの動きは外観から非常に切り離されており、高次元のRGB画像と比較してネットワークが学習しやすい。 その後、第2フェーズでは、参照画像をエンコードして外観テクスチャをキャプチャする。 予測された顔と頭部の動きと符号化された外観は、拡散UNetの条件として機能し、フレーム生成を導く。 顔の細部を疎結合し、拡散モデルを完全に活用することで、我々のアプローチは画像品質の向上と、従来の最先端手法と比較してより正確で多様な結果を生み出すことが実証された。

Talking head generation is a significant research topic that still faces numerous challenges. Previous works often adopt generative adversarial networks or regression models, which are plagued by generation quality and average facial shape problem. Although diffusion models show impressive generative ability, their exploration in talking head generation remains unsatisfactory. This is because they either solely use the diffusion model to obtain an intermediate representation and then employ another pre-trained renderer, or they overlook the feature decoupling of complex facial details, such as expressions, head poses and appearance textures. Therefore, we propose a Facial Decoupled Diffusion model for Talking head generation called FD2Talk, which fully leverages the advantages of diffusion models and decouples the complex facial details through multi-stages. Specifically, we separate facial details into motion and appearance. In the initial phase, we design the Diffusion Transformer to accurately predict motion coefficients from raw audio. These motions are highly decoupled from appearance, making them easier for the network to learn compared to high-dimensional RGB images. Subsequently, in the second phase, we encode the reference image to capture appearance textures. The predicted facial and head motions and encoded appearance then serve as the conditions for the Diffusion UNet, guiding the frame generation. Benefiting from decoupling facial details and fully leveraging diffusion models, extensive experiments substantiate that our approach excels in enhancing image quality and generating more accurate and diverse results compared to previous state-of-the-art methods.
翻訳日:2024-08-20 20:59:59 公開日:2024-08-18
# オフラインRLHF法はより正確なスーパービジョン信号を必要とする

Offline RLHF Methods Need More Accurate Supervision Signals ( http://arxiv.org/abs/2408.09385v1 )

ライセンス: Link先を確認
Shiqi Wang, Zhengze Zhang, Rui Zhao, Fei Tan, Cam Tu Nguyen, (参考訳) LLM(Large Language Models)の急速な進歩に伴い、LLMと人間の嗜好の整合がますます重要になっている。 Reinforcement Learning with Human Feedback (RLHF) は有効であるが,複雑で資源集約性が高い。 そのため、オフラインのRLHFが代替ソリューションとして導入され、固定された選好データセット上でのランキング損失を直接LLMを最適化する。 現在のオフラインRLHFは、レスポンス間の‘ordinal relationship’のみをキャプチャし、‘How much’が他よりも好まれる重要な側面を見渡す。 この問題に対処するために、簡単な有効解である \textbf{R}eward \textbf{D}ifference \textbf{O}ptimization を提案し、これを \textbf{RDO} と略す。 具体的には, オフラインRLHFにおけるサンプル対を再検討するために, 報酬差係数を導入する。 次に、これらの差分係数を予測するために、一対の応答間のリッチな相互作用を含む分母差分モデルを開発する。 HHとTL;DRデータセット上の7B LLMを用いた実験は、自動測定と人的評価の両方において、我々の手法の有効性を実証し、LLMと人間の意図と価値を一致させる可能性を強調した。

With the rapid advances in Large Language Models (LLMs), aligning LLMs with human preferences become increasingly important. Although Reinforcement Learning with Human Feedback (RLHF) proves effective, it is complicated and highly resource-intensive. As such, offline RLHF has been introduced as an alternative solution, which directly optimizes LLMs with ranking losses on a fixed preference dataset. Current offline RLHF only captures the ``ordinal relationship'' between responses, overlooking the crucial aspect of ``how much'' one is preferred over the others. To address this issue, we propose a simple yet effective solution called \textbf{R}eward \textbf{D}ifference \textbf{O}ptimization, shorted as \textbf{RDO}. Specifically, we introduce {\it reward difference coefficients} to reweigh sample pairs in offline RLHF. We then develop a {\it difference model} involving rich interactions between a pair of responses for predicting these difference coefficients. Experiments with 7B LLMs on the HH and TL;DR datasets substantiate the effectiveness of our method in both automatic metrics and human evaluation, thereby highlighting its potential for aligning LLMs with human intent and values.
翻訳日:2024-08-20 20:59:59 公開日:2024-08-18
# 人間-LLMインタラクションとしてのゲーム開発

Game Development as Human-LLM Interaction ( http://arxiv.org/abs/2408.09386v1 )

ライセンス: Link先を確認
Jiale Hong, Hongqiu Wu, Hai Zhao, (参考訳) ゲーム開発は複雑なプログラミング言語を動力とする複雑なゲームエンジンに依存する非常に特殊なタスクであり、多くのゲーム愛好家がそれを扱うのを妨げている。 本稿では,LLMを利用したインタラクション駆動型ゲームエンジン(IGE)について紹介する。 1)$P_{script}$ : ユーザの入力に基づいてゲームスクリプトセグメントを設定し、(2)$P_{code}$ : ゲームスクリプトセグメントに基づいて対応するコードスニペットを生成し、(3)$P_{utter}$ : ガイダンスやフィードバックを含むユーザと対話する。 LLMに基づくデータ合成パイプラインを提案し、手作業によるシードデータからゲームスクリプトとコードペアとインタラクションを生成する。 対話型LLMをIGEにスムーズに転送するための3段階のプログレッシブトレーニング戦略を提案する。 ポーカーゲームのための IGE をケーススタディとして構築し,インタラクションの品質とコードの正確性という2つの視点から総合的に評価する。 コードとデータは \url{https://github.com/alterego238/IGE} で公開されている。

Game development is a highly specialized task that relies on a complex game engine powered by complex programming languages, preventing many gaming enthusiasts from handling it. This paper introduces the Interaction-driven Game Engine (IGE) powered by LLM, which allows everyone to develop a custom game using natural language through Human-LLM interaction. To enable an LLM to function as an IGE, we instruct it to perform the following processes in each turn: (1) $P_{script}$ : configure the game script segment based on the user's input; (2) $P_{code}$ : generate the corresponding code snippet based on the game script segment; (3) $P_{utter}$ : interact with the user, including guidance and feedback. We propose a data synthesis pipeline based on the LLM to generate game script-code pairs and interactions from a few manually crafted seed data. We propose a three-stage progressive training strategy to transfer the dialogue-based LLM to our IGE smoothly. We construct an IGE for poker games as a case study and comprehensively evaluate it from two perspectives: interaction quality and code correctness. The code and data are available at \url{https://github.com/alterego238/IGE}.
翻訳日:2024-08-20 20:59:59 公開日:2024-08-18
# 構造プロキシアライメントを用いたフェデレーショングラフ学習

Federated Graph Learning with Structure Proxy Alignment ( http://arxiv.org/abs/2408.09393v1 )

ライセンス: Link先を確認
Xingbo Fu, Zihan Chen, Binchi Zhang, Chen Chen, Jundong Li, (参考訳) Federated Graph Learning (FGL)は、複数のデータ所有者に分散されたグラフデータによるグラフ学習モデルを学習することを目的としており、社会的な推薦や金融詐欺検出といった様々な応用に応用されている。 汎用フェデレートラーニング (FL) から引き継いだ FGL も同様に、クライアント間で分散グラフデータに対してラベル分布が著しく異なるような、データ不均一性の問題も抱えている。 例えば、あるクライアントがクラスからほとんどのノードを持つことができ、別のクライアントが同じクラスから数ノードしか持たない場合もあります。 この問題は、ノードレベルのタスク、特にノード分類において、異なる局所目的とFGL収束を損なう。 さらに、FGLはノード分類タスクに固有の課題にも直面している。クライアント内の少数クラスのノードは、近隣情報に偏りがある可能性が高いため、グラフニューラルネットワーク(GNN)による表現型ノードの埋め込みを学習することができない。 この課題に対処するため、我々はFedSprayという新しいFGLフレームワークを提案する。FedSprayは、潜伏空間における局所的なクラスワイドな構造的プロキシを学習し、それらを整列させてサーバ内のグローバルな構造的プロキシを得る。 我々のゴールは、ノード分類のための信頼性が高く、偏りのない隣り合う情報として機能する、整列構造プロキシを得ることです。 これを実現するため、FedSprayはグローバルな特徴構造エンコーダをトレーニングし、構造プロキシで非バイアスのソフトターゲットを生成し、GNNモデルの局所的なトレーニングをパーソナライズする。 我々は4つのデータセットに対して広範な実験を行い、他のベースラインと比較してFedSprayの優位性を検証した。 私たちのコードはhttps://github.com/xbfu/FedSpray.comから入手可能です。

Federated Graph Learning (FGL) aims to learn graph learning models over graph data distributed in multiple data owners, which has been applied in various applications such as social recommendation and financial fraud detection. Inherited from generic Federated Learning (FL), FGL similarly has the data heterogeneity issue where the label distribution may vary significantly for distributed graph data across clients. For instance, a client can have the majority of nodes from a class, while another client may have only a few nodes from the same class. This issue results in divergent local objectives and impairs FGL convergence for node-level tasks, especially for node classification. Moreover, FGL also encounters a unique challenge for the node classification task: the nodes from a minority class in a client are more likely to have biased neighboring information, which prevents FGL from learning expressive node embeddings with Graph Neural Networks (GNNs). To grapple with the challenge, we propose FedSpray, a novel FGL framework that learns local class-wise structure proxies in the latent space and aligns them to obtain global structure proxies in the server. Our goal is to obtain the aligned structure proxies that can serve as reliable, unbiased neighboring information for node classification. To achieve this, FedSpray trains a global feature-structure encoder and generates unbiased soft targets with structure proxies to regularize local training of GNN models in a personalized way. We conduct extensive experiments over four datasets, and experiment results validate the superiority of FedSpray compared with other baselines. Our code is available at https://github.com/xbfu/FedSpray.
翻訳日:2024-08-20 20:59:59 公開日:2024-08-18
# GRLinQ: グラフ強化学習を用いたデバイス間通信のためのインテリジェントスペクトル共有機構

GRLinQ: An Intelligent Spectrum Sharing Mechanism for Device-to-Device Communications with Graph Reinforcement Learning ( http://arxiv.org/abs/2408.09394v1 )

ライセンス: Link先を確認
Zhiwei Shan, Xinping Yi, Le Liang, Chung-Shou Liao, Shi Jin, (参考訳) 無線通信におけるデバイス・ツー・デバイス(D2D)スペクトル共有は、大規模ネットワークにおける絡み合ったリンクスケジューリングと電力制御を含む、非凸組合せ最適化の問題である。 モデルベースまたはデータ駆動の観点から、最先端の手法は、トレーニングサンプルとしてチャネル状態情報(CSI)や多数の(解決された)インスタンス(例えば、ネットワークレイアウト)のクリティカルな必要性のような、ある種の制限を示す。 そこで本研究では,リンクスケジューリングのためのグラフ強化学習(GRLinQ)を用いたハイブリッドモデル/データ駆動型スペクトル共有機構を提案する。 GRLinQは、大規模な実験を通じて、CSIの緩和要件、トレーニングサンプルとしての未解決インスタンスの大幅な削減、分散デプロイメントの可能性、オンライン/オフラインの計算複雑性の低減、そして、異なるネットワークシナリオやシステム構成に対するスケーラビリティと一般化性など、既存のモデルベースおよびデータ駆動リンクスケジューリングおよび/または電力制御方法よりも優れたパフォーマンスを示す。

Device-to-device (D2D) spectrum sharing in wireless communications is a challenging non-convex combinatorial optimization problem, involving entangled link scheduling and power control in a large-scale network. The state-of-the-art methods, either from a model-based or a data-driven perspective, exhibit certain limitations such as the critical need for channel state information (CSI) and/or a large number of (solved) instances (e.g., network layouts) as training samples. To advance this line of research, we propose a novel hybrid model/datadriven spectrum sharing mechanism with graph reinforcement learning for link scheduling (GRLinQ), injecting information theoretical insights into machine learning models, in such a way that link scheduling and power control can be solved in an intelligent yet explainable manner. Through an extensive set of experiments, GRLinQ demonstrates superior performance to the existing model-based and data-driven link scheduling and/or power control methods, with a relaxed requirement for CSI, a substantially reduced number of unsolved instances as training samples, a possible distributed deployment, reduced online/offline computational complexity, and more remarkably excellent scalability and generalizability over different network scenarios and system configurations.
翻訳日:2024-08-20 20:59:59 公開日:2024-08-18
# OU-CoViT:OU-UWF画像のデュアル適応型コプラ強化バイチャンネルマルチタスク・ビジョン変換器

OU-CoViT: Copula-Enhanced Bi-Channel Multi-Task Vision Transformers with Dual Adaptation for OU-UWF Images ( http://arxiv.org/abs/2408.09395v1 )

ライセンス: Link先を確認
Yang Li, Jianing Deng, Chong Zhong, Danjuan Yang, Meiyan Li, A. H. Welsh, Aiyi Liu, Xingtao Zhou, Catherine C. Liu, Bo Fu, (参考訳) 近縁超広視野撮影(UWF)による近位眼底検診と複数の離散的,連続的な臨床スコアの同時モデリングは,眼科領域におけるマルチタスク問題に対する有望な新しいパラダイムを示す。 両眼(OU)の「内眼非対称性」の眼現象から生じる双方向の枠組みは、SOTAトランスフォーマーモデルに新たな雇用を求める。 しかし,複数の混合離散連続ラベルに対するコプラモデルの深層学習への応用は困難である。 さらに, オーバーフィッティングや計算資源の制約により, 大規模トランスフォーマーモデルの適用は困難である。 これらの課題を解決するために,OU-UWF画像のデュアル適応を用いたCopula-Enhanced Bi-Channel Multi-Task Vision Transformerを提案する。 一 深層学習の枠組み(小説『コピュラロス』のクローズド形式を導出することによる)に複数の離散的・連続的なラベルに条件付き相関情報を組み込むこと。 二 二重適応二チャンネルモデルを用いて、高い相関性及び眼内アシンメトリーの両方を条件としたOU入力をとること。 三 大型視力変換器(ViT)モデルの小さな医療データセットへの適応を可能にすること。 実験により,OU-CoViTは経験損失のある単一チャネルベースラインモデルと比較して予測性能を著しく向上することが示された。 さらに、OU-CoViTの新たなアーキテクチャにより、小さな医療データセット上の様々なViT変種や大きなDLモデルに対して、我々の二重適応とCopula Lossの一般化性と拡張が可能になる。 提案手法は,医療実践における異種多チャンネル入力と混合型個別臨床スコアの融合モデリングの新たな可能性を開くとともに,眼科以外の様々な医療領域におけるAI支援臨床意思決定を進展させる可能性を秘めている。

Myopia screening using cutting-edge ultra-widefield (UWF) fundus imaging and joint modeling of multiple discrete and continuous clinical scores presents a promising new paradigm for multi-task problems in Ophthalmology. The bi-channel framework that arises from the Ophthalmic phenomenon of ``interocular asymmetries'' of both eyes (OU) calls for new employment on the SOTA transformer-based models. However, the application of copula models for multiple mixed discrete-continuous labels on deep learning (DL) is challenging. Moreover, the application of advanced large transformer-based models to small medical datasets is challenging due to overfitting and computational resource constraints. To resolve these challenges, we propose OU-CoViT: a novel Copula-Enhanced Bi-Channel Multi-Task Vision Transformers with Dual Adaptation for OU-UWF images, which can i) incorporate conditional correlation information across multiple discrete and continuous labels within a deep learning framework (by deriving the closed form of a novel Copula Loss); ii) take OU inputs subject to both high correlation and interocular asymmetries using a bi-channel model with dual adaptation; and iii) enable the adaptation of large vision transformer (ViT) models to small medical datasets. Solid experiments demonstrate that OU-CoViT significantly improves prediction performance compared to single-channel baseline models with empirical loss. Furthermore, the novel architecture of OU-CoViT allows generalizability and extensions of our dual adaptation and Copula Loss to various ViT variants and large DL models on small medical datasets. Our approach opens up new possibilities for joint modeling of heterogeneous multi-channel input and mixed discrete-continuous clinical scores in medical practices and has the potential to advance AI-assisted clinical decision-making in various medical domains beyond Ophthalmology.
翻訳日:2024-08-20 20:59:59 公開日:2024-08-18
# コームボ:人間の3Dモーション生成とハーモニーの効率良くカスタマイズできる適応

Combo: Co-speech holistic 3D human motion generation and efficient customizable adaptation in harmony ( http://arxiv.org/abs/2408.09397v1 )

ライセンス: Link先を確認
Chao Xu, Mingze Sun, Zhi-Qi Cheng, Fei Wang, Yang Liu, Baigui Sun, Ruqi Huang, Alexander Hauptmann, (参考訳) 本稿では,協調音声の包括的3次元動作生成と効率的なカスタマイズ可能な適応のための新しいフレームワークであるComboを提案する。 特に、興味の生成モデルにおけるMIMO(Multiple-Input-multiple-output)の性質として、基本的な課題があげられる。 より具体的には、入力端では、モデルは通常、音声信号と文字誘導(例えば、アイデンティティと感情)の両方を消費し、学習能力に挑戦するだけでなく、様々なガイダンスへのさらなる適応を妨げる。 上記の課題に対応するため,両端に配向した設計を提案する。 前者に対しては、中性感情を伴う固定されたアイデンティティに関するデータについて事前訓練を行い、カスタマイズ可能な条件(アイデンティティと感情)の具体化を微調整段階に延期することを提案する。 後者では,まず顔の表情と身体の動きの個々の特徴を学習するために2つの分岐に分割し,それらを結合して双方向の分布を学習し,結合係数を直接予測する,単純な変換器設計であるDU-Transを提案する。 BEAT2とSHOWデータセットに基づいて評価すると、Comboは高品質な動きを生成するのに非常に効果的であるが、アイデンティティや感情の転送にも効果的である。 プロジェクトウェブサイト: \href{https://xc-csc101.github.io/combo/}{Combo}

In this paper, we propose a novel framework, Combo, for harmonious co-speech holistic 3D human motion generation and efficient customizable adaption. In particular, we identify that one fundamental challenge as the multiple-input-multiple-output (MIMO) nature of the generative model of interest. More concretely, on the input end, the model typically consumes both speech signals and character guidance (e.g., identity and emotion), which not only poses challenge on learning capacity but also hinders further adaptation to varying guidance; on the output end, holistic human motions mainly consist of facial expressions and body movements, which are inherently correlated but non-trivial to coordinate in current data-driven generation process. In response to the above challenge, we propose tailored designs to both ends. For the former, we propose to pre-train on data regarding a fixed identity with neutral emotion, and defer the incorporation of customizable conditions (identity and emotion) to fine-tuning stage, which is boosted by our novel X-Adapter for parameter-efficient fine-tuning. For the latter, we propose a simple yet effective transformer design, DU-Trans, which first divides into two branches to learn individual features of face expression and body movements, and then unites those to learn a joint bi-directional distribution and directly predicts combined coefficients. Evaluated on BEAT2 and SHOW datasets, Combo is highly effective in generating high-quality motions but also efficient in transferring identity and emotion. Project website: \href{https://xc-csc101.github.io/combo/}{Combo}.
翻訳日:2024-08-20 20:50:15 公開日:2024-08-18
# CRNN-SNN変換によるシーケンス学習における最適スパイクニューラルネットワークの実現

Obtaining Optimal Spiking Neural Network in Sequence Learning via CRNN-SNN Conversion ( http://arxiv.org/abs/2408.09403v1 )

ライセンス: Link先を確認
Jiahao Su, Kang You, Zekai Xu, Weizhi Xu, Zhezhi He, (参考訳) スパイキングニューラルネットワーク(SNN)は、リッチニューラルネットワークとエネルギー効率のよいニューロモルフィックチップの実装により、従来の人工知能ニューラルネットワーク(ANN)に代わる有望な選択肢になりつつある。 しかし、この非微分二元通信機構は、SNNをANNレベルの精度に収束させることを困難にしている。 SNNがシーケンス学習に遭遇すると、長距離依存関係のモデリングが困難になるため、状況は悪化する。 これらの困難を克服するため、研究者たちはLIFニューロンの変種と異なる代理勾配を開発したが、配列が長くなると良い結果が得られなかった(例:$>500)。 それらとは異なり、量子化されたCRNNから直接パラメータをマッピングすることで、シーケンス学習における最適なSNNを得る。 CNN-Morph(CNN $\rightarrow$ QCNN $\rightarrow$ BIFSNN)とRNN-Morph(RNN $\rightarrow$ QRNN $\rightarrow$ RBIFSNN)と呼ばれる2つのサブパイプを設計する。 変換パイプラインとs-analog符号化法を用いることで,フレームワークの変換誤差はゼロとなる。 さらに,損失のないCRNN-SNN変換の理論的,実験的実証を行った。 提案手法の有効性を,最先端の学習法や変換法と比較し,短時間・長期の時間スケール課題に対する提案手法の有効性を示す。 我々は、S-MNISTの99.16% (0.46$\uparrow$)、PS-MNISTの94.95% (3.95$\uparrow$)、衝突回避データセットの8ステップ以内の0.057 (0.013$\downarrow$)の最も高い精度に達する。

Spiking neural networks (SNNs) are becoming a promising alternative to conventional artificial neural networks (ANNs) due to their rich neural dynamics and the implementation of energy-efficient neuromorphic chips. However, the non-differential binary communication mechanism makes SNN hard to converge to an ANN-level accuracy. When SNN encounters sequence learning, the situation becomes worse due to the difficulties in modeling long-range dependencies. To overcome these difficulties, researchers developed variants of LIF neurons and different surrogate gradients but still failed to obtain good results when the sequence became longer (e.g., $>$500). Unlike them, we obtain an optimal SNN in sequence learning by directly mapping parameters from a quantized CRNN. We design two sub-pipelines to support the end-to-end conversion of different structures in neural networks, which is called CNN-Morph (CNN $\rightarrow$ QCNN $\rightarrow$ BIFSNN) and RNN-Morph (RNN $\rightarrow$ QRNN $\rightarrow$ RBIFSNN). Using conversion pipelines and the s-analog encoding method, the conversion error of our framework is zero. Furthermore, we give the theoretical and experimental demonstration of the lossless CRNN-SNN conversion. Our results show the effectiveness of our method over short and long timescales tasks compared with the state-of-the-art learning- and conversion-based methods. We reach the highest accuracy of 99.16% (0.46 $\uparrow$) on S-MNIST, 94.95% (3.95 $\uparrow$) on PS-MNIST (sequence length of 784) respectively, and the lowest loss of 0.057 (0.013 $\downarrow$) within 8 time-steps in collision avoidance dataset.
翻訳日:2024-08-20 20:50:15 公開日:2024-08-18
# 台湾マンダリンにおける単語共起構造と単語類似性ネットワークの比較

Comparison between the Structures of Word Co-occurrence and Word Similarity Networks for Ill-formed and Well-formed Texts in Taiwan Mandarin ( http://arxiv.org/abs/2408.09404v1 )

ライセンス: Link先を確認
Po-Hsuan Huang, Hsuan-Lei Shao, (参考訳) 単語共起ネットワークの研究は、その潜在的重要性と応用性から研究者の注目を集めている。 したがって、単語共起ネットワークの構造を理解することは、その重要性と使用法を十分に理解することが重要である。 過去の研究では、よく形成されたテキスト上に構築された単語共起ネットワークは、小世界である、二段階の電力法分布に従う、概して不合理である、といった特定の特徴を持っていることが判明した。 一方、過去の研究では、マイクロブログポストのような不整形テキストから構築された単語共起ネットワークは、十分に整形された文書から構築されたものと異なる振る舞いをする可能性があることが判明している。 双方の単語共起ネットワークは小さく、相反するものであるが、不定形テキストから構築された単語共起ネットワークはスケールフリーであり、二段階の電力法分布ではなく、電力法分布に従う。 しかし、不規則な文から構築された単語共起ネットワークの振る舞いに関する過去の研究は英語のみを調査していたため、そのような特徴の普遍性は言語によって異なるままである。 さらに、単語共起ネットワークと、他の潜在的に同等なネットワークとの間に、同時性/差が生じうるかどうかについても、まだ検討されていない。 そこで本研究では,台湾のマンダリン不規則なインターネットフォーラム投稿に基づく単語共起ネットワークと単語類似性ネットワークの構造を調査・比較し,上記の3つの特性(スケールフリー,小世界,異方性)が異なる言語間および単語共起と単語類似性ネットワークの間で普遍的であるかを調べる。

The study of word co-occurrence networks has attracted the attention of researchers due to their potential significance as well as applications. Understanding the structure of word co-occurrence networks is therefore important to fully realize their significance and usages. In past studies, word co-occurrence networks built on well-formed texts have been found to possess certain characteristics, including being small-world, following a two-regime power law distribution, and being generally disassortative. On the flip side, past studies have found that word co-occurrence networks built from ill-formed texts such as microblog posts may behave differently from those built from well-formed documents. While both kinds of word co-occurrence networks are small-world and disassortative, word co-occurrence networks built from ill-formed texts are scale-free and follow the power law distribution instead of the two-regime power law distribution. However, since past studies on the behavior of word co-occurrence networks built from ill-formed texts only investigated English, the universality of such characteristics remains to be seen among different languages. In addition, it is yet to be investigated whether there could be possible similitude/differences between word co-occurrence networks and other potentially comparable networks. This study therefore investigates and compares the structure of word co-occurrence networks and word similarity networks based on Taiwan Mandarin ill-formed internet forum posts and compare them with those built with well-formed judicial judgments, and seeks to find out whether the three aforementioned properties (scale-free, small-world, and disassortative) for ill-formed and well-formed texts are universal among different languages and between word co-occurrence and word similarity networks.
翻訳日:2024-08-20 20:50:15 公開日:2024-08-18
# VrdONE: ワンステージ映像関係検出

VrdONE: One-stage Video Visual Relation Detection ( http://arxiv.org/abs/2408.09408v1 )

ライセンス: Link先を確認
Xinjie Jiang, Chenxi Zheng, Xuemiao Xu, Bangzhen Liu, Weiying Zheng, Huaidong Zhang, Shengfeng He, (参考訳) Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間を通じて、エンティティがどのように相互作用するかを理解することに焦点を当てている。 VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。 この分割は、これらの要素間の固有の関係を見落としている。 実体対の時空間的相互作用を一定期間にわたって認識する必要性に対処するため,一段階モデルであるVrdONEを提案する。 VrdONEは被写体とオブジェクトの特徴を組み合わせて、述語検出をそれらの複合表現上の1Dインスタンスセグメンテーションに変換する。 このセットアップにより、関係カテゴリの識別とバイナリマスクの生成を1回で行うことができ、提案生成や後処理といった余分なステップが不要になる。 VrdONEは様々なフレーム間の機能の相互作用を促進する。 さらに,SOSモジュールを導入し,対象と対象が相互に知覚し合うようにした。 VrdONEはVidORベンチマークとImageNet-VidVRDで最先端のパフォーマンスを実現し、異なる時間スケールで関係を識別する優れた能力を示している。 コードは \textcolor[RGB]{228,58,136}{\href{https://github.com/lucaspk512/vrdone}{https://github.com/lucaspk512/vrdone}} で公開されている。

Video Visual Relation Detection (VidVRD) focuses on understanding how entities interact over time and space in videos, a key step for gaining deeper insights into video scenes beyond basic visual tasks. Traditional methods for VidVRD, challenged by its complexity, typically split the task into two parts: one for identifying what relation categories are present and another for determining their temporal boundaries. This split overlooks the inherent connection between these elements. Addressing the need to recognize entity pairs' spatiotemporal interactions across a range of durations, we propose VrdONE, a streamlined yet efficacious one-stage model. VrdONE combines the features of subjects and objects, turning predicate detection into 1D instance segmentation on their combined representations. This setup allows for both relation category identification and binary mask generation in one go, eliminating the need for extra steps like proposal generation or post-processing. VrdONE facilitates the interaction of features across various frames, adeptly capturing both short-lived and enduring relations. Additionally, we introduce the Subject-Object Synergy (SOS) module, enhancing how subjects and objects perceive each other before combining. VrdONE achieves state-of-the-art performances on the VidOR benchmark and ImageNet-VidVRD, showcasing its superior capability in discerning relations across different temporal scales. The code is available at \textcolor[RGB]{228,58,136}{\href{https://github.com/lucaspk512/vrdone}{https://github.com/lucaspk512/vrdone}}.
翻訳日:2024-08-20 20:50:15 公開日:2024-08-18
# OPPH : 医療用身体運動計測オペレータ

OPPH: A Vision-Based Operator for Measuring Body Movements for Personal Healthcare ( http://arxiv.org/abs/2408.09409v1 )

ライセンス: Link先を確認
Chen Long-fei, Subramanian Ramamoorthy, Robert B Fisher, (参考訳) 視覚に基づく運動推定法は、医療目的のために人体の動きを正確にかつ控えめに推定する。 しかし、これらの手法は医療目的のために特別に設計されておらず、現実世界のアプリケーションでは課題に直面している。 人間のポーズ推定法は、細粒度で微妙な身体の動きを検出するのに必要な精度を欠くことが多いが、光学フローベース法は、照明条件が悪く、実世界のデータが見えない。 これらの問題は、特に無意識など身体が動かない重要な医療状況において、人間の身体の動き推定誤差をもたらす。 これらの課題に対処し、医療目的の人体動作推定の精度を向上させるために、現在の視覚に基づく動作推定手法を強化するために設計されたOPPH演算子を提案する。 人体運動とノイズ特性を考慮した多段フィルタとして機能する。 2つの実世界と1つの人工人体運動データセットでテストした結果、オペレーターは実世界のノイズを効果的に除去し、動きのない状態の検出を著しく強化し、アクティブな身体の動きを推定する精度を維持し、長期的な身体の動きの傾向を維持することを示した。 この方法は、重篤な医療イベントと慢性的な医療状況の両方を分析するのに有用である。

Vision-based motion estimation methods show promise in accurately and unobtrusively estimating human body motion for healthcare purposes. However, these methods are not specifically designed for healthcare purposes and face challenges in real-world applications. Human pose estimation methods often lack the accuracy needed for detecting fine-grained, subtle body movements, while optical flow-based methods struggle with poor lighting conditions and unseen real-world data. These issues result in human body motion estimation errors, particularly during critical medical situations where the body is motionless, such as during unconsciousness. To address these challenges and improve the accuracy of human body motion estimation for healthcare purposes, we propose the OPPH operator designed to enhance current vision-based motion estimation methods. This operator, which considers human body movement and noise properties, functions as a multi-stage filter. Results tested on two real-world and one synthetic human motion dataset demonstrate that the operator effectively removes real-world noise, significantly enhances the detection of motionless states, maintains the accuracy of estimating active body movements, and maintains long-term body movement trends. This method could be beneficial for analyzing both critical medical events and chronic medical conditions.
翻訳日:2024-08-20 20:50:15 公開日:2024-08-18
# $\mathbb{BEHR}$NOULLI: バイナリEHRデータ指向医療勧告システム

$\mathbb{BEHR}$NOULLI: A Binary EHR Data-Oriented Medication Recommendation System ( http://arxiv.org/abs/2408.09410v1 )

ライセンス: Link先を確認
Xihao Piao, Pei Gao, Zheng Chen, Lingwei Zhu, Yasuko Matsubara, Yasushi Sakurai, (参考訳) 医療コミュニティは、EHRデータにおける2つの医療イベントの結果は、合理的な推奨を行うのに十分な情報を含んでいると考えている。 しかし,このようなデータを効果的に活用するには,(1) 大規模0,1イベント結果の関係をモデル化することは,専門家の知識でも困難である,(2) 実際には,0項目が等しく重要な学習信号を伝達しないため,バイナリ値によって学習が停滞することがある,という2つの課題がある。 現在、想定される十分な情報と、バイナリデータのみを利用することで有望な結果が示されていない現実の間には大きなギャップがある。 本稿では,2つの課題に対処し,二元的 EHR 医療記録のみを用いて有効な医薬品推薦システムを構築することを目的としている。 この目的のために、我々は、EHRデータをコホートからのサンプルと見なして、連続ベルヌーイ確率に変換する統計的視点を取る。 変換されたエントリは、分布を持つ決定論的バイナリイベントをモデル化するだけでなく、条件付き確率で \emph{event-event} 関係を反映することを可能にする。 変換の上にグラフニューラルネットワークが学習される。 これは、emph{event-to- patient}機能を強調しながら、イベントとイベントの相関をキャプチャする。 その結果,提案手法は大規模データベース上での最先端性能を実現し,二次情報を用いたベースライン手法よりも大きなマージンで優れていた。 ソースコードは \url{https://github.com/chenzRG/BEHRMecom} で入手できる。

The medical community believes binary medical event outcomes in EHR data contain sufficient information for making a sensible recommendation. However, there are two challenges to effectively utilizing such data: (1) modeling the relationship between massive 0,1 event outcomes is difficult, even with expert knowledge; (2) in practice, learning can be stalled by the binary values since the equally important 0 entries propagate no learning signals. Currently, there is a large gap between the assumed sufficient information and the reality that no promising results have been shown by utilizing solely the binary data: visiting or secondary information is often necessary to reach acceptable performance. In this paper, we attempt to build the first successful binary EHR data-oriented drug recommendation system by tackling the two difficulties, making sensible drug recommendations solely using the binary EHR medical records. To this end, we take a statistical perspective to view the EHR data as a sample from its cohorts and transform them into continuous Bernoulli probabilities. The transformed entries not only model a deterministic binary event with a distribution but also allow reflecting \emph{event-event} relationship by conditional probability. A graph neural network is learned on top of the transformation. It captures event-event correlations while emphasizing \emph{event-to-patient} features. Extensive results demonstrate that the proposed method achieves state-of-the-art performance on large-scale databases, outperforming baseline methods that use secondary information by a large margin. The source code is available at \url{https://github.com/chenzRG/BEHRMecom}
翻訳日:2024-08-20 20:50:15 公開日:2024-08-18
# 事前学習されたデュアルブランチネットワークと擬似ラベル学習による部分例アノテーションに基づく弱教師付きリンパ節分節

Weakly Supervised Lymph Nodes Segmentation Based on Partial Instance Annotations with Pre-trained Dual-branch Network and Pseudo Label Learning ( http://arxiv.org/abs/2408.09411v1 )

ライセンス: Link先を確認
Litingyu Wang, Yijie Qu, Xiangde Luo, Wenjun Liao, Shichuan Zhang, Guotai Wang, (参考訳) 悪性リンパ節の存在を評価することは、癌の進行を推定し、周囲の良性リンパ節を同定することで、癌の転移経路を決定するのに役立つ。 定量的解析には,リンパ節の自動分節が重要である。 しかし、大量のリンパ節に要する労働集約的かつ時間を要する手動アノテーションプロセスにより、アノテーションコストを削減するために、リンパ節インスタンスのサブセットのみに注釈を付ける方がより効果的である。 本研究では, 動的混合擬似ラベル (DBDMP) を用いたプレトレーニングDual-Branchネットワークを提案し, リンパ節セグメンテーションのための部分的インスタンスアノテーションから学習する。 アノテーションを付さないリンパ節に対する信頼性の高い擬似ラベルを得るために,デュアルデコーダネットワークを用いて動的に混合された異なる出力を生成する。 ネットワークを監督するために、元の弱い部分アノテーションと混合擬似ラベルを統合する。 大量の無意味なボクセルを活用するために,モデルの特徴抽出能力を高めるために,自己教師付き事前学習戦略を適用した。 縦隔リンパ節定量化(LNQ)データセットの実験では、部分的なインスタンスアノテーションから直接学習するよりも、Dice similarity Coefficient(DSC)を11.04%から54.10%に大幅に改善し、平均対称表面距離(ASSD)を20.83$mmから8.72$mmに短縮した。 コードはhttps://github.com/WltyBY/LNQ2023_training_code.gitで公開されている。

Assessing the presence of potentially malignant lymph nodes aids in estimating cancer progression, and identifying surrounding benign lymph nodes can assist in determining potential metastatic pathways for cancer. For quantitative analysis, automatic segmentation of lymph nodes is crucial. However, due to the labor-intensive and time-consuming manual annotation process required for a large number of lymph nodes, it is more practical to annotate only a subset of the lymph node instances to reduce annotation costs. In this study, we propose a pre-trained Dual-Branch network with Dynamically Mixed Pseudo label (DBDMP) to learn from partial instance annotations for lymph nodes segmentation. To obtain reliable pseudo labels for lymph nodes that are not annotated, we employ a dual-decoder network to generate different outputs that are then dynamically mixed. We integrate the original weak partial annotations with the mixed pseudo labels to supervise the network. To further leverage the extensive amount of unannotated voxels, we apply a self-supervised pre-training strategy to enhance the model's feature extraction capability. Experiments on the mediastinal Lymph Node Quantification (LNQ) dataset demonstrate that our method, compared to directly learning from partial instance annotations, significantly improves the Dice Similarity Coefficient (DSC) from 11.04% to 54.10% and reduces the Average Symmetric Surface Distance (ASSD) from 20.83 $mm$ to 8.72 $mm$. The code is available at https://github.com/WltyBY/LNQ2023_training_code.git
翻訳日:2024-08-20 20:50:15 公開日:2024-08-18
# 任意の雑音を有するGHZ状態の忠実度推定のための誤差最小化

Error minimization for fidelity estimation of GHZ states with arbitrary noise ( http://arxiv.org/abs/2408.09413v1 )

ライセンス: Link先を確認
Liangzhong Ruan, (参考訳) エンタングルメント分布ネットワークの品質管理において,忠実度推定は重要な要素である。 この研究は、複数のノードがノイズの多いGreenberger-Horne-Zeilinger状態(GHZ)を共有するシナリオを研究する。 量子測定の崩壊の性質のため、ノードは無作為なGHZ状態のサブセットをランダムにサンプリングし、測定結果に条件付けられたアンサンプ状態の平均忠実度を推定する。 GHZ状態のブロッホ表現を解析し、フィッシャー情報を最大化することにより、任意の雑音と事前情報の欠如を特徴とする難易度シナリオで最小平均2乗推定誤差を達成する。 さらに、このプロトコルは、事前に定義されたシーケンスに従ってローカルなPauli演算子のみを使用するため、実装に優しい。 数値解析により,既存の忠実度推定プロトコルと比較して,独立および同一に分布する雑音と相関雑音の両方のシナリオにおける推定誤差を低減できることが示されている。

Fidelity estimation is a crucial component for the quality control of entanglement distribution networks. This work studies a scenario in which multiple nodes share noisy Greenberger-Horne-Zeilinger (GHZ) states. Due to the collapsing nature of quantum measurements, the nodes randomly sample a subset of noisy GHZ states for measurement and then estimate the average fidelity of the unsampled states conditioned on the measurement outcome. By developing a fidelity-preserving diagonalization operation, analyzing the Bloch representation of GHZ states, and maximizing the Fisher information, the proposed estimation protocol achieves the minimum mean squared estimation error in a challenging scenario characterized by arbitrary noise and the absence of prior information. Additionally, this protocol is implementation-friendly as it only uses local Pauli operators according to a predefined sequence. Numerical studies demonstrate that, compared to existing fidelity estimation protocols, the proposed protocol reduces estimation errors in both scenarios involving independent and identically distributed (i.i.d.) noise and correlated noise.
翻訳日:2024-08-20 20:50:15 公開日:2024-08-18
# クラスタリングとアライメント: モジュール追加におけるトレーニングダイナミクスの理解

Clustering and Alignment: Understanding the Training Dynamics in Modular Addition ( http://arxiv.org/abs/2408.09414v1 )

ライセンス: Link先を確認
Tiberiu Musat, (参考訳) 最近の研究によると、ニューラルネットワークは多くの単純な問題に対して解釈可能なアルゴリズムを学習している。 しかし、これらのアルゴリズムがトレーニング中にどのように現れるかはほとんど分かっていない。 本稿では,モジュラ付加問題に対する2次元埋め込みを用いた簡易変圧器のトレーニング力学について検討する。 埋め込みベクトルは、格子と円という2種類の構造に整理される傾向がある。 これらの構造を考察し, クラスタリングとアライメントという2組の組込みによって示される2つの単純な傾向の結果として, それらの出現を説明する。 埋め込みの異なるペア間の相互作用力として,これらの傾向の明示的な式を提案する。 この公式がこれらの構造の出現を完全に説明できることを示すため、同一構造が出現することを示す等価粒子シミュレーションを構築した。 我々は、我々の洞察を利用して体重減少の役割を議論し、正規化とトレーニングのダイナミクスを結びつける新しいメカニズムを明らかにする。 また、この発見をサポートするインタラクティブなデモもリリースしています。

Recent studies have revealed that neural networks learn interpretable algorithms for many simple problems. However, little is known about how these algorithms emerge during training. In this article, we study the training dynamics of a simplified transformer with 2-dimensional embeddings on the problem of modular addition. We observe that embedding vectors tend to organize into two types of structures: grids and circles. We study these structures and explain their emergence as a result of two simple tendencies exhibited by pairs of embeddings: clustering and alignment. We propose explicit formulae for these tendencies as interaction forces between different pairs of embeddings. To show that our formulae can fully account for the emergence of these structures, we construct an equivalent particle simulation where we find that identical structures emerge. We use our insights to discuss the role of weight decay and reveal a new mechanism that links regularization and training dynamics. We also release an interactive demo to support our findings: https://modular-addition.vercel.app/.
翻訳日:2024-08-20 20:50:15 公開日:2024-08-18
# 大規模言語モデルの実践における課題と対応

Challenges and Responses in the Practice of Large Language Models ( http://arxiv.org/abs/2408.09416v1 )

ライセンス: Link先を確認
Hongyin Zhu, (参考訳) 本稿は、産業動向、学術研究、技術革新、ビジネス応用など、さまざまな側面を網羅した、現在注目されているAI分野に焦点を当て、あらゆる人生の歩みから広範囲で深い疑問を注意深く要約する。 本論文は、思考を誘発し、実践的に関係のある質問を慎重にキュレートし、それぞれにニュアンスがあり、洞察に富んだ回答を提供する。 本稿では,コンピュータパワーインフラストラクチャ,ソフトウェアアーキテクチャ,データリソース,アプリケーションシナリオ,脳科学の5つの中核的な側面から,これらの質問を体系的かつ慎重に分類し,整理する。 この研究は、あらゆる人生の人々のAI開発のパルスを把握し、革新的思考を刺激し、産業の進歩を促進するために、包括的で深い、最先端のAI知識フレームワークを読者に提供することを目的としている。

This paper carefully summarizes extensive and profound questions from all walks of life, focusing on the current high-profile AI field, covering multiple dimensions such as industry trends, academic research, technological innovation and business applications. This paper meticulously curates questions that are both thought-provoking and practically relevant, providing nuanced and insightful answers to each. To facilitate readers' understanding and reference, this paper specifically classifies and organizes these questions systematically and meticulously from the five core dimensions of computing power infrastructure, software architecture, data resources, application scenarios, and brain science. This work aims to provide readers with a comprehensive, in-depth and cutting-edge AI knowledge framework to help people from all walks of life grasp the pulse of AI development, stimulate innovative thinking, and promote industrial progress.
翻訳日:2024-08-20 20:50:15 公開日:2024-08-18
# ランダム量子系における動的応答と時間相関関数

Dynamical response and time correlation functions in random quantum systems ( http://arxiv.org/abs/2408.09419v1 )

ライセンス: Link先を確認
Sudhir Ranjan Jain, Pierre Gaspard, (参考訳) 時間依存応答と相関関数は、相互相互作用のない無限に多くの部分からなるランダム量子系で研究され、統計的に独立なランダム行列で定義される。 後者は、ウィグナー・ダイソンの3つの普遍性クラスに含まれる。 これらの系では、応答関数はランダム行列アンサンブル上の統計平均によって正確に与えられる。 平均応答と相関関数の時間依存性を0, 正の温度で解析した。 長い時間で, 平均相関関数はGOEの正の温度では負の崩壊を示すが, GUE と GSE は0温度では負の崩壊を示す。 さもなければ、崩壊は時間の経過とともに速くなる。 これらのパワー・ローの崩壊に関連して、関連するスペクトル密度はゼロ周波数付近で減少する。 図解法は高次応答関数を得るために開発され、3次応答関数は明示的に計算される。 衝動性摂動に対する応答も考慮されている。 さらに、アンサンブルの個々のメンバーの相関関数の量子的ゆらぎは、温度とともに変化することを示す確率分布によって特徴づけられる。

Time-dependent response and correlation functions are studied in random quantum systems composed of infinitely many parts without mutual interaction and defined with statistically independent random matrices. The latter are taken within the three Wigner-Dyson universality classes. In these systems, the response functions are shown to be exactly given by statistical averages over the random-matrix ensemble. Analytical results are obtained for the time dependence of the mean response and correlation functions at zero and positive temperatures. At long times, the mean correlation functions are shown to have a power-law decay for GOE at positive temperatures, but for GUE and GSE at zero temperature. Otherwise, the decay is much faster in time. In relation to these power-law decays, the associated spectral densities have a dip around zero frequency. The diagrammatic method is developed to obtain higher-order response functions and the third-order response function is explicitly calculated. The response to impulsive perturbations is also considered. In addition, the quantum fluctuations of the correlation function in individual members of the ensemble are characterised in terms of their probability distribution, which is shown to change with the temperature.
翻訳日:2024-08-20 20:50:15 公開日:2024-08-18
# ベンチャーキャピタリストにおけるスタートアップ成功予測の強化:多変量時系列法のグラフRAG

Enhancing Startup Success Predictions in Venture Capital: A GraphRAG Augmented Multivariate Time Series Method ( http://arxiv.org/abs/2408.09420v1 )

ライセンス: Link先を確認
Gao Zitian, Xiao Yihao, (参考訳) Venture Capital(VC)業界では、限られた財務データと主観的な収益予測の必要性のため、スタートアップの成功を予測することは難しい。 時系列分析やディープラーニングに基づく従来の方法は、競争やコラボレーションのような重要な企業間関係を組み込むことができないため、しばしば不足する。 本稿では,GrahphRAG拡張時系列モデルを用いた新しい手法を提案する。 GraphRAGでは、これらの重要な関係を分析フレームワークに統合することにより、時系列予測の手法が強化され、ベンチャーキャピタルにおけるスタートアップエコシステムをよりダイナミックに理解できるようになる。 実験の結果,我々のモデルは,スタートアップの成功予測において,過去のモデルよりも大幅に優れていたことがわかった。 私たちの知る限りでは、私たちの仕事はGraphRAGの最初のアプリケーション作業です。

In the Venture Capital(VC) industry, predicting the success of startups is challenging due to limited financial data and the need for subjective revenue forecasts. Previous methods based on time series analysis or deep learning often fall short as they fail to incorporate crucial inter-company relationships such as competition and collaboration. Regarding the issues, we propose a novel approach using GrahphRAG augmented time series model. With GraphRAG, time series predictive methods are enhanced by integrating these vital relationships into the analysis framework, allowing for a more dynamic understanding of the startup ecosystem in venture capital. Our experimental results demonstrate that our model significantly outperforms previous models in startup success predictions. To the best of our knowledge, our work is the first application work of GraphRAG.
翻訳日:2024-08-20 20:50:15 公開日:2024-08-18
# 改訂関係知識を用いた法的な判断予測における不明瞭な融合

Distinguish Confusion in Legal Judgment Prediction via Revised Relation Knowledge ( http://arxiv.org/abs/2408.09422v1 )

ライセンス: Link先を確認
Nuo Xu, Pinghui Wang, Junzhou Zhao, Feiyang Sun, Lin Lan, Jing Tao, Li Pan, Xiaohong Guan, (参考訳) 法的判断予測(LJP)は,その事実のテキスト記述に基づいて,訴訟の判断結果を自動的に予測することを目的としている。 実際、紛らわしい法律記事(または料金)の問題は頻繁に発生し、類似記事(または料金)に該当する法ケースが誤認される傾向があることを反映している。 先行知識に基づく最近の研究はこの問題をよく解決しているが、データ不均衡の問題による後続のセマンティックな類似性が高い法律記事の間にも混同が生じていることも無視している。 本稿では,上記の課題を解決するために,textit{D-LADAN} というエンド・ツー・エンドのモデルを提案する。 一方、D-LADANは、論文のテキスト定義に基づいてグラフを構築し、グラフ蒸留操作(GDO)を提案し、高い先行的意味的類似性を持つものを識別する。 一方、D-LADANは、法記事(または料金)と重み付きGDOとの後方類似性を動的に感知し、データ不均衡問題に起因する誘導バイアスを補正する特徴を適応的に捉える、新しいモーメント更新メモリ機構を提案する。 我々は、D-LADANが最先端の手法を精度と堅牢性で著しく上回っていることを示すため、広範囲な実験を行った。

Legal Judgment Prediction (LJP) aims to automatically predict a law case's judgment results based on the text description of its facts. In practice, the confusing law articles (or charges) problem frequently occurs, reflecting that the law cases applicable to similar articles (or charges) tend to be misjudged. Although some recent works based on prior knowledge solve this issue well, they ignore that confusion also occurs between law articles with a high posterior semantic similarity due to the data imbalance problem instead of only between the prior highly similar ones, which is this work's further finding. This paper proposes an end-to-end model named \textit{D-LADAN} to solve the above challenges. On the one hand, D-LADAN constructs a graph among law articles based on their text definition and proposes a graph distillation operation (GDO) to distinguish the ones with a high prior semantic similarity. On the other hand, D-LADAN presents a novel momentum-updated memory mechanism to dynamically sense the posterior similarity between law articles (or charges) and a weighted GDO to adaptively capture the distinctions for revising the inductive bias caused by the data imbalance problem. We perform extensive experiments to demonstrate that D-LADAN significantly outperforms state-of-the-art methods in accuracy and robustness.
翻訳日:2024-08-20 20:50:15 公開日:2024-08-18
# OVOSE:イベントベースカメラにおけるオープン語彙セマンティックセマンティックセグメンテーション

OVOSE: Open-Vocabulary Semantic Segmentation in Event-Based Cameras ( http://arxiv.org/abs/2408.09424v1 )

ライセンス: Link先を確認
Muhammad Rameez Ur Rahman, Jhony H. Giraldo, Indro Spinelli, Stéphane Lathuilière, Fabio Galasso, (参考訳) イベントカメラは、低遅延動作と挑戦的な照明条件の優れた性能で知られており、自律運転におけるセマンティックセグメンテーションのような敏感なコンピュータビジョンタスクに適している。 しかし、イベントベースのデータに制限があり、大規模なセグメンテーションベンチマークがないため、課題が生じる。 現在の作業はクローズドセットセマンティックセグメンテーションに限定されており、他のアプリケーションへの適応性を制限する。 本稿では,イベントカメラのための最初のOpen-Vocabulary Semantic SegmentationアルゴリズムであるOVOSEを紹介する。 OVOSEは、事前訓練されたイメージベース基盤モデルからイベントベースへの合成イベントデータと知識蒸留を活用し、空間コンテキストを効果的に保存し、オープン語彙セマンティックセマンティックセマンティクス機能を転送する。 本研究では,2つの駆動意味セグメンテーションデータセット DDD17 と DSEC-Semantic における OVOSE の性能を評価する。 同様に、OVOSEと、イベントベースセマンティックセグメンテーションのための教師なしドメイン適応におけるクローズドセット設定のための最先端手法の比較を行う。 OVOSEは優れた性能を示し、現実世界のアプリケーションの可能性を示している。 コードはhttps://github.com/ram95d/OVOSEで公開されている。

Event cameras, known for low-latency operation and superior performance in challenging lighting conditions, are suitable for sensitive computer vision tasks such as semantic segmentation in autonomous driving. However, challenges arise due to limited event-based data and the absence of large-scale segmentation benchmarks. Current works are confined to closed-set semantic segmentation, limiting their adaptability to other applications. In this paper, we introduce OVOSE, the first Open-Vocabulary Semantic Segmentation algorithm for Event cameras. OVOSE leverages synthetic event data and knowledge distillation from a pre-trained image-based foundation model to an event-based counterpart, effectively preserving spatial context and transferring open-vocabulary semantic segmentation capabilities. We evaluate the performance of OVOSE on two driving semantic segmentation datasets DDD17, and DSEC-Semantic, comparing it with existing conventional image open-vocabulary models adapted for event-based data. Similarly, we compare OVOSE with state-of-the-art methods designed for closed-set settings in unsupervised domain adaptation for event-based semantic segmentation. OVOSE demonstrates superior performance, showcasing its potential for real-world applications. The code is available at https://github.com/ram95d/OVOSE.
翻訳日:2024-08-20 20:50:15 公開日:2024-08-18
# コンタクトレス指紋強調とマッチングのためのロバストアルゴリズム

A Robust Algorithm for Contactless Fingerprint Enhancement and Matching ( http://arxiv.org/abs/2408.09426v1 )

ライセンス: Link先を確認
Mahrukh Siddiqui, Shahzaib Iqbal, Bandar AlShammari, Bandar Alhaqbani, Tariq M. Khan, Imran Razzak, (参考訳) 接触指紋画像と比較すると, 接触指紋画像は, 1) ノイズが少なく, (2) 隆起パターンの不連続性が小さい,(3) 隆起バレーパターンが明瞭でない,(4) 指を捕獲装置に押し付けることで生じる弾性変形が欠如している,という4つの特徴がある。 これらの特性は非接触指紋画像の強調に重要な課題を呈している。 本研究では,周波数推定の精度を向上し,非接触型指紋識別システムを提案する。 さらに,効率よく高精度なミツバチ型符号化とマッチングアルゴリズムを導入する。 広範囲な実験実験により,本手法の有効性を検証した。 本手法は,PolyU非接触指紋データに対して2.84\%の最小誤差率(EER)を達成し,既存の最先端技術と比較して優れた性能を示す。 提案する指紋識別法は, 接触型指紋認証システムにおいて, 精度とレジリエンスに優れ, 有効かつ有効な解法であることが証明された。

Compared to contact fingerprint images, contactless fingerprint images exhibit four distinct characteristics: (1) they contain less noise; (2) they have fewer discontinuities in ridge patterns; (3) the ridge-valley pattern is less distinct; and (4) they pose an interoperability problem, as they lack the elastic deformation caused by pressing the finger against the capture device. These properties present significant challenges for the enhancement of contactless fingerprint images. In this study, we propose a novel contactless fingerprint identification solution that enhances the accuracy of minutiae detection through improved frequency estimation and a new region-quality-based minutia extraction algorithm. In addition, we introduce an efficient and highly accurate minutiae-based encoding and matching algorithm. We validate the effectiveness of our approach through extensive experimental testing. Our method achieves a minimum Equal Error Rate (EER) of 2.84\% on the PolyU contactless fingerprint dataset, demonstrating its superior performance compared to existing state-of-the-art techniques. The proposed fingerprint identification method exhibits notable precision and resilience, proving to be an effective and feasible solution for contactless fingerprint-based identification systems.
翻訳日:2024-08-20 20:50:15 公開日:2024-08-18
# Reefknot:マルチモーダル大言語モデルにおける関係幻覚評価・分析・緩和のための総合ベンチマーク

Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models ( http://arxiv.org/abs/2408.09429v1 )

ライセンス: Link先を確認
Kening Zheng, Junkai Chen, Yibo Yan, Xin Zou, Xuming Hu, (参考訳) 幻覚の問題は、現在のマルチモーダル大言語モデル(MLLM)に絶え間なく悩まされた。 既存の研究は主に対象レベルの幻覚や属性レベルの幻覚に焦点を当てているが、MLLMから高度な推論能力を必要とするより洗練された関係幻覚を横に並べている。 さらに、最近の関係幻覚に関するベンチマークでは、深い評価と効果的な緩和が欠如している。 さらに、データセットは一般的に、事前に定義されたプロセスのために固有のバイアスをもたらすような、体系的なアノテーションプロセスから派生している。 上記の課題に対処するため、実世界のシナリオから2万以上のサンプルからなる関係幻覚を対象とする総合的なベンチマークであるReefknotを紹介した。 具体的には、まず関係幻覚を体系的に定義し、知覚的および認知的領域からの視点を統合する。 さらに,代表的なシーングラフデータセットであるVisual Genome (VG) を用いて,関係に基づくコーパスを構築した。 3つの異なるタスクに対する比較評価の結果、関係幻覚を緩和する現在のMLLMの能力に重大な欠点があることが判明した。 最後に,関係幻覚問題に対処するために,信頼度に基づく新たな緩和戦略を推し進める。 リーフノットを含む3つのデータセットで,幻覚率の平均減少率は9.75%であった。 我々の論文は、信頼できるマルチモーダルインテリジェンスを達成するための貴重な洞察を秘めていると信じています。 私たちのデータセットとコードは、論文の受理によってリリースされます。

Hallucination issues persistently plagued current multimodal large language models (MLLMs). While existing research primarily focuses on object-level or attribute-level hallucinations, sidelining the more sophisticated relation hallucinations that necessitate advanced reasoning abilities from MLLMs. Besides, recent benchmarks regarding relation hallucinations lack in-depth evaluation and effective mitigation. Moreover, their datasets are typically derived from a systematic annotation process, which could introduce inherent biases due to the predefined process. To handle the aforementioned challenges, we introduce Reefknot, a comprehensive benchmark specifically targeting relation hallucinations, consisting of over 20,000 samples derived from real-world scenarios. Specifically, we first provide a systematic definition of relation hallucinations, integrating perspectives from perceptive and cognitive domains. Furthermore, we construct the relation-based corpus utilizing the representative scene graph dataset Visual Genome (VG), from which semantic triplets follow real-world distributions. Our comparative evaluation across three distinct tasks revealed a substantial shortcoming in the capabilities of current MLLMs to mitigate relation hallucinations. Finally, we advance a novel confidence-based mitigation strategy tailored to tackle the relation hallucinations problem. Across three datasets, including Reefknot, we observed an average reduction of 9.75% in the hallucination rate. We believe our paper sheds valuable insights into achieving trustworthy multimodal intelligence. Our dataset and code will be released upon paper acceptance.
翻訳日:2024-08-20 20:40:30 公開日:2024-08-18
# FASST:高速LLMベース同時音声翻訳

FASST: Fast LLM-based Simultaneous Speech Translation ( http://arxiv.org/abs/2408.09430v1 )

ライセンス: Link先を確認
Siqi Ouyang, Xi Xu, Chinmay Dandekar, Lei Li, (参考訳) 同時音声翻訳(SST)は、ストリーミング音声入力を受信し、オンザフライでテキスト翻訳を生成する。 既存の方法は、入力表現の再計算によるレイテンシが高いか、オフラインSTの翻訳品質に遅れがあるかのいずれかである。 本稿では,高速な大規模言語モデルに基づく音声翻訳手法であるFASSTを提案する。 ブロックワイズ・カウザル音声符号化と整合マスクを提案し、ストリーム音声入力を再計算せずに漸進的に符号化できるようにする。 さらに、同時推論のためのFASSTを最適化するための2段階のトレーニング戦略を開発する。 我々は、MST-Cデータセット上で、FASSTと複数の強い先行モデルを評価する。 実験結果から,FASSTは最高の品質・レイテンシトレードオフを実現することがわかった。 これは、英語からスペイン語への翻訳と同じレイテンシで、平均1.5 BLEUで以前の最高のモデルを上回っている。

Simultaneous speech translation (SST) takes streaming speech input and generates text translation on the fly. Existing methods either have high latency due to recomputation of input representations, or fall behind of offline ST in translation quality. In this paper, we propose FASST, a fast large language model based method for streaming speech translation. We propose blockwise-causal speech encoding and consistency mask, so that streaming speech input can be encoded incrementally without recomputation. Furthermore, we develop a two-stage training strategy to optimize FASST for simultaneous inference. We evaluate FASST and multiple strong prior models on MuST-C dataset. Experiment results show that FASST achieves the best quality-latency trade-off. It outperforms the previous best model by an average of 1.5 BLEU under the same latency for English to Spanish translation.
翻訳日:2024-08-20 20:40:30 公開日:2024-08-18
# 教師なしドメイン適応オブジェクト検出のための教師攻撃型教師

Adversarial Attacked Teacher for Unsupervised Domain Adaptive Object Detection ( http://arxiv.org/abs/2408.09431v1 )

ライセンス: Link先を確認
Kaiwen Wang, Yinzhe Shen, Martin Lauer, (参考訳) オブジェクト検出器はドメインシフトを扱う際の課題に直面する。 カットエッジ領域適応型オブジェクト検出法は,教師学習フレームワークとドメイン逆学習を用いて,自己学習のためのドメイン不変な擬似ラベルを生成する。 しかし、教師モデルによって生成された擬似ラベルは多数派に偏りがちであり、しばしば過信の偽陽性や過信の偽陰性を含む。 敵の攻撃に弱い擬似ラベルは、より低品質である可能性が示唆された。 そこで本稿では,疑似ラベルの品質向上を目的とした,AAT(Adversarial Attacked Teacher)というシンプルなフレームワークを提案する。 具体的には、教師モデルに敵対的攻撃を適用し、バイアスを正し、自信過剰を抑え、不信な提案を奨励するために、敵対的擬似ラベルを生成するよう促す。 適応的な擬似ラベル正規化を導入し、疑似ラベルの影響を高い確実性で強調し、不確実な予測による負の影響を低減する。 さらに、擬似ラベル正規化によって検証されたロバストなマイノリティオブジェクトは、偽陽性を導入することなくデータセットの不均衡を最小限に抑えるためにオーバーサンプリングされる。 様々なデータセットで実施された大規模な実験により、AATは優れた性能を示し、Clipart1k上で52.6 mAPに達し、以前の最先端の6.7%を上回った。

Object detectors encounter challenges in handling domain shifts. Cutting-edge domain adaptive object detection methods use the teacher-student framework and domain adversarial learning to generate domain-invariant pseudo-labels for self-training. However, the pseudo-labels generated by the teacher model tend to be biased towards the majority class and often mistakenly include overconfident false positives and underconfident false negatives. We reveal that pseudo-labels vulnerable to adversarial attacks are more likely to be low-quality. To address this, we propose a simple yet effective framework named Adversarial Attacked Teacher (AAT) to improve the quality of pseudo-labels. Specifically, we apply adversarial attacks to the teacher model, prompting it to generate adversarial pseudo-labels to correct bias, suppress overconfidence, and encourage underconfident proposals. An adaptive pseudo-label regularization is introduced to emphasize the influence of pseudo-labels with high certainty and reduce the negative impacts of uncertain predictions. Moreover, robust minority objects verified by pseudo-label regularization are oversampled to minimize dataset imbalance without introducing false positives. Extensive experiments conducted on various datasets demonstrate that AAT achieves superior performance, reaching 52.6 mAP on Clipart1k, surpassing the previous state-of-the-art by 6.7%.
翻訳日:2024-08-20 20:40:30 公開日:2024-08-18
# 医用画像合成のための変形認識型GAN

Deformation-aware GAN for Medical Image Synthesis with Substantially Misaligned Pairs ( http://arxiv.org/abs/2408.09432v1 )

ライセンス: Link先を確認
Bowen Xin, Tony Young, Claire E Wainwright, Tamara Blake, Leo Lebrat, Thomas Gaass, Thomas Benkert, Alto Stemmer, David Coman, Jason Dowling, (参考訳) 医用画像合成は、取得に費用がかかり、侵襲的で有害な画像モダリティを付加し、臨床ワークフローの促進に役立つ。 トレーニングペアが(例えば、呼吸運動を伴う肺MRI-CTペア)かなり不一致している場合、正確な画像合成は依然として重要な課題である。 最近の研究は、GAN(Generative Adversarial Network)における不整合を調整するために、指向性登録モジュールを探索しているが、かなりの不整合が導かれるだろう。 1)対応あいまいさによる最適下地データマッピング 2) 形態的影響による画像の忠実度低下が判別に影響を及ぼした。 これらの課題に対処するために,多目的逆整合性に基づく画像合成における誤りを動的に補正する新しい変形認識型GAN(DA-GAN)を提案する。 具体的には、生成過程において、逆整合性の3つのレベルが対称的な登録と画像生成を最適に最適化し、対応性を向上する。 本研究では,不整合下での画像の忠実度をさらに向上するため,不整合空間形態を画像の忠実度判定から切り離す変形認識識別器を設計する。 実験の結果, DA-GANは, 呼吸運動異常を伴う実世界の肺MRI-CTデータセットと模擬誤診を伴う公共データセットにおいて, 優れた性能を示した。 その結果,放射線治療計画などの幅広い医用画像合成タスクの可能性が示唆された。

Medical image synthesis generates additional imaging modalities that are costly, invasive or harmful to acquire, which helps to facilitate the clinical workflow. When training pairs are substantially misaligned (e.g., lung MRI-CT pairs with respiratory motion), accurate image synthesis remains a critical challenge. Recent works explored the directional registration module to adjust misalignment in generative adversarial networks (GANs); however, substantial misalignment will lead to 1) suboptimal data mapping caused by correspondence ambiguity, and 2) degraded image fidelity caused by morphology influence on discriminators. To address the challenges, we propose a novel Deformation-aware GAN (DA-GAN) to dynamically correct the misalignment during the image synthesis based on multi-objective inverse consistency. Specifically, in the generative process, three levels of inverse consistency cohesively optimise symmetric registration and image generation for improved correspondence. In the adversarial process, to further improve image fidelity under misalignment, we design deformation-aware discriminators to disentangle the mismatched spatial morphology from the judgement of image fidelity. Experimental results show that DA-GAN achieved superior performance on a public dataset with simulated misalignments and a real-world lung MRI-CT dataset with respiratory motion misalignment. The results indicate the potential for a wide range of medical image synthesis tasks such as radiotherapy planning.
翻訳日:2024-08-20 20:40:30 公開日:2024-08-18
# HySem:非構造化表抽出のための文脈長最適化LDMパイプライン

HySem: A context length optimized LLM pipeline for unstructured tabular extraction ( http://arxiv.org/abs/2408.09434v1 )

ライセンス: Link先を確認
Narayanan PP, Anantharaman Palacode Narayana Iyer, (参考訳) 製薬業界における規制コンプライアンスの報告は詳細な表に依存しているが、その非構造化フォーマットと任意の内容のために、コンプライアンスを超えて利用されていないことが多い。 表データの抽出と意味表現は、多種多様な表の提示のために困難である。 大規模言語モデル(LLM)は意味表現にかなりの可能性を示すが、業界アプリケーションにとって重要な考慮事項である正確性やコンテキストサイズ制限に関連する課題に直面する。 我々は,HTMLテーブルから正確な意味的JSON表現を生成するために,コンテキスト長最適化技術を用いたパイプラインHySemを紹介する。 このアプローチでは、コストとプライバシに敏感な中小企業向けに特別に設計された、カスタムな微調整モデルを利用する。 LLM生成コンテンツにおいて,コモディティハードウェア上で動作し,オープンソースモデルを活用することで,自動修正エージェントが構文エラーと意味エラーの両方を補正する。 HySemはピアオープンソースモデルを精度で上回り、OpenAI GPT-4oとベンチマークしてコンテキスト長制限を効果的に対処する際の競合性能を提供する。

Regulatory compliance reporting in the pharmaceutical industry relies on detailed tables, but these are often under-utilized beyond compliance due to their unstructured format and arbitrary content. Extracting and semantically representing tabular data is challenging due to diverse table presentations. Large Language Models (LLMs) demonstrate substantial potential for semantic representation, yet they encounter challenges related to accuracy and context size limitations, which are crucial considerations for the industry applications. We introduce HySem, a pipeline that employs a novel context length optimization technique to generate accurate semantic JSON representations from HTML tables. This approach utilizes a custom fine-tuned model specifically designed for cost- and privacy-sensitive small and medium pharmaceutical enterprises. Running on commodity hardware and leveraging open-source models, our auto-correcting agents rectify both syntax and semantic errors in LLM-generated content. HySem surpasses its peer open-source models in accuracy and provides competitive performance when benchmarked against OpenAI GPT-4o and effectively addresses context length limitations, which is a crucial factor for supporting larger tables.
翻訳日:2024-08-20 20:40:30 公開日:2024-08-18
# Hindi-BEIR : Hindiにおける大規模検索ベンチマーク

Hindi-BEIR : A Large Scale Retrieval Benchmark in Hindi ( http://arxiv.org/abs/2408.09437v1 )

ライセンス: Link先を確認
Arkadeep Acharya, Rudra Murthy, Vishwajeet Kumar, Jaydeep Sen, (参考訳) 世界中のヒンディー語話者が多数いることから、ヒンディー語のための堅牢で効率的な情報検索システムの必要性が高まっている。 進行中の研究にもかかわらず、ヒンディー語で検索モデルを評価するための包括的なベンチマークが欠如している。 これは、ヒンディー語に翻訳された英語のBEIRデータセットのサブセット、既存のヒンディー語検索データセット、検索用の合成データセットを含む。 ベンチマークは、8ドルの異なるタスクにまたがる15ドルのデータセットで構成されている。 本ベンチマークでは,タスクやドメイン固有の課題の特定と検索性能への影響を明らかにするため,最先端の多言語検索モデルの評価を行う。 このベンチマークと関連するベースラインのセットをリリースすることにより、研究者は現在のヒンディー語検索モデルの限界と能力を理解し、この重要な領域の進歩を促進することができる。 Hindi-BEIRのデータセットが公開されている。

Given the large number of Hindi speakers worldwide, there is a pressing need for robust and efficient information retrieval systems for Hindi. Despite ongoing research, there is a lack of comprehensive benchmark for evaluating retrieval models in Hindi. To address this gap, we introduce the Hindi version of the BEIR benchmark, which includes a subset of English BEIR datasets translated to Hindi, existing Hindi retrieval datasets, and synthetically created datasets for retrieval. The benchmark is comprised of $15$ datasets spanning across $8$ distinct tasks. We evaluate state-of-the-art multilingual retrieval models on this benchmark to identify task and domain-specific challenges and their impact on retrieval performance. By releasing this benchmark and a set of relevant baselines, we enable researchers to understand the limitations and capabilities of current Hindi retrieval models, promoting advancements in this critical area. The datasets from Hindi-BEIR are publicly available.
翻訳日:2024-08-20 20:40:30 公開日:2024-08-18
# マルチモーダル感情認識のためのアライメントとラベルマッチングによるモーダルフュージョンの強化

Enhancing Modal Fusion by Alignment and Label Matching for Multimodal Emotion Recognition ( http://arxiv.org/abs/2408.09438v1 )

ライセンス: Link先を確認
Qifei Li, Yingming Gao, Yuhua Wen, Cong Wang, Ya Li, (参考訳) モーダル情報融合によるマルチモーダル感情認識(MER)性能の限界を解決するために,Foal-Netと呼ばれる,アライメント後に融合が発生するマルチタスク学習に基づく新しいMERフレームワークを提案する。 このフレームワークは、モダリティ融合の有効性を高め、オーディオビデオ感情アライメント(AVEL)とクロスモーダル感情ラベルマッチング(MEM)という2つの補助的なタスクを含むように設計されている。 まず、AVELは、コントラスト学習を通じて、音声・ビデオ表現における感情情報のアライメントを実現する。 そして、モーダル融合ネットワークが整列した特徴を統合する。 一方、MEMは、現在のサンプルペアの感情が同じかどうかを評価し、モーダル情報融合を支援し、モデルが感情情報にもっと焦点を合わせるように誘導する。 The experimental results on IEMOCAP corpus showed that Foal-Net issueds the state-of-the-art method and emotion alignment is necessary before modalfusion。

To address the limitation in multimodal emotion recognition (MER) performance arising from inter-modal information fusion, we propose a novel MER framework based on multitask learning where fusion occurs after alignment, called Foal-Net. The framework is designed to enhance the effectiveness of modality fusion and includes two auxiliary tasks: audio-video emotion alignment (AVEL) and cross-modal emotion label matching (MEM). First, AVEL achieves alignment of emotional information in audio-video representations through contrastive learning. Then, a modal fusion network integrates the aligned features. Meanwhile, MEM assesses whether the emotions of the current sample pair are the same, providing assistance for modal information fusion and guiding the model to focus more on emotional information. The experimental results conducted on IEMOCAP corpus show that Foal-Net outperforms the state-of-the-art methods and emotion alignment is necessary before modal fusion.
翻訳日:2024-08-20 20:40:30 公開日:2024-08-18
# プログレッシブ・リトリーブ・ビヘイビア強化型プロンプティングによるLLM関連性モデリングの強化に向けて

Towards Boosting LLMs-driven Relevance Modeling with Progressive Retrieved Behavior-augmented Prompting ( http://arxiv.org/abs/2408.09439v1 )

ライセンス: Link先を確認
Zeyuan Chen, Haiyan Wu, Kaixin Wu, Wei Chen, Mingjie Zhong, Jia Xu, Zhongyi Liu, Wei Zhang, (参考訳) 関連モデリングは,検索エンジンのユーザエクスペリエンスを高める上で重要な要素であり,ユーザのクエリに適合する項目を特定することが主な目的である。 従来のモデルは、関連性を確認するためにクエリとアイテム間のセマンティックな一致にのみ依存する。 しかし、このアプローチは単に関連性判断の1つの側面を表しており、単独では不十分である。 強力な大規模言語モデル(LLM)でさえ、セマンティックの観点からクエリとアイテムの関連性を正確に判断することはできない。 検索ログに記録されたユーザインタラクションを活用して,ユーザの暗黙的な検索意図に対する洞察を得る。 この課題は、LLMが動的検索意図を捕捉するための効果的なプロンプトであり、これは現実の関連シナリオ、すなわちドメイン固有の知識の欠如、孤立したプロンプトの欠如、LLMの展開に伴う禁止的なコストなど、いくつかの障害を引き起こす。 提案するProRBPは,探索シナリオ指向の知識をLLMに効果的に統合するための,新しいプログレッシブ・リトリビュード・ビヘイビア強化・プロンプティング・フレームワークである。 具体的には、日々の検索ログからユーザ主導の行動検索を行い、ドメイン固有の知識を時間内に取得し、ユーザが期待する候補を検索する。 次に,LLMの出力を漸進的に改善する高度なプロンプト技術を採用し,多様な側面を包括的に考慮した漸進的な集約手法を用いて,関連モデリングのためのLCMを導出する。 オンラインサービスのために,我々は,関連モデリングにおけるLLMの展開に適した産業用アプリケーションフレームワークを開発した。 実業界データとオンラインA/Bテストの実験は、我々の提案が有望なパフォーマンスを達成することを実証している。

Relevance modeling is a critical component for enhancing user experience in search engines, with the primary objective of identifying items that align with users' queries. Traditional models only rely on the semantic congruence between queries and items to ascertain relevance. However, this approach represents merely one aspect of the relevance judgement, and is insufficient in isolation. Even powerful Large Language Models (LLMs) still cannot accurately judge the relevance of a query and an item from a semantic perspective. To augment LLMs-driven relevance modeling, this study proposes leveraging user interactions recorded in search logs to yield insights into users' implicit search intentions. The challenge lies in the effective prompting of LLMs to capture dynamic search intentions, which poses several obstacles in real-world relevance scenarios, i.e., the absence of domain-specific knowledge, the inadequacy of an isolated prompt, and the prohibitive costs associated with deploying LLMs. In response, we propose ProRBP, a novel Progressive Retrieved Behavior-augmented Prompting framework for integrating search scenario-oriented knowledge with LLMs effectively. Specifically, we perform the user-driven behavior neighbors retrieval from the daily search logs to obtain domain-specific knowledge in time, retrieving candidates that users consider to meet their expectations. Then, we guide LLMs for relevance modeling by employing advanced prompting techniques that progressively improve the outputs of the LLMs, followed by a progressive aggregation with comprehensive consideration of diverse aspects. For online serving, we have developed an industrial application framework tailored for the deployment of LLMs in relevance modeling. Experiments on real-world industry data and online A/B testing demonstrate our proposal achieves promising performance.
翻訳日:2024-08-20 20:40:30 公開日:2024-08-18
# CLIP-CID: クラスタ・インスタンス識別によるCLIPの高効率蒸留

CLIP-CID: Efficient CLIP Distillation via Cluster-Instance Discrimination ( http://arxiv.org/abs/2408.09441v1 )

ライセンス: Link先を確認
Kaicheng Yang, Tiancheng Gu, Xiang An, Haiqiang Jiang, Xiangzi Dai, Ziyong Feng, Weidong Cai, Jiankang Deng, (参考訳) CLIP(Contrastive Language- Image Pre-Training)は、幅広いタスクにおいて優れたパフォーマンスを実現している。 しかし、CLIPの有効性は事前学習データの実質的なコーパスに大きく依存しており、計算資源を著しく消費する結果となった。 知識蒸留は単一のモダリティモデルに広く適用されているが、知識蒸留を広範囲のデータを持つ視覚言語基礎モデルに効率的に拡張する方法は、まだ明らかになっていない。 本稿では,大規模な視覚言語基礎モデルからより小さなモデルへ知識を効果的に伝達する新しい蒸留機構であるCLIP-CIDを紹介する。 まず, 移動学習バイアスを低減し, 蒸留効率を向上させるため, 単純だが効率的な画像セマンティックバランス法を提案する。 この方法は、優れた性能を維持しながら、LAION400Mから画像テキストペアの43.7%をフィルタリングする。 その後,教師モデルから学生モデルへの知識伝達を促進するために,クラスタ・インスタンスの識別を活用して,学生モデルに事前学習データの総合的意味理解を得る権限を与える。 実験結果から,CLIP-CIDは,線形プローブやゼロショット分類を含む様々な下流タスクにおいて,最先端性能を実現することが示された。

Contrastive Language-Image Pre-training (CLIP) has achieved excellent performance over a wide range of tasks. However, the effectiveness of CLIP heavily relies on a substantial corpus of pre-training data, resulting in notable consumption of computational resources. Although knowledge distillation has been widely applied in single modality models, how to efficiently expand knowledge distillation to vision-language foundation models with extensive data remains relatively unexplored. In this paper, we introduce CLIP-CID, a novel distillation mechanism that effectively transfers knowledge from a large vision-language foundation model to a smaller model. We initially propose a simple but efficient image semantic balance method to reduce transfer learning bias and improve distillation efficiency. This method filters out 43.7% of image-text pairs from the LAION400M while maintaining superior performance. After that, we leverage cluster-instance discrimination to facilitate knowledge transfer from the teacher model to the student model, thereby empowering the student model to acquire a holistic semantic comprehension of the pre-training data. Experimental results demonstrate that CLIP-CID achieves state-of-the-art performance on various downstream tasks including linear probe and zero-shot classification.
翻訳日:2024-08-20 20:40:30 公開日:2024-08-18
# カウントによる並列サンプリング

Parallel Sampling via Counting ( http://arxiv.org/abs/2408.09442v1 )

ライセンス: Link先を確認
Nima Anari, Ruiquan Gao, Aviad Rubinstein, (参考訳) 任意の分布からサンプリングを高速化するために並列化を用いる方法を示す: $[q]^n$, given oracle access to counting query: $\mathbb{P}_{X\sim \mu}[X_S=\sigma_S]$ for any $S\subseteq [n]$ and $\sigma_S \in [q]^S$。 我々のアルゴリズムは、任意の分布に対して$O({n^{2/3}\cdot \operatorname{polylog}(n,q)})$並列時間を取る。 この結果は自己回帰モデルにおけるサンプリングに影響を及ぼす。 我々のアルゴリズムは、条件付き辺縁クエリ $\mathbb{P}_{X\sim \mu}[X_i=\sigma_i\;\vert\; X_S=\sigma_S]$ に答える等価なオラクルで直接動作する。 これは、任意の順序自己回帰モデルにおいて、およそ$n^{1/3}$-factor の高速化がサンプリング可能であることを示唆している。 我々は、任意の並列サンプリングアルゴリズムの実行時に対して$\widetilde{\Omega}(n^{1/3})$の低いバウンダリを示し、最大$\operatorname{poly}(n)$のカウントオラクルへのクエリを$q=2$でも示すことで、ポジティブな結果を補完する。

We show how to use parallelization to speed up sampling from an arbitrary distribution $\mu$ on a product space $[q]^n$, given oracle access to counting queries: $\mathbb{P}_{X\sim \mu}[X_S=\sigma_S]$ for any $S\subseteq [n]$ and $\sigma_S \in [q]^S$. Our algorithm takes $O({n^{2/3}\cdot \operatorname{polylog}(n,q)})$ parallel time, to the best of our knowledge, the first sublinear in $n$ runtime for arbitrary distributions. Our results have implications for sampling in autoregressive models. Our algorithm directly works with an equivalent oracle that answers conditional marginal queries $\mathbb{P}_{X\sim \mu}[X_i=\sigma_i\;\vert\; X_S=\sigma_S]$, whose role is played by a trained neural network in autoregressive models. This suggests a roughly $n^{1/3}$-factor speedup is possible for sampling in any-order autoregressive models. We complement our positive result by showing a lower bound of $\widetilde{\Omega}(n^{1/3})$ for the runtime of any parallel sampling algorithm making at most $\operatorname{poly}(n)$ queries to the counting oracle, even for $q=2$.
翻訳日:2024-08-20 20:40:30 公開日:2024-08-18
# 1ミリグラムのねじり振り子を240マイクロケルビンに冷却するレーザー

Laser cooling a 1-milligram torsional pendulum to 240 microkelvins ( http://arxiv.org/abs/2408.09445v1 )

ライセンス: Link先を確認
Sofia Agafonova, Pere Rossello, Manuel Mekonnen, Onur Hosten, (参考訳) ミリグラムスケールの機械振動子は、量子力学と重力の界面における実験室スケールの効果を含む、様々な面で基本的な物理現象をテストする可能性を持っている。 それにもかかわらず、この可能性を支持する実験的な実現は、これまでにも欠けていた。 ここでは、1ミリグラムのねじり振り子に対する新たな制御レベルを示し、室温から240マイクロケルビンまでのねじり動きをレーザーフィードバックで冷却し、マイクログラムからキログラムまでの質量窓で最も冷たい機械的動きを確立する。 開発されたシステムは独特のトルク感知能力を示し、N$\cdot$m/$\sqrt{\textrm{Hz}}$ thermal-noise-limited sensitivity -- ミリグラムの最先端よりも10倍低い。 振り子サスペンションの容易な改善により、達成可能な温度とトルク感度の両方の100倍の低下が予示され、このような大規模な量子状態下での動作が促進される。

Milligram-scale mechanical oscillators hold potential for testing fundamental physical phenomena on various fronts, including laboratory-scale effects at the interface of quantum mechanics and gravity. Nevertheless, experimental realizations supporting this potential have thus far been lacking. Here, we present a new level of control over a 1-milligram torsional pendulum, demonstrating laser feedback cooling of its torsional motion from room temperature to 240 microkelvins, establishing the coldest mechanical motion in the microgram-to-kilogram mass window -- a factor of 25 beyond prior art. The developed system shows a unique torque sensing capability, reaching $1.2\times10^{-18}$ N$\cdot$m/$\sqrt{\textrm{Hz}}$ thermal-noise-limited sensitivity -- a factor of 10 below the state of the art for the milligram scale. With readily feasible improvements in the pendulum suspension, a further 100-fold reduction in both achievable temperatures and torque sensitivities is foreseen, pushing towards operation in the quantum regime at such large mass scales.
翻訳日:2024-08-20 20:40:30 公開日:2024-08-18
# パラメータ化PDEのためのパラメータ化物理インフォームドニューラルネットワーク

Parameterized Physics-informed Neural Networks for Parameterized PDEs ( http://arxiv.org/abs/2408.09446v1 )

ライセンス: Link先を確認
Woojin Cho, Minju Jo, Haksoo Lim, Kookjin Lee, Dongeun Lee, Sanghyun Hong, Noseong Park, (参考訳) 複素物理系はしばしば、流体力学におけるレイノルズ数のようなパラメータに依存する偏微分方程式(PDE)によって記述される。 設計最適化や不確実量化といった応用では、これらのPDEの解をパラメータ空間の多くの点で評価する必要がある。 物理インフォームドニューラルネットワーク(PINN)は、サロゲートとして新たな強力な競合相手として現れてきたが、このシナリオでの彼らの使用は、繰り返しおよび時間のかかるトレーニングが本質的に必要であるために、未探索のままである。 本稿では,パラメータ化された物理インフォームドニューラルネットワーク(P$^2$INNs)を新たに提案することで,この問題に対処する。 P$^2$INNs は PDE パラメータの潜在表現を明示的に符号化することでパラメータ化 PDE の解をモデル化することができる。 実験により,P$^2$INNsはベンチマーク1Dおよび2Dパラメータ化PDEの精度とパラメータ効率の両面で高い性能を示し,既知の「障害モード」の克服にも有効であることを示した。

Complex physical systems are often described by partial differential equations (PDEs) that depend on parameters such as the Reynolds number in fluid mechanics. In applications such as design optimization or uncertainty quantification, solutions of those PDEs need to be evaluated at numerous points in the parameter space. While physics-informed neural networks (PINNs) have emerged as a new strong competitor as a surrogate, their usage in this scenario remains underexplored due to the inherent need for repetitive and time-consuming training. In this paper, we address this problem by proposing a novel extension, parameterized physics-informed neural networks (P$^2$INNs). P$^2$INNs enable modeling the solutions of parameterized PDEs via explicitly encoding a latent representation of PDE parameters. With the extensive empirical evaluation, we demonstrate that P$^2$INNs outperform the baselines both in accuracy and parameter efficiency on benchmark 1D and 2D parameterized PDEs and are also effective in overcoming the known "failure modes".
翻訳日:2024-08-20 20:40:30 公開日:2024-08-18
# 注意は必要ではない:全スライド画像分類のためのマルチインスタンス学習の再考

Attention Is Not What You Need: Revisiting Multi-Instance Learning for Whole Slide Image Classification ( http://arxiv.org/abs/2408.09449v1 )

ライセンス: Link先を確認
Xin Liu, Weijia Zhang, Min-Ling Zhang, (参考訳) 注目に基づくマルチインスタンス学習アルゴリズムは、スライドレベルの全スライド画像(WSI)分類タスクにおいて印象的なパフォーマンスを達成しているが、染色条件や組織形態などの無関係なパターンに誤ってフォーカスする傾向があり、不正確なパッチレベルの予測と信頼性の低い解釈が導かれる。 さらに、これらの注目ベースのMILアルゴリズムは、健全なインスタンスに焦点を当て、分類しにくいインスタンスを認識するのに苦労する傾向がある。 本稿では,注意に基づくWSI分類手法が標準MILの仮定に従わないことを示す。 標準的なMIL仮定から,最大プールと前方償却変分推論に基づくWSI分類(FocusMIL)のための驚くほど単純で効果的なインスタンスベースMIL法を提案する。 我々は,標準MIL仮定と変分推論を相乗化することにより,スプリアス相関ではなく腫瘍形態学に焦点を合わせることができると主張している。 実験の結果,FocusMIL は Camelyon16 および TCGA-NSCLC ベンチマークにおいて,パッチレベルの分類タスクのベースラインを著しく上回っていることがわかった。 可視化の結果,本手法は,ハードインスタンスの識別や,バッグとラベルの急激な相関効果の軽減にも有効であることがわかった。

Although attention-based multi-instance learning algorithms have achieved impressive performances on slide-level whole slide image (WSI) classification tasks, they are prone to mistakenly focus on irrelevant patterns such as staining conditions and tissue morphology, leading to incorrect patch-level predictions and unreliable interpretability. Moreover, these attention-based MIL algorithms tend to focus on salient instances and struggle to recognize hard-to-classify instances. In this paper, we first demonstrate that attention-based WSI classification methods do not adhere to the standard MIL assumptions. From the standard MIL assumptions, we propose a surprisingly simple yet effective instance-based MIL method for WSI classification (FocusMIL) based on max-pooling and forward amortized variational inference. We argue that synergizing the standard MIL assumption with variational inference encourages the model to focus on tumour morphology instead of spurious correlations. Our experimental evaluations show that FocusMIL significantly outperforms the baselines in patch-level classification tasks on the Camelyon16 and TCGA-NSCLC benchmarks. Visualization results show that our method also achieves better classification boundaries for identifying hard instances and mitigates the effect of spurious correlations between bags and labels.
翻訳日:2024-08-20 20:40:30 公開日:2024-08-18
# GraphSPNs: 標準注文に適合するSum-Product Networks

GraphSPNs: Sum-Product Networks Benefit From Canonical Orderings ( http://arxiv.org/abs/2408.09451v1 )

ライセンス: Link先を確認
Milan Papež, Martin Rektoris, Václav Šmídl, Tomáš Pevný, (参考訳) 深部生成モデルは最近、グラフ上の複素確率分布のキャプチャにおいて顕著な進歩を遂げた。 しかし、それらは難解であり、近似に頼らずに最も基本的な確率的推論クエリにも答えられない。 そこで本稿では,グラフの(任意部分)上での正確かつ効率的な推論を提供する,トラクタブルな深層生成モデルであるGraphSPNを提案する。 本研究では,SPNの置換を不変にするための異なる原理について検討する。 我々は、GraphSPNが(条件付きで)新規で化学的に有効な分子グラフを生成できることを示した。 グラフ)SPNsは、正準順序付けによる置換不変性を保証するのに有用である。

Deep generative models have recently made a remarkable progress in capturing complex probability distributions over graphs. However, they are intractable and thus unable to answer even the most basic probabilistic inference queries without resorting to approximations. Therefore, we propose graph sum-product networks (GraphSPNs), a tractable deep generative model which provides exact and efficient inference over (arbitrary parts of) graphs. We investigate different principles to make SPNs permutation invariant. We demonstrate that GraphSPNs are able to (conditionally) generate novel and chemically valid molecular graphs, being competitive to, and sometimes even better than, existing intractable models. We find out that (Graph)SPNs benefit from ensuring the permutation invariance via canonical ordering.
翻訳日:2024-08-20 20:40:30 公開日:2024-08-18
# プロンプト学習による小説における引用の話者と出席者の識別

Identifying Speakers and Addressees of Quotations in Novels with Prompt Learning ( http://arxiv.org/abs/2408.09452v1 )

ライセンス: Link先を確認
Yuchen Yan, Hanjie Zhao, Senbin Zhu, Hongde Liu, Zhihong Zhang, Yuxiang Jia, (参考訳) 文学作品、特に小説における引用は、キャラクターを創造し、キャラクターの関係を反映し、プロットの発展を促進するために重要である。 小説における引用抽出に関する最近の研究は、主に引用帰属、すなわち引用の話者を特定することに焦点を当てている。 しかし、この引用の宛先は、話者と宛先との関係を構築する上でも重要である。 データセット不足の問題に対処するために、最初の中国語引用コーパスに、話者、アドレナ、話し方、言語的キューなどの要素を注記する。 そこで本研究では,微調整事前学習モデルに基づく話者とアドレナ識別のための学習手法を提案する。 中国語と英語の両方の実験では、ゼロショットと少数ショットの大規模言語モデルに基づく手法よりも優れている提案手法の有効性が示されている。

Quotations in literary works, especially novels, are important to create characters, reflect character relationships, and drive plot development. Current research on quotation extraction in novels primarily focuses on quotation attribution, i.e., identifying the speaker of the quotation. However, the addressee of the quotation is also important to construct the relationship between the speaker and the addressee. To tackle the problem of dataset scarcity, we annotate the first Chinese quotation corpus with elements including speaker, addressee, speaking mode and linguistic cue. We propose prompt learning-based methods for speaker and addressee identification based on fine-tuned pre-trained models. Experiments on both Chinese and English datasets show the effectiveness of the proposed methods, which outperform methods based on zero-shot and few-shot large language models.
翻訳日:2024-08-20 20:40:30 公開日:2024-08-18
# ロングシーケンスモデリングのための再パラメータ化多解畳み込み

Reparameterized Multi-Resolution Convolutions for Long Sequence Modelling ( http://arxiv.org/abs/2408.09453v1 )

ライセンス: Link先を確認
Harry Jake Cunningham, Giorgio Giannone, Mingtian Zhang, Marc Peter Deisenroth, (参考訳) グローバルな畳み込みは強力な汎用シーケンスモデルとして期待されている。 しかし、長い畳み込みのトレーニングは困難であり、カーネルパラメータ化は過度に適合することなく長距離依存関係を学習できなければならない。 この研究は、長周期モデリングのためのグローバルな畳み込みカーネルをパラメータ化するための新しいアプローチである、再パラメータ化された多重解像度畳み込み("\texttt{MRConv}$")を導入している。 マルチレゾリューションの畳み込みを活用し、構造的再パラメータ化を導入し、学習可能なカーネル崩壊を導入することで、$\texttt{MRConv}$は様々なデータモダリティでよく機能する表現力のある長距離カーネルを学ぶ。 コンボリューションモデルと線形時間変換器間のLong Range Arena, Sequential CIFAR, Speech Commandsタスクにおける最先端性能について実験を行った。 さらに,2次元畳み込みを1D $\texttt{MRConv}$レイヤに置き換えることで,画像ネット分類の性能向上を報告した。

Global convolutions have shown increasing promise as powerful general-purpose sequence models. However, training long convolutions is challenging, and kernel parameterizations must be able to learn long-range dependencies without overfitting. This work introduces reparameterized multi-resolution convolutions ($\texttt{MRConv}$), a novel approach to parameterizing global convolutional kernels for long-sequence modelling. By leveraging multi-resolution convolutions, incorporating structural reparameterization and introducing learnable kernel decay, $\texttt{MRConv}$ learns expressive long-range kernels that perform well across various data modalities. Our experiments demonstrate state-of-the-art performance on the Long Range Arena, Sequential CIFAR, and Speech Commands tasks among convolution models and linear-time transformers. Moreover, we report improved performance on ImageNet classification by replacing 2D convolutions with 1D $\texttt{MRConv}$ layers.
翻訳日:2024-08-20 20:30:46 公開日:2024-08-18
# 網膜誘発物体運動セグメンテーション

Retina-inspired Object Motion Segmentation ( http://arxiv.org/abs/2408.09454v1 )

ライセンス: Link先を確認
Victoria Clerico, Shay Snyder, Arya Lohia, Md Abdullah-Al Kaiser, Gregory Schwartz, Akhilesh Jaiswal, Maryam Parsa, (参考訳) Dynamic Vision Sensors (DVS)は、RGBカメラをはるかに上回る高時間解像度の革命的技術として登場した。 DVS技術は、光受容体と初期網膜シナプスから生物学的インスピレーションを得ている。 本研究は,視覚的特徴抽出のための網膜機能追加の可能性を示す。 哺乳動物網膜内で計算される複数の頑健な特徴の1つ,OMS(Object Motion Sensitivity)に基づく,エゴモーション補償のためのドメインに依存しない,効率的なアルゴリズムを提案する。 我々は,OMSの生体回路を低オーバヘッドアルゴリズムに変換する実験神経科学に基づくフレームワークを開発した。 OMSは動的シーンからDVSデータを処理し、ピクセル単位のオブジェクトモーションセグメンテーションを実行する。 リアルおよび合成データセットを用いて、深層ネットワークの必要性を回避し、オブジェクトの動きとエゴモーションを区別するOMSの能力を強調する。 本稿では, バイオインスパイアされたコンピュータビジョンを用いて, 従来よりも1000倍のパラメータ数を劇的に削減する手法を提案する。 本研究は,センサ内計算におけるロバスト,高速,低帯域幅決定の道を開くものである。

Dynamic Vision Sensors (DVS) have emerged as a revolutionary technology with a high temporal resolution that far surpasses RGB cameras. DVS technology draws biological inspiration from photoreceptors and the initial retinal synapse. Our research showcases the potential of additional retinal functionalities to extract visual features. We provide a domain-agnostic and efficient algorithm for ego-motion compensation based on Object Motion Sensitivity (OMS), one of the multiple robust features computed within the mammalian retina. We develop a framework based on experimental neuroscience that translates OMS' biological circuitry to a low-overhead algorithm. OMS processes DVS data from dynamic scenes to perform pixel-wise object motion segmentation. Using a real and a synthetic dataset, we highlight OMS' ability to differentiate object motion from ego-motion, bypassing the need for deep networks. This paper introduces a bio-inspired computer vision method that dramatically reduces the number of parameters by a factor of 1000 compared to prior works. Our work paves the way for robust, high-speed, and low-bandwidth decision-making for in-sensor computations.
翻訳日:2024-08-20 20:30:46 公開日:2024-08-18
# Y-Flashセルを用いたインメモリ学習オートマタアーキテクチャ

In-Memory Learning Automata Architecture using Y-Flash Cell ( http://arxiv.org/abs/2408.09456v1 )

ライセンス: Link先を確認
Omar Ghazal, Tian Lan, Shalman Ojukwu, Komal Krishnamurthy, Alex Yakovlev, Rishad Shafik, (参考訳) 機械学習アーキテクチャの現代的な実装は、メモリと処理ユニット間のデータ転送が頻繁に行われるため、大きな課題に直面している。 インメモリコンピューティングは、主にメムリスタベースのアナログコンピューティングを通じて、このフォン・ノイマンのボトルネックを克服する有望なソリューションを提供する。 この技術では、メモリ内にデータ処理とストレージが配置される。 本稿では,180nmの標準CMOSプロセスで製造されたフローティングゲートY-Flash中間素子を利用する新しい手法を提案する。 これらのデバイスは、アナログチューナビリティや適度なデバイス間変動など、魅力的な特徴を提供する。 本稿では,新しい機械学習アルゴリズムであるTsetlin Machine (TM) をインメモリ処理アーキテクチャに適用する。 TMの学習要素であるAutomatonは単一のY-Flashセルにマッピングされ、Automatonの範囲はY-Flashのコンダクタンススコープに転送される。 包括的なシミュレーションを通じて、特にTsetlinマシン向けに提案された学習オートマトンの実装により、拡張スケーラビリティとオンエッジ学習能力が実証された。

The modern implementation of machine learning architectures faces significant challenges due to frequent data transfer between memory and processing units. In-memory computing, primarily through memristor-based analog computing, offers a promising solution to overcome this von Neumann bottleneck. In this technology, data processing and storage are located inside the memory. Here, we introduce a novel approach that utilizes floating-gate Y-Flash memristive devices manufactured with a standard 180 nm CMOS process. These devices offer attractive features, including analog tunability and moderate device-to-device variation; such characteristics are essential for reliable decision-making in ML applications. This paper uses a new machine learning algorithm, the Tsetlin Machine (TM), for in-memory processing architecture. The TM's learning element, Automaton, is mapped into a single Y-Flash cell, where the Automaton's range is transferred into the Y-Flash's conductance scope. Through comprehensive simulations, the proposed hardware implementation of the learning automata, particularly for Tsetlin machines, has demonstrated enhanced scalability and on-edge learning capabilities.
翻訳日:2024-08-20 20:30:46 公開日:2024-08-18
# G2Face: 生成および幾何学的優先順位による高忠実な可逆顔匿名化

G2Face: High-Fidelity Reversible Face Anonymization via Generative and Geometric Priors ( http://arxiv.org/abs/2408.09458v1 )

ライセンス: Link先を確認
Haoxin Yang, Xuemiao Xu, Cheng Xu, Huaidong Zhang, Jing Qin, Yi Wang, Pheng-Ann Heng, Shengfeng He, (参考訳) 可逆的な顔の匿名化は、従来の顔のピクセル化とは違って、顔画像の繊細なアイデンティティ情報を合成された代替品に置き換え、画像の明瞭さを犠牲にすることなくプライバシを保存することを目指している。 エンコーダ・デコーダネットワークのような従来の手法は、学習能力の制限により顔の詳細が著しく失われることが多い。 さらに、事前訓練されたGANの潜時操作に依存すると、ID非関連属性が変化し、GANの反転不正確さによるデータユーティリティに悪影響を及ぼす可能性がある。 本稿では、G\textsuperscript{2}Faceを導入し、データの有用性を損なうことなく高品質な可逆顔匿名化を実現する。 我々は3次元顔モデルを用いて入力面から幾何学的情報を抽出し、事前学習されたGANデコーダと統合する。 この生成的および幾何学的先行性の相乗効果により、デコーダは一貫した幾何で現実的な匿名化顔を生成することができる。 さらに、元の顔からマルチスケールの顔の特徴を抽出し、新しいID認識機能融合ブロック(IFF)を用いてデコーダと組み合わせる。 この統合により、生成された顔パターンと元のID非関連の特徴を正確にブレンドすることができ、正確な識別操作が可能になる。 大規模な実験により,本手法は,高データの有効性を保ちながら,顔の匿名化と回復において既存の最先端技術よりも優れていることが示された。 コードはhttps://github.com/Harxis/G2Faceで入手できる。

Reversible face anonymization, unlike traditional face pixelization, seeks to replace sensitive identity information in facial images with synthesized alternatives, preserving privacy without sacrificing image clarity. Traditional methods, such as encoder-decoder networks, often result in significant loss of facial details due to their limited learning capacity. Additionally, relying on latent manipulation in pre-trained GANs can lead to changes in ID-irrelevant attributes, adversely affecting data utility due to GAN inversion inaccuracies. This paper introduces G\textsuperscript{2}Face, which leverages both generative and geometric priors to enhance identity manipulation, achieving high-quality reversible face anonymization without compromising data utility. We utilize a 3D face model to extract geometric information from the input face, integrating it with a pre-trained GAN-based decoder. This synergy of generative and geometric priors allows the decoder to produce realistic anonymized faces with consistent geometry. Moreover, multi-scale facial features are extracted from the original face and combined with the decoder using our novel identity-aware feature fusion blocks (IFF). This integration enables precise blending of the generated facial patterns with the original ID-irrelevant features, resulting in accurate identity manipulation. Extensive experiments demonstrate that our method outperforms existing state-of-the-art techniques in face anonymization and recovery, while preserving high data utility. Code is available at https://github.com/Harxis/G2Face.
翻訳日:2024-08-20 20:30:46 公開日:2024-08-18
# WPN:言語モデルにおけるNペアコントラスト学習に基づく未学習手法

WPN: An Unlearning Method Based on N-pair Contrastive Learning in Language Models ( http://arxiv.org/abs/2408.09459v1 )

ライセンス: Link先を確認
Guitao Chen, Yunshen Wang, Hongye Sun, Guang Chen, (参考訳) 生成言語モデル(LM)には多くの利点があるが、事前訓練中に得られる有害な知識のために、不適切または有害なアウトプットを生み出す可能性がある。 この知識は、しばしば「有害なプロンプト」のような望ましくない対応として現れ、「有害なアウトプット」へとつながり、未学習の技法を緩和することを目的としているが、しかしながら、勾配上昇に基づく既存の未学習手法は、LMの性能を著しく損なう可能性がある。 この問題に対処するために,n対の相対的学習フレームワークにおいて,位置重み付き平均プールを利用するWPN学習(Weighted Positional N-pair)を提案する。 WPNは、特定の有害な出力(例えば有害な応答を中性的なものに置き換える)を排除し、モデルの振る舞いを「有害なプロンプト・ハームフルな出力」から「有害なプロンプト・ハームレスな応答」に変換することで、LMの出力分布を変更するように設計されている。 OPT および GPT-NEO LM の実験では、WPN は有害反応の割合を効果的に減少させ、9つの共通ベンチマークで安定な性能を維持しながら、95.8 %の無害率を達成する(平均 2 % 未満の劣化)。 さらに,WPNが有害な対応を一般化性や堅牢性の観点から弱めていることを示す実証的証拠を,アウト・オブ・ディストリビューション・テストセットおよび敵攻撃下で評価した。

Generative language models (LMs) offer numerous advantages but may produce inappropriate or harmful outputs due to the harmful knowledge acquired during pre-training. This knowledge often manifests as undesirable correspondences, such as "harmful prompts" leading to "harmful outputs," which our research aims to mitigate through unlearning techniques.However, existing unlearning methods based on gradient ascent can significantly impair the performance of LMs. To address this issue, we propose a novel approach called Weighted Positional N-pair (WPN) Learning, which leverages position-weighted mean pooling within an n-pair contrastive learning framework. WPN is designed to modify the output distribution of LMs by eliminating specific harmful outputs (e.g., replacing toxic responses with neutral ones), thereby transforming the model's behavior from "harmful prompt-harmful output" to "harmful prompt-harmless response".Experiments on OPT and GPT-NEO LMs show that WPN effectively reduces the proportion of harmful responses, achieving a harmless rate of up to 95.8\% while maintaining stable performance on nine common benchmarks (with less than 2\% degradation on average). Moreover, we provide empirical evidence to demonstrate WPN's ability to weaken the harmful correspondences in terms of generalizability and robustness, as evaluated on out-of-distribution test sets and under adversarial attacks.
翻訳日:2024-08-20 20:30:46 公開日:2024-08-18
# 幾何学的半教師付き学習によるストリートビュー画像からの細粒度建物機能認識

Fine-Grained Building Function Recognition from Street-View Images via Geometry-Aware Semi-Supervised Learning ( http://arxiv.org/abs/2408.09460v1 )

ライセンス: Link先を確認
Weijia Li, Jinhua Yu, Dairong Chen, Yi Lin, Runming Dong, Xiang Zhang, Conghui He, Haohuan Fu, (参考訳) 本研究では,細粒度建物機能認識のための幾何学的半教師付き手法を提案する。 本手法は,多元データ間の幾何学的関係を利用して,半教師付き学習における擬似ラベルの精度を向上し,課題の範囲を拡大し,ビルディング関数認識のクロスカテゴリ化システムに適用できるようにする。 まず,ストリートビュー画像におけるファサード情報の正確な取得を容易にするオンライン半教師付き事前学習ステージを設計する。 第2段階では,幾何対応の粗いアノテーション生成モジュールを提案する。 このモジュールは、幾何学的関係に基づくGISデータとストリートビューデータを効果的に組み合わせ、擬似アノテーションの精度を向上させる。 第3段階では、新たに生成された粗いアノテーションを既存のラベル付きデータセットと組み合わせ、大規模に複数の都市にまたがる建物のきめ細かい機能認識を実現する。 大規模実験により,提案手法は建物の微細な機能認識において優れた性能を示すことが示された。 同じ分類体系内では、完全に監督された方法と最先端の半監督された方法と比較して、それぞれ7.6%と4.8%の改善が達成されている。 さらに,OmniCity(ニューヨーク)で訓練されたモデルを新たな地域(ロサンゼルス,ボストンなど)に拡張するなど,都市横断作業でも良好に機能する。 本研究は, 都市インフラ計画, 人的活動パターン, 人間と建物間の相互作用を理解するための重要なデータを提供するため, 複数の都市にまたがる大規模建築物の詳細な機能認識のための新しいソリューションを提供する。

In this work, we propose a geometry-aware semi-supervised method for fine-grained building function recognition. This method leverages the geometric relationships between multi-source data to improve the accuracy of pseudo labels in semi-supervised learning, extending the task's scope and making it applicable to cross-categorization systems of building function recognition. Firstly, we design an online semi-supervised pre-training stage, which facilitates the precise acquisition of building facade location information in street-view images. In the second stage, we propose a geometry-aware coarse annotation generation module. This module effectively combines GIS data and street-view data based on the geometric relationships, improving the accuracy of pseudo annotations. In the third stage, we combine the newly generated coarse annotations with the existing labeled dataset to achieve fine-grained functional recognition of buildings across multiple cities at a large scale. Extensive experiments demonstrate that our proposed framework exhibits superior performance in fine-grained functional recognition of buildings. Within the same categorization system, it achieves improvements of 7.6% and 4.8% compared to fully-supervised methods and state-of-the-art semi-supervised methods, respectively. Additionally, our method also performs well in cross-city tasks, i.e., extending the model trained on OmniCity (New York) to new areas (i.e., Los Angeles and Boston). This study provides a novel solution for the fine-grained function recognition of large-scale buildings across multiple cities, offering essential data for understanding urban infrastructure planning, human activity patterns, and the interactions between humans and buildings.
翻訳日:2024-08-20 20:30:46 公開日:2024-08-18
# 分子特性予測の進歩:単一・マルチモーダルアプローチに関する調査

Advancements in Molecular Property Prediction: A Survey of Single and Multimodal Approaches ( http://arxiv.org/abs/2408.09461v1 )

ライセンス: Link先を確認
Tanya Liyaqat, Tanvir Ahmad, Chandni Saxena, (参考訳) 分子特性予測(MPP)は、薬物発見、物質科学、環境化学など様々な分野において重要な役割を担っている。 化学データの指数的な成長と人工知能の進化によって、近年はMPPの顕著な進歩が見られた。 しかし、分子構造、SMILES記法、分子画像などの分子データの多面的性質は、その効果的な表現において根本的な課題となっている。 これを解決するために、表現学習技術は、分子データの情報的かつ解釈可能な表現を取得する際に有効である。 本稿では,MPPにおける最近のAI/ベースアプローチについて考察する。 様々な分子表現と符号化スキームの概要を提供し、モダリティを用いてMPPメソッドを分類し、特徴生成に利用可能なデータセットとツールを概説する。 本稿は,近年の手法の性能も分析し,MPP分野の進展に向けた今後の研究の方向性を提案する。

Molecular Property Prediction (MPP) plays a pivotal role across diverse domains, spanning drug discovery, material science, and environmental chemistry. Fueled by the exponential growth of chemical data and the evolution of artificial intelligence, recent years have witnessed remarkable strides in MPP. However, the multifaceted nature of molecular data, such as molecular structures, SMILES notation, and molecular images, continues to pose a fundamental challenge in its effective representation. To address this, representation learning techniques are instrumental as they acquire informative and interpretable representations of molecular data. This article explores recent AI/-based approaches in MPP, focusing on both single and multiple modality representation techniques. It provides an overview of various molecule representations and encoding schemes, categorizes MPP methods by their use of modalities, and outlines datasets and tools available for feature generation. The article also analyzes the performance of recent methods and suggests future research directions to advance the field of MPP.
翻訳日:2024-08-20 20:30:46 公開日:2024-08-18
# 3C: 教師なしの人物再同定のための信頼指導型クラスタリングとコントラストラーニング

3C: Confidence-Guided Clustering and Contrastive Learning for Unsupervised Person Re-Identification ( http://arxiv.org/abs/2408.09464v1 )

ライセンス: Link先を確認
Mingxiao Zheng, Yanpeng Qu, Changjing Shang, Longzhi Yang, Qiang Shen, (参考訳) 教師なし人物再識別(Re-ID)は、非ラベルデータセットでクロスカメラ検索機能を備えた機能ネットワークを学習することを目的としている。 擬似ラベルベースの手法はRe-IDにおいて大きな進歩を遂げているが、複雑なシナリオにおけるそれらの性能はいまだに向上する必要がある。 学習過程中に蓄積される特徴バイアスやノイズ・擬似ラベル,無効なハードサンプルなどの潜在的な誤認を低減するため,教師なしのRe-IDに対して信頼誘導クラスタリングとコントラスト学習(3C)フレームワークを提案する。 この3Cフレームワークは3つの信頼度を示す。 一 クラスタリングの段階では、サンプルとクラスタ間の不一致の信頼度が高調波離散性クラスタリングアルゴリズム(HDC)を実装するために提案される。 二 プロパゲーショントレーニングの段階では、クラスタのカメラ多様性の信頼性を、新しいカメラ情報エントロピー(CIE)を介して評価する。 次に、高いCIE値のクラスタがモデルをトレーニングする上で主要な役割を果たす。 三 バックプロパゲーション訓練の段階では、各クラスタにおけるハードサンプルの信頼性を設計し、さらに信頼統合調和整合性(CHD)において使用し、コントラスト学習においてメモリを更新するための情報サンプルを選択する。 3つの人気のあるRe-IDベンチマークに関する大規模な実験は、提案されたフレームワークの優位性を示している。 特に、3Cフレームワークは最先端の結果が86.7%/94.7%、45.3%/73.1%、47.1%/90.6%である。 コードはhttps://github.com/stone5265/3C-reidで入手できる。

Unsupervised person re-identification (Re-ID) aims to learn a feature network with cross-camera retrieval capability in unlabelled datasets. Although the pseudo-label based methods have achieved great progress in Re-ID, their performance in the complex scenario still needs to sharpen up. In order to reduce potential misguidance, including feature bias, noise pseudo-labels and invalid hard samples, accumulated during the learning process, in this pa per, a confidence-guided clustering and contrastive learning (3C) framework is proposed for unsupervised person Re-ID. This 3C framework presents three confidence degrees. i) In the clustering stage, the confidence of the discrepancy between samples and clusters is proposed to implement a harmonic discrepancy clustering algorithm (HDC). ii) In the forward-propagation training stage, the confidence of the camera diversity of a cluster is evaluated via a novel camera information entropy (CIE). Then, the clusters with high CIE values will play leading roles in training the model. iii) In the back-propagation training stage, the confidence of the hard sample in each cluster is designed and further used in a confidence integrated harmonic discrepancy (CHD), to select the informative sample for updating the memory in contrastive learning. Extensive experiments on three popular Re-ID benchmarks demonstrate the superiority of the proposed framework. Particularly, the 3C framework achieves state-of-the-art results: 86.7%/94.7%, 45.3%/73.1% and 47.1%/90.6% in terms of mAP/Rank-1 accuracy on Market-1501, the com plex datasets MSMT17 and VeRi-776, respectively. Code is available at https://github.com/stone5265/3C-reid.
翻訳日:2024-08-20 20:30:46 公開日:2024-08-18
# MedMAP:アライメントを伴う不完全多モード脳腫瘍切除の促進

MedMAP: Promoting Incomplete Multi-modal Brain Tumor Segmentation with Alignment ( http://arxiv.org/abs/2408.09465v1 )

ライセンス: Link先を確認
Tianyi Liu, Zhaorui Tan, Muyin Chen, Xi Yang, Haochuan Jiang, Kaizhu Huang, (参考訳) 脳腫瘍のセグメンテーションは、しばしば多重MRI(Multiple MRI)に基づいている。 しかし、臨床実践ではMRIの特定のモダリティが欠如している可能性があるため、より困難なシナリオが提示される。 この課題に対処するため、知識蒸留、ドメイン適応、共有潜在空間が一般的な有望な戦略として登場した。 しかし、最近の試みは一般的にモダリティのギャップを見落としているため、異なるモダリティにわたる重要な不変な特徴表現を学ばない。 このような欠点により、モダリティモデルの欠如に対する性能が制限される。 これらの問題を改善するために、訓練済みのモデルは、ギャップを最小限に抑えるために、自然な視覚的セグメンテーションタスクに使用される。 しかし、有望な事前訓練されたモデルは、しばしば医療画像のセグメンテーションタスクでは利用できない。 この線に沿って、本論文では、係わるモダリティの潜在的特徴を、事前学習されたモデルの置換として明確に定義された分布アンカーに整合させる新しいパラダイムを提案する。 主要な貢献として、我々の新しい訓練パラダイムは、厳密な証拠を低く保ち、理論的にその有効性を証明していることを証明している。 異なるバックボーンに関する広範囲な実験により、提案パラダイムが不変の特徴表現を可能にし、モダリティギャップを狭めるモデルを生成することが検証された。 我々のアライメントパラダイムを持つモデルは、BraTS2018とBraTS2020データセットの両方で優れたパフォーマンスを示している。

Brain tumor segmentation is often based on multiple magnetic resonance imaging (MRI). However, in clinical practice, certain modalities of MRI may be missing, which presents a more difficult scenario. To cope with this challenge, Knowledge Distillation, Domain Adaption, and Shared Latent Space have emerged as commonly promising strategies. However, recent efforts typically overlook the modality gaps and thus fail to learn important invariant feature representations across different modalities. Such drawback consequently leads to limited performance for missing modality models. To ameliorate these problems, pre-trained models are used in natural visual segmentation tasks to minimize the gaps. However, promising pre-trained models are often unavailable in medical image segmentation tasks. Along this line, in this paper, we propose a novel paradigm that aligns latent features of involved modalities to a well-defined distribution anchor as the substitution of the pre-trained model}. As a major contribution, we prove that our novel training paradigm ensures a tight evidence lower bound, thus theoretically certifying its effectiveness. Extensive experiments on different backbones validate that the proposed paradigm can enable invariant feature representations and produce models with narrowed modality gaps. Models with our alignment paradigm show their superior performance on both BraTS2018 and BraTS2020 datasets.
翻訳日:2024-08-20 20:30:46 公開日:2024-08-18
# 対向重み調整による対向移動性の向上

Enhancing Adversarial Transferability with Adversarial Weight Tuning ( http://arxiv.org/abs/2408.09469v1 )

ライセンス: Link先を確認
Jiahao Chen, Zhou Feng, Rui Zeng, Yuwen Pu, Chunyi Zhou, Yi Jiang, Yuyou Gan, Jinbao Li, Shouling Ji, Shouling_Ji, (参考訳) ディープニューラルネットワーク(Deep Neural Network, DNN)は、人間の観察者に優劣を感じながらモデルを誤解させる敵の例(AE)に対して脆弱である。 重要な懸念事項は、ターゲットモデルに直接アクセスすることなくブラックボックス攻撃を可能にするAEsの転送性である。 しかし, 従来の攻撃の多くは, 対向移動性の本質的なメカニズムを説明できなかった。 本稿では、転送可能なAEの特性を再考し、転送可能性の定式化を改定する。 このメカニズムから得られた知見に基づいて、異なるアーキテクチャを持つモデル間のAEの一般化を分析し、サロゲートとターゲットモデルのギャップを軽減するための局所摂動を見つけることができることを示す。 さらに、モデル滑らか性と平坦な局所最大値との間の内部接続を確立し、これらがAEsの伝達性に寄与する。 さらに,生成されたAEを用いて代理モデルのパラメータを適応的に調整し,局所的な局所的な最大値と滑らかさを同時に最適化する,新しい逆攻撃アルゴリズムである \textbf{A}dversarial \textbf{W}eight \textbf{T}uning (AWT)を提案する。 AWTは、勾配に基づく攻撃法とモデルに基づく攻撃法を組み合わせて、AEの転送可能性を高めるデータフリーチューニング手法である。 ImageNet上で異なるアーキテクチャを持つさまざまなモデルに対する大規模な実験により、AWTは他の攻撃よりも優れたパフォーマンスを示し、CNNベースのモデルとTransformerベースのモデルでは、それぞれ平均5倍と10倍の攻撃成功率が上昇している。

Deep neural networks (DNNs) are vulnerable to adversarial examples (AEs) that mislead the model while appearing benign to human observers. A critical concern is the transferability of AEs, which enables black-box attacks without direct access to the target model. However, many previous attacks have failed to explain the intrinsic mechanism of adversarial transferability. In this paper, we rethink the property of transferable AEs and reformalize the formulation of transferability. Building on insights from this mechanism, we analyze the generalization of AEs across models with different architectures and prove that we can find a local perturbation to mitigate the gap between surrogate and target models. We further establish the inner connections between model smoothness and flat local maxima, both of which contribute to the transferability of AEs. Further, we propose a new adversarial attack algorithm, \textbf{A}dversarial \textbf{W}eight \textbf{T}uning (AWT), which adaptively adjusts the parameters of the surrogate model using generated AEs to optimize the flat local maxima and model smoothness simultaneously, without the need for extra data. AWT is a data-free tuning method that combines gradient-based and model-based attack methods to enhance the transferability of AEs. Extensive experiments on a variety of models with different architectures on ImageNet demonstrate that AWT yields superior performance over other attacks, with an average increase of nearly 5\% and 10\% attack success rates on CNN-based and Transformer-based models, respectively, compared to state-of-the-art attacks.
翻訳日:2024-08-20 20:30:46 公開日:2024-08-18
# 大規模視線モデルを用いた画像ベース測地

Image-Based Geolocation Using Large Vision-Language Models ( http://arxiv.org/abs/2408.09474v1 )

ライセンス: Link先を確認
Yi Liu, Junchen Ding, Gelei Deng, Yuekang Li, Tianwei Zhang, Weisong Sun, Yaowen Zheng, Jingquan Ge, Yang Liu, (参考訳) ジオロケーションは現代の生活において重要な側面であり、多くの利益を提供すると同時に、深刻なプライバシー上の懸念も示している。 高度な画像処理機能を備えた大規模視覚言語モデル(LVLM)の出現は、これらのモデルが必然的に機密な位置情報を明らかにするため、新たなリスクをもたらす。 本稿では,従来の深層学習とLVLMに基づく位置情報手法がもたらす課題を詳細に分析する。 以上の結果から,LVLMは地理的訓練を伴わずとも,画像から位置を正確に決定できることがわかった。 これらの課題に対処するために,画像ベース位置情報の精度を大幅に向上させる革新的なフレームワークである \tool{} を導入する。 \tool{}は、車種、建築様式、自然景観、文化的要素といった視覚的および文脈的手がかりを慎重に分析することで、人間のジオゲスティング戦略を模倣する体系的なチェーン・オブ・シント(CoT)アプローチを採用している。 5万のグランドトゥルースデータポイントのデータセットに対する大規模なテストは、‘tool{}’が従来のモデルと人間のベンチマークの両方を精度で上回っていることを示している。 GeoGuessrゲームの平均スコアは4550.5で、勝利率は85.37\%であり、高度に正確な位置予測を行い、最も近い距離は0.3kmである。 さらに,本研究では,データセットの整合性に関する課題を強調し,LVLMの認識能力を活用して位置精度を向上させる,より堅牢なデータセットとフレームワークの開発に繋がる。 これらの調査結果は、複雑な視覚データを解釈する‘tool{}’の優れた能力、LVLMによって引き起こされる新たなセキュリティ脆弱性に緊急に対応する必要性、ユーザのプライバシ保護を保証するために責任あるAI開発の重要性を浮き彫りにしている。

Geolocation is now a vital aspect of modern life, offering numerous benefits but also presenting serious privacy concerns. The advent of large vision-language models (LVLMs) with advanced image-processing capabilities introduces new risks, as these models can inadvertently reveal sensitive geolocation information. This paper presents the first in-depth study analyzing the challenges posed by traditional deep learning and LVLM-based geolocation methods. Our findings reveal that LVLMs can accurately determine geolocations from images, even without explicit geographic training. To address these challenges, we introduce \tool{}, an innovative framework that significantly enhances image-based geolocation accuracy. \tool{} employs a systematic chain-of-thought (CoT) approach, mimicking human geoguessing strategies by carefully analyzing visual and contextual cues such as vehicle types, architectural styles, natural landscapes, and cultural elements. Extensive testing on a dataset of 50,000 ground-truth data points shows that \tool{} outperforms both traditional models and human benchmarks in accuracy. It achieves an impressive average score of 4550.5 in the GeoGuessr game, with an 85.37\% win rate, and delivers highly precise geolocation predictions, with the closest distances as accurate as 0.3 km. Furthermore, our study highlights issues related to dataset integrity, leading to the creation of a more robust dataset and a refined framework that leverages LVLMs' cognitive capabilities to improve geolocation precision. These findings underscore \tool{}'s superior ability to interpret complex visual data, the urgent need to address emerging security vulnerabilities posed by LVLMs, and the importance of responsible AI development to ensure user privacy protection.
翻訳日:2024-08-20 20:30:46 公開日:2024-08-18
# 全スライド画像解析のための複数インスタンス学習の進歩:技術,課題,今後の方向性

Advances in Multiple Instance Learning for Whole Slide Image Analysis: Techniques, Challenges, and Future Directions ( http://arxiv.org/abs/2408.09476v1 )

ライセンス: Link先を確認
Jun Wang, Yu Mao, Nan Guan, Chun Jason Xue, (参考訳) 全スライド画像(WSI)は、病理学で広く用いられているH&E染色組織サンプルのギガピクセルスケールのデジタル画像である。 WSIのかなりのサイズと複雑さは、ユニークな分析上の課題を引き起こします。 MIL(Multiple Instance Learning)は、特にがんの分類と検出において、これらの課題に対処するための強力なアプローチとして登場した。 このサーベイは、注意機構、擬似ラベル、トランスフォーマー、プーリング機能、グラフニューラルネットワークなど、WSI分析にMILを適用する際の課題と方法論を概観する。 さらに、がん細胞の形態を発見し、解釈可能な機械学習モデルを構築し、がんのグレーディングを定量化するMILの可能性を探る。 この調査は、WSI分析におけるMILの現在の課題、方法論、潜在的な応用を要約することにより、研究者にフィールドの現状を知らせ、今後の研究方向性を刺激することを目的としている。

Whole slide images (WSIs) are gigapixel-scale digital images of H\&E-stained tissue samples widely used in pathology. The substantial size and complexity of WSIs pose unique analytical challenges. Multiple Instance Learning (MIL) has emerged as a powerful approach for addressing these challenges, particularly in cancer classification and detection. This survey provides a comprehensive overview of the challenges and methodologies associated with applying MIL to WSI analysis, including attention mechanisms, pseudo-labeling, transformers, pooling functions, and graph neural networks. Additionally, it explores the potential of MIL in discovering cancer cell morphology, constructing interpretable machine learning models, and quantifying cancer grading. By summarizing the current challenges, methodologies, and potential applications of MIL in WSI analysis, this survey aims to inform researchers about the state of the field and inspire future research directions.
翻訳日:2024-08-20 20:30:46 公開日:2024-08-18
# モデル事前学習による個人差分学習における雑音の軽減

Mitigating Noise Detriment in Differentially Private Federated Learning with Model Pre-training ( http://arxiv.org/abs/2408.09478v1 )

ライセンス: Link先を確認
Huitong Jin, Yipeng Zhou, Laizhong Cui, Quan Z. Sheng, (参考訳) 事前トレーニングは、公開データセットを利用して高度な機械学習モデルを事前トレーニングする。 事前学習は、計算と通信資源の消費を軽減するために広く研究されている。 これらの利点に触発されて、我々は、モデル事前学習が、微分プライベート・フェデレーション・ラーニング(DPFL)におけるノイズの低減をいかに軽減するかを初めて検討する。 DPFLは、プライベートデータを所有する複数のクライアントでモデルをトレーニングする際に、プライバシ保護のためのデファクトスタンダードであるフェデレートラーニング(FL)からアップグレードされる。 DPFLは、FLで露出するモデル勾配を難読化するために、差分プライベート(DP)ノイズを導入するが、モデル精度をかなり損なう可能性がある。 本研究は, プレトレーニングに基づく頭部微調整(HT)とフル微調整(FT)と, DPFLにおけるスクラッチトレーニング(ST)を総合的な実証研究により比較した。 我々は,CIFAR-10,CHMNIST,Fashion-MNIST(FMNIST)データセットを用いて,事前学習モデル(ImageNet-1Kで事前学習した)をチューニングした。 その結果、HTとFTは、勾配露光時間を減少させることで、ノイズの影響を著しく軽減できることが示された。 特にHTは、プライバシー予算が厳しい場合やモデルサイズが大きい場合、FTを上回っている。 可視化と説明研究は我々の発見をさらに裏付けるものである。 我々の先駆的な研究は、DPFLの強化と実践的応用の拡充に新たな視点をもたらす。

Pre-training exploits public datasets to pre-train an advanced machine learning model, so that the model can be easily tuned to adapt to various downstream tasks. Pre-training has been extensively explored to mitigate computation and communication resource consumption. Inspired by these advantages, we are the first to explore how model pre-training can mitigate noise detriment in differentially private federated learning (DPFL). DPFL is upgraded from federated learning (FL), the de-facto standard for privacy preservation when training the model across multiple clients owning private data. DPFL introduces differentially private (DP) noises to obfuscate model gradients exposed in FL, which however can considerably impair model accuracy. In our work, we compare head fine-tuning (HT) and full fine-tuning (FT), which are based on pre-training, with scratch training (ST) in DPFL through a comprehensive empirical study. Our experiments tune pre-trained models (obtained by pre-training on ImageNet-1K) with CIFAR-10, CHMNIST and Fashion-MNIST (FMNIST) datasets, respectively. The results demonstrate that HT and FT can significantly mitigate noise influence by diminishing gradient exposure times. In particular, HT outperforms FT when the privacy budget is tight or the model size is large. Visualization and explanation study further substantiates our findings. Our pioneering study introduces a new perspective on enhancing DPFL and expanding its practical applications.
翻訳日:2024-08-20 20:30:46 公開日:2024-08-18
# PanoSent:マルチモーダル対話型アスペクトベース感性分析のためのパノプティカル指数抽出ベンチマーク

PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2408.09481v1 )

ライセンス: Link先を確認
Meng Luo, Hao Fei, Bobo Li, Shengqiong Wu, Qian Liu, Soujanya Poria, Erik Cambria, Mong-Li Lee, Wynne Hsu, (参考訳) 既存のAspect-based Sentiment Analysis (ABSA) は、広範囲の努力と進歩を受けてきたが、マルチモーダル、会話コンテキスト、微粒度をシームレスに統合し、変化する感情のダイナミクスと認知因果的論理を包含する、より包括的な研究ターゲットを定義することにはまだギャップがある。 本稿では,2つの新しいサブタスクが提案されるマルチモーダル対話型ABSAを導入することで,ギャップを埋める。 1) マルチターンマルチモーダル対話からパノラマ的認識, 目標, アスペクト, 意見, 感情, 理性, 合理性を抽出する。 2) 因果関係から会話中における動的感情変化を検知する感性フリップ解析を行った。 タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。 課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。 提案手法の有効性を検証し,本手法の有効性を検証した。 この作業はABSAコミュニティの新たな時代を開くことが期待されており、私たちのコードとデータはhttps://PanoSent.github.io/で公開されている。

While existing Aspect-based Sentiment Analysis (ABSA) has received extensive effort and advancement, there are still gaps in defining a more holistic research target seamlessly integrating multimodality, conversation context, fine-granularity, and also covering the changing sentiment dynamics as well as cognitive causal rationales. This paper bridges the gaps by introducing a multimodal conversational ABSA, where two novel subtasks are proposed: 1) Panoptic Sentiment Sextuple Extraction, panoramically recognizing holder, target, aspect, opinion, sentiment, rationale from multi-turn multi-party multimodal dialogue. 2) Sentiment Flipping Analysis, detecting the dynamic sentiment transformation throughout the conversation with the causal reasons. To benchmark the tasks, we construct PanoSent, a dataset annotated both manually and automatically, featuring high quality, large scale, multimodality, multilingualism, multi-scenarios, and covering both implicit and explicit sentiment elements. To effectively address the tasks, we devise a novel Chain-of-Sentiment reasoning framework, together with a novel multimodal large language model (namely Sentica) and a paraphrase-based verification mechanism. Extensive evaluations demonstrate the superiority of our methods over strong baselines, validating the efficacy of all our proposed methods. The work is expected to open up a new era for the ABSA community, and thus all our codes and data are open at https://PanoSent.github.io/
翻訳日:2024-08-20 20:30:46 公開日:2024-08-18
# モデルマージのための因果干渉による活性化パラメータ配置

Activated Parameter Locating via Causal Intervention for Model Merging ( http://arxiv.org/abs/2408.09485v1 )

ライセンス: Link先を確認
Fanshuang Kong, Richong Zhang, Ziqiao Wang, (参考訳) モデルマージは複数のホモロジーモデルを1つのモデルに結合し、追加のトレーニングを必要とせず、説得力のある一般化を達成する。 この問題の鍵となる課題は、パラメータの冗長性と複数のモデル間の競合を解決することである。 既存のモデルでは、デルタパラメータの一部を落として、パフォーマンスを維持しながらコンフリクトを緩和できることが示されている。 しかし、これらの手法は、微調整されたモデルに埋め込まれたタスク固有の情報を見渡すために、ランダムにパラメータをドロップするか、大きさに基づいてドロップすることが多い。 本稿では,パラメータの重要度を推定するために因果介入を利用するアクティベートパラメータ配置(APL)手法を提案する。 さらに,多数のパラメータ分割に伴う計算複雑性を低減するため,APLの勾配近似戦略を理論的に支持する。 ドメイン内およびドメイン外両方のモデルマージに関する実験は、関連する分析とともに、APLの有効性を示す。

Model merging combines multiple homologous models into one model, achieving convincing generalization without the necessity of additional training. A key challenge in this problem is resolving parameter redundancies and conflicts across multiple models. Existing models have demonstrated that dropping a portion of delta parameters can alleviate conflicts while maintaining performance. However, these methods often drop parameters either randomly or based on magnitude, overlooking task-specific information embedded in fine-tuned models. In this paper, we propose an Activated Parameter Locating (APL) method that utilizes causal intervention to estimate parameter importance, enabling more precise parameter drops and better conflict mitigation. Moreover, to reduce the computational complexity associated with a large number of parameter partitions, we also introduce a theoretically supported gradient approximation strategy for APL. Experiments on model merging within both in-domain and out-of-domain settings, along with associated analyses, showcase the effectiveness of APL.
翻訳日:2024-08-20 20:30:46 公開日:2024-08-18
# 零周波と狭線幅を有する超輝度サイドバンド支援レーザーの数値解析

Numerical analysis of a superradiance-sideband-assisted laser with a zero frequency pulling and a narrow linewidth ( http://arxiv.org/abs/2408.09486v1 )

ライセンス: Link先を確認
Mingyu Jeon, Jinuk Kim, Kyungwon An, (参考訳) 量子ランゲヴィン方程式に基づく数値シミュレーションは、ブロッホ球の北極に近い原子初期重畳状態と低Q空洞と相互作用するビーム中の多数の2レベル原子に対して実施されている。 種々のキャビティ原子デチューニングのためのゼロポンプ原子デチューニングにより, ポンプラビ周波数を$\Delta_{pa}$で変調すると, 原子共鳴におけるラシングピークと超ラジカルレイシングピークを$\pm\Delta_{pa}$で同時に取得し, 中心ピークはゼロ周波数引き抜き係数を示した。 中央ピークの線幅は、平均原子数が増加するにつれて利得狭くなり、最小の線幅は原子または空洞線幅の100万分の1まで小さくなった。 ポンプキャリアの変形は、サイド・スーパーラジアントピークの非対称な高さを引き起こし、その高さ差は、ポンプレーザを中央ラシングピークのライン幅内で原子にロックするために使用できる。 本研究は, 原子系に応用した場合に, 将来的な周波数標準のための新しいタイプの高安定能動光時計の開発に繋がる可能性がある。

Numerical simulations based on the quantum Langevin equations have been performed for a large number of two-level atoms in a beam interacting with a low-Q cavity with the atomic initial superposition states close to the north pole of the Bloch sphere. When the pump Rabi frequency was modulated at $\Delta_{pa}$ with zero pump-atom detuning for various cavity-atom detunings, we obtained a lasing peak at the atomic resonance and superradiant lasing peaks at $\pm\Delta_{pa}$ simultaneously while the central peak exhibiting a zero frequency pulling coefficient. The linewidth of the central peak was reduced beyond the gain narrowing as the mean number of atoms was increased, resulting in a minimum linewidth as small as a millionth of the atomic or cavity linewdith. A pump carrier detuning caused asymmetric heights for the side superradiant peaks, the height difference of which can be used to lock the pump laser to the atom within the linewidth of the central lasing peak. Our results may lead to development of a new type of ultra-stable active optical clocks for future frequency standards when applied to proper atomic systems.
翻訳日:2024-08-20 20:20:04 公開日:2024-08-18
# REFINE-LM:強化学習による言語モデルステレオタイプの再検討

REFINE-LM: Mitigating Language Model Stereotypes via Reinforcement Learning ( http://arxiv.org/abs/2408.09489v1 )

ライセンス: Link先を確認
Rameez Qureshi, Naïm Es-Sebbani, Luis Galárraga, Yvette Graham, Miguel Couceiro, Zied Bouraoui, (参考訳) 大規模な)言語モデルの導入により、そのようなモデルがトレーニングデータから継承する可能性のある意図しないバイアスについて、大きな懸念が持たれている。 いくつかの研究では、このようなモデルが、地理的、人種的偏見だけでなく、性別のステレオタイプを伝播させることが示されている。 既存の研究は、データ前処理や埋め込みのデバイアス化によってこの問題に対処しているが、提案手法は、特定の種類のバイアスに制限される一方で、多くの計算資源とアノテーションの労力を必要とする。 これらの問題に対処するために,強化学習を用いて様々なバイアスを微調整せずに処理する脱バイアス法であるREFINE-LMを導入する。 LMの単語確率分布に基づいて簡単なモデルをトレーニングすることにより,人間のアノテーションや重要な計算資源を使わずに,バイアス非依存の強化学習が可能となる。 いくつかのLMを含む多種多様なモデルで実験を行った結果,本手法が示唆された。 i) LMの性能を維持しつつ, ステレオタイプバイアスを著しく低減する。 (二)異なる種類の偏見に当てはまり、性別、民族性、宗教、国籍に基づく偏見などの文脈にまたがって一般化する。 (三)訓練費は高くない。

With the introduction of (large) language models, there has been significant concern about the unintended bias such models may inherit from their training data. A number of studies have shown that such models propagate gender stereotypes, as well as geographical and racial bias, among other biases. While existing works tackle this issue by preprocessing data and debiasing embeddings, the proposed methods require a lot of computational resources and annotation effort while being limited to certain types of biases. To address these issues, we introduce REFINE-LM, a debiasing method that uses reinforcement learning to handle different types of biases without any fine-tuning. By training a simple model on top of the word probability distribution of a LM, our bias agnostic reinforcement learning method enables model debiasing without human annotations or significant computational resources. Experiments conducted on a wide range of models, including several LMs, show that our method (i) significantly reduces stereotypical biases while preserving LMs performance; (ii) is applicable to different types of biases, generalizing across contexts such as gender, ethnicity, religion, and nationality-based biases; and (iii) it is not expensive to train.
翻訳日:2024-08-20 20:20:04 公開日:2024-08-18
# ヘテロ親水性グラフ構造分布シフトに対する不変原理の活用

Leveraging Invariant Principle for Heterophilic Graph Structure Distribution Shifts ( http://arxiv.org/abs/2408.09490v1 )

ライセンス: Link先を確認
Jinluan Yang, Zhengyu Chen, Teng Xiao, Wenqiao Zhang, Yong Lin, Kun Kuang, (参考訳) Heterophilic Graph Neural Networks (HGNN) は、グラフ上の半教師付き学習タスクに対して有望な結果を示している。 特に、ほとんどの実世界のヘテロ親和性グラフは、異なる隣接するパターンのノードの混合で構成され、局所的なノードレベルのホモ親和性とヘテロ親和性構造を示す。 しかし、既存の研究は、ヘテロ親水性グラフベンチマークとホモ親水性グラフベンチマークのノード分類タスクのためのより良いHGNNバックボーンやアーキテクチャを同時に設計することのみに特化しており、そのノードに対するHGNN性能の分析は、このトレーニングとテストノードの構造的違いによる影響を探索することなく、決定されたデータ分布に基づいてのみ行われる。 この構造差や分布シフトを扱うために、異種グラフ上の不変ノード表現を学習する方法は、まだ解明されていない。 本稿では,データ拡張の観点から,従来のグラフに基づく不変学習手法の限界について論じる。 次に,不均一なノード表現を生成するためのフレームワークである‘textbf{HEI} を提案する。 提案手法は, ヘテロ親和性グラフ構造分布シフトにおいて, 保証された性能を実現することができることを示す。 各種ベンチマークやバックボーンの大規模な実験により,既存の最先端ベースラインと比較して,本手法の有効性が示された。

Heterophilic Graph Neural Networks (HGNNs) have shown promising results for semi-supervised learning tasks on graphs. Notably, most real-world heterophilic graphs are composed of a mixture of nodes with different neighbor patterns, exhibiting local node-level homophilic and heterophilic structures. However, existing works are only devoted to designing better HGNN backbones or architectures for node classification tasks on heterophilic and homophilic graph benchmarks simultaneously, and their analyses of HGNN performance with respect to nodes are only based on the determined data distribution without exploring the effect caused by this structural difference between training and testing nodes. How to learn invariant node representations on heterophilic graphs to handle this structure difference or distribution shifts remains unexplored. In this paper, we first discuss the limitations of previous graph-based invariant learning methods from the perspective of data augmentation. Then, we propose \textbf{HEI}, a framework capable of generating invariant node representations through incorporating heterophily information to infer latent environments without augmentation, which are then used for invariant prediction, under heterophilic graph structure distribution shifts. We theoretically show that our proposed method can achieve guaranteed performance under heterophilic graph structure distribution shifts. Extensive experiments on various benchmarks and backbones can also demonstrate the effectiveness of our method compared with existing state-of-the-art baselines.
翻訳日:2024-08-20 20:20:04 公開日:2024-08-18
# Ancestral Reinforcement Learning:強化学習のためのゼロ階最適化と遺伝的アルゴリズムの統合

Ancestral Reinforcement Learning: Unifying Zeroth-Order Optimization and Genetic Algorithms for Reinforcement Learning ( http://arxiv.org/abs/2408.09493v1 )

ライセンス: Link先を確認
So Nakashima, Tetsuya J. Kobayashi, (参考訳) 強化学習(RL)は、未知の環境内での相互作用を通じて最適な行動戦略を発見するための基本的なフレームワークを提供する。 近年の進歩により, RLの性能と適用性は, エージェントの集団を様々な方法で活用することによって著しく向上することが示されている。 ゼロ階最適化(ZOO)は、エージェントの集団を利用して目的関数の勾配を推定し、微分不可能なシナリオにおいても堅牢な政策改善を可能にする。 別の応用として、GA(Genematic Algorithms)は、エージェント集団におけるポリシーの多様性の変異生成によるポリシー景観の探索と、その選択による洗練を促進する。 自然の疑問は、エージェントの人口が持つことのできる2つの世界の中で、最高のものを得ることができるかどうかである。 本研究では,ZOOの頑健な勾配推定とGAの探索的パワーを相乗的に組み合わせたAncestral Reinforcement Learning (ARL)を提案する。 ARLの鍵となる考え方は、集団内の各エージェントがその祖先の歴史、すなわち過去の祖先の人口を利用して勾配を推定し、GAのように現在の人口における政策の多様性を維持することである。 また,ARLにおける集団探索は,対象関数のKL正規化を暗黙的に誘導し,探索の強化をもたらすことも理論的に明らかにした。 以上の結果から,RLに対する集団アルゴリズムの適用性の向上が期待できる。

Reinforcement Learning (RL) offers a fundamental framework for discovering optimal action strategies through interactions within unknown environments. Recent advancement have shown that the performance and applicability of RL can significantly be enhanced by exploiting a population of agents in various ways. Zeroth-Order Optimization (ZOO) leverages an agent population to estimate the gradient of the objective function, enabling robust policy refinement even in non-differentiable scenarios. As another application, Genetic Algorithms (GA) boosts the exploration of policy landscapes by mutational generation of policy diversity in an agent population and its refinement by selection. A natural question is whether we can have the best of two worlds that the agent population can have. In this work, we propose Ancestral Reinforcement Learning (ARL), which synergistically combines the robust gradient estimation of ZOO with the exploratory power of GA. The key idea in ARL is that each agent within a population infers gradient by exploiting the history of its ancestors, i.e., the ancestor population in the past, while maintaining the diversity of policies in the current population as in GA. We also theoretically reveal that the populational search in ARL implicitly induces the KL-regularization of the objective function, resulting in the enhanced exploration. Our results extend the applicability of populational algorithms for RL.
翻訳日:2024-08-20 20:20:04 公開日:2024-08-18
# オンライン表面欠陥検出のためのソースフリーテスト時間適応

Source-Free Test-Time Adaptation For Online Surface-Defect Detection ( http://arxiv.org/abs/2408.09494v1 )

ライセンス: Link先を確認
Yiran Song, Qianyu Zhou, Lizhuang Ma, (参考訳) 表面欠陥検出は工業生産において重要である。 しかし,テスト期間中に異なるテクスチャや異常なクラスで欠陥を検出することは困難である。 これは、ソースとターゲットドメイン間のデータ分散の違いに起因する。 ターゲットドメインから新しいデータを収集し、注釈付けし、モデルを再トレーニングするのは、時間とコストがかかります。 本稿では,事前学習したモデルを推論中に新しいドメインやクラスに適応させるテスト時間適応型表面欠陥検出手法を提案する。 私たちのアプローチには2つの中核的な考えがあります。 まず、サンプルをフィルタするスーパーバイザを導入し、信頼性の高い者のみを選択してモデルを更新する。 これにより、モデルは誤ったデータによって過度にバイアスを受けないことが保証される。 次に,ロバストな擬似ラベルを生成するための拡張平均予測と動的バランシング損失を提案し,分類とセグメンテーションを効果的に統合し,表面欠陥検出精度を向上させる。 我々のアプローチはリアルタイムであり、追加のオフライン再トレーニングを必要としない。 実験では、最先端の技術よりも優れています。

Surface defect detection is significant in industrial production. However, detecting defects with varying textures and anomaly classes during the test time is challenging. This arises due to the differences in data distributions between source and target domains. Collecting and annotating new data from the target domain and retraining the model is time-consuming and costly. In this paper, we propose a novel test-time adaptation surface-defect detection approach that adapts pre-trained models to new domains and classes during inference. Our approach involves two core ideas. Firstly, we introduce a supervisor to filter samples and select only those with high confidence to update the model. This ensures that the model is not excessively biased by incorrect data. Secondly, we propose the augmented mean prediction to generate robust pseudo labels and a dynamically-balancing loss to facilitate the model in effectively integrating classification and segmentation results to improve surface-defect detection accuracy. Our approach is real-time and does not require additional offline retraining. Experiments demonstrate it outperforms state-of-the-art techniques.
翻訳日:2024-08-20 20:20:04 公開日:2024-08-18
# 線形時間論理による強化学習の直接探索

Directed Exploration in Reinforcement Learning from Linear Temporal Logic ( http://arxiv.org/abs/2408.09495v1 )

ライセンス: Link先を確認
Marco Bagatella, Andreas Krause, Georg Martius, (参考訳) リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。 しかしながら、近年の研究では、LTLの公式を変数の報酬と割引スキームに変換することができ、その最適化は、式満足度確率の低い境界を最大化するポリシーを生成することが示されている。 しかし、合成された報酬信号は基本的に疎いままであり、探索は困難である。 この制限を克服することを目指しており、これは現在のアルゴリズムが低次元の短距離問題を超えてスケールすることを防ぐ。 我々は、LTL仕様をさらに活用し、それに対応するリミット決定性B\"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、より優れた探索を実現することができることを示す。 LDBA力学に対してベイズ的視点を採り、適切な事前分布を提案することにより、この手法により推定された値を形作りポテンシャルとして扱い、本質的な報奨にマッピングできることを示す。 本稿は,LTLに基づく強化学習アルゴリズムにおいて,これまでに大きな課題となっている,表層設定から高次元連続システムへの手法の適用を実証する。

Linear temporal logic (LTL) is a powerful language for task specification in reinforcement learning, as it allows describing objectives beyond the expressivity of conventional discounted return formulations. Nonetheless, recent works have shown that LTL formulas can be translated into a variable rewarding and discounting scheme, whose optimization produces a policy maximizing a lower bound on the probability of formula satisfaction. However, the synthesized reward signal remains fundamentally sparse, making exploration challenging. We aim to overcome this limitation, which can prevent current algorithms from scaling beyond low-dimensional, short-horizon problems. We show how better exploration can be achieved by further leveraging the LTL specification and casting its corresponding Limit Deterministic B\"uchi Automaton (LDBA) as a Markov reward process, thus enabling a form of high-level value estimation. By taking a Bayesian perspective over LDBA dynamics and proposing a suitable prior distribution, we show that the values estimated through this procedure can be treated as a shaping potential and mapped to informative intrinsic rewards. Empirically, we demonstrate applications of our method from tabular settings to high-dimensional continuous systems, which have so far represented a significant challenge for LTL-based reinforcement learning algorithms.
翻訳日:2024-08-20 20:20:04 公開日:2024-08-18
# StyleBrush: 単一画像からのスタイル抽出と転送

StyleBrush: Style Extraction and Transfer from a Single Image ( http://arxiv.org/abs/2408.09496v1 )

ライセンス: Link先を確認
Wancheng Feng, Wanquan Feng, Dawei Huang, Jiaming Pei, Guangliang Cheng, Lukun Wang, (参考訳) ビジュアルコンテンツのスティル化は、オリジナルの構造的特徴を保ちながら、ピクセルレベルで特定のスタイルパターンを追加することを目的としている。 事前定義されたスタイルと比較して、参照スタイルの画像でガイドされるスタイル化はより困難であり、構造要素からスタイルを効果的に分離することが主な難しさである。 本稿では,参照画像からスタイルを正確にキャプチャする手法であるStyleBrushと,抽出したスタイルを他の入力ビジュアルコンテンツに'brushes'する手法を提案する。 具体的には、参照画像からスタイルを抽出するReferenceNetと、入力画像から構造的特徴を抽出するStructure Guiderの2つのブランチで構成されている。 LLM と T2I モデルを用いて,100K の高品質な画像からなるデータセットを作成する。 トレーニングペアを構築するために,同じトレーニングイメージの異なる領域を抽出する。 実験により, 定性解析と定量的解析の両面から, 最先端の結果が得られた。 論文の受理後、コードとデータセットを公開します。

Stylization for visual content aims to add specific style patterns at the pixel level while preserving the original structural features. Compared with using predefined styles, stylization guided by reference style images is more challenging, where the main difficulty is to effectively separate style from structural elements. In this paper, we propose StyleBrush, a method that accurately captures styles from a reference image and ``brushes'' the extracted style onto other input visual content. Specifically, our architecture consists of two branches: ReferenceNet, which extracts style from the reference image, and Structure Guider, which extracts structural features from the input image, thus enabling image-guided stylization. We utilize LLM and T2I models to create a dataset comprising 100K high-quality style images, encompassing a diverse range of styles and contents with high aesthetic score. To construct training pairs, we crop different regions of the same training image. Experiments show that our approach achieves state-of-the-art results through both qualitative and quantitative analyses. We will release our code and dataset upon acceptance of the paper.
翻訳日:2024-08-20 20:20:04 公開日:2024-08-18
# 局所的視点を超えて:協調的マルチエージェント強化学習のための拡散モデルを用いた大域的状態推論

Beyond Local Views: Global State Inference with Diffusion Models for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2408.09501v1 )

ライセンス: Link先を確認
Zhiwei Xu, Hangyu Mao, Nianmin Zhang, Xin Xin, Pengjie Ren, Dapeng Li, Bin Zhang, Guoliang Fan, Zhumin Chen, Changwei Wang, Jiangjin Yin, (参考訳) 部分的に観測可能なマルチエージェントシステムでは、エージェントは通常、局所的な観測にしかアクセスできない。 これにより、特に分散化された実行中に、正確な決定を行う能力が著しく損なわれます。 そこで本研究では,拡散モデルを用いて局所観測のみに基づく元のグローバルな状態を再構築する,拡散モデルによる状態推論(SIDIFF)を提案する。 SIDIFFは状態発生器と状態抽出器から構成されており、エージェントは再構成された大域的状態と局所的な観測の両方を考慮して適切な行動を選択することができる。 さらに、SIDIFFは、現在のマルチエージェント強化学習アルゴリズムに精力的に組み込んで、性能を向上させることができる。 最後に,新しい多エージェント強化学習環境であるMABC (Multi-Agent Battle City) など,様々な実験プラットフォーム上でSIDIFFを評価した。 SIDIFFは望ましい結果を得て、他の一般的なアルゴリズムよりも優れていた。

In partially observable multi-agent systems, agents typically only have access to local observations. This severely hinders their ability to make precise decisions, particularly during decentralized execution. To alleviate this problem and inspired by image outpainting, we propose State Inference with Diffusion Models (SIDIFF), which uses diffusion models to reconstruct the original global state based solely on local observations. SIDIFF consists of a state generator and a state extractor, which allow agents to choose suitable actions by considering both the reconstructed global state and local observations. In addition, SIDIFF can be effortlessly incorporated into current multi-agent reinforcement learning algorithms to improve their performance. Finally, we evaluated SIDIFF on different experimental platforms, including Multi-Agent Battle City (MABC), a novel and flexible multi-agent reinforcement learning environment we developed. SIDIFF achieved desirable results and outperformed other popular algorithms.
翻訳日:2024-08-20 20:20:04 公開日:2024-08-18
# 合成によるアウト・オブ・ディストリビューション一般化:変圧器の誘導ヘッドによるレンズ

Out-of-distribution generalization via composition: a lens through induction heads in Transformers ( http://arxiv.org/abs/2408.09503v1 )

ライセンス: Link先を確認
Jiajun Song, Zhuoyan Xu, Yiqiao Zhong, (参考訳) GPT-4のような大きな言語モデル(LLM)は、しばしば創造的であり、しばしばプロンプトにいくつかのデモがある新しいタスクを解く。 これらのタスクは、トレーニングデータとは異なる分布を一般化するモデルを必要とする -- アウト・オブ・ディストリビューション(OOD)一般化(out-of-distribution)と呼ばれる。 LLMの素晴らしい成功にもかかわらず、どのようにしてOOD一般化に近づいたかは、未解明の未解決の問題のままである。 隠れルールに従ってインスタンスが生成される設定におけるOOD一般化について検討する。 入力プロンプトの背後にある隠されたルールを微調整なしで推測するためにモデルは必要である。 本研究では, トランスフォーマーのトレーニング力学を実験的に検討し, 誘導ヘッドと呼ばれる部品に着目し, 種々の事前学習LDMについて広範な実験を行った。 我々は、OODの一般化と構成が結びついていることを発見した。モデルが2つの自己注意層を構成することでルールを学習し、OODの一般化を達成する。 さらに、埋め込み空間(または特徴空間)における共有潜在部分空間は、初期層と後層を整列させて構成するためのブリッジとして機能し、これは共通ブリッジ表現仮説と呼ばれる。

Large language models (LLMs) such as GPT-4 sometimes appear to be creative, solving novel tasks often with a few demonstrations in the prompt. These tasks require the models to generalize on distributions different from those from training data -- which is known as out-of-distribution (OOD) generalization. Despite the tremendous success of LLMs, how they approach OOD generalization remains an open and underexplored question. We examine OOD generalization in settings where instances are generated according to hidden rules, including in-context learning with symbolic reasoning. Models are required to infer the hidden rules behind input prompts without any fine-tuning. We empirically examined the training dynamics of Transformers on a synthetic example and conducted extensive experiments on a variety of pretrained LLMs, focusing on a type of components known as induction heads. We found that OOD generalization and composition are tied together -- models can learn rules by composing two self-attention layers, thereby achieving OOD generalization. Furthermore, a shared latent subspace in the embedding (or feature) space acts as a bridge for composition by aligning early layers and later layers, which we refer to as the common bridge representation hypothesis.
翻訳日:2024-08-20 20:20:04 公開日:2024-08-18
# ナヴェロ:ビデオ言語構成のための細粒度セマンティックを解き放つ

NAVERO: Unlocking Fine-Grained Semantics for Video-Language Compositionality ( http://arxiv.org/abs/2408.09511v1 )

ライセンス: Link先を確認
Chaofan Tao, Gukyeong Kwon, Varad Gunjal, Hao Yang, Zhaowei Cai, Yonatan Dukler, Ashwin Swaminathan, R. Manmatha, Colin Jon Taylor, Stefano Soatto, (参考訳) 本研究では,映像言語モデル(VidL)のオブジェクト間の合成,属性,行動,それらの関係を理解する能力について検討する。 コンポジションの理解は、ビデオ内のコンポジション関係が時間とともに急速に変化するため、ビデオデータにとって特に困難になる。 我々はまず,空間概念上の行動に関する構成理解を評価するために,AAROというベンチマークを構築した。 このベンチマークは、あるビデオに対して誤った動作記述を持つ負のテキストを生成して構築され、そのモデルが正のテキストと対応するビデオとをペアリングすることが期待されている。 さらに、負のテキストを付加したビデオテキストデータを用いて合成理解を向上させるNAVEROと呼ばれるトレーニング手法を提案する。 また、生成した負のテキストの恩恵を受けるために明示的に使用される、負増分された視覚言語マッチング損失も開発した。 我々は、NAVEROと他の最先端の手法を比較し、構成的理解とビデオテキスト検索性能を比較した。 NAVEROは、従来のテキスト・ビデオ検索タスクにおいて高い性能を維持しつつ、ビデオ言語と画像言語の両方の合成理解のための他の手法よりも大幅に改善されている。

We study the capability of Video-Language (VidL) models in understanding compositions between objects, attributes, actions and their relations. Composition understanding becomes particularly challenging for video data since the compositional relations rapidly change over time in videos. We first build a benchmark named AARO to evaluate composition understanding related to actions on top of spatial concepts. The benchmark is constructed by generating negative texts with incorrect action descriptions for a given video and the model is expected to pair a positive text with its corresponding video. Furthermore, we propose a training method called NAVERO which utilizes video-text data augmented with negative texts to enhance composition understanding. We also develop a negative-augmented visual-language matching loss which is used explicitly to benefit from the generated negative text. We compare NAVERO with other state-of-the-art methods in terms of compositional understanding as well as video-text retrieval performance. NAVERO achieves significant improvement over other methods for both video-language and image-language composition understanding, while maintaining strong performance on traditional text-video retrieval tasks.
翻訳日:2024-08-20 20:20:04 公開日:2024-08-18
# 2色および3色状態の閉形式表現

Closed-Form Expressions for Two- and Three-Colorable States ( http://arxiv.org/abs/2408.09515v1 )

ライセンス: Link先を確認
Konstantinos-Rafail Revis, Hrachya Zakaryan, Zahra Raissi, (参考訳) グラフ状態は多粒子交絡量子状態のクラスであり、その数学的基礎に根ざした色度は、量子情報処理に重要な意味を持つ。 本研究では,quditシステムにおけるグラフ状態の色性について検討し,その表現を簡素化し,実用性を高める。 全2色グラフ状態に対して閉形式表現を示す。 これらの状態の閉形式表現は、グラフ構造と赤(n_R$)および青(n_B$)の粒子の分布と密接に関連している。 さらに、2つの2色グラフ状態から構築された3色グラフ状態の広いファミリーを探索する。 これらの状態に対する閉形式表現は、グラフ基底が別の2色状態から形成される1つの2色状態テンソル積の形式である。 我々の手法は、これらの状態を表すのに必要な用語の数を体系的に削減する。 さらに、友情グラフを含む多くのよく知られた数学的グラフが、我々の形式主義に適合することを示した。 最後に、LU/SLOCC (Local Unitary/Stochastic Local Operation and Classical Communication) の2色および3色のグラフ状態間の等価性について議論する。 本研究は,グラフ状態クラスにおけるLU/SLOCC同値性を評価し,今後の研究への道を開くことを目的としている。

Graph states are a class of multi-partite entangled quantum states, where colorability, a property rooted in their mathematical foundation, has significant implications for quantum information processing. In this study, we investigate the colorability of graph states in qudit systems to simplify their representation and enhance their practical applications. We present closed-form expressions for all two-colorable graph states. Our findings show that the closed-form expression of these states is tightly linked to the graph structure and the distribution of particles in red ($n_R$) and blue ($n_B$). Additionally, we explore a broad family of three-colorable graph states constructed from two two-colorable graph states. The closed-form expression for these states is in the form of one two-colorable state tensor product with the graph basis formed from another two-colorable state. Our approach systematically reduces the number of terms required to represent these states. Furthermore, we demonstrate that many well-known mathematical graphs, including friendship graphs, fit within our formalism. Finally, we discuss the LU/SLOCC (Local Unitary/Stochastic Local Operation and Classical Communication) equivalence between two- and three-colorable graph states. Our findings have broad implications for characterizing the LU/SLOCC equivalence of graph state classes and pave the way for future research.
翻訳日:2024-08-20 20:20:04 公開日:2024-08-18
# マルチエージェントシステムにおけるポリシーに基づく資源交換の論理

A Logic for Policy Based Resource Exchanges in Multiagent Systems ( http://arxiv.org/abs/2408.09516v1 )

ライセンス: Link先を確認
Lorenzo Ceragioli, Pierpaolo Degano, Letterio Galletta, Luca Viganò, (参考訳) 多エージェントシステムでは、自律エージェントは互いに相互作用し、個人的および集団的な目標を達成する。 典型的な相互作用は、資源交換に関する交渉と合意に関するものである。 これらの合意のモデル化と形式化は、特にエージェントの動的な振る舞いを捉えながら、リソースが正しく扱われることを確実にする上で、重要な課題となる。 ここでは、エージェントが交換ポリシーを規定し、従う形式的な設定として、交換環境を提案する。 さらに、線形論理の計算的断片を決定可能な拡張として、交換環境を表現し、それらの力学を実用性の観点から研究するための基本的なツールとして紹介する。

In multiagent systems autonomous agents interact with each other to achieve individual and collective goals. Typical interactions concern negotiation and agreement on resource exchanges. Modeling and formalizing these agreements pose significant challenges, particularly in capturing the dynamic behaviour of agents, while ensuring that resources are correctly handled. Here, we propose exchange environments as a formal setting where agents specify and obey exchange policies, which are declarative statements about what resources they offer and what they require in return. Furthermore, we introduce a decidable extension of the computational fragment of linear logic as a fundamental tool for representing exchange environments and studying their dynamics in terms of provability.
翻訳日:2024-08-20 20:20:04 公開日:2024-08-18
# PDEと情報理論を用いた解釈変換器の統一化フレームワーク

A Unified Framework for Interpretable Transformers Using PDEs and Information Theory ( http://arxiv.org/abs/2408.09523v1 )

ライセンス: Link先を確認
Yukun Zhang, (参考訳) 本稿では、部分微分方程式(PDE)、ニューラルインフォメーションフロー理論、インフォメーション・ボトルネック理論を統合することでトランスフォーマーアーキテクチャを理解するための新しい統合理論フレームワークを提案する。 我々は、拡散、自己注意、非線形残留成分を含む連続的なPDEプロセスとしてトランスフォーマー情報力学をモデル化する。 画像およびテキストのモーダル性に関する包括的な実験により、PDEモデルはトランスフォーマーの挙動の重要な側面を効果的に捉え、トランスフォーマーの注意分布と高い類似性(コサイン類似度 > 0.98)を達成することを示した。 このモデルは一般的な情報フローパターンの複製に優れていますが、複雑で非線形な変換を完全にキャプチャする際の限界を示しています。 この研究はTransformerメカニズムに関する重要な理論的洞察を提供し、ディープラーニングアーキテクチャ設計における将来の最適化の基礎を提供する。 本研究は,トランスフォーマーで観測される複雑な動作をよりよく模倣し,より透明で最適化されたAIシステムを実現するために,PDEモデルを強化するための方向性を概説する。

This paper presents a novel unified theoretical framework for understanding Transformer architectures by integrating Partial Differential Equations (PDEs), Neural Information Flow Theory, and Information Bottleneck Theory. We model Transformer information dynamics as a continuous PDE process, encompassing diffusion, self-attention, and nonlinear residual components. Our comprehensive experiments across image and text modalities demonstrate that the PDE model effectively captures key aspects of Transformer behavior, achieving high similarity (cosine similarity > 0.98) with Transformer attention distributions across all layers. While the model excels in replicating general information flow patterns, it shows limitations in fully capturing complex, non-linear transformations. This work provides crucial theoretical insights into Transformer mechanisms, offering a foundation for future optimizations in deep learning architectural design. We discuss the implications of our findings, potential applications in model interpretability and efficiency, and outline directions for enhancing PDE models to better mimic the intricate behaviors observed in Transformers, paving the way for more transparent and optimized AI systems.
翻訳日:2024-08-20 20:20:04 公開日:2024-08-18
# 測定不要な局所誤差補正と強化学習による量子メモリの寿命向上

Enhancing Quantum Memory Lifetime with Measurement-Free Local Error Correction and Reinforcement Learning ( http://arxiv.org/abs/2408.09524v1 )

ライセンス: Link先を確認
Mincheol Park, Nishad Maskara, Marcin Kalinowski, Mikhail D. Lukin, (参考訳) 信頼性の高い量子計算は、量子ハードウェアで発生し蓄積されるエラーの体系的な同定と修正を必要とする。 このような誤りを診断し、訂正するために、標準的な量子誤り訂正プロトコルは、補助量子ビットの中間循環読み出しによって得られたシステム全体で$\textit{global}$エラー情報を利用する。 測定不要で,$\textit{local}$エラー情報に基づく回路レベルの誤り訂正プロトコルについて検討する。 このような局所誤差補正(LEC)回路は、シンドローム抽出とアンシラ制御によるエラー除去の両方を実行するために、故障したマルチキュービットゲートで構成されている。 我々は,固定されたゲートを入力とし,最適化されたLEC回路を出力する強化学習フレームワークを開発し,実装する。 この手法を評価するために、雑音の多いLEC回路により論理量子ビット寿命の延長を定量的に特徴づける。 2次元古典イジングモデルと4次元トーリック符号に対して、最適化されたLEC回路は、サブ閾値ゲートエラー状態におけるToomのルールに基づく従来のLEC回路と比較して、メモリ寿命の延長に優れる。 さらに、そのような回路は2次元トーリックコードメモリを保存するために、中間回路の読み出し速度を低減できることを示す。 最後に、位相位相をもつ量子状態の散逸生成におけるLECプロトコルの適用について論じる。

Reliable quantum computation requires systematic identification and correction of errors that occur and accumulate in quantum hardware. To diagnose and correct such errors, standard quantum error-correcting protocols utilize $\textit{global}$ error information across the system obtained by mid-circuit readout of ancillary qubits. We investigate circuit-level error-correcting protocols that are measurement-free and based on $\textit{local}$ error information. Such a local error correction (LEC) circuit consists of faulty multi-qubit gates to perform both syndrome extraction and ancilla-controlled error removal. We develop and implement a reinforcement learning framework that takes a fixed set of faulty gates as inputs and outputs an optimized LEC circuit. To evaluate this approach, we quantitatively characterize an extension of logical qubit lifetime by a noisy LEC circuit. For the 2D classical Ising model and 4D toric code, our optimized LEC circuit performs better at extending a memory lifetime compared to a conventional LEC circuit based on Toom's rule in a sub-threshold gate error regime. We further show that such circuits can be used to reduce the rate of mid-circuit readouts to preserve a 2D toric code memory. Finally, we discuss the application of the LEC protocol on dissipative preparation of quantum states with topological phases.
翻訳日:2024-08-20 20:20:04 公開日:2024-08-18
# 自己教師型学習を用いた低品質センシングデータに基づく微視的空気質推定

Fine-gained air quality inference based on low-quality sensing data using self-supervised learning ( http://arxiv.org/abs/2408.09526v1 )

ライセンス: Link先を確認
Meng Xu, Ke Han, Weijian Hu, Wen Ji, (参考訳) 安価なAQマイクロステーション(MS)の普及により,AQマッピングが可能となる。 しかし、それらの測定値はしばしば不正確で、正確な測度を提供するが数が少ない標準化された局(SS)とは対照的に、局所的な乱れに敏感である。 低品質(MS)と高ラベル空間(SS)の問題を同時に解決するために,多タスク時空間ネットワーク(MTSTN)を提案する。 MTSTNは、中国成都の250 km$^2$地域のNO$_2$, O$_3$, PM$_{2.5}$濃度を500m$\times$500m$\times$1hrで推定する。 55個のSSと323個のMSのデータと気象、交通、地理的、タイムスタンプのデータが特徴として使われた。 MTSTNはいくつかのベンチマークと比較して精度が優れており、その性能は低品質のMSデータを利用することで大幅に向上している。 一連のアブレーションと圧力試験は結果の堅牢性と解釈可能性を示し、正確で安価なAQ推論のためのMTSTNの実用的価値を示している。

Fine-grained air quality (AQ) mapping is made possible by the proliferation of cheap AQ micro-stations (MSs). However, their measurements are often inaccurate and sensitive to local disturbances, in contrast to standardized stations (SSs) that provide accurate readings but fall short in number. To simultaneously address the issues of low data quality (MSs) and high label sparsity (SSs), a multi-task spatio-temporal network (MTSTN) is proposed, which employs self-supervised learning to utilize massive unlabeled data, aided by seasonal and trend decomposition of MS data offering reliable information as features. The MTSTN is applied to infer NO$_2$, O$_3$ and PM$_{2.5}$ concentrations in a 250 km$^2$ area in Chengdu, China, at a resolution of 500m$\times$500m$\times$1hr. Data from 55 SSs and 323 MSs were used, along with meteorological, traffic, geographic and timestamp data as features. The MTSTN excels in accuracy compared to several benchmarks, and its performance is greatly enhanced by utilizing low-quality MS data. A series of ablation and pressure tests demonstrate the results' robustness and interpretability, showcasing the MTSTN's practical value for accurate and affordable AQ inference.
翻訳日:2024-08-20 20:20:04 公開日:2024-08-18
# ALS-HAR:IMUベースのHARを実現するウェアラブル環境光センサ

ALS-HAR: Harnessing Wearable Ambient Light Sensors to Enhance IMU-based HAR ( http://arxiv.org/abs/2408.09527v1 )

ライセンス: Link先を確認
Lala Shakti Swarup Ray, Daniel Geißler, Mengxi Liu, Bo Zhou, Sungho Suh, Paul Lukowicz, (参考訳) 周囲光センサ(ALS)が画面の明るさ適応に一般的に使用されるスマートデバイスに広く統合されているにもかかわらず、人的活動認識(HAR)への応用は、主にボディウーンALSによるものであるが、ほとんど探索されていない。 本研究では,ロバストな光ベースモーションアクティビティ分類器であるALS-HARを開発した。 ALS-HARは他のモダリティと同等の精度を達成しているが、周囲の光の変化、気象条件の変化、室内の照明といった外部の障害に対する自然な感度は、日常的に使うのが困難である。 このような欠点に対処するため,我々は,ALSから抽出した知識を伝達することにより,環境不変なIMUに基づく活動分類を多モーダル・コントラッシブな分類により強化する戦略を導入する。 ALS-HARの精度は外部の照明条件に強く依存するが、IMUベースの分類器などの他のHARシステムの改善は依然として可能であり、ALSが不十分な場合においても、IMUベースの分類器では、追加知識により精度が4.2 %、マクロF1スコアは6.4 %向上し、3つの実験シナリオではマルチモーダルセンサ融合モデルを超えている。 我々の研究は、センサベースのHAR技術の進歩におけるALS統合の未解決の可能性を強調し、医療、スポーツ監視、スマート屋内環境に応用可能な、実用的で効率的なALSベースのアクティビティ認識システムへの道を開いた。

Despite the widespread integration of ambient light sensors (ALS) in smart devices commonly used for screen brightness adaptation, their application in human activity recognition (HAR), primarily through body-worn ALS, is largely unexplored. In this work, we developed ALS-HAR, a robust wearable light-based motion activity classifier. Although ALS-HAR achieves comparable accuracy to other modalities, its natural sensitivity to external disturbances, such as changes in ambient light, weather conditions, or indoor lighting, makes it challenging for daily use. To address such drawbacks, we introduce strategies to enhance environment-invariant IMU-based activity classifications through augmented multi-modal and contrastive classifications by transferring the knowledge extracted from the ALS. Our experiments on a real-world activity dataset for three different scenarios demonstrate that while ALS-HAR's accuracy strongly relies on external lighting conditions, cross-modal information can still improve other HAR systems, such as IMU-based classifiers.Even in scenarios where ALS performs insufficiently, the additional knowledge enables improved accuracy and macro F1 score by up to 4.2 % and 6.4 %, respectively, for IMU-based classifiers and even surpasses multi-modal sensor fusion models in two of our three experiment scenarios. Our research highlights the untapped potential of ALS integration in advancing sensor-based HAR technology, paving the way for practical and efficient wearable ALS-based activity recognition systems with potential applications in healthcare, sports monitoring, and smart indoor environments.
翻訳日:2024-08-20 18:24:48 公開日:2024-08-18
# 大規模言語モデルのグラフ推論能力の再検討:翻訳,接続性,最短経路を事例として

Revisiting the Graph Reasoning Ability of Large Language Models: Case Studies in Translation, Connectivity and Shortest Path ( http://arxiv.org/abs/2408.09529v1 )

ライセンス: Link先を確認
Xinnan Dai, Qihao Wen, Yifei Shen, Hongzhi Wen, Dongsheng Li, Jiliang Tang, Caihua Shan, (参考訳) 大規模言語モデル(LLM)は様々な推論タスクで大きな成功を収めた。 本研究では,LLMのグラフ推論能力に着目した。 理論的研究により、LLMはグラフ推論タスクを処理可能であることが証明されたが、実証的な評価によって多くの失敗が明らかになった。 この相違についてより深く理解するために、グラフ記述変換、グラフ接続、最短パス問題という3つの基本的なグラフタスクにおけるLLMの能力を再考する。 この結果から,LLMはテキスト記述によるグラフ構造理解に失敗し,これら3つの基本課題に対して様々な性能を示すことが可能であることが示唆された。 一方,知識グラフの実態調査を行い,その結果と一貫した観察を行った。 コードとデータセットは利用可能だ。

Large Language Models (LLMs) have achieved great success in various reasoning tasks. In this work, we focus on the graph reasoning ability of LLMs. Although theoretical studies proved that LLMs are capable of handling graph reasoning tasks, empirical evaluations reveal numerous failures. To deepen our understanding on this discrepancy, we revisit the ability of LLMs on three fundamental graph tasks: graph description translation, graph connectivity, and the shortest-path problem. Our findings suggest that LLMs can fail to understand graph structures through text descriptions and exhibit varying performance for all these three fundamental tasks. Meanwhile, we perform a real-world investigation on knowledge graphs and make consistent observations with our findings. The codes and datasets are available.
翻訳日:2024-08-20 18:24:47 公開日:2024-08-18
# PA-LLaVA:ヒト病理画像理解のための大規模言語ビジョンアシスタント

PA-LLaVA: A Large Language-Vision Assistant for Human Pathology Image Understanding ( http://arxiv.org/abs/2408.09530v1 )

ライセンス: Link先を確認
Dawei Dai, Yuanhui Zhang, Long Xu, Qianlan Yang, Xiaojing Shen, Shuyin Xia, Guoyin Wang, (参考訳) 病理画像理解のこれまでの進歩は、主に特定のタスクに適したモデルの開発であった。 近年の研究では、医用画像理解において、大きな視覚言語モデルにより、下流タスクのパフォーマンスが向上することが示されている。 本研究では,病理画像理解のためのドメイン固有大規模言語ビジョンアシスタント(PA-LLaVA)を開発した。 具体的には、(1)パブリックな医用画像テキストデータをドメイン固有のアライメントのためにクリーニングすることで、まず人間の病理画像テキストデータセットを構築し、(2)提案した画像テキストデータを用いて、まず、病理画像の専用ビジュアルエンコーダとして病理言語画像事前訓練(PLIP)モデルを訓練し、次いで、画像スケーリングによる情報損失を回避するためにスケール不変コネクタを開発し、(3)PA-LLaVA、ドメインアライメントの第1ステージ、および第2ステージの視覚的問合せ(VQA)タスクに2段階の学習を適用した。 実験では、教師付きVQAデータセットとゼロショットVQAデータセットの両方でPA-LLaVAを評価し、同様のスケールのマルチモーダルモデルで最高の総合性能を達成した。 アブレーション実験により,我々の設計の有効性が確認された。 PA-LLaVAモデルと本研究で提示したデータセットは,計算病理学の分野での研究を促進することができると仮定する。 https://github.com/ddw2AIGROUP2CQUPT/PA-LLaVA}{https://github.com/ddw2AIGROUP2CQUPT/PA-LLaVA

The previous advancements in pathology image understanding primarily involved developing models tailored to specific tasks. Recent studies has demonstrated that the large vision-language model can enhance the performance of various downstream tasks in medical image understanding. In this study, we developed a domain-specific large language-vision assistant (PA-LLaVA) for pathology image understanding. Specifically, (1) we first construct a human pathology image-text dataset by cleaning the public medical image-text data for domain-specific alignment; (2) Using the proposed image-text data, we first train a pathology language-image pretraining (PLIP) model as the specialized visual encoder for pathology image, and then we developed scale-invariant connector to avoid the information loss caused by image scaling; (3) We adopt two-stage learning to train PA-LLaVA, first stage for domain alignment, and second stage for end to end visual question \& answering (VQA) task. In experiments, we evaluate our PA-LLaVA on both supervised and zero-shot VQA datasets, our model achieved the best overall performance among multimodal models of similar scale. The ablation experiments also confirmed the effectiveness of our design. We posit that our PA-LLaVA model and the datasets presented in this work can promote research in field of computational pathology. All codes are available at: https://github.com/ddw2AIGROUP2CQUPT/PA-LLaVA}{https://github.com/ddw2AIGROUP2CQUPT/PA-LLaVA
翻訳日:2024-08-20 18:24:47 公開日:2024-08-18
# 回帰における深部限界モデルフリー予測

Deep Limit Model-free Prediction in Regression ( http://arxiv.org/abs/2408.09532v1 )

ライセンス: Link先を確認
Kejin Wu, Dimitris N. Politis, (参考訳) 本稿では,Deep Neural Network(DNN)に基づくモデルフリー手法を提案する。 通常、人々は依存変数と独立変数(YとX)を橋渡しするためにパラメトリックまたは非パラメトリックモデルに依存します。 しかし、この古典的な手法は正しいモデル仕様に大きく依存している。 非パラメトリックなアプローチであっても、いくつかの加法形式がしばしば仮定される。 新たに提案されたモデルフリー予測原則は、モデル仮定なしで予測手順に光を当てる。 この原則に関する以前の研究は、他の標準的な選択肢よりも優れたパフォーマンスを示している。 近年,機械学習手法の1つであるDNNは,実際の性能が優れており,注目を集めている。 対象のDNNは、X上のY条件のランダム性を訓練されたDNNを介してZにアウトソースするように、特別に設計された損失関数を最小化することによって訓練される。 提案手法は,特に最適点予測において,他のDNN法に比べて安定かつ正確である。 特定の予測手順により、予測間隔は予測変数をキャプチャし、有限サンプルの場合のカバレッジ率を改善することができる。 本手法の優れた性能をシミュレーションおよび実証実験により検証した。

In this paper, we provide a novel Model-free approach based on Deep Neural Network (DNN) to accomplish point prediction and prediction interval under a general regression setting. Usually, people rely on parametric or non-parametric models to bridge dependent and independent variables (Y and X). However, this classical method relies heavily on the correct model specification. Even for the non-parametric approach, some additive form is often assumed. A newly proposed Model-free prediction principle sheds light on a prediction procedure without any model assumption. Previous work regarding this principle has shown better performance than other standard alternatives. Recently, DNN, one of the machine learning methods, has received increasing attention due to its great performance in practice. Guided by the Model-free prediction idea, we attempt to apply a fully connected forward DNN to map X and some appropriate reference random variable Z to Y. The targeted DNN is trained by minimizing a specially designed loss function so that the randomness of Y conditional on X is outsourced to Z through the trained DNN. Our method is more stable and accurate compared to other DNN-based counterparts, especially for optimal point predictions. With a specific prediction procedure, our prediction interval can capture the estimation variability so that it can render a better coverage rate for finite sample cases. The superior performance of our method is verified by simulation and empirical studies.
翻訳日:2024-08-20 18:24:47 公開日:2024-08-18
# AnomalyFactory: 教師なし異常局所化としての異常発生について

AnomalyFactory: Regard Anomaly Generation as Unsupervised Anomaly Localization ( http://arxiv.org/abs/2408.09533v1 )

ライセンス: Link先を確認
Ying Zhao, (参考訳) 異常発生手法の最近の進歩は、異常局所化タスクにおけるデータ不足の影響を軽減する。 効果はあるものの、ほとんどの人は異なるデータセットで複数の大きな生成モデルを学び、異なるクラスに対する面倒な異常予測モデルを学ぶ。 この制約に対処するため,AnomalyFactoryという新しいスケーラブルなフレームワークを提案し,同じネットワークアーキテクチャを用いて,教師なしの異常発生とローカライゼーションを統一する。 ターゲットエッジマップの構造と参照カラーイメージの外観と学習されたヒートマップのガイダンスを組み合わせたBootGeneratorから始まる。 次に、BootGeneratorから監視信号を受け取り、ヒートマップを修正して、生成されたイメージ内の異常な位置を示す。 最後に、FrareGeneratorによって生成された異常画像を通常の画像に変換することで、学習したヒートマップで異常画素をローカライズするBlazeDetectorに、同じネットワークアーキテクチャを簡単に変換する。 AnomalyFactoryは、ターゲットのエッジマップを操作して、さまざまな参照イメージと組み合わせることで、ドメイン間の真正および多様性のサンプルを生成する。 MVTecAD、VisA、MVTecLOCO、MADSim、RealIADを含む5つのデータセットで実施した総合的な実験は、我々のアプローチが生成能力とスケーラビリティにおいて競合より優れていることを実証している。

Recent advances in anomaly generation approaches alleviate the effect of data insufficiency on task of anomaly localization. While effective, most of them learn multiple large generative models on different datasets and cumbersome anomaly prediction models for different classes. To address the limitations, we propose a novel scalable framework, named AnomalyFactory, that unifies unsupervised anomaly generation and localization with same network architecture. It starts with a BootGenerator that combines structure of a target edge map and appearance of a reference color image with the guidance of a learned heatmap. Then, it proceeds with a FlareGenerator that receives supervision signals from the BootGenerator and reforms the heatmap to indicate anomaly locations in the generated image. Finally, it easily transforms the same network architecture to a BlazeDetector that localizes anomaly pixels with the learned heatmap by converting the anomaly images generated by the FlareGenerator to normal images. By manipulating the target edge maps and combining them with various reference images, AnomalyFactory generates authentic and diversity samples cross domains. Comprehensive experiments carried on 5 datasets, including MVTecAD, VisA, MVTecLOCO, MADSim and RealIAD, demonstrate that our approach is superior to competitors in generation capability and scalability.
翻訳日:2024-08-20 18:24:47 公開日:2024-08-18
# Galápagos: LLMによるNバージョン自動プログラミング

Galápagos: Automated N-Version Programming with LLMs ( http://arxiv.org/abs/2408.09536v1 )

ライセンス: Link先を確認
Javier Ron, Diogo Gaspar, Javier Cabrera-Arteaga, Benoit Baudry, Martin Monperrus, (参考訳) N-Version Programmingの主な課題の1つは開発コストである。 この問題に対処するために,大規模言語モデルを用いた変種の自動生成を提案する。 我々はGal\'apagosを設計、開発、評価し、LSMを用いてプログラム変種を生成し、それらの正しさと等価性を検証し、それらを用いてN-Versionバイナリを組み立てるツールである。 実世界のCコードのN-Versionコンポーネントを作成することでGal\'apagosを評価する。 元の結果から、Gal\'apagosは、異なるプログラミング言語で記述されている場合であっても、機能的に等価であることが証明されたプログラムの変種を生成できることが示されている。 我々の系統的な多様性測定は、Gal\'apagosによって生成される機能的に等価な変種がコンパイル後に静的に異なることを示し、実行時に内部の挙動が変化することを示す。 Gal\'apagosが生成した変種は、Clangコンパイラに影響を与える実際の誤コンパイルバグからCコードを保護することができることを実証する。 本稿は,N-Version ソフトウェアの作成を,実用的形式検証と生成言語モデルの高度利用により劇的に自動化できることを示す。

One of the main challenges of N-Version Programming is development cost: it requires paying multiple teams to develop variants of the same system. To address this issue, we propose the automated generation of variants using large language models. We design, develop and evaluate Gal\'apagos: a tool for generating program variants using LLMs, validating their correctness and equivalence, and using them to assemble N-Version binaries. We evaluate Gal\'apagos by creating N-Version components of real-world C code. Our original results show that Gal\'apagos can produce program variants that are proven to be functionally equivalent, even when the variants are written in a different programming language. Our systematic diversity measurement indicate that functionally equivalent variants produced by Gal\'apagos, are statically different after compilation, and present diverging internal behavior at runtime. We demonstrate that the variants produced by Gal\'apagos can protect C code against real miscompilation bugs which affect the Clang compiler. Overall, our paper shows that producing N-Version software can be drastically automated by advanced usage of practical formal verification and generative language models.
翻訳日:2024-08-20 18:24:47 公開日:2024-08-18
# サンプル最適大規模最適サブセット選択

Sample-Optimal Large-Scale Optimal Subset Selection ( http://arxiv.org/abs/2408.09537v1 )

ライセンス: Link先を確認
Zaile Li, Weiwei Fan, L. Jeff Hong, (参考訳) ランキング・アンド・セレクション(R&S)は、伝統的に、有限個の選択肢から最大の平均性能を持つ唯一の選択肢を選択することを目的としている。 しかし、より良い意思決定をサポートするために、平均的なパフォーマンスが$m$の上位にある選択肢の小さなメニューを提供する方がより有益かもしれない。 このような問題、すなわち最適部分集合選択(OSS)は、従来のR&Sよりも対処が難しい。 この課題は、選択肢の数がかなり多い場合にさらに重要になる。 そこで本論文は,大規模なOSS問題に対処することに焦点を当てている。 この目的を達成するために、トップ$m$greedy選択機構を設計し、トップ$m$実行中のサンプル手段で現在のトップ$m$代替品をサンプリングし続け、探索ファーストのトップ$m$greedy(EFG-$m$)手順を提案する。 拡張された境界交差フレームワークにより、EFG-$m$プロシージャがサンプル最適であり、良好な選択の確率の観点から一貫したものであることを証明し、大規模なOSS問題の解法の有効性を確認した。 驚いたことに、EFG-$m$プロシージャは、選択した代替案のサブセット内で、余分なコストで、差分ベースのランキングを達成できることを示した。 これは、意思決定者に深い洞察を提供し、より深い意思決定を可能にするため、非常に有益である。 最後に,提案手法の有効性を検証し,その有効性を実証する数値実験を行った。

Ranking and selection (R&S) conventionally aims to select the unique best alternative with the largest mean performance from a finite set of alternatives. However, for better supporting decision making, it may be more informative to deliver a small menu of alternatives whose mean performances are among the top $m$. Such problem, called optimal subset selection (OSS), is generally more challenging to address than the conventional R&S. This challenge becomes even more significant when the number of alternatives is considerably large. Thus, the focus of this paper is on addressing the large-scale OSS problem. To achieve this goal, we design a top-$m$ greedy selection mechanism that keeps sampling the current top $m$ alternatives with top $m$ running sample means and propose the explore-first top-$m$ greedy (EFG-$m$) procedure. Through an extended boundary-crossing framework, we prove that the EFG-$m$ procedure is both sample optimal and consistent in terms of the probability of good selection, confirming its effectiveness in solving large-scale OSS problem. Surprisingly, we also demonstrate that the EFG-$m$ procedure enables to achieve an indifference-based ranking within the selected subset of alternatives at no extra cost. This is highly beneficial as it delivers deeper insights to decision-makers, enabling more informed decision-makings. Lastly, numerical experiments validate our results and demonstrate the efficiency of our procedures.
翻訳日:2024-08-20 18:24:47 公開日:2024-08-18
# 量子近似最適化アルゴリズムを早期耐故障性に適合させるパラメータ設定ヒューリスティックス

Parameter Setting Heuristics Make the Quantum Approximate Optimization Algorithm Suitable for the Early Fault-Tolerant Era ( http://arxiv.org/abs/2408.09538v1 )

ライセンス: Link先を確認
Zichang He, Ruslan Shaydulin, Dylan Herman, Changhao Li, Rudy Raymond, Shree Hari Sureshbabu, Marco Pistoia, (参考訳) 量子近似最適化アルゴリズム(QAOA)は組合せ最適化のための最も有望な量子ヒューリスティックの一つである。 QAOAは、いくつかの問題に対して、小規模なインスタンスでよく機能し、最先端の古典的アルゴリズムよりも漸近的なスピードアップを提供することが示されているが、実際にこのスピードアップを実現するにはフォールトトレランスが必要であると理解されている。 QAOAの低リソース要件は、初期のフォールトトレラント量子コンピューティング(EFTQC)ハードウェアのベンチマークに特に適している。 しかし、QAOAの性能は回路内の自由パラメータの選択に大きく依存する。 これらのパラメータを設定するタスクは、広範囲な古典的最適化を妨げる大きなオーバーヘッドによって、ETTQC時代において複雑である。 本稿では,QAOAにおけるパラメータ設定の最近の進歩を要約し,これらの進歩がQAOAを用いたEDTQC実験を現実的に実現可能であることを示す。

Quantum Approximate Optimization Algorithm (QAOA) is one of the most promising quantum heuristics for combinatorial optimization. While QAOA has been shown to perform well on small-scale instances and to provide an asymptotic speedup over state-of-the-art classical algorithms for some problems, fault-tolerance is understood to be required to realize this speedup in practice. The low resource requirements of QAOA make it particularly suitable to benchmark on early fault-tolerant quantum computing (EFTQC) hardware. However, the performance of QAOA depends crucially on the choice of the free parameters in the circuit. The task of setting these parameters is complicated in the EFTQC era by the large overheads, which preclude extensive classical optimization. In this paper, we summarize recent advances in parameter setting in QAOA and show that these advancements make EFTQC experiments with QAOA practically viable.
翻訳日:2024-08-20 18:24:47 公開日:2024-08-18
# 非IIDデータセット上の正規化勾配を用いたビザンチン耐性フェデレート学習

Byzantine-resilient Federated Learning Employing Normalized Gradients on Non-IID Datasets ( http://arxiv.org/abs/2408.09539v1 )

ライセンス: Link先を確認
Shiyuan Zuo, Xingrun Yan, Rongfei Fan, Li Shen, Puning Zhao, Jie Xu, Han Hu, (参考訳) 実践的連合学習(FL)システムでは、悪意のあるビザンツ攻撃やデータ不均一性の存在が学習プロセスにバイアスをもたらすことが多い。 しかし、既存のビザンチン・ロバスト法は、通常、異なる損失関数タイプ(強い凸と非凸の両方を含む)への適応性と異種データセットへの堅牢性の間の妥協しか達成しないが、非ゼロ最適性ギャップがある。 さらに、この妥協はしばしば、集約のための高い計算複雑性のコストが伴うため、トレーニング速度が大幅に低下する。 この課題に対処するため,Fed-NGA(Federated Normalized Gradients Algorithm)と呼ばれるフェデレート学習手法を提案する。 Fed-NGAは単にアップロードされた局所勾配をアグリゲーションの前に単位ベクトルとして正規化し、$\mathcal{O}(pM)$の時間複雑性を達成する。 この複雑さのスケールは、既存のビザンチン・ロバスト法の中で最高のレベルを達成する。 さらに、厳密な証明により、Fed-NGAは、損失関数型への適応性とデータ不均一性と、既存の文献における非ゼロ最適性ギャップの制限との間のトレードオフを超越していることを示す。 具体的には、Fed-NGAは非凸損失関数と非IIDデータセットの両方に同時に適応でき、0の最適性ギャップを$\mathcal{O} (1/T^{\frac{1}{2} - \delta})$と$\delta \in (0,\frac{1}{2})$で表すことができる。 損失関数が強く凸している場合には、ゼロ最適性ギャップの達成率を線形に改善することができる。 実験結果から,提案したFed-NGAがベースライン法よりも時間的複雑性と収束性能に優れていることを示す。

In practical federated learning (FL) systems, the presence of malicious Byzantine attacks and data heterogeneity often introduces biases into the learning process. However, existing Byzantine-robust methods typically only achieve a compromise between adaptability to different loss function types (including both strongly convex and non-convex) and robustness to heterogeneous datasets, but with non-zero optimality gap. Moreover, this compromise often comes at the cost of high computational complexity for aggregation, which significantly slows down the training speed. To address this challenge, we propose a federated learning approach called Federated Normalized Gradients Algorithm (Fed-NGA). Fed-NGA simply normalizes the uploaded local gradients to be unit vectors before aggregation, achieving a time complexity of $\mathcal{O}(pM)$, where $p$ represents the dimension of model parameters and $M$ is the number of participating clients. This complexity scale achieves the best level among all the existing Byzantine-robust methods. Furthermore, through rigorous proof, we demonstrate that Fed-NGA transcends the trade-off between adaptability to loss function type and data heterogeneity and the limitation of non-zero optimality gap in existing literature. Specifically, Fed-NGA can adapt to both non-convex loss functions and non-IID datasets simultaneously, with zero optimality gap at a rate of $\mathcal{O} (1/T^{\frac{1}{2} - \delta})$, where T is the iteration number and $\delta \in (0,\frac{1}{2})$. In cases where the loss function is strongly convex, the zero optimality gap achieving rate can be improved to be linear. Experimental results provide evidence of the superiority of our proposed Fed-NGA on time complexity and convergence performance over baseline methods.
翻訳日:2024-08-20 18:24:47 公開日:2024-08-18
# ChatGPTによるスコア評価と短時間構成応答

Using ChatGPT to Score Essays and Short-Form Constructed Responses ( http://arxiv.org/abs/2408.09540v1 )

ライセンス: Link先を確認
Mark D. Shermis, (参考訳) 本研究の目的は、ChatGPTの大規模言語モデルが、ASAPコンペティションの人間と機械のスコアの精度と一致するかどうかを判定することであった。 この調査は、線形回帰、ランダム森林、勾配上昇、隆起など、様々な予測モデルに焦点を当てた。 2次重み付きカッパ(QWK)測定値を用いてChatGPTの性能評価を行った。 結果,ChatGPTの勾配上昇モデルでは,人間のレーダに近いQWKが得られたが,全体の性能は不整合であり,人間のスコアよりも低かった。 この研究は、特にバイアスの扱いと公平性の確保において、さらなる改善の必要性を強調した。 これらの課題にもかかわらず、ChatGPTは、特にドメイン固有の微調整において、効率を評価する可能性を示した。 この研究は、ChatGPTは人間のスコアを補完するが、高い評価を得るためにはさらなる開発が必要であると結論付けている。 今後の研究は、モデル精度の向上、倫理的考察への取り組み、ChatGPTと経験的手法を組み合わせたハイブリッドモデルの研究である。

This study aimed to determine if ChatGPT's large language models could match the scoring accuracy of human and machine scores from the ASAP competition. The investigation focused on various prediction models, including linear regression, random forest, gradient boost, and boost. ChatGPT's performance was evaluated against human raters using quadratic weighted kappa (QWK) metrics. Results indicated that while ChatGPT's gradient boost model achieved QWKs close to human raters for some data sets, its overall performance was inconsistent and often lower than human scores. The study highlighted the need for further refinement, particularly in handling biases and ensuring scoring fairness. Despite these challenges, ChatGPT demonstrated potential for scoring efficiency, especially with domain-specific fine-tuning. The study concludes that ChatGPT can complement human scoring but requires additional development to be reliable for high-stakes assessments. Future research should improve model accuracy, address ethical considerations, and explore hybrid models combining ChatGPT with empirical methods.
翻訳日:2024-08-20 18:24:47 公開日:2024-08-18
# 一般学習者としての「なし」:言語モデルとその双対最適化

No Such Thing as a General Learner: Language models and their dual optimization ( http://arxiv.org/abs/2408.09544v1 )

ライセンス: Link先を確認
Emmanuel Chemla, Ryan M. Nefdt, (参考訳) 大規模言語モデル(LLM)は、人間の認知を理解する上で、特に言語習得の議論を伝える上で、どのような役割を果たすのか? この問題に貢献するために、まず、人間もLLMも、様々な意味で一般の学習者ではないと論じる。 我々は、特にLLMは、訓練中に最適化され(通常は言語習得と比較される)、現代のLLMも、種の自然選択に類似したプロセスによって選択された、という2つの最適化プロセスにどのように従えばよいのか、新しいケースを作る。 この観点から、LLMのパフォーマンスは、人間と類似しているか、異同しているかにかかわらず、言語に対する人間の認知バイアスの重要性についての重要な議論を、容易には見極められないと論じる。

What role can the otherwise successful Large Language Models (LLMs) play in the understanding of human cognition, and in particular in terms of informing language acquisition debates? To contribute to this question, we first argue that neither humans nor LLMs are general learners, in a variety of senses. We make a novel case for how in particular LLMs follow a dual-optimization process: they are optimized during their training (which is typically compared to language acquisition), and modern LLMs have also been selected, through a process akin to natural selection in a species. From this perspective, we argue that the performance of LLMs, whether similar or dissimilar to that of humans, does not weigh easily on important debates about the importance of human cognitive biases for language.
翻訳日:2024-08-20 18:24:47 公開日:2024-08-18
# シームレスな統合 - フェデレーションラーニングシステムにおける戦略のサンプリング

Seamless Integration: Sampling Strategies in Federated Learning Systems ( http://arxiv.org/abs/2408.09545v1 )

ライセンス: Link先を確認
Tatjana Legler, Vinit Hegiste, Martin Ruskowski, (参考訳) Federated Learning(FL)は、機械学習分野におけるパラダイムシフトであり、ローカルデータのプライバシを維持しながら、複数のデバイスにわたるモデルの分散トレーニングのためのアプローチを提供する。 しかし、FLシステムの動的性質は、潜在的に多様なデータ分散と計算能力を持つ新しいクライアントの継続的な導入によって特徴づけられ、これらの分散学習ネットワークの安定性と効率に重大な課題をもたらす。 新しいクライアントのシームレスな統合は、FLシステムの性能と堅牢性を維持および強化するために不可欠である。 本稿では,新たなクライアントを既存のFLシステムに統合することの複雑さを考察し,データの不均一性とデータ分散(独立性および同一分散性ではない)がモデルトレーニング,システム効率,スケーラビリティ,安定性に与える影響について考察する。 これらの課題にもかかわらず、新しいクライアントをFLシステムに統合することは、データの多様性を高め、学習性能を改善し、分散計算能力を活用する機会を提供する。 Gboard上の単語予測の分散最適化(かつてはフェデレートされた学習)のような他の分野のアプリケーションとは対照的に、プロダクション環境には通常少数のクライアントしか存在しない。 本稿では,システムのスケーラビリティと安定性を確保するための効果的なクライアント選択戦略とソリューションについて概説する。 光品質検査の例を用いて、実践的なアプローチに関する洞察を提供する。 結論として,新たなクライアント統合によってもたらされる課題に対処することが,分散学習ネットワークの高度化と効率化に不可欠であることが示唆された。

Federated Learning (FL) represents a paradigm shift in the field of machine learning, offering an approach for a decentralized training of models across a multitude of devices while maintaining the privacy of local data. However, the dynamic nature of FL systems, characterized by the ongoing incorporation of new clients with potentially diverse data distributions and computational capabilities, poses a significant challenge to the stability and efficiency of these distributed learning networks. The seamless integration of new clients is imperative to sustain and enhance the performance and robustness of FL systems. This paper looks into the complexities of integrating new clients into existing FL systems and explores how data heterogeneity and varying data distribution (not independent and identically distributed) among them can affect model training, system efficiency, scalability and stability. Despite these challenges, the integration of new clients into FL systems presents opportunities to enhance data diversity, improve learning performance, and leverage distributed computational power. In contrast to other fields of application such as the distributed optimization of word predictions on Gboard (where federated learning once originated), there are usually only a few clients in the production environment, which is why information from each new client becomes all the more valuable. This paper outlines strategies for effective client selection strategies and solutions for ensuring system scalability and stability. Using the example of images from optical quality inspection, it offers insights into practical approaches. In conclusion, this paper proposes that addressing the challenges presented by new client integration is crucial to the advancement and efficiency of distributed learning networks, thus paving the way for the adoption of Federated Learning in production environments.
翻訳日:2024-08-20 18:24:47 公開日:2024-08-18
# アクティブ推論による人口ベース検索の強化

Enhancing Population-based Search with Active Inference ( http://arxiv.org/abs/2408.09548v1 )

ライセンス: Link先を確認
Nassim Dehouche, Daniel Friedman, (参考訳) Active Inferenceフレームワークは、エージェントが確率論的モデルを使用して知覚的不一致を予測し、積極的に最小化する統合プロセスとして知覚とアクションをモデル化する。 補完的かつ対照的に、伝統的な人口ベースのメタヒューリスティックは、予測適応なしでは反応性のある環境相互作用に依存している。 本稿では,これらのメタヒューリスティックスへのアクティブ推論の統合を提案し,予測環境適応による性能向上を提案する。 本稿では,このアプローチを,旅行セールスマン問題(TSP)におけるAnt Colony Optimization(ACO)を用いて実証する。 実験結果から,Active Inferenceは計算コストを極端に増加させるだけで,グラフ内のノードの数とトポロジに関連する興味深い性能パターンを持つ,いくつかの改善された解が得られることが示唆された。 さらなる研究は、集団メタヒューリスティックスの様々なタイプのアクティブ推論の増大が有効である場所と時期を特徴づける。

The Active Inference framework models perception and action as a unified process, where agents use probabilistic models to predict and actively minimize sensory discrepancies. In complement and contrast, traditional population-based metaheuristics rely on reactive environmental interactions without anticipatory adaptation. This paper proposes the integration of Active Inference into these metaheuristics to enhance performance through anticipatory environmental adaptation. We demonstrate this approach specifically with Ant Colony Optimization (ACO) on the Travelling Salesman Problem (TSP). Experimental results indicate that Active Inference can yield some improved solutions with only a marginal increase in computational cost, with interesting patterns of performance that relate to number and topology of nodes in the graph. Further work will characterize where and when different types of Active Inference augmentation of population metaheuristics may be efficacious.
翻訳日:2024-08-20 18:24:47 公開日:2024-08-18
# カルザ・クライン理論におけるキラル磁気宇宙弦の回転効果

Rotation effect for chiral magnetic cosmic string in the Kaluza-Klein theory ( http://arxiv.org/abs/2408.09549v1 )

ライセンス: Link先を確認
Ricardo L. L. Vitória, Carlos F. S. Pereira, Érico V. B. Leite, Adriano R. Soares, Humberto Belich, (参考訳) 我々は、カルザ・クライン理論において回転効果を受けるカイラル宇宙弦の時空に記述されたスカラー粒子の束縛状態解について検討した。 一般化時空を記述するパラメータの組合せは、半径座標の上限と下限を課し、十分に確立された境界条件を導いた。

We have investigated bound state solutions for a scalar particle described in the spacetime of a chiral cosmic string subjected to rotational effects in a Kaluza-Klein theory. We saw that combinations between the parameters that describe the generalized spacetime impose upper and lower limits for the radial coordinate leading to well-established boundary conditions.
翻訳日:2024-08-20 18:24:47 公開日:2024-08-18
# スクリーンのテーマ:H\&E全スライド画像から高出力のパンキャンセリング遺伝子とフェノタイプバイオマーカーをスクリーニング

Screen Them All: High-Throughput Pan-Cancer Genetic and Phenotypic Biomarker Screening from H\&E Whole Slide Images ( http://arxiv.org/abs/2408.09554v1 )

ライセンス: Link先を確認
Yi Kan Wang, Ludmila Tydlitatova, Jeremy D. Kunz, Gerard Oakley, Ran A. Godrich, Matthew C. H. Lee, Chad Vanderbilt, Razik Yousfi, Thomas Fuchs, David S. Klimstra, Siqi Liu, (参考訳) 多くの分子変異は臨床診断または治療予測バイオマーカーとして機能し、典型的には単遺伝子または多遺伝子分子アッセイを用いて検出される。 しかし、これらのアッセイは高価で組織破壊性があり、完成までに数週間かかることが多い。 通常のH&E WSIにAIを使用することで、複数の分子バイオマーカーのスクリーニングを迅速かつ経済的に行うことができる。 次世代シークエンシング(NGS)アッセイで決定されたゲノム特徴を,38,984例のがん患者の47,960個のヘマトキシリンおよびエオシン全スライド画像(WSI)を用いて問うため,300万個のスライドに事前トレーニングされた基礎モデルであるVirchow2を利用した高スループットAIベースシステムを提案する。 バイオマーカーや癌の種類ごとに個別のモデルを訓練する従来の手法とは異なり、我々のシステムは、がんの種類にまたがる幅広い臨床的に関連する分子バイオマーカーを同時に予測するために統一されたモデルを採用している。 ネットワークをトレーニングし、505遺伝子のMSK-IMPACT標的バイオマーカーパネルを再現することで、最も一般的な15種類のがんにおいて平均0.89のAU-ROCを持つハイパフォーマンスバイオマーカー80を同定した。 さらに40名のバイオマーカーが特定の癌組織学的サブタイプと強い関連性を示した。 さらに, 治療選択と反応予測のために臨床検査を頻繁に行ったターゲットには, 58種類のバイオマーカーが関与していた。 このモデルはまた、5つの標準シグナル伝達経路の活性を予測し、DNA修復機構の欠陥を特定し、腫瘍突然変異の負担、マイクロサテライト不安定(MSI)、染色体不安定(CIN)によって測定されたゲノム不安定を予測できる。 提案モデルでは,治療選択のガイド,治療効果の向上,臨床試験の患者スクリーニングの促進,新たな治療対象の取調べの促進が期待できる。

Many molecular alterations serve as clinically prognostic or therapy-predictive biomarkers, typically detected using single or multi-gene molecular assays. However, these assays are expensive, tissue destructive and often take weeks to complete. Using AI on routine H&E WSIs offers a fast and economical approach to screen for multiple molecular biomarkers. We present a high-throughput AI-based system leveraging Virchow2, a foundation model pre-trained on 3 million slides, to interrogate genomic features previously determined by an next-generation sequencing (NGS) assay, using 47,960 scanned hematoxylin and eosin (H&E) whole slide images (WSIs) from 38,984 cancer patients. Unlike traditional methods that train individual models for each biomarker or cancer type, our system employs a unified model to simultaneously predict a wide range of clinically relevant molecular biomarkers across cancer types. By training the network to replicate the MSK-IMPACT targeted biomarker panel of 505 genes, it identified 80 high performing biomarkers with a mean AU-ROC of 0.89 in 15 most common cancer types. In addition, 40 biomarkers demonstrated strong associations with specific cancer histologic subtypes. Furthermore, 58 biomarkers were associated with targets frequently assayed clinically for therapy selection and response prediction. The model can also predict the activity of five canonical signaling pathways, identify defects in DNA repair mechanisms, and predict genomic instability measured by tumor mutation burden, microsatellite instability (MSI), and chromosomal instability (CIN). The proposed model can offer potential to guide therapy selection, improve treatment efficacy, accelerate patient screening for clinical trials and provoke the interrogation of new therapeutic targets.
翻訳日:2024-08-20 18:24:47 公開日:2024-08-18
# フェデレートラーニングにおける不均一性への取り組み--共有生産環境への挑戦と解決策

Addressing Heterogeneity in Federated Learning: Challenges and Solutions for a Shared Production Environment ( http://arxiv.org/abs/2408.09556v1 )

ライセンス: Link先を確認
Tatjana Legler, Vinit Hegiste, Ahmed Anwar, Martin Ruskowski, (参考訳) フェデレートラーニング(FL)は、特に製造および共有生産環境において、データのプライバシを保ちながら、分散化されたデータソース間で機械学習モデルをトレーニングするための有望なアプローチとして登場した。 しかし、データ分散、品質、および異なるクライアントやプロダクションサイトにわたるボリュームにおけるデータ不均一性の存在は、FLの有効性と効率に重大な課題をもたらす。 本稿では,非独立で同一に分布する(非IID)データ,不均衡なデータ,可変データ品質,統計的不均一性など,不均一性の種類と源泉を概観する。 本稿では,これらの異種性がモデルトレーニングに与える影響について論じるとともに,その悪影響を緩和するための現在の手法を概観する。 これらの手法には、パーソナライズされたカスタマイズされたモデル、ロバストアグリゲーション技術、クライアント選択技術が含まれる。 本稿では,既存の研究を合成し,新たな戦略を提案することにより,FLにおけるデータ不均一性を効果的に管理し,モデルロバスト性を高め,多様な環境における公正かつ効率的なトレーニングを確保するための洞察を提供することを目的とする。 今後の研究方向も特定され、産業4.0の文脈でFLパラダイムをさらに改善するために適応的でスケーラブルなソリューションの必要性が強調された。

Federated learning (FL) has emerged as a promising approach to training machine learning models across decentralized data sources while preserving data privacy, particularly in manufacturing and shared production environments. However, the presence of data heterogeneity variations in data distribution, quality, and volume across different or clients and production sites, poses significant challenges to the effectiveness and efficiency of FL. This paper provides a comprehensive overview of heterogeneity in FL within the context of manufacturing, detailing the types and sources of heterogeneity, including non-independent and identically distributed (non-IID) data, unbalanced data, variable data quality, and statistical heterogeneity. We discuss the impact of these types of heterogeneity on model training and review current methodologies for mitigating their adverse effects. These methodologies include personalized and customized models, robust aggregation techniques, and client selection techniques. By synthesizing existing research and proposing new strategies, this paper aims to provide insight for effectively managing data heterogeneity in FL, enhancing model robustness, and ensuring fair and efficient training across diverse environments. Future research directions are also identified, highlighting the need for adaptive and scalable solutions to further improve the FL paradigm in the context of Industry 4.0.
翻訳日:2024-08-20 18:14:04 公開日:2024-08-18
# モーフィング検出用自動印刷・スキャンテクスチャの生成

Generating Automatically Print/Scan Textures for Morphing Attack Detection Applications ( http://arxiv.org/abs/2408.09558v1 )

ライセンス: Link先を確認
Juan E. Tapia, Maximilian Russo, Christoph Busch, (参考訳) モルフィング攻撃検出(英: Morphing Attack Detection、MAD)は、無許可の個人による「無効」なアイデンティティへのアクセスの試みを検出することを目的とした、関連するトピックである。 主なシナリオの1つは、モルヒネ画像を印刷し、パスポートアプリケーションプロセスで各プリントを送信することである。 今日では、プライバシー上の懸念と、大量の画像の印刷とスキャンに関わる労力による制限のために、MADアルゴリズムをトレーニングするための小さなデータセットが提供されている。 このようなモーフィング攻撃を検知し検出するためには、パスポートアプリケーションシナリオを表すより大きな、より現実的なデータセットと、デバイスやプリントされたスキャンされた画像、圧縮された画像の多様性を備える必要がある。 トレーニング資料を手作業で開発するため,攻撃の多様性を表すトレーニングデータの作成は非常に要求の多い作業である。 本稿では,デジタル印刷/スキャン顔画像の自動生成と,モーフィング攻撃検出アルゴリズムの訓練における2つの異なる手法を提案する。 提案手法は,600dpiの合成およびテクスチャトランスファー印刷/スキャンを手作り画像に含めると,FRGC/FERETデータベース上で3.84%,1.92%の誤差率(EER)に達することができる。

Morphing Attack Detection (MAD) is a relevant topic that aims to detect attempts by unauthorised individuals to access a "valid" identity. One of the main scenarios is printing morphed images and submitting the respective print in a passport application process. Today, small datasets are available to train the MAD algorithm because of privacy concerns and the limitations resulting from the effort associated with the printing and scanning of images at large numbers. In order to improve the detection capabilities and spot such morphing attacks, it will be necessary to have a larger and more realistic dataset representing the passport application scenario with the diversity of devices and the resulting printed scanned or compressed images. Creating training data representing the diversity of attacks is a very demanding task because the training material is developed manually. This paper proposes two different methods based on transfer-transfer for automatically creating digital print/scan face images and using such images in the training of a Morphing Attack Detection algorithm. Our proposed method can reach an Equal Error Rate (EER) of 3.84% and 1.92% on the FRGC/FERET database when including our synthetic and texture-transfer print/scan with 600 dpi to handcrafted images, respectively.
翻訳日:2024-08-20 18:14:04 公開日:2024-08-18
# HiAgent: 大規模言語モデルによる長距離エージェントタスク解決のための階層型ワーキングメモリ管理

HiAgent: Hierarchical Working Memory Management for Solving Long-Horizon Agent Tasks with Large Language Model ( http://arxiv.org/abs/2408.09559v1 )

ライセンス: Link先を確認
Mengkang Hu, Tianxing Chen, Qiguang Chen, Yao Mu, Wenqi Shao, Ping Luo, (参考訳) 大規模言語モデル(LLM)をベースとしたエージェントは、環境観測を処理し、目的のタスクに対して実行可能なアクションを生成するインタラクティブシステムとして機能し、様々な領域において大きなポテンシャルを示す。 これらのエージェントの有効性は、過去の経験をアクション・オブザーブレーション・ペアのシーケンスとして記録する記憶機構に大きく影響されている。 メモリは、複数の試行にまたがって蓄積されるクロス・トライアルメモリと、単一の試行に蓄積されるイン・トライアルメモリ(ワークメモリ)の2つのタイプに分類される。 多くの研究が心房間メモリにより性能を最適化しているが、作業メモリ利用の改善によるエージェント性能の向上はいまだに未調査である。 代わりに、既存のアプローチでは、歴史的アクション・オブザーブレーションペア全体をLSMに直接入力することが多く、長い水平タスクの冗長性をもたらす。 本稿では,人間の問題解決戦略に触発されて,サブゴールをメモリチャンクとして活用し,LLMエージェントの動作メモリを階層的に管理するフレームワークであるHiAgentを紹介する。 特に、HiAgentは、実行可能アクションを生成する前にLDMにサブゴールを定式化するよう促し、LCMが既存のサブゴールを要約された観察で積極的に置き換えることを可能にし、現在のサブゴールに関連するアクション・オブザーブレーションペアのみを保持する。 5つの長期タスクに対する実験結果から、HiAgentは成功率を2倍に向上し、平均ステップ数を3.8に削減することを示した。 さらに、分析の結果、HiAgentはさまざまなステップにわたるパフォーマンスを一貫して改善し、その堅牢性と一般化性を強調しています。 Project Page: https://github.com/HiAgent2024/HiAgent

Large Language Model (LLM)-based agents exhibit significant potential across various domains, operating as interactive systems that process environmental observations to generate executable actions for target tasks. The effectiveness of these agents is significantly influenced by their memory mechanism, which records historical experiences as sequences of action-observation pairs. We categorize memory into two types: cross-trial memory, accumulated across multiple attempts, and in-trial memory (working memory), accumulated within a single attempt. While considerable research has optimized performance through cross-trial memory, the enhancement of agent performance through improved working memory utilization remains underexplored. Instead, existing approaches often involve directly inputting entire historical action-observation pairs into LLMs, leading to redundancy in long-horizon tasks. Inspired by human problem-solving strategies, this paper introduces HiAgent, a framework that leverages subgoals as memory chunks to manage the working memory of LLM-based agents hierarchically. Specifically, HiAgent prompts LLMs to formulate subgoals before generating executable actions and enables LLMs to decide proactively to replace previous subgoals with summarized observations, retaining only the action-observation pairs relevant to the current subgoal. Experimental results across five long-horizon tasks demonstrate that HiAgent achieves a twofold increase in success rate and reduces the average number of steps required by 3.8. Additionally, our analysis shows that HiAgent consistently improves performance across various steps, highlighting its robustness and generalizability. Project Page: https://github.com/HiAgent2024/HiAgent .
翻訳日:2024-08-20 18:14:04 公開日:2024-08-18
# 量子機械学習におけるセキュリティ問題

Security Concerns in Quantum Machine Learning as a Service ( http://arxiv.org/abs/2408.09562v1 )

ライセンス: Link先を確認
Satwik Kundu, Swaroop Ghosh, (参考訳) 量子機械学習(Quantum Machine Learning、QML)は、変分量子回路(VQC)を用いて機械学習タスクに取り組むアルゴリズムのカテゴリである。 近年の研究では、限られたトレーニングデータサンプルからQMLモデルを効果的に一般化できることが示されている。 この能力は、現実的な課題に対処するためにこれらのモデルをデプロイすることへの関心が高まり、量子機械学習・アズ・ア・サービス(QMLaaS)が出現した。 QMLaaSは、古典的および量子コンピューティングリソースの両方を利用するハイブリッドモデルである。 古典的コンピュータはこのセットアップにおいて重要な役割を担い、量子ハードウェアの現在の限界を補うために、初期前処理とその後のデータの後処理を扱う。 これは新しい分野であるため、古典的および量子機械学習の領域における既知のセキュリティ脅威の文脈において、QMLaaSの全体像を描くための作業はほとんどない。 このSoK論文は、トレーニングフェーズと推論フェーズの両方を含む完全なQMLaaSワークフローの概要と、信頼できない古典的あるいは量子的プロバイダに関わる重要なセキュリティ上の懸念を強調することで、このギャップを埋めることを目的としている。 QMLモデルには、モデルアーキテクチャ、トレーニング/テストデータ、エンコーディング技術、トレーニングされたパラメータなど、いくつかの機密性の高い資産が含まれている。 これらのコンポーネントへの不正アクセスはモデルの整合性を損なう可能性があり、知的財産権(IP)の盗難につながる。 セキュアなQMLaaSデプロイメントの道を開くために考慮すべき重要なセキュリティ問題に注意を払っています。

Quantum machine learning (QML) is a category of algorithms that employ variational quantum circuits (VQCs) to tackle machine learning tasks. Recent discoveries have shown that QML models can effectively generalize from limited training data samples. This capability has sparked increased interest in deploying these models to address practical, real-world challenges, resulting in the emergence of Quantum Machine Learning as a Service (QMLaaS). QMLaaS represents a hybrid model that utilizes both classical and quantum computing resources. Classical computers play a crucial role in this setup, handling initial pre-processing and subsequent post-processing of data to compensate for the current limitations of quantum hardware. Since this is a new area, very little work exists to paint the whole picture of QMLaaS in the context of known security threats in the domain of classical and quantum machine learning. This SoK paper is aimed to bridge this gap by outlining the complete QMLaaS workflow, which encompasses both the training and inference phases and highlighting significant security concerns involving untrusted classical or quantum providers. QML models contain several sensitive assets, such as the model architecture, training/testing data, encoding techniques, and trained parameters. Unauthorized access to these components could compromise the model's integrity and lead to intellectual property (IP) theft. We pinpoint the critical security issues that must be considered to pave the way for a secure QMLaaS deployment.
翻訳日:2024-08-20 18:14:04 公開日:2024-08-18
# 文法的誤りフィードバック:帰納的評価アプローチ

Grammatical Error Feedback: An Implicit Evaluation Approach ( http://arxiv.org/abs/2408.09565v1 )

ライセンス: Link先を確認
Stefano Bannò, Kate Knill, Mark J. F. Gales, (参考訳) 文法的フィードバックは第二言語(L2)学習の統合に不可欠である。 コンピュータ支援言語学習におけるほとんどの研究は、学習者にとってより有用な総合的なフィードバックを調べるのではなく、文法的誤り訂正(GEC)システムによるフィードバックに焦点を当てている。 この総合的なフィードバックは、文法的エラーフィードバック(GEF)と呼ばれる。 本稿では,手動フィードバックアノテーションの必要性を解消する,新たな暗黙的評価手法を提案する。 提案手法では,一組の代替案からフィードバックとエッセイのペア化を行う。 このマッチング処理は、大言語モデル(LLM)を適切にプロンプトすることで行うことができる。 ここで探求されたこの過程の重要な側面は、ラインアップの形式、すなわちホイルの選択である。 本稿では,ケンブリッジ・ラーナー・コーパスのエッセイを用いて,フィードバック生成のためのGECの質と必要性,およびフィードバック生成システムについて検討する。

Grammatical feedback is crucial for consolidating second language (L2) learning. Most research in computer-assisted language learning has focused on feedback through grammatical error correction (GEC) systems, rather than examining more holistic feedback that may be more useful for learners. This holistic feedback will be referred to as grammatical error feedback (GEF). In this paper, we present a novel implicit evaluation approach to GEF that eliminates the need for manual feedback annotations. Our method adopts a grammatical lineup approach where the task is to pair feedback and essay representations from a set of possible alternatives. This matching process can be performed by appropriately prompting a large language model (LLM). An important aspect of this process, explored here, is the form of the lineup, i.e., the selection of foils. This paper exploits this framework to examine the quality and need for GEC to generate feedback, as well as the system used to generate feedback, using essays from the Cambridge Learner Corpus.
翻訳日:2024-08-20 18:14:03 公開日:2024-08-18
# GCNと逐次残差接続によるASL認識の強化

Enhancing ASL Recognition with GCNs and Successive Residual Connections ( http://arxiv.org/abs/2408.09567v1 )

ライセンス: Link先を確認
Ushnish Sarkar, Archisman Chakraborti, Tapas Samanta, Sarbajit Pal, Amitabha Das, (参考訳) 本研究では,連続的な接続と統合されたグラフ畳み込みネットワーク(GCN)を用いて,アメリカ手話(ASL)認識を強化する新しい手法を提案する。 この手法はMediaPipeフレームワークを利用して各手ジェスチャーからキーランドマークを抽出し、グラフ表現を構築する。 翻訳およびスケール正規化テクニックを含む堅牢な前処理パイプラインは、データセット全体の一貫性を保証する。 構築されたグラフは、ネットワーク安定性を改善するための残差接続を備えたGCNベースのニューラルネットワークアーキテクチャにフィードされる。 このアーキテクチャは最先端の結果を達成し、99.14%の精度で優れた一般化能力を示す。

This study presents a novel approach for enhancing American Sign Language (ASL) recognition using Graph Convolutional Networks (GCNs) integrated with successive residual connections. The method leverages the MediaPipe framework to extract key landmarks from each hand gesture, which are then used to construct graph representations. A robust preprocessing pipeline, including translational and scale normalization techniques, ensures consistency across the dataset. The constructed graphs are fed into a GCN-based neural architecture with residual connections to improve network stability. The architecture achieves state-of-the-art results, demonstrating superior generalization capabilities with a validation accuracy of 99.14%.
翻訳日:2024-08-20 18:14:03 公開日:2024-08-18
# MergeRepair: 自動プログラム修復のためのコードLLMにおけるタスク特化アダプタの統合に関する探索的研究

MergeRepair: An Exploratory Study on Merging Task-Specific Adapters in Code LLMs for Automated Program Repair ( http://arxiv.org/abs/2408.09568v1 )

ライセンス: Link先を確認
Meghdad Dehghan, Jie JW Wu, Fatemeh H. Fard, Ali Ouni, (参考訳) [コンテキスト]大規模言語モデル(LLM)は、プログラムの修復、ドキュメント、コードリファクタリング、デバッグ、テストなど、いくつかのソフトウェア開発関連のタスクで優れたパフォーマンスを示しています。 アダプタは、特定のタスク、ドメイン、あるいはアプリケーションに対してLLMのパラメータ効率の良い微調整のために、モデル全体を広範囲に再トレーニングすることなく設計された、特殊な小さなモジュールである。 これらのアダプタは、大型モデルの既存の機能を活用して、特定のニーズに合わせてLLMをカスタマイズするより効率的な方法を提供する。 LLMとアダプタを組み合わせることで、さまざまな自然言語ドメインやタスクに対して有望な結果が得られ、学習したモデルやアダプタを新しいタスクのために追加のトレーニングなしで使用することが可能になった。 [目的]本研究は,APR(Automated Program repair)タスクにおいて,コードLLMにおけるマージアダプタの機能について,連続的なマージと実証的研究を提案する。 目標は、タスク固有のアダプタのマージがAPRのパフォーマンスに与える影響について、洞察を得ることである。 [方法]我々のフレームワークであるMergeRepairでは、3つの異なるマージ手法を用いて複数のタスク固有のアダプタをマージし、APRタスクのマージアダプタの性能を評価する計画を立てています。 特に、3つのテクニックすべてに2つの主要なマージシナリオを使用します。 一 すべてのアダプタが同じ重要性を持つ異なるアダプタのパラメータに適用された等重量平均によるマージ i) 提案手法である継続マージでは,タスク固有のアダプタとマージしたアダプタの順序と重みを逐次マージする。 マージ手法の探索的研究により,APR用マージアダプタの改良と一般化性について検討する。 連続的なマージを通じて、実際のソフトウェアプロジェクトで発生するように、マージアダプタの能力とタスク順序の影響について検討する。

[Context] Large Language Models (LLMs) have shown good performance in several software development-related tasks such as program repair, documentation, code refactoring, debugging, and testing. Adapters are specialized, small modules designed for parameter efficient fine-tuning of LLMs for specific tasks, domains, or applications without requiring extensive retraining of the entire model. These adapters offer a more efficient way to customize LLMs for particular needs, leveraging the pre-existing capabilities of the large model. Merging LLMs and adapters has shown promising results for various natural language domains and tasks, enabling the use of the learned models and adapters without additional training for a new task. [Objective] This research proposes continual merging and empirically studies the capabilities of merged adapters in Code LLMs, specially for the Automated Program Repair (APR) task. The goal is to gain insights into whether and how merging task-specific adapters can affect the performance of APR. [Method] In our framework, MergeRepair, we plan to merge multiple task-specific adapters using three different merging methods and evaluate the performance of the merged adapter for the APR task. Particularly, we will employ two main merging scenarios for all three techniques, (i) merging using equal-weight averaging applied on parameters of different adapters, where all adapters are of equal importance; and (ii) our proposed approach, continual merging, in which we sequentially merge the task-specific adapters and the order and weight of merged adapters matter. By exploratory study of merging techniques, we will investigate the improvement and generalizability of merged adapters for APR. Through continual merging, we will explore the capability of merged adapters and the effect of task order, as it occurs in real-world software projects.
翻訳日:2024-08-20 18:14:03 公開日:2024-08-18
# モデルのバイアス発見フレームワーク「Some My Name」

Say My Name: a Model's Bias Discovery Framework ( http://arxiv.org/abs/2408.09570v1 )

ライセンス: Link先を確認
Massimiliano Ciranni, Luca Molinaro, Carlo Alberto Barbano, Attilio Fiandrotti, Vittorio Murino, Vito Paolo Pastore, Enzo Tartaglione, (参考訳) ここ数年、下流タスクへのディープラーニングの適用性とエンドツーエンドのトレーニング能力により、特定の非表現パターンに対する潜在的なバイアスに対する懸念がますます高まっている。 教師なしの偏見に焦点をあてる多くの研究は、例えば、バイアスの擬似ラベルを得るために潜伏空間をクラスタ化することによって、'easier'サンプルを学ぶために、ディープモデルの傾向を利用する。 しかし、そのような擬似ラベルの解釈は、特に非専門家のエンドユーザーにとっては、バイアスの特徴に関する意味情報を提供しないため、簡単ではない。 この問題に対処するために、深層モデルのバイアスを意味的に識別する最初のツールである`Say My Name'' (SaMyNa)を紹介します。 既存の方法とは異なり、私たちのアプローチはモデルによって学習されたバイアスに焦点を当てています。 我々のテキストベースのパイプラインは、説明可能性を高め、デバイアス化の取り組みをサポートする。トレーニングまたはポストホックバリデーションのいずれにおいても、タスク関連の情報をアンタングルし、偏見を解析するためのツールとしてそれ自身を提案する。 従来のベンチマークによる評価は、バイアスを検出したり、それを破棄する効果を示し、モデル診断に広く適用可能であることを示している。

In the last few years, due to the broad applicability of deep learning to downstream tasks and end-to-end training capabilities, increasingly more concerns about potential biases to specific, non-representative patterns have been raised. Many works focusing on unsupervised debiasing usually leverage the tendency of deep models to learn ``easier'' samples, for example by clustering the latent space to obtain bias pseudo-labels. However, the interpretation of such pseudo-labels is not trivial, especially for a non-expert end user, as it does not provide semantic information about the bias features. To address this issue, we introduce ``Say My Name'' (SaMyNa), the first tool to identify biases within deep models semantically. Unlike existing methods, our approach focuses on biases learned by the model. Our text-based pipeline enhances explainability and supports debiasing efforts: applicable during either training or post-hoc validation, our method can disentangle task-related information and proposes itself as a tool to analyze biases. Evaluation on traditional benchmarks demonstrates its effectiveness in detecting biases and even disclaiming them, showcasing its broad applicability for model diagnosis.
翻訳日:2024-08-20 18:14:03 公開日:2024-08-18
# PhysBERT:物理科学研究のためのテキスト埋め込みモデル

PhysBERT: A Text Embedding Model for Physics Scientific Literature ( http://arxiv.org/abs/2408.09574v1 )

ライセンス: Link先を確認
Thorsten Hellert, João Montenegro, Andrea Pollastro, (参考訳) 物理学における特殊言語と複雑な概念は、自然言語処理(NLP)を通して情報抽出に重大な課題をもたらす。 有効なNLPアプリケーションの中心はテキスト埋め込みモデルであり、テキストを高密度なベクトル表現に変換して効率的な情報検索と意味解析を行う。 本稿では,最初の物理固有テキスト埋め込みモデルであるPhysBERTを紹介する。 120万のarXiv物理論文のキュレートされたコーパスで事前訓練され、教師付きデータで微調整されたPhysBERTは、特定の物理サブドメインに対する微調整の有効性を含む、物理学固有のタスクに関する一般的なモデルにおいて、主要な汎用モデルよりも優れています。

The specialized language and complex concepts in physics pose significant challenges for information extraction through Natural Language Processing (NLP). Central to effective NLP applications is the text embedding model, which converts text into dense vector representations for efficient information retrieval and semantic analysis. In this work, we introduce PhysBERT, the first physics-specific text embedding model. Pre-trained on a curated corpus of 1.2 million arXiv physics papers and fine-tuned with supervised data, PhysBERT outperforms leading general-purpose models on physics-specific tasks including the effectiveness in fine-tuning for specific physics subdomains.
翻訳日:2024-08-20 18:14:03 公開日:2024-08-18
# マルコフ確率場多モード変分オートエンコーダ

A Markov Random Field Multi-Modal Variational AutoEncoder ( http://arxiv.org/abs/2408.09576v1 )

ライセンス: Link先を確認
Fouad Oubari, Mohamed El Baha, Raphael Meunier, Rodrigue Décatoire, Mathilde Mougeot, (参考訳) マルチモーダル変分オートエンコーダ(VAE)の最近の進歩は、複数のモーダルから複雑なデータをモデル化する可能性を強調している。 しかし、既存の多くのアプローチでは、異なるモジュラリティの間に存在する複雑なダイナミクスを完全に捉えない比較的単純な集約スキームを使用している。 この研究は、マルコフランダム場(MRF)を前と後の両方の分布に組み込む新しいマルチモーダルVAEを導入する。 この統合は、複雑なモーダル間相互作用をより効果的に捉えることを目的としている。 従来のモデルとは異なり、我々のアプローチはこれらの関係の複雑さをモデル化し、活用することを目的としており、マルチモーダルデータのより忠実な表現を可能にしている。 本実験は,本モデルが標準のPolyMNISTデータセット上で競合的に動作することを示し,複雑な関係性をテストすることを意図した,特別に設計された合成データセットにおいて,複雑な相互依存を管理する上で優れた性能を示す。

Recent advancements in multimodal Variational AutoEncoders (VAEs) have highlighted their potential for modeling complex data from multiple modalities. However, many existing approaches use relatively straightforward aggregating schemes that may not fully capture the complex dynamics present between different modalities. This work introduces a novel multimodal VAE that incorporates a Markov Random Field (MRF) into both the prior and posterior distributions. This integration aims to capture complex intermodal interactions more effectively. Unlike previous models, our approach is specifically designed to model and leverage the intricacies of these relationships, enabling a more faithful representation of multimodal data. Our experiments demonstrate that our model performs competitively on the standard PolyMNIST dataset and shows superior performance in managing complex intermodal dependencies in a specially designed synthetic dataset, intended to test intricate relationships.
翻訳日:2024-08-20 18:14:03 公開日:2024-08-18
# 量子ウォークによる二次元量子中心極限定理

Two dimensional quantum central limit theorem by quantum walks ( http://arxiv.org/abs/2408.09578v1 )

ライセンス: Link先を確認
Keisuke Asahara, Daiju Funakawa, Motoki Seki, Akito Suzuki, (参考訳) ランダムウォークの量子対数と呼ばれる数学的モデルである量子ウォークは、近年量子コンピューティングの発展とともに大きな注目を集めている。 量子ウォークの弱極限定理は、ランダムウォークの中央極限定理に類似しており、この分野で最も重要な定理の1つである。 本研究では,2次元2乗格子上の2状態離散時間量子ウォークの弱極限定理について検討した。 その結果、2つの楕円の交叉を支えている2次元確率分布を導出した。 得られた確率分布は、2次元に特有の特異な形式を持ちながら、1次元の量子ウォークの分布に類似している。

Quantum walks, mathematical models referred to as the quantum counterparts of random walks, have garnered significant attention in recent years with the advancement of quantum computing. The weak limit theorem for quantum walks, analogous to the central limit theorem for random walks, is one of the most important theorems in this field. In this study, we investigated the weak limit theorem for a two-state discrete-time quantum walk on a two-dimensional square lattice. As a result, we derived a two-dimensional probability distribution whose support is the intersection of two ellipses. The probability distribution we obtained resembles the distribution of one-dimensional quantum walks while possessing a unique form specific to two dimensions.
翻訳日:2024-08-20 18:14:03 公開日:2024-08-18
# 単一量子状態相関のための局所決定論的モデルの一家系

A Family of Local Deterministic Models for Singlet Quantum State Correlations ( http://arxiv.org/abs/2408.09579v1 )

ライセンス: Link先を確認
E. Aldo Arroyo, (参考訳) 本研究はベルの定理における測定独立性の仮定を緩和するために、粒子の調製と測定設定の両方を考慮に入れた局所決定論モデルの新たなクラスを導入する。 我々のモデルは、緩和された測定独立性の仮定の下で量子力学的予測を再現し、測定設定の統計的独立性は、基礎となる相関を必ずしも妨げないことを示す。 我々の発見は、局所決定論と量子力学の微妙な関係を強調し、量子相関と隠れ変数の性質に関する新たな洞察を提供する。

This work investigates the implications of relaxing the measurement independence assumption in Bell's theorem by introducing a new class of local deterministic models that account for both particle preparation and measurement settings. Our model reproduces the quantum mechanical predictions under the assumption of relaxed measurement independence, demonstrating that the statistical independence of measurement settings does not necessarily preclude underlying correlations. Our findings highlight the nuanced relationship between local determinism and quantum mechanics, offering new insights into the nature of quantum correlations and hidden variables.
翻訳日:2024-08-20 18:14:03 公開日:2024-08-18
# ゴール指向ベイズ最適設計への準自由アプローチ

A Likelihood-Free Approach to Goal-Oriented Bayesian Optimal Experimental Design ( http://arxiv.org/abs/2408.09582v1 )

ライセンス: Link先を確認
Atlanta Chakraborty, Xun Huan, Tommie Catanach, (参考訳) ベイズ最適設計は、モデルパラメータの期待情報ゲイン(EIG)を最大化する。 しかし、実験の最終目標はモデルパラメータを学習するのではなく、学習したパラメータに依存する下流の関心量(QoIs)を予測することである。 また、パラメータに対して高いEIGを提供する設計は、QoIに対して高いEIGに変換できない可能性がある。 したがって、ゴール指向最適実験設計(GO-OED)はQoIのEIGを最大化する。 本稿では,非線形観測および予測モデルを用いたGO-OEDの計算方法であるLF-GO-OED(likelihood-free goal-oriented optimal experiment design)を紹介する。 LF-GO-OEDは暗黙のモデルに対応するように設計されている。 特に、近似ベイズ計算(ABC)から得られたサンプルから密度比推定器を構築し、確率評価や密度推定の必要性をサイドステッピングする。 本手法は既存の方法によるベンチマーク問題に基づいて検証され,疫学および神経科学の科学的応用について実証された。

Conventional Bayesian optimal experimental design seeks to maximize the expected information gain (EIG) on model parameters. However, the end goal of the experiment often is not to learn the model parameters, but to predict downstream quantities of interest (QoIs) that depend on the learned parameters. And designs that offer high EIG for parameters may not translate to high EIG for QoIs. Goal-oriented optimal experimental design (GO-OED) thus directly targets to maximize the EIG of QoIs. We introduce LF-GO-OED (likelihood-free goal-oriented optimal experimental design), a computational method for conducting GO-OED with nonlinear observation and prediction models. LF-GO-OED is specifically designed to accommodate implicit models, where the likelihood is intractable. In particular, it builds a density ratio estimator from samples generated from approximate Bayesian computation (ABC), thereby sidestepping the need for likelihood evaluations or density estimations. The overall method is validated on benchmark problems with existing methods, and demonstrated on scientific applications of epidemiology and neural science.
翻訳日:2024-08-20 18:14:03 公開日:2024-08-18
# 畳み込み条件ニューラルプロセス

Convolutional Conditional Neural Processes ( http://arxiv.org/abs/2408.09583v1 )

ライセンス: Link先を確認
Wessel P. Bruinsma, (参考訳) ニューラルプロセスは、データセットから予測へのマップを直接パラメータ化するためにニューラルネットワークを使用するモデルのファミリーである。 このマップを直接パラメトリすることで、ニューラルネットワークが伝統的に過度に適合する小さなデータ問題において、表現型ニューラルネットワークの使用が可能になる。 ニューラルプロセスは、よく校正された不確実性を生成し、効果的に欠落したデータを扱うことができ、訓練も簡単である。 これらの特性は、医療や環境科学といった応用分野の幅広い分野にアピールするモデルである。 この理論は神経過程を3つの方法で前進させる。 まず,畳み込みニューラルプロセス(ConvNP)を提案する。 ConvNPは、翻訳等価性と呼ばれる対称性を構築することにより、ニューラルプロセスのデータ効率を向上させる。 ConvNPは多層パーセプトロンではなく畳み込みニューラルネットワークに依存している。 次に,ガウスニューラルプロセス(GNP)を提案する。 GNPは神経過程の予測において依存関係を直接パラメライズする。 予測における依存関係のモデリングに対する現在のアプローチは、従って近似推論を必要とする潜伏変数に依存し、アプローチの単純さを損なう。 第3に,自己回帰型条件付きニューラルプロセス(AR CNP)を提案する。 AR CNPは、モデルやトレーニング手順を変更することなく、ニューラルネットワークをトレーニングし、テスト時には、自己回帰的な方法でモデルをロールアウトする。 AR CNPはニューラルプロセスフレームワークに新しいノブを装備し、トレーニング時に複雑性と計算コストをモデル化し、テスト時に計算コストと交換することができる。 方法論的な進歩に加えて、この論文は、ニューラルプロセスを実装するための構成的アプローチを可能にするソフトウェア抽象化も提案している。 このアプローチにより、ユーザーは基本的なビルディングブロックを異なる方法で組み立てることで、ニューラルネットワークモデルの空間を迅速に探索することができる。

Neural processes are a family of models which use neural networks to directly parametrise a map from data sets to predictions. Directly parametrising this map enables the use of expressive neural networks in small-data problems where neural networks would traditionally overfit. Neural processes can produce well-calibrated uncertainties, effectively deal with missing data, and are simple to train. These properties make this family of models appealing for a breadth of applications areas, such as healthcare or environmental sciences. This thesis advances neural processes in three ways. First, we propose convolutional neural processes (ConvNPs). ConvNPs improve data efficiency of neural processes by building in a symmetry called translation equivariance. ConvNPs rely on convolutional neural networks rather than multi-layer perceptrons. Second, we propose Gaussian neural processes (GNPs). GNPs directly parametrise dependencies in the predictions of a neural process. Current approaches to modelling dependencies in the predictions depend on a latent variable, which consequently requires approximate inference, undermining the simplicity of the approach. Third, we propose autoregressive conditional neural processes (AR CNPs). AR CNPs train a neural process without any modifications to the model or training procedure and, at test time, roll out the model in an autoregressive fashion. AR CNPs equip the neural process framework with a new knob where modelling complexity and computational expense at training time can be traded for computational expense at test time. In addition to methodological advancements, this thesis also proposes a software abstraction that enables a compositional approach to implementing neural processes. This approach allows the user to rapidly explore the space of neural process models by putting together elementary building blocks in different ways.
翻訳日:2024-08-20 18:14:03 公開日:2024-08-18
# 極端分類における欠落ラベルの緩和のための世界知識の必要性について

On the Necessity of World Knowledge for Mitigating Missing Labels in Extreme Classification ( http://arxiv.org/abs/2408.09585v1 )

ライセンス: Link先を確認
Jatin Prakash, Anirudh Buvanesh, Bishal Santra, Deepak Saini, Sachin Yadav, Jian Jiao, Yashoteja Prabhu, Amit Sharma, Manik Varma, (参考訳) Extreme Classification (XC) は、クエリを非常に大きなドキュメントセットから最も関連性の高いドキュメントにマッピングすることを目的としている。 現実世界のアプリケーションで使用されるXCアルゴリズムは、ユーザクリックのような暗黙のフィードバックから算出されたデータセットからこのマッピングを学ぶ。 しかし、これらのデータセットは必然的にラベルの欠落に悩まされる。 本研究では,体系的なラベルの欠落が知識の欠如を招き,クエリとドキュメントの関連性を正確にモデル化するために重要であることを観察する。 我々は,この知識の欠如が,トレーニングデータセットにのみ依存する確率重み付けやデータ計算戦略といった既存の手法では回復できないことを正式に示している。 LLMは不足する知識を増強するための魅力的なソリューションを提供するが、低レイテンシ要件と大きなドキュメントセットを持つアプリケーションでそれらを活用することは難しい。 SKIM (Scalable Knowledge Infusion for Missing Labels) は,少人数のLMと豊富な非構造化メタデータを組み合わせることで,不足ラベル問題を効果的に軽減するアルゴリズムである。 本研究では,人間のアノテーションから産業環境にインスパイアされたシミュレーションに至るまで,大規模公開データセットに対する提案手法の有効性を示す。 SKIMはRecall@100の既存のメソッドを10以上の絶対点で上回る。 さらに、SKIMは1000万のドキュメントを含むプロプライエタリなクエリアド検索データセットにスケールし、現在の手法をオフライン評価で12%上回り、人気のある検索エンジン上で行われたオンラインA/Bテストでは、広告クリック収率を1.23%上回った。 コード、プロンプト、訓練されたXCモデル、微調整されたSLMは以下の通りです。

Extreme Classification (XC) aims to map a query to the most relevant documents from a very large document set. XC algorithms used in real-world applications learn this mapping from datasets curated from implicit feedback, such as user clicks. However, these datasets inevitably suffer from missing labels. In this work, we observe that systematic missing labels lead to missing knowledge, which is critical for accurately modelling relevance between queries and documents. We formally show that this absence of knowledge cannot be recovered using existing methods such as propensity weighting and data imputation strategies that solely rely on the training dataset. While LLMs provide an attractive solution to augment the missing knowledge, leveraging them in applications with low latency requirements and large document sets is challenging. To incorporate missing knowledge at scale, we propose SKIM (Scalable Knowledge Infusion for Missing Labels), an algorithm that leverages a combination of small LM and abundant unstructured meta-data to effectively mitigate the missing label problem. We show the efficacy of our method on large-scale public datasets through exhaustive unbiased evaluation ranging from human annotations to simulations inspired from industrial settings. SKIM outperforms existing methods on Recall@100 by more than 10 absolute points. Additionally, SKIM scales to proprietary query-ad retrieval datasets containing 10 million documents, outperforming contemporary methods by 12% in offline evaluation and increased ad click-yield by 1.23% in an online A/B test conducted on a popular search engine. We release our code, prompts, trained XC models and finetuned SLMs at: https://github.com/bicycleman15/skim
翻訳日:2024-08-20 18:14:03 公開日:2024-08-18
# SynTraC:交通監視カメラからの交通信号制御のための合成データセット

SynTraC: A Synthetic Dataset for Traffic Signal Control from Traffic Monitoring Cameras ( http://arxiv.org/abs/2408.09588v1 )

ライセンス: Link先を確認
Tiejin Chen, Prithvi Shirke, Bharatesh Chakravarthi, Arpitsinh Vaghela, Longchao Da, Duo Lu, Yezhou Yang, Hua Wei, (参考訳) 本稿では,シミュレートされた環境と現実の交通管理の課題とのギャップを埋めることを目的とした,最初の公開画像ベースの交通信号制御データセットであるSynTraCを紹介する。 交通信号制御のための従来のデータセットとは異なり、SynTraCは、交通シミュレータからの車両数などの簡易な特徴ベクトルを提供することを目的としている。 この画像ベースのデータセットには、さまざまな天気や日時など、さまざまな現実シナリオが含まれている。 さらに、SynTraCは強化学習のような高度な信号制御アルゴリズムに対して異なる報酬値を提供する。 SynTraCによる実験では、機能ベースの制御手法と比較して、画像ベースの信号制御手法は依然としてオープンな課題であり、我々のデータセットが将来のアルゴリズムの開発をガイドできることが示されている。 この論文のコードは \url{https://github.com/DaRL-LibSignal/SynTraC} にある。 SynTraC

This paper introduces SynTraC, the first public image-based traffic signal control dataset, aimed at bridging the gap between simulated environments and real-world traffic management challenges. Unlike traditional datasets for traffic signal control which aim to provide simplified feature vectors like vehicle counts from traffic simulators, SynTraC provides real-style images from the CARLA simulator with annotated features, along with traffic signal states. This image-based dataset comes with diverse real-world scenarios, including varying weather and times of day. Additionally, SynTraC also provides different reward values for advanced traffic signal control algorithms like reinforcement learning. Experiments with SynTraC demonstrate that it is still an open challenge to image-based traffic signal control methods compared with feature-based control methods, indicating our dataset can further guide the development of future algorithms. The code for this paper can be found in \url{https://github.com/DaRL-LibSignal/SynTraC}.SynTraC
翻訳日:2024-08-20 18:03:47 公開日:2024-08-18
# Osiris: 完全同型暗号化を高速化するための論理的アプローチ

Osiris: A Systolic Approach to Accelerating Fully Homomorphic Encryption ( http://arxiv.org/abs/2408.09593v1 )

ライセンス: Link先を確認
Austin Ebel, Brandon Reagen, (参考訳) 本稿では, シストリックアーキテクチャを用いて, 完全同型暗号(FHE)の高速化について述べる。 まず、FHEアルゴリズムを解析し、各主要カーネルに対して、シストリックまたはシストリックなユニットを開発する。 カーネルの異なるデータアクセスと計算パターンのため、接続ユニットは困難である。 これを克服するために、手足インターリービングと呼ばれる新しいデータタイリング技術を提案する。 Limbインターリービングはすべてのカーネルに共通するデータ入力/出力パターンを生成し、Osirisと呼ばれるアーキテクチャ全体をロックステップで動作させる。 Osirisは、キースイッチ、ブートストラップ、フルニューラルネットワーク推論を、さまざまなFHEパラメータで高い利用率で処理することができる。 高い性能を達成するために,再利用と並列性に最適化することで,最先端のFHE行列ベクトル積アルゴリズムをOsirisに効率的にマッピングする,新しい巨大ステップ中心データフローを提案する。 Osirisの評価は、すべての標準ベンチマークにおいて、従来の最先端アクセラレータよりも優れていることを示す。

In this paper we show how fully homomorphic encryption (FHE) can be accelerated using a systolic architecture. We begin by analyzing FHE algorithms and then develop systolic or systolic-esque units for each major kernel. Connecting units is challenging due to the different data access and computational patterns of the kernels. We overcome this by proposing a new data tiling technique that we name limb interleaving. Limb interleaving creates a common data input/output pattern across all kernels that allows the entire architecture, named Osiris, to operate in lockstep. Osiris is capable of processing key-switches, bootstrapping, and full neural network inferences with high utilization across a range of FHE parameters. To achieve high performance, we propose a new giant-step centric (GSC) dataflow that efficiently maps state-of-the-art FHE matrix-vector product algorithms onto Osiris by optimizing for reuse and parallelism. Our evaluation of Osiris shows it outperforms the prior state-of-the-art accelerator on all standard benchmarks.
翻訳日:2024-08-20 18:03:47 公開日:2024-08-18
# Moonshine: ゲームコンテンツ生成装置をステアブルな生成モデルに変換する

Moonshine: Distilling Game Content Generators into Steerable Generative Models ( http://arxiv.org/abs/2408.09594v1 )

ライセンス: Link先を確認
Yuhe Nie, Michael Middleton, Tim Merino, Nidhushan Kanagaraja, Ashutosh Kumar, Zhan Zhuang, Julian Togelius, (参考訳) PCGML(Procedural Content Generation via Machine Learning)は、ゲームコンテンツ生成の強化を図っているが、制御性や限られたトレーニングデータの持続性には課題がある。 本研究は, 構成型PCGアルゴリズムを可制御PCGMLモデルに蒸留することにより, これらの問題に対処する。 まず,構築アルゴリズムを用いて大量のコンテンツを生成し,Large Language Model (LLM) を用いてラベル付けする。 これらの合成ラベルを用いて、コンテンツ固有の生成のための2つのPCGMLモデル、拡散モデル、および5ドルモデルの条件付けを行う。 このニューラルネットワーク蒸留プロセスは、生成がプレーンテキストを通じて制御性を導入しながら元のアルゴリズムと整合することを保証する。 我々は,このテキスト条件付きPCGMLをテキスト・ツー・ゲーム・マップ(T2M)タスクとして定義する。 蒸留モデルとベースライン構築アルゴリズムを比較した。 そこで本研究では, テキストコンディショニング型PCGMLモデルにおいて, 製造方法の蒸留の有効性を検証した。

Procedural Content Generation via Machine Learning (PCGML) has enhanced game content creation, yet challenges in controllability and limited training data persist. This study addresses these issues by distilling a constructive PCG algorithm into a controllable PCGML model. We first generate a large amount of content with a constructive algorithm and label it using a Large Language Model (LLM). We use these synthetic labels to condition two PCGML models for content-specific generation, a diffusion model and the five-dollar model. This neural network distillation process ensures that the generation aligns with the original algorithm while introducing controllability through plain text. We define this text-conditioned PCGML as a Text-to-game-Map (T2M) task, offering an alternative to prevalent text-to-image multi-modal tasks. We compare our distilled models with the baseline constructive algorithm. Our analysis of the variety, accuracy, and quality of our generation demonstrates the efficacy of distilling constructive methods into controllable text-conditioned PCGML models.
翻訳日:2024-08-20 18:03:47 公開日:2024-08-18
# 巨大ナノ粒子の線形次元を超えた運動状態のコヒーレント展開

Coherent expansion of the motional state of a massive nanoparticle beyond its linear dimensions ( http://arxiv.org/abs/2408.09596v1 )

ライセンス: Link先を確認
R. Muffato, T. S. Georgescu, M. Carlesso, M. Paternostro, H. Ulbricht, (参考訳) 量子力学は、巨大な粒子が波のように振る舞うことを予測している。 物質波干渉計は、原子や分子のような微視的なシステムを含む地上での実験を通じて、このような予測を検証することができる。 このような系の波動関数は、その大きさよりもはるかに大きな距離をコヒーレントに拡張する。 しかし、同じレベルのコヒーレント拡散に到達すれば、素粒子物理学の真にマクロスケールでの試験や、非常に感度の高い量子センシングアパラタの開発が可能になる。 我々は、トラップ電位の周波数変調により、大規模な浮遊光学系における前例のない位置拡散を実験的に達成することについて報告する。 動作の事前冷却状態から始まり, 微調整深度の急激なパルス列を用いることにより, 捕捉されたナノ粒子の物理次元を超える拡散長に到達するために, このクラスの系における位置拡散の予め達成された値を超えた。

Quantum mechanics predicts that massive particles exhibit wave-like behavior. Matterwave interferometry has been able to validate such predictions through ground-breaking experiments involving microscopic systems like atoms and molecules. The wavefunction of such systems coherently extends over a distance much larger than their size, an achievement that is incredibly challenging for massive and more complex objects. Yet, reaching similar level of coherent diffusion will enable tests of fundamental physics at the genuinely macroscopic scale, as well as the development of quantum sensing apparata of great sensitivity. We report on experimentally achieving an unprecedented degree of position diffusion in a massive levitated optomechanical system through frequency modulation of the trapping potential. By starting with a pre-cooled state of motion and employing a train of sudden pulses yet of mild modulation depth, we surpass previously attained values of position diffusion in this class of systems to reach diffusion lengths that exceed the physical dimensions of the trapped nanoparticle.
翻訳日:2024-08-20 18:03:47 公開日:2024-08-18
# 因果パラメータのダブル/デバイアス型機械学習のための任意のValid推論

Anytime-Valid Inference for Double/Debiased Machine Learning of Causal Parameters ( http://arxiv.org/abs/2408.09598v1 )

ライセンス: Link先を確認
Abhinandan Dalal, Patrick Blöbaum, Shiva Kasiviswanathan, Aaditya Ramdas, (参考訳) DML(Double (debiased) Machine Learning)は近年、因果的/構造的パラメータの学習に広く利用されている。 しかし、従来の二重バイアスフレームワークは、所定のサンプルサイズに対して漸近的にのみ有効であり、よりシャープな推論が必要な場合、より多くのデータを収集する柔軟性に欠ける。 これは、巨額の財政コストや人命を伴う大規模な実験研究や、構造パラメータの部分的識別可能性によるサンプルサイズの増加にもかかわらず、間隔の信頼性が0に低下しない観察研究において特に懸念される。 本稿では、漸近的DML結果に対する時間均一性を示し、任意の(おそらくはデータに依存した)停止時間で構造パラメータの推論と信頼区間を構築することができる。 我々は、標準のDML条件よりもわずかに強い条件を提供するが、任意の時効推論に対してより強い保証を提供する。 これにより、既存のDMLメソッドの変換が容易になり、最小限の変更で有効な保証が得られ、高度に適応可能で使いやすくなります。 2つの例を使って手順を説明します。 a) オンライン実験における非遵守による局所的平均治療効果、及び b) 潜在的に未測定なコンバウンディングを伴う観察研究における平均治療効果の部分的同定

Double (debiased) machine learning (DML) has seen widespread use in recent years for learning causal/structural parameters, in part due to its flexibility and adaptability to high-dimensional nuisance functions as well as its ability to avoid bias from regularization or overfitting. However, the classic double-debiased framework is only valid asymptotically for a predetermined sample size, thus lacking the flexibility of collecting more data if sharper inference is needed, or stopping data collection early if useful inferences can be made earlier than expected. This can be of particular concern in large scale experimental studies with huge financial costs or human lives at stake, as well as in observational studies where the length of confidence of intervals do not shrink to zero even with increasing sample size due to partial identifiability of a structural parameter. In this paper, we present time-uniform counterparts to the asymptotic DML results, enabling valid inference and confidence intervals for structural parameters to be constructed at any arbitrary (possibly data-dependent) stopping time. We provide conditions which are only slightly stronger than the standard DML conditions, but offer the stronger guarantee for anytime-valid inference. This facilitates the transformation of any existing DML method to provide anytime-valid guarantees with minimal modifications, making it highly adaptable and easy to use. We illustrate our procedure using two instances: a) local average treatment effect in online experiments with non-compliance, and b) partial identification of average treatment effect in observational studies with potential unmeasured confounding.
翻訳日:2024-08-20 18:03:47 公開日:2024-08-18
# Antidote: 有害な微調整に対する大規模言語モデルの修正後の安全性アライメント

Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning ( http://arxiv.org/abs/2408.09600v1 )

ライセンス: Link先を確認
Tiansheng Huang, Gautam Bhattacharya, Pratik Joshi, Josh Kimball, Ling Liu, (参考訳) 安全性に配慮した大規模言語モデル(LLM)は、有害な微調整攻撃に対して脆弱である。 既存の緩和策としては、アライメントステージ解 \cite{huang2024vaccine, rosati2024representation} と微調整ステージ解 \cite{huang2024lazy,mukhoti2023fine} がある。 しかし, 評価の結果, 両ディフェンスのカテゴリは, 特定のトレーニングハイパーパラメータが選択された場合にフェールすることが明らかとなった。 この目的のために, 微調整後の段階解であるAntidoteを提案する。 解毒剤は、有害なパラメータを除去することで、有害なパラメータが微調整の段階でどのように形成されるかに関わらず、有害な振る舞いから有害なモデルを取り戻すことができるという哲学に依存している。 本哲学では,有害物質の発生の原因となる有害重量を除去するために,有害微調整後のワンショットプルーニングステージを導入する。 その恥ずかしい単純さにもかかわらず、実証的な結果は、アンティドテは下流のタスクの精度を維持しながら有害なスコアを減らすことができることを示している。

Safety aligned Large Language Models (LLMs) are vulnerable to harmful fine-tuning attacks \cite{qi2023fine}-- a few harmful data mixed in the fine-tuning dataset can break the LLMs's safety alignment. Existing mitigation strategies include alignment stage solutions \cite{huang2024vaccine, rosati2024representation} and fine-tuning stage solutions \cite{huang2024lazy,mukhoti2023fine}. However, our evaluation shows that both categories of defenses fail \textit{when some specific training hyper-parameters are chosen} -- a large learning rate or a large number of training epochs in the fine-tuning stage can easily invalidate the defense, which however, is necessary to guarantee finetune performance. To this end, we propose Antidote, a post-fine-tuning stage solution, which remains \textbf{\textit{agnostic to the training hyper-parameters in the fine-tuning stage}}. Antidote relies on the philosophy that by removing the harmful parameters, the harmful model can be recovered from the harmful behaviors, regardless of how those harmful parameters are formed in the fine-tuning stage. With this philosophy, we introduce a one-shot pruning stage after harmful fine-tuning to remove the harmful weights that are responsible for the generation of harmful content. Despite its embarrassing simplicity, empirical results show that Antidote can reduce harmful score while maintaining accuracy on downstream tasks.
翻訳日:2024-08-20 18:03:47 公開日:2024-08-18
# 生物学・機械学習における回路設計 I. ランダムネットワークと次元還元

Circuit design in biology and machine learning. I. Random networks and dimensional reduction ( http://arxiv.org/abs/2408.09604v1 )

ライセンス: Link先を確認
Steven A. Frank, (参考訳) 生物学的回路は神経または生化学的カスケードであり、入力を受け取り出力を生成する。 生物回路は、生命の歴史における環境問題の解決をいかに学んだか? この答えは間違いなくドブジャンスキーの有名な引用に従い、「生物学における「何も意味がない」のは進化の光以外である。 しかし、この引用は、自然選択の試行錯誤学習のメカニズムを、まさに私たちが理解しなければならないものとして残している。 生物学的回路を設計する学習プロセスは実際にどのように機能するのか? これらの回路を作った過程を研究することによって、生物回路の形状と機能についてどの程度の洞察を得ることができるか? 生命の回路は、環境トラッキング、ホメオスタティック制御、次元縮小、分類といった機械学習が直面する問題と同じ問題をしばしば解決しなければならないため、機械学習がどのように計算回路を設計して問題を解決するかを考えることから始めることができる。 これらの計算回路は、生物回路の設計に関して、どの程度の洞察を与えていますか? 生物学は、問題の解決に使用する特定の回路設計におけるコンピュータとどの程度異なるのか? 本稿では,2つの古典的機械学習モデルを踏襲し,生体回路の設計に関する幅広い疑問を解析するための基礎を定めている。 1つの洞察は、ランダムに接続されたネットワークの驚くべきパワーである。 もう一つは、生物回路に埋め込まれた環境の内部モデルの中心的な役割であり、次元の減少とトレンド予測のモデルによって説明されている。 全体として、生物学における多くの課題は機械学習のアナログを持ち、生物学の回路がどのように設計されているかという仮説を示唆している。

A biological circuit is a neural or biochemical cascade, taking inputs and producing outputs. How have biological circuits learned to solve environmental challenges over the history of life? The answer certainly follows Dobzhansky's famous quote that ``nothing in biology makes sense except in the light of evolution.'' But that quote leaves out the mechanistic basis by which natural selection's trial-and-error learning happens, which is exactly what we have to understand. How does the learning process that designs biological circuits actually work? How much insight can we gain about the form and function of biological circuits by studying the processes that have made those circuits? Because life's circuits must often solve the same problems as those faced by machine learning, such as environmental tracking, homeostatic control, dimensional reduction, or classification, we can begin by considering how machine learning designs computational circuits to solve problems. We can then ask: How much insight do those computational circuits provide about the design of biological circuits? How much does biology differ from computers in the particular circuit designs that it uses to solve problems? This article steps through two classic machine learning models to set the foundation for analyzing broad questions about the design of biological circuits. One insight is the surprising power of randomly connected networks. Another is the central role of internal models of the environment embedded within biological circuits, illustrated by a model of dimensional reduction and trend prediction. Overall, many challenges in biology have machine learning analogs, suggesting hypotheses about how biology's circuits are designed.
翻訳日:2024-08-20 18:03:47 公開日:2024-08-18
# 感覚接地は必要か? 純粋思考者から大規模言語モデルへ

Does Thought Require Sensory Grounding? From Pure Thinkers to Large Language Models ( http://arxiv.org/abs/2408.09605v1 )

ライセンス: Link先を確認
David J. Chalmers, (参考訳) 考える能力には、理解する能力が必要ですか? この話題に関する活発な議論は哲学の歴史を通じて行われ、現在は人工知能に関する議論に熱中している。 私は原則として、純粋に思考できる、つまり、完全に理解する能力に欠ける思考者がいる、と論じます。 私はまた、能力の欠如において、どんな思考が可能かという大きな制限についても論じています。 AIに関して、私は大きな言語モデルが考えるか理解できるかを直接論じるわけではないが、私は、彼らができない重要な論点(感覚的根拠からの議論)に反論する。 また,感性接地が認知能力を高めるかどうかという問題に対処するために,言語モデルに関する最近の研究結果を用いている。

Does the capacity to think require the capacity to sense? A lively debate on this topic runs throughout the history of philosophy and now animates discussions of artificial intelligence. I argue that in principle, there can be pure thinkers: thinkers that lack the capacity to sense altogether. I also argue for significant limitations in just what sort of thought is possible in the absence of the capacity to sense. Regarding AI, I do not argue directly that large language models can think or understand, but I rebut one important argument (the argument from sensory grounding) that they cannot. I also use recent results regarding language models to address the question of whether or how sensory grounding enhances cognitive capacities.
翻訳日:2024-08-20 18:03:47 公開日:2024-08-18
# 情報拡散にソーシャルボットはどのように参加するのか : 包括的データセットと分析

How Do Social Bots Participate in Misinformation Spread? A Comprehensive Dataset and Analysis ( http://arxiv.org/abs/2408.09613v1 )

ライセンス: Link先を確認
Herun Wan, Minnan Luo, Zihan Ma, Guang Dai, Xiang Zhao, (参考訳) 情報はソーシャルメディアプラットフォームを通じて従来のメディアよりも急速に広まり、偽情報を広める理想的な媒体となる。 一方、ソーシャルボットとして知られる自動アカウントは、誤情報拡散にさらに貢献する。 本稿では,Sina Weiboプラットフォーム上でのソーシャルボットと誤情報との相互作用について検討する。 本研究では,11,393件の誤情報と16,416件の未偏在実情報を含む総合的かつ大規模な誤情報データセットを提案する。 ソーシャルボット68,040件のソーシャルボットと411,635件の真のアカウントを入手し,アノテートするための拡張性のある弱いサプライズ手法を提案する。 私たちの知る限りでは、このデータセットは誤情報やソーシャルボットを含む最大のデータセットです。 このデータセットに関する総合的な実験と分析を行う。 その結果,ソーシャルボットは誤情報拡散において中心的な役割を担い,反響室を増幅し,世論を操り,世論を逆転させるニュース討論に参加することが示唆された。

Information spreads faster through social media platforms than traditional media, thus becoming an ideal medium to spread misinformation. Meanwhile, automated accounts, known as social bots, contribute more to the misinformation dissemination. In this paper, we explore the interplay between social bots and misinformation on the Sina Weibo platform. We propose a comprehensive and large-scale misinformation dataset, containing 11,393 misinformation and 16,416 unbiased real information with multiple modality information, with 952,955 related users. We propose a scalable weak-surprised method to annotate social bots, obtaining 68,040 social bots and 411,635 genuine accounts. To the best of our knowledge, this dataset is the largest dataset containing misinformation and social bots. We conduct comprehensive experiments and analysis on this dataset. Results show that social bots play a central role in misinformation dissemination, participating in news discussions to amplify echo chambers, manipulate public sentiment, and reverse public stances.
翻訳日:2024-08-20 18:03:47 公開日:2024-08-18
# 資源制限型赤外小ターゲット検出のための第1回競争:方法と結果

The First Competition on Resource-Limited Infrared Small Target Detection Challenge: Methods and Results ( http://arxiv.org/abs/2408.09615v1 )

ライセンス: Link先を確認
Boyang Li, Xinyi Ying, Ruojing Li, Yongxian Liu, Yangsi Shi, Miao Li, (参考訳) 本稿では、リソース制限された赤外線小ターゲット検出(LimitIRSTD)に関する最初のコンペを要約する。 このコンペティションには、弱制御赤外線小目標検出(Track1)と軽量赤外小目標検出(Track2)の2つのトラックがある。 46チームと60チームがそれぞれトラック1とトラック2に登板した。 各トラックにおける最高性能の手法とその成果を詳細に記述する。 このコンペティションは、赤外線小目標検出の適用における難しい問題をコミュニティに探究し、最終的に限られたリソース下でのこの技術の展開を促進します。

In this paper, we briefly summarize the first competition on resource-limited infrared small target detection (namely, LimitIRSTD). This competition has two tracks, including weakly-supervised infrared small target detection (Track 1) and lightweight infrared small target detection (Track 2). 46 and 60 teams successfully registered and took part in Tracks 1 and Track 2, respectively. The top-performing methods and their results in each track are described with details. This competition inspires the community to explore the tough problems in the application of infrared small target detection, and ultimately promote the deployment of this technology under limited resource.
翻訳日:2024-08-20 18:03:47 公開日:2024-08-18
# 物理インフォームドオブザーバブル制御のための低騒音安定クープマン演算子の学習

Learning Noise-Robust Stable Koopman Operator for Control with Physics-Informed Observables ( http://arxiv.org/abs/2408.06607v2 )

ライセンス: Link先を確認
Shahriar Akbar Sakib, Shaowu Pan, (参考訳) 本稿では,非線形力学系のクープマン演算子に対する新しい学習フレームワークを提案する。 拡張動的モード分解(EDMD)において,アドホック・オブザーバブルあるいはブラックボックス・ニューラル・ネットワークを用いてオブザーバブルを構築する既存のフレームワークとは対照的に,我々のオブザーバブルはPolyflowを介して制御方程式によって通知される。 ノイズロバスト性の向上と長期安定性を保証するため,我々は,繰り返し損失をロールアウトする進行学習戦略とともに,クープマン演算子の安定パラメータ化を設計した。 位相空間におけるモデル性能をさらに向上させるために、データ拡張の簡単な反復戦略を開発した。 アブレーション法による古典非線形システムの予測と制御に関する数値実験により, 提案手法の有効性が示された。

We propose a novel learning framework for Koopman operator of nonlinear dynamical systems that is informed by the governing equation and guarantees long-time stability and robustness to noise. In contrast to existing frameworks where either ad-hoc observables or blackbox neural networks are used to construct observables in the extended dynamic mode decomposition (EDMD), our observables are informed by governing equations via Polyflow. To improve the noise robustness and guarantee long-term stability, we designed a stable parameterization of the Koopman operator together with a progressive learning strategy for roll-out recurrent loss. To further improve model performance in the phase space, a simple iterative strategy of data augmentation was developed. Numerical experiments of prediction and control of classic nonlinear systems with ablation study showed the effectiveness of the proposed techniques over several state-of-the-art practices.
翻訳日:2024-08-20 13:17:05 公開日:2024-08-18
# DiffLoRA: 拡散によるパーソナライズされた低ランク適応重量の生成

DiffLoRA: Generating Personalized Low-Rank Adaptation Weights with Diffusion ( http://arxiv.org/abs/2408.06740v2 )

ライセンス: Link先を確認
Yujia Wu, Yiming Shi, Jiwei Wei, Chengwei Sun, Yuyang Zhou, Yang Yang, Heng Tao Shen, (参考訳) パーソナライズされたテキスト・ツー・イメージ生成は、ユーザ定義のプロンプトで条件付けられた特定のアイデンティティの高忠実なポートレートを生成する能力において、大きな注目を集めている。 既存のメソッドではテスト時の微調整や、トレーニング済みのブランチの追加が一般的である。 しかしながら、これらのアプローチは効率性、アイデンティティの忠実さ、モデルのオリジナルの生成能力の維持という要求に同時に対処するのに苦労する。 本稿では,拡散モデルをハイパーネットワークとして活用し,参照画像に基づく個人化低ランク適応(LoRA)の重み付けを予測する手法であるDiffLoRAを提案する。 これらのLoRA重みをテキスト・ツー・イメージモデルに統合することにより、DiffLoRAは推論中のパーソナライズをさらなるトレーニングなしで達成する。 さらに、DiffLoRAのトレーニングを容易にするために、アイデンティティ指向のLoRA重み構築パイプラインを提案する。 このパイプラインによって生成されたデータセットを利用することで、DiffLoRAは一貫して高性能で正確なLoRA重みを生成します。 本手法の有効性を総合評価し, 個人化プロセスを通じて, 時間効率とアイデンティティの忠実さの両立を図った。

Personalized text-to-image generation has gained significant attention for its capability to generate high-fidelity portraits of specific identities conditioned on user-defined prompts. Existing methods typically involve test-time fine-tuning or instead incorporating an additional pre-trained branch. However, these approaches struggle to simultaneously address the demands of efficiency, identity fidelity, and preserving the model's original generative capabilities. In this paper, we propose DiffLoRA, a novel approach that leverages diffusion models as a hypernetwork to predict personalized low-rank adaptation (LoRA) weights based on the reference images. By integrating these LoRA weights into the text-to-image model, DiffLoRA achieves personalization during inference without further training. Additionally, we propose an identity-oriented LoRA weight construction pipeline to facilitate the training of DiffLoRA. By utilizing the dataset produced by this pipeline, our DiffLoRA consistently generates high-performance and accurate LoRA weights. Extensive evaluations demonstrate the effectiveness of our method, achieving both time efficiency and maintaining identity fidelity throughout the personalization process.
翻訳日:2024-08-20 13:17:05 公開日:2024-08-18
# CTR予測における動的コールドスタートシーン最適化のためのシーンワイズ適応ネットワーク

Scene-wise Adaptive Network for Dynamic Cold-start Scenes Optimization in CTR Prediction ( http://arxiv.org/abs/2408.07278v3 )

ライセンス: Link先を確認
Wenhao Li, Jie Zhou, Chuan Luo, Chao Tang, Kun Zhang, Shixiong Zhao, (参考訳) 現代のモバイルEコマースの世界では、位置情報ベースのオンラインサービスを通じて、近くの商業サービスレコメンデーションをユーザに提供できることがますます重要になっている。 機械学習のアプローチは、マルチシーンのレコメンデーションにおいて有望だが、既存の方法論は、前例のない場面でコールドスタートの問題に対処するのに苦労することが多い。 本研究では,新しいシーンに対して,高性能なコールドスタートオンラインレコメンデーションを強調する新しいアプローチであるSwANを提案する。 提案手法では,シーン類似性学習,ユーザ固有のシーン遷移認識,新たなシーンのシーン固有情報構築,シーン間の論理情報の分散化など,いくつかの重要な機能を導入している。 新たに到着したシーンのコールドスタートレコメンデーションを効果的にオンライン処理することで、動的マルチシーンレコメンデーション問題を最適化するSwANの可能性を実証する。 より奨励的に、SwaranはMeituanのオンラインキャタリングレコメンデーションサービスに1日数百万の顧客にサービスを提供しており、Swaranはベースラインに対して5.64%のCTRインデックスの改善、日次ボリューム比の5.19%の増加を達成している。

In the realm of modern mobile E-commerce, providing users with nearby commercial service recommendations through location-based online services has become increasingly vital. While machine learning approaches have shown promise in multi-scene recommendation, existing methodologies often struggle to address cold-start problems in unprecedented scenes: the increasing diversity of commercial choices, along with the short online lifespan of scenes, give rise to the complexity of effective recommendations in online and dynamic scenes. In this work, we propose Scene-wise Adaptive Network (SwAN), a novel approach that emphasizes high-performance cold-start online recommendations for new scenes. Our approach introduces several crucial capabilities, including scene similarity learning, user-specific scene transition cognition, scene-specific information construction for the new scene, and enhancing the diverged logical information between scenes. We demonstrate SwAN's potential to optimize dynamic multi-scene recommendation problems by effectively online handling cold-start recommendations for any newly arrived scenes. More encouragingly, SwAN has been successfully deployed in Meituan's online catering recommendation service, which serves millions of customers per day, and SwAN has achieved a 5.64% CTR index improvement relative to the baselines and a 5.19% increase in daily order volume proportion.
翻訳日:2024-08-20 13:17:05 公開日:2024-08-18
# Sum-Product-Set Networks:木構造グラフのためのディープトラクタブルモデル

Sum-Product-Set Networks: Deep Tractable Models for Tree-Structured Graphs ( http://arxiv.org/abs/2408.07394v2 )

ライセンス: Link先を確認
Milan Papež, Martin Rektoris, Tomáš Pevný, Václav Šmídl, (参考訳) 毎日のインターネット通信は木構造グラフに大きく依存しており、XMLやJSONといった一般的なデータフォーマットが具体化している。 しかし、近年の多くの生成的(確率論的)モデルでは、ニューラルネットワークを用いて、無向巡回グラフ上の確率分布を学習している。 この一般的なグラフ構造の仮定は、様々な計算上の課題をもたらし、さらに重要なのは、ニューラルネットワークに非線形性が存在することは、抽出可能な確率的推論を許さないことである。 本研究では,非構造テンソルデータから木構造グラフデータへの確率回路の拡張であるSum-product-set Networkを提案する。 この目的のために、ランダム有限集合を用いて、グラフ内の可変数のノードとエッジを反映し、正確かつ効率的な推論を可能にする。 我々は,ニューラルネットワークに基づく様々な抽出可能なモデルに対して,抽出可能なモデルが比較可能であることを実証した。

Daily internet communication relies heavily on tree-structured graphs, embodied by popular data formats such as XML and JSON. However, many recent generative (probabilistic) models utilize neural networks to learn a probability distribution over undirected cyclic graphs. This assumption of a generic graph structure brings various computational challenges, and, more importantly, the presence of non-linearities in neural networks does not permit tractable probabilistic inference. We address these problems by proposing sum-product-set networks, an extension of probabilistic circuits from unstructured tensor data to tree-structured graph data. To this end, we use random finite sets to reflect a variable number of nodes and edges in the graph and to allow for exact and efficient inference. We demonstrate that our tractable model performs comparably to various intractable models based on neural networks.
翻訳日:2024-08-20 13:17:05 公開日:2024-08-18
# 3次元空間におけるラジアンス場の開語彙セグメンテーションの再考

Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space ( http://arxiv.org/abs/2408.07416v2 )

ライセンス: Link先を確認
Hyunjee Lee, Youngsik Yun, Jeongmin Bae, Seoha Kim, Youngjung Uh, (参考訳) シーンの3Dセマンティクスを理解することは、エンボディエージェントのような様々なシナリオの基本的な問題である。 NeRFと3DGSは新規合成において優れているが、それらの意味を理解するための従来の方法は不完全な3D理解に限られている。 本稿では,NeRF と 3DGS がモデル化したシーンの3次元理解を改善するために設定した問題点を再考する。 1)言語埋め込みフィールドをトレーニングするために,直接3Dポイントを監督する。 マルチスケールの言語埋め込みに頼ることなく、最先端の精度を実現する。 2)事前学習した言語フィールドを3DGSに転送し,トレーニング時間や精度を犠牲にすることなく,最初のリアルタイムレンダリング速度を達成する。 3)再構成された幾何と意味論を一緒に評価するための3Dクエリーおよび評価プロトコルを導入する。 コード、チェックポイント、アノテーションはオンラインで入手できる。 プロジェクトページ:https://hyunji12.github.io/Open3DRF

Understanding the 3D semantics of a scene is a fundamental problem for various scenarios such as embodied agents. While NeRFs and 3DGS excel at novel-view synthesis, previous methods for understanding their semantics have been limited to incomplete 3D understanding: their segmentation results are 2D masks and their supervision is anchored at 2D pixels. This paper revisits the problem set to pursue a better 3D understanding of a scene modeled by NeRFs and 3DGS as follows. 1) We directly supervise the 3D points to train the language embedding field. It achieves state-of-the-art accuracy without relying on multi-scale language embeddings. 2) We transfer the pre-trained language field to 3DGS, achieving the first real-time rendering speed without sacrificing training time or accuracy. 3) We introduce a 3D querying and evaluation protocol for assessing the reconstructed geometry and semantics together. Code, checkpoints, and annotations will be available online. Project page: https://hyunji12.github.io/Open3DRF
翻訳日:2024-08-20 13:17:05 公開日:2024-08-18
# スキーマリンクの死 : 調和した言語モデルの時代におけるテキストからSQL

The Death of Schema Linking? Text-to-SQL in the Age of Well-Reasoned Language Models ( http://arxiv.org/abs/2408.07702v2 )

ライセンス: Link先を確認
Karime Maamari, Fadhil Abubaker, Daniel Jaroslawicz, Amine Mhedhbi, (参考訳) スキーマリンクは、Text-to-SQLパイプラインにおいて重要なステップである。 その目標は、無関係なものを無視しながら、ユーザのクエリーに対するターゲットデータベースの関連テーブルと列を取得することである。 しかしながら、不完全なスキーマリンクは、正確なクエリ生成に必要な列を除外することが多い。 本研究では,次世代の大規模言語モデル(LLM)を使用する場合のスキーマリンクを再検討する。 より新しいモデルでは,無関係なモデルが多数存在する場合でも,生成時に関連するスキーマ要素を利用することが可能であることが実証的に判明した。 このように、当社のText-to-SQLパイプラインは、スキーマがモデルのコンテキストウィンドウ内に収まる場合、必要なスキーマ要素のフィルタリングによる問題を最小限に抑えるために、スキーマリンクを完全に禁止しています。 さらに、コンテキスト情報をフィルタリングする代わりに、拡張、選択、修正といったテクニックを強調し、Text-to-SQLパイプラインの精度を向上させるためにそれらを採用します。 提案手法はBIRDベンチマークで71.83%の精度で評価された。

Schema linking is a crucial step in Text-to-SQL pipelines. Its goal is to retrieve the relevant tables and columns of a target database for a user's query while disregarding irrelevant ones. However, imperfect schema linking can often exclude required columns needed for accurate query generation. In this work, we revisit schema linking when using the latest generation of large language models (LLMs). We find empirically that newer models are adept at utilizing relevant schema elements during generation even in the presence of large numbers of irrelevant ones. As such, our Text-to-SQL pipeline entirely forgoes schema linking in cases where the schema fits within the model's context window in order to minimize issues due to filtering required schema elements. Furthermore, instead of filtering contextual information, we highlight techniques such as augmentation, selection, and correction, and adopt them to improve the accuracy of our Text-to-SQL pipeline. Our approach ranks first on the BIRD benchmark achieving an accuracy of 71.83%.
翻訳日:2024-08-20 13:17:05 公開日:2024-08-18
# 量子鍵分布における単一光子検出による強度相関のキャラクタリゼーション

Characterization of Intensity Correlation via Single-photon Detection in Quantum Key Distribution ( http://arxiv.org/abs/2408.07960v2 )

ライセンス: Link先を確認
Tianyi Xing, Junxuan Liu, Likang Zhang, Min-Yan Wang, Yu-Huai Li, Ruiyin Liu, Qingquan Peng, Dongyang Wang, Yaxuan Wang, Hongwei Liu, Wei Li, Yuan Cao, Anqi Huang, (参考訳) 量子鍵分布(QKD)のソースユニットにおける最も重要な脆弱性の1つは、変調後の量子状態間の相関であり、その実用的なセキュリティ性能を特徴づけ、評価する。 本研究では,QKDシステムの構成を変更することなく,測定ユニットにおける単光子検出結果に応じて強度相関を特徴付ける手法を提案する。 相関を計測するために古典光学検出器を用いた従来の研究とは対照的に,本手法は生鍵交換時に発生する検出データを直接解析し,リアルタイムシステム動作における相関の特徴を特徴付けることができる。 BB84QKDシステムに基本手法を適用し,その特徴的相関によりセキュリティ証明で示されるセキュア鍵レートが低下する。 さらに,ベル状態測定の結果から相関関係を推定するために拡張および適用し,フルスケジュールMDI QKDシステムへの適用性を実証した。 本研究は,QKDシステムの標準化のためのアプローチを提供する。

One of the most significant vulnerabilities in the source unit of quantum key distribution (QKD) is the correlation between quantum states after modulation, which shall be characterized and evaluated for its practical security performance. In this work, we propose a methodology to characterize the intensity correlation according to the single-photon detection results in the measurement unit without modifying the configuration of the QKD system. In contrast to the previous research that employs extra classical optical detector to measure the correlation, our method can directly analyse the detection data generated during the raw key exchange, enabling to characterize the feature of correlation in real-time system operation. The basic method is applied to a BB84 QKD system and the characterized correlation decreases the secure key rate shown by the security proof. Furthermore, the method is extended and applied to characterize the correlation from the result of Bell-state measurement, which demonstrates its applicability to a running full-scheme MDI QKD system. This study provides an approach for standard certification of a QKD system.
翻訳日:2024-08-20 13:08:14 公開日:2024-08-18
# 測定デバイス非依存量子鍵分布における強度相関

Intensity correlations in measurement-device-independent quantum key distribution ( http://arxiv.org/abs/2408.08011v2 )

ライセンス: Link先を確認
Junxuan Liu, Tianyi Xing, Ruiyin Liu, Zihao Chen, Hao Tan, Anqi Huang, (参考訳) 測定デバイス非依存量子鍵分布(MDI QKD)システムにおける量子状態準備中の不完全な変調による強度相関は、そのセキュリティ性能を損なう。 したがって、MDI QKDシステムの実用セキュリティに対する強度相関の影響を評価することが重要である。 本研究では,MDI QKDシステムのキーレートを,強度相関の下で定量的に解析する理論モデルを提案する。 さらに,この理論モデルを実測強度相関を用いたMDI QKDシステムに適用することにより,本モデルの下で鍵を効率よく生成することが困難であることを示す。 また、秘密鍵を生成するために強度相関の境界条件についても検討する。 本研究は,MDI QKDプロトコルに対する強度相関のセキュリティ解析を拡張し,MDI QKDシステムの実用的セキュリティを評価する方法論を提供する。

The intensity correlations due to imperfect modulation during the quantum-state preparation in a measurement-device-independent quantum key distribution (MDI QKD) system compromise its security performance. Therefore, it is crucial to assess the impact of intensity correlations on the practical security of MDI QKD systems. In this work, we propose a theoretical model that quantitatively analyzes the secure key rate of MDI QKD systems under intensity correlations. Furthermore, we apply the theoretical model to a practical MDI QKD system with measured intensity correlations, which shows that the system struggles to generate keys efficiently under this model. We also explore the boundary conditions of intensity correlations to generate secret keys. This study extends the security analysis of intensity correlations to MDI QKD protocols, providing a methodology to evaluate the practical security of MDI QKD systems.
翻訳日:2024-08-20 13:08:14 公開日:2024-08-18