このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240703となっている論文です。

PDF登録状況(公開日: 20240703)

TitleAuthorsAbstract論文公表日・翻訳日
# AMA-LSTM:株価変動予測のためのピオネリングロバストとフェアファイナンシャルオーディオ分析

AMA-LSTM: Pioneering Robust and Fair Financial Audio Analysis for Stock Volatility Prediction ( http://arxiv.org/abs/2407.18324v1 )

ライセンス: Link先を確認
Shengkun Wang, Taoran Ji, Jianfeng He, Mariam Almutairi, Dan Wang, Linhan Wang, Min Zhang, Chang-Tien Lu, (参考訳) 株価のボラティリティ予測は金融業界にとって重要な課題である。 テキストと聴覚データを統合したマルチモーダル手法の最近の進歩は、決算報告など、この分野の大幅な改善を示している(決算報告は公開されており、公開企業の経営陣や関係者が会社の利益について議論することも多い)。 しかし、これらのマルチモーダル法は2つの欠点に直面している。 第一に、彼らはしばしば信頼できるモデルを得ることができず、株式市場から確率的な情報が吸収されたためにデータに過度に適合しない。 さらに、株のボラティリティを予測するためにマルチモーダルモデルを使用することは、性別バイアスに悩まされ、そのようなバイアスを排除する効率的な方法が欠如している。 これらの問題に対処するために、我々は、モデル堅牢性と公正性を改善するために、入力空間の周囲のランダムな情報に抵抗する領域を作成することにより、固有の確率性とバイアスをシミュレートする摂動を生成するために、逆トレーニングを使用します。 2つの実世界の金融オーディオデータセットに関する総合的な実験により、この手法が現在の最先端ソリューションの性能を上回っていることが判明した。 これは、ストックボラティリティ予測タスクの確率性とバイアスを低減するための敵のトレーニングの価値を裏付けるものである。

Stock volatility prediction is an important task in the financial industry. Recent advancements in multimodal methodologies, which integrate both textual and auditory data, have demonstrated significant improvements in this domain, such as earnings calls (Earnings calls are public available and often involve the management team of a public company and interested parties to discuss the company's earnings). However, these multimodal methods have faced two drawbacks. First, they often fail to yield reliable models and overfit the data due to their absorption of stochastic information from the stock market. Moreover, using multimodal models to predict stock volatility suffers from gender bias and lacks an efficient way to eliminate such bias. To address these aforementioned problems, we use adversarial training to generate perturbations that simulate the inherent stochasticity and bias, by creating areas resistant to random information around the input space to improve model robustness and fairness. Our comprehensive experiments on two real-world financial audio datasets reveal that this method exceeds the performance of current state-of-the-art solution. This confirms the value of adversarial training in reducing stochasticity and bias for stock volatility prediction tasks.
翻訳日:2024-08-05 01:35:56 公開日:2024-07-03
# RDBE: 蒸留法に基づく評価は自動評価を促進する

RDBE: Reasoning Distillation-Based Evaluation Enhances Automatic Essay Scoring ( http://arxiv.org/abs/2407.13781v1 )

ライセンス: Link先を確認
Ali Ghiasvand Mohammadkhani, (参考訳) 近年,BERTやT5などのエンコーダのみおよびエンコーダデコーダ事前訓練モデルが,小言語モデルとして自動エッセイスコア(AES)に適用されている。 しかし、既存の研究では、主に分類問題に類似したタスクを扱い、生成したスコアの解釈を提示することなく、対象テキストにスコアを出力することにのみ焦点をあてている。 提案手法とは別に,解釈可能性を統合し,モデルスコアの背景にある理論的根拠を解明し,初期推論による性能向上を図るReasoning Distillation-Based Evaluation (RDBE)を導入する。 この解釈能力は、大言語モデル(LLM)から生成された推論を利用して学習中に獲得され、小言語モデル(SLM)を蒸留する。 実験により, データセットに考慮したすべてのスコアリングルーリックに対してRDBEの有効性が示された。 RDBEはゼロショットLLMの生成とベースラインの微調整モデルからの生成の両方に優れており、対応するデータセットの最先端として確立されている。 これは実際の解釈的出力とパフォーマンスの向上を強調します。

Recently, various encoder-only and encoder-decoder pre-trained models like BERT and T5 have been applied to automatic essay scoring (AES) as small language models. However, existing studies have primarily treated this task akin to a classification problem, focusing solely on outputting scores in the target text without offering interpretations for the generated scores. Departing from the approaches, we introduce Reasoning Distillation-Based Evaluation (RDBE), which integrates interpretability to elucidate the rationale behind model scores while enhancing performance through initial reasoning. This interpretive capability is acquired during training by leveraging generated reasoning from a large language model (LLM) to distill a small language model (SLM). Our experimental results demonstrate the efficacy of RDBE across all scoring rubrics considered in the dataset. RDBE outperforms both zero-shot LLM generation and generation from a baseline fine-tuned model, establishing itself as state-of-the-art in the corresponding dataset. This highlights its practical interpretative output and enhanced performance.
翻訳日:2024-07-28 18:48:53 公開日:2024-07-03
# 変形性関節症・高齢者音声認識における自己教師付きASRモデルと特徴

Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition ( http://arxiv.org/abs/2407.13782v1 )

ライセンス: Link先を確認
Shujie Hu, Xurong Xie, Mengzhe Geng, Zengrui Jin, Jiajun Deng, Guinan Li, Yi Wang, Mingyu Cui, Tianzi Wang, Helen Meng, Xunying Liu, (参考訳) 自己教師付き学習(SSL)に基づく音声基礎モデルは、幅広いASRタスクに適用されている。 しかし, 構内データ不足とミスマッチにより, データ集約的パラメータ細調整による難聴, 高齢者の音声への応用が直面する。 そこで本研究では, 難聴者および高齢者の音声認識のためのTDNNおよびConformer ASRシステムに, SSL事前訓練モデルとその特徴を統合するための一連のアプローチについて検討する。 以下を含む。 a) 標準音響フロントエンドとドメイン微調整SSL音声表現との入力特徴融合 b)標準音響特徴のみを用いて個別に訓練されたTDNNシステムと追加のドメイン微調整SSL特徴を有するものとのフレームレベル共同復号 c)TDNN/Conformerシステム出力を含むマルチパスデコーディングは、ドメインの微調整された事前訓練されたASRモデルを用いて再構成される。 さらに、マルチモーダルASRシステムを構築するために、音響から調音への変換(A2A)において微調整のSSL音声特徴を用いる。 The English UASpeech and TORGO dysarthric speechcorpora, and the English DementiaBank Pitt and Cantonese JCCOCC MoCA elderly speech datasets。 ドメイン適応型 HuBERT, wav2vec2-conformer または multi-lingual XLSR モデルを統合することで構築されたTDNN システムは、スタンドアロンの微調整型SSL事前訓練モデルよりも一貫して優れている。 これらのシステムは、4つのタスクでそれぞれ6.53%、1.90%、2.04%、および7.97%の絶対値(24.10%、23.84%、10.14%、31.39%の相対値)を統計的に有意なWERまたはCERの削減を実現した。 DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。

Self-supervised learning (SSL) based speech foundation models have been applied to a wide range of ASR tasks. However, their application to dysarthric and elderly speech via data-intensive parameter fine-tuning is confronted by in-domain data scarcity and mismatch. To this end, this paper explores a series of approaches to integrate domain fine-tuned SSL pre-trained models and their features into TDNN and Conformer ASR systems for dysarthric and elderly speech recognition. These include: a) input feature fusion between standard acoustic frontends and domain fine-tuned SSL speech representations; b) frame-level joint decoding between TDNN systems separately trained using standard acoustic features alone and those with additional domain fine-tuned SSL features; and c) multi-pass decoding involving the TDNN/Conformer system outputs to be rescored using domain fine-tuned pre-trained ASR models. In addition, fine-tuned SSL speech features are used in acoustic-to-articulatory (A2A) inversion to construct multi-modal ASR systems. Experiments are conducted on four tasks: the English UASpeech and TORGO dysarthric speech corpora; and the English DementiaBank Pitt and Cantonese JCCOCC MoCA elderly speech datasets. The TDNN systems constructed by integrating domain-adapted HuBERT, wav2vec2-conformer or multi-lingual XLSR models and their features consistently outperform the standalone fine-tuned SSL pre-trained models. These systems produced statistically significant WER or CER reductions of 6.53%, 1.90%, 2.04% and 7.97% absolute (24.10%, 23.84%, 10.14% and 31.39% relative) on the four tasks respectively. Consistent improvements in Alzheimer's Disease detection accuracy are also obtained using the DementiaBank Pitt elderly speech recognition outputs.
翻訳日:2024-07-28 18:48:53 公開日:2024-07-03
# RobocupGym: Robocupの困難な継続的制御ベンチマーク

RobocupGym: A challenging continuous control benchmark in Robocup ( http://arxiv.org/abs/2407.14516v1 )

ライセンス: Link先を確認
Michael Beukman, Branden Ingram, Geraud Nangue Tasse, Benjamin Rosman, Pravesh Ranchod, (参考訳) 強化学習(Reinforcement Learning, RL)は、過去10年間で大幅に進歩し、その大部分がベンチマークによって推進されている。 多くのベンチマークはビデオやボードゲームに重点を置いており、多くのロボティクスベンチマークには多様性と現実の応用性がない。 本稿では,ロボットサッカーコンペティションであるRobocupの3Dシミュレーションリーグにおいて,強化学習を適用するプロセスを簡単にすることを目的とする。 この目的のために、オープンソースのrcssserver3dサッカーサーバをベースにしたRobocupベースのRL環境、シンプルな事前定義されたタスク、人気のあるRLライブラリであるStable Baselines 3との統合を紹介する。 我々の環境はロボットフットボールシミュレーションにおける高次元連続制御タスクの作成を可能にする。 各タスクでは、RLエージェントがシミュレートされた直ロボットを制御し、ボールや他のエージェントと対話することができる。 私たちは環境とトレーニングコードをhttps://github.com/Michael-Beukman/RobocupGym.comでオープンソースにしています。

Reinforcement learning (RL) has progressed substantially over the past decade, with much of this progress being driven by benchmarks. Many benchmarks are focused on video or board games, and a large number of robotics benchmarks lack diversity and real-world applicability. In this paper, we aim to simplify the process of applying reinforcement learning in the 3D simulation league of Robocup, a robotic football competition. To this end, we introduce a Robocup-based RL environment based on the open source rcssserver3d soccer server, simple pre-defined tasks, and integration with a popular RL library, Stable Baselines 3. Our environment enables the creation of high-dimensional continuous control tasks within a robotics football simulation. In each task, an RL agent controls a simulated Nao robot, and can interact with the ball or other agents. We open-source our environment and training code at https://github.com/Michael-Beukman/RobocupGym.
翻訳日:2024-07-28 18:39:09 公開日:2024-07-03
# デジタルツインを用いた都市交通管理のためのリスク認識型知的モビリティ分析

Digital Twin-based Driver Risk-Aware Intelligent Mobility Analytics for Urban Transportation Management ( http://arxiv.org/abs/2407.15025v1 )

ライセンス: Link先を確認
Tao Li, Zilin Bian, Haozhe Lei, Fan Zuo, Ya-Ting Yang, Quanyan Zhu, Zhenning Li, Zhibin Chen, Kaan Ozbay, (参考訳) 従来のモビリティ管理戦略は、交通検知インフラからのマクロレベルのモビリティ監視を強調しており、道路利用者に直接影響する安全リスクを見落としていることが多い。 そこで我々は,Digital Twinをベースとしたドライバリスク認識知能モビリティ分析(DT-DIMA)システムを提案する。 DT-DIMAシステムは、パンチルトカメラ(PTC)からのリアルタイムトラフィック情報を統合し、このデータをデジタルツインに同期させ、物理的世界を正確に再現し、ネットワーク全体のモビリティと安全性のリスクをリアルタイムに予測する。 このシステムの革新は、空間時間モデリング、シミュレーション、オンライン制御モジュールの統合にある。 ニューヨーク州ブルックリンの模擬試験場において、通常の交通条件と偶発的な状況(予期せぬ事故、事前計画された作業区域など)で試験および評価され、DT-DIMAは、ネットワークレベルの交通量とMAPEを0.85%から12.97%まで推定する平均絶対パーセンテージ誤差(MAPE)を8.40%から15.11%まで示した。 さらに、高精度な安全リスク予測により、PSCは事故が起こる前に高い運転リスクを伴う道路セグメントを事前に監視することができる。 このようなプロアクティブなPTC監視は、交通事故を捉えるのに約5分間のリードタイムを生み出す。 DT-DIMAシステムでは,交通パターンだけでなく運転者の安全リスクも考慮し,交通状況に応じて積極的に資源配分を行うことができる。 著者らの知る限り、DT-DIMAはデジタルツインアーキテクチャに基づくモビリティと安全性の両方のリスクを考慮した最初の都市モビリティ管理システムである。

Traditional mobility management strategies emphasize macro-level mobility oversight from traffic-sensing infrastructures, often overlooking safety risks that directly affect road users. To address this, we propose a Digital Twin-based Driver Risk-Aware Intelligent Mobility Analytics (DT-DIMA) system. The DT-DIMA system integrates real-time traffic information from pan-tilt-cameras (PTCs), synchronizes this data into a digital twin to accurately replicate the physical world, and predicts network-wide mobility and safety risks in real time. The system's innovation lies in its integration of spatial-temporal modeling, simulation, and online control modules. Tested and evaluated under normal traffic conditions and incidental situations (e.g., unexpected accidents, pre-planned work zones) in a simulated testbed in Brooklyn, New York, DT-DIMA demonstrated mean absolute percentage errors (MAPEs) ranging from 8.40% to 15.11% in estimating network-level traffic volume and MAPEs from 0.85% to 12.97% in network-level safety risk prediction. In addition, the highly accurate safety risk prediction enables PTCs to preemptively monitor road segments with high driving risks before incidents take place. Such proactive PTC surveillance creates around a 5-minute lead time in capturing traffic incidents. The DT-DIMA system enables transportation managers to understand mobility not only in terms of traffic patterns but also driver-experienced safety risks, allowing for proactive resource allocation in response to various traffic situations. To the authors' best knowledge, DT-DIMA is the first urban mobility management system that considers both mobility and safety risks based on digital twin architecture.
翻訳日:2024-07-28 18:39:09 公開日:2024-07-03
# AIに基づくチップ配置アルゴリズムのエンドツーエンド性能のベンチマーク

Benchmarking End-To-End Performance of AI-Based Chip Placement Algorithms ( http://arxiv.org/abs/2407.15026v1 )

ライセンス: Link先を確認
Zhihai Wang, Zijie Geng, Zhaojie Tu, Jie Wang, Yuxi Qian, Zhexuan Xu, Ziyan Liu, Siyuan Xu, Zhentao Tang, Shixiong Kai, Mingxuan Yuan, Jianye Hao, Bin Li, Yongdong Zhang, Feng Wu, (参考訳) 現代の超大規模統合(VLSI)設計の複雑さは、電子設計自動化(EDA)技術の重要性を強調している。 チップ配置は、最終的なチップ設計のパフォーマンス、パワー、面積(PPA)メトリクスを最適化することを目的として、チップモジュールをキャンバス上に配置するEDAワークフローにおける重要なステップである。 最近の進歩は、チップ配置を強化するAIベースのアルゴリズムの大きな可能性を実証している。 しかし、チップ設計のワークフローが長いため、これらのアルゴリズムの評価は中間サロゲートのメトリクスに重点を置いており、計算が容易であるが、エンド・ツー・エンドのパフォーマンス(すなわち最終設計のPPA)とはかなりのミスアライメントを示すことが多い。 この課題に対処するために、AIコミュニティ内のチップ配置の研究を効果的に促進するChiPBenchを紹介します。 ChiPBenchは、AIベースのチップ配置アルゴリズムによる最終的な設計PPAメトリクスの改善の有効性を評価するために設計された、包括的なベンチマークである。 具体的には、さまざまなドメイン(例えば、CPU、GPU、マイクロコントローラ)から20の回路を集めました。 これらの設計は、必要な物理実装キットを保持するVerilogソースコードからワークフローを実行し、最終的な設計PPAへの影響に対する配置アルゴリズムの評価を可能にすることでコンパイルされる。 我々は、これらの設計に対して6つの最先端AIベースのチップ配置アルゴリズムを実行し、各シングルポイントアルゴリズムの結果を物理実装ワークフローにプラグインし、最終的なPPA結果を得た。 実験の結果, 単点アルゴリズムの中間距離が支配的であったとしても, 最終的なPPAの結果は満足できないことがわかった。 当社のベンチマークは、学術と産業のギャップを埋めるための効果的な評価フレームワークとして機能すると考えています。

The increasing complexity of modern very-large-scale integration (VLSI) design highlights the significance of Electronic Design Automation (EDA) technologies. Chip placement is a critical step in the EDA workflow, which positions chip modules on the canvas with the goal of optimizing performance, power, and area (PPA) metrics of final chip designs. Recent advances have demonstrated the great potential of AI-based algorithms in enhancing chip placement. However, due to the lengthy workflow of chip design, the evaluations of these algorithms often focus on intermediate surrogate metrics, which are easy to compute but frequently reveal a substantial misalignment with the end-to-end performance (i.e., the final design PPA). To address this challenge, we introduce ChiPBench, which can effectively facilitate research in chip placement within the AI community. ChiPBench is a comprehensive benchmark specifically designed to evaluate the effectiveness of existing AI-based chip placement algorithms in improving final design PPA metrics. Specifically, we have gathered 20 circuits from various domains (e.g., CPU, GPU, and microcontrollers). These designs are compiled by executing the workflow from the verilog source code, which preserves necessary physical implementation kits, enabling evaluations for the placement algorithms on their impacts on the final design PPA. We executed six state-of-the-art AI-based chip placement algorithms on these designs and plugged the results of each single-point algorithm into the physical implementation workflow to obtain the final PPA results. Experimental results show that even if intermediate metric of a single-point algorithm is dominant, while the final PPA results are unsatisfactory. We believe that our benchmark will serve as an effective evaluation framework to bridge the gap between academia and industry.
翻訳日:2024-07-28 18:29:13 公開日:2024-07-03
# 医用画像解析の基礎モデルにおける信頼性に関する調査

A Survey on Trustworthiness in Foundation Models for Medical Image Analysis ( http://arxiv.org/abs/2407.15851v1 )

ライセンス: Link先を確認
Congzhen Shi, Ryan Rezai, Jiaxi Yang, Qi Dou, Xiaoxiao Li, (参考訳) 医療画像の基礎モデルの急速な進歩は、診断精度の向上とパーソナライズされた治療への大きな飛躍を示している。 しかしながら、基礎モデルのヘルスケアへの展開は、プライバシ、堅牢性、信頼性、説明可能性、公正性を含む、厳格な信頼性の検証を必要とする。 医療画像の基礎モデルに関する現在の調査文献では、特に信頼性の領域において、かなりのギャップが明らかになっている。 さらに、基礎モデルの信頼性に関する現在の調査では、医療画像領域内の特定のバリエーションや応用に対処できない。 本研究は, 主要な医用画像アプリケーションにおける基礎モデルの現状について, セグメンテーション, 医療報告生成, 医療質問・回答(Q&A), 病状診断を中心に検討し, 原稿に信頼性に関する議論を含む。 本稿では,医療画像解析の基礎モデルを信頼に値するものにするための複雑な課題について考察し,信頼性を高めるための現在の関心事と戦略を要約する。 さらに,これらのモデルが患者医療に革命をもたらす可能性についても検討する。 われわれの分析は、医療画像分析において信頼できるAIに進むための必須事項であり、倫理的かつ公平な医療提供を確保しつつ、イノベーションを促進するバランスのとれたアプローチを提唱している。

The rapid advancement of foundation models in medical imaging represents a significant leap toward enhancing diagnostic accuracy and personalized treatment. However, the deployment of foundation models in healthcare necessitates a rigorous examination of their trustworthiness, encompassing privacy, robustness, reliability, explainability, and fairness. The current body of survey literature on foundation models in medical imaging reveals considerable gaps, particularly in the area of trustworthiness. Additionally, extant surveys on the trustworthiness of foundation models fail to address their specific variations and applications within the medical imaging domain. This survey paper reviews the current research on foundation models in the major medical imaging applications, with a focus on segmentation, medical report generation, medical question and answering (Q&A), and disease diagnosis, which includes trustworthiness discussion in their manuscripts. We explore the complex challenges of making foundation models for medical image analysis trustworthy, associated with each application, and summarize the current concerns and strategies to enhance trustworthiness. Furthermore, we explore the future promises of these models in revolutionizing patient care. Our analysis underscores the imperative for advancing towards trustworthy AI in medical image analysis, advocating for a balanced approach that fosters innovation while ensuring ethical and equitable healthcare delivery.
翻訳日:2024-07-28 18:29:13 公開日:2024-07-03
# AI緊急準備:政府によるAI関連の国家安全保障脅威の検出と対応能力の検討

AI Emergency Preparedness: Examining the federal government's ability to detect and respond to AI-related national security threats ( http://arxiv.org/abs/2407.17347v1 )

ライセンス: Link先を確認
Akash Wasil, Everett Smith, Corin Katzke, Justin Bullock, (参考訳) 我々は、連邦政府がAIの緊急準備をいかに強化できるかを検討する。AIに関連する、時間に敏感な国家安全保障脅威を検知し、準備する能力。 緊急準備は、AIの進捗を監視し予測し、国家安全保障上の脅威を特定し、妥当な脅威と最悪のシナリオに対する効果的な対応計画を準備する政府の能力を改善することができる。 我々のアプローチは、専門家が正確な性質やタイミング(テロ対策、サイバーセキュリティ、パンデミックの準備など)について不確実性にもかかわらず脅威に備える分野から導かれる。 我々は,(1)コントロールの喪失(人間のコントロールを逃れることのできる強力なAIシステムからの脅威)(2)悪意あるアクター(強力なAIシステムのモデル重みを盗む外国人アクターからの脅威),(3)生物兵器の拡散(生物兵器を開発するために,一般公開されたモデルの安全を守る方法を特定するユーザからの脅威)の3つの有効なリスクシナリオに焦点を当てる。 そして、潜在的なギャップを強調し、緊急準備を改善するためのレコメンデーションを提供します。 我々は、AI緊急準備の今後の取り組みが、政策立案者のリスクシナリオ理解の改善、検出能力のギャップの特定、そしてAI関連の国家安全保障脅威に対する連邦政府の対応の有効性向上のための準備計画の策定にどのように適用できるかを説明することで締めくくった。

We examine how the federal government can enhance its AI emergency preparedness: the ability to detect and prepare for time-sensitive national security threats relating to AI. Emergency preparedness can improve the government's ability to monitor and predict AI progress, identify national security threats, and prepare effective response plans for plausible threats and worst-case scenarios. Our approach draws from fields in which experts prepare for threats despite uncertainty about their exact nature or timing (e.g., counterterrorism, cybersecurity, pandemic preparedness). We focus on three plausible risk scenarios: (1) loss of control (threats from a powerful AI system that becomes capable of escaping human control), (2) cybersecurity threats from malicious actors (threats from a foreign actor that steals the model weights of a powerful AI system), and (3) biological weapons proliferation (threats from users identifying a way to circumvent the safeguards of a publicly-released model in order to develop biological weapons.) We evaluate the federal government's ability to detect, prevent, and respond to these threats. Then, we highlight potential gaps and offer recommendations to improve emergency preparedness. We conclude by describing how future work on AI emergency preparedness can be applied to improve policymakers' understanding of risk scenarios, identify gaps in detection capabilities, and form preparedness plans to improve the effectiveness of federal responses to AI-related national security threats.
翻訳日:2024-07-28 18:19:29 公開日:2024-07-03
# 記憶からの学習:非パラメータ記憶による視覚的特徴の自己監督学習

Learning from Memory: Non-Parametric Memory Augmented Self-Supervised Learning of Visual Features ( http://arxiv.org/abs/2407.17486v1 )

ライセンス: Link先を確認
Thalles Silva, Helio Pedrini, Adín Ramírez Rivera, (参考訳) 本稿では,自己教師付き学習(SSL)手法のトレーニング安定性向上のための新しい手法を提案する。 提案手法では,ニューラルネットワークをメモリコンポーネントで拡張し,現在のイメージビューとそれまで遭遇していた概念を統計的に比較する。 さらに、トレーニングを規則化し、画像ビュー間の一貫性を強制するための確率的メモリブロックを導入する。 我々は、線形探索、移動学習、低ショット分類、多くのデータセットでの画像検索など、多くの視覚タスクにおいて、我々の手法を広範囲にベンチマークする。 実験結果は、高い転送可能な表現を学習し、計算時間やリソースを少なくしながら、新たな正規化子を使わずに安定したSSLトレーニングを実現するための提案手法の有効性を集約した。

This paper introduces a novel approach to improving the training stability of self-supervised learning (SSL) methods by leveraging a non-parametric memory of seen concepts. The proposed method involves augmenting a neural network with a memory component to stochastically compare current image views with previously encountered concepts. Additionally, we introduce stochastic memory blocks to regularize training and enforce consistency between image views. We extensively benchmark our method on many vision tasks, such as linear probing, transfer learning, low-shot classification, and image retrieval on many datasets. The experimental results consolidate the effectiveness of the proposed approach in achieving stable SSL training without additional regularizers while learning highly transferable representations and requiring less computing time and resources.
翻訳日:2024-07-28 18:09:38 公開日:2024-07-03
# 企業サステナビリティ分析のための説明可能な自然言語処理

Explainable Natural Language Processing for Corporate Sustainability Analysis ( http://arxiv.org/abs/2407.17487v1 )

ライセンス: Link先を確認
Keane Ong, Rui Mao, Ranjan Satapathy, Ricardo Shirota Filho, Erik Cambria, Johan Sulaeman, Gianmarco Mengaldo, (参考訳) サステナビリティ(サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ、サステナビリティ)とは、環境、社会、経済に非破壊的(あるいはプラス的) 持続可能性が受け入れられ、合法的な行動のシノニムとなるにつれ、それはますます要求され、規制されている。 国連の持続可能な開発目標や最近導入された世界的な持続可能性報告フレームワークなど、企業の持続可能性への影響を測定するために、いくつかのフレームワークや標準が提案されている。 しかし、コーポレートサステナビリティの概念は、企業運営(地理的、規模、事業活動、他の利害関係者との相互関係など)の多様で複雑な性質のため複雑である。 その結果、企業サステナビリティ評価は、企業サステナビリティの取り組み(すなわち企業サステナビリティ開示)を反映したデータと、それらを評価するアナリストの両方において主観性に悩まされている。 この主観性は、不完全性、曖昧性、不確実性、データ次元の高度化、および限られた資源とアナリスト次元の潜在的なバイアスなど、異なる課題に蒸留することができる。 総じて、主観性は、サステナビリティの期待に従わない団体への効果的なコスト貢献を妨げ、サステナビリティの取り組みとその関連する規制を無駄にする可能性がある。 この目的のために、説明可能な自然言語処理(XNLP)は企業サステナビリティ分析を大幅に向上させることができると論じる。 具体的には、言語理解アルゴリズム(語彙、意味、構文)とXAI機能(解釈可能性、説明可能性、忠実性)を統合し、分析資源のギャップを埋め、データ内の主観性問題を緩和することができる。

Sustainability commonly refers to entities, such as individuals, companies, and institutions, having a non-detrimental (or even positive) impact on the environment, society, and the economy. With sustainability becoming a synonym of acceptable and legitimate behaviour, it is being increasingly demanded and regulated. Several frameworks and standards have been proposed to measure the sustainability impact of corporations, including United Nations' sustainable development goals and the recently introduced global sustainability reporting framework, amongst others. However, the concept of corporate sustainability is complex due to the diverse and intricate nature of firm operations (i.e. geography, size, business activities, interlinks with other stakeholders). As a result, corporate sustainability assessments are plagued by subjectivity both within data that reflect corporate sustainability efforts (i.e. corporate sustainability disclosures) and the analysts evaluating them. This subjectivity can be distilled into distinct challenges, such as incompleteness, ambiguity, unreliability and sophistication on the data dimension, as well as limited resources and potential bias on the analyst dimension. Put together, subjectivity hinders effective cost attribution to entities non-compliant with prevailing sustainability expectations, potentially rendering sustainability efforts and its associated regulations futile. To this end, we argue that Explainable Natural Language Processing (XNLP) can significantly enhance corporate sustainability analysis. Specifically, linguistic understanding algorithms (lexical, semantic, syntactic), integrated with XAI capabilities (interpretability, explainability, faithfulness), can bridge gaps in analyst resources and mitigate subjectivity problems within data.
翻訳日:2024-07-28 17:59:54 公開日:2024-07-03
# 人間-AIチームにおける集合的注意

Collective Attention in Human-AI Teams ( http://arxiv.org/abs/2407.17489v1 )

ライセンス: Link先を確認
Josie Zvelebilova, Saiph Savage, Christoph Riedl, (参考訳) AIアシスタントの存在は、チームの集団的関心にどのように影響しますか? 難解なパズル作業中に、音声のみのAIアシスタントとペアを組んだ3,4人の人間の20チームについて検討した。 チームはランダムに人間の声やロボットの声でAIアシスタントに割り当てられ、タスクに関する有益な情報や誤解を招く情報を提供する。 個々のAIインタージェクションを治療介入として扱うことで、言語使用を含む動的グループプロセスに対するAIの因果的影響を識別する。 我々の研究結果は、AIがチームが何を議論するか、どのように議論するか、そしてメンタルモデルのアライメントに大きく影響していることを示している。 チームはタスクに直接関連する用語と周辺用語の両方にAI導入言語を採用する。 (a)AIの不快な性質を認識する。 (b)AIを真のチームメンバーとはみなさず、 (c)AIを信頼しない。 言語適応のプロセスは、AIの能力に疑問があるにもかかわらず、自動化されているようだ。 AIアシスタントの存在は、共有認知の様々な側面を調節することによって、チームの集団的注意に大きく影響する。 本研究は,チーム設定におけるAIシステムがチームパフォーマンスに影響を及ぼす中心的なメカニズムとして,集団的注意を喚起することによって,人間とAIのコラボレーション研究に寄与する。 このメカニズムを理解することで、CSCWの研究者たちは、集合的注意を最適化することによって、チームの集合的知性を高めるAIシステムを設計できる。

How does the presence of an AI assistant affect the collective attention of a team? We study 20 human teams of 3-4 individuals paired with one voice-only AI assistant during a challenging puzzle task. Teams are randomly assigned to an AI assistant with a human- or robotic-sounding voice that provides either helpful or misleading information about the task. Treating each individual AI interjection as a treatment intervention, we identify the causal effects of the AI on dynamic group processes involving language use. Our findings demonstrate that the AI significantly affects what teams discuss, how they discuss it, and the alignment of their mental models. Teams adopt AI-introduced language for both terms directly related to the task and for peripheral terms, even when they (a) recognize the unhelpful nature of the AI, (b) do not consider the AI a genuine team member, and (c) do not trust the AI. The process of language adaptation appears to be automatic, despite doubts about the AI's competence. The presence of an AI assistant significantly impacts team collective attention by modulating various aspects of shared cognition. This study contributes to human-AI teaming research by highlighting collective attention as a central mechanism through which AI systems in team settings influence team performance. Understanding this mechanism will help CSCW researchers design AI systems that enhance team collective intelligence by optimizing collective attention.
翻訳日:2024-07-28 17:59:54 公開日:2024-07-03
# AMEX: モバイルGUIエージェント用のAndroidマルチアノテーションエクスポデータセット

AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents ( http://arxiv.org/abs/2407.17490v1 )

ライセンス: Link先を確認
Yuxiang Chai, Siyuan Huang, Yazhe Niu, Han Xiao, Liang Liu, Dingyu Zhang, Peng Gao, Shuai Ren, Hongsheng Li, (参考訳) AIエージェントは、主に環境を知覚し、タスクを理解し、自律的に目標を達成する能力に注意を向けている。 モバイルシナリオにおけるAIエージェントの研究を進めるために,汎用的なモバイルGUI制御エージェント用に設計された包括的かつ大規模なデータセットであるAndroid Multi-Annotation EXpo(AMEX)を紹介した。 モバイルデバイス上のグラフィカルユーザインタフェース(GUI)と直接対話することで複雑なタスクを完了させる能力をトレーニングし、提案したデータセットで評価する。 AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。 既存のモバイルデバイスコントロールデータセット、例えば、MoTIF、AitWなどとは異なり、AMEXには3つのレベルのアノテーションが含まれている。 我々は、既存のデータセットの一般的な設定を補完し、より教育的かつ詳細な視点からこのデータセットを開発する。 さらに、ベースラインモデルSPHINX Agentを開発し、その性能を、他のデータセットで訓練された最先端エージェント間で比較する。 さらなる研究を容易にするため、私たちはデータセット、モデル、関連する評価ツールをオープンソース化しました。 このプロジェクトはhttps://yuxiangchai.github.io/AMEX/で入手できる。

AI agents have drawn increasing attention mostly on their ability to perceive environments, understand tasks, and autonomously achieve goals. To advance research on AI agents in mobile scenarios, we introduce the Android Multi-annotation EXpo (AMEX), a comprehensive, large-scale dataset designed for generalist mobile GUI-control agents. Their capabilities of completing complex tasks by directly interacting with the graphical user interface (GUI) on mobile devices are trained and evaluated with the proposed dataset. AMEX comprises over 104K high-resolution screenshots from 110 popular mobile applications, which are annotated at multiple levels. Unlike existing mobile device-control datasets, e.g., MoTIF, AitW, etc., AMEX includes three levels of annotations: GUI interactive element grounding, GUI screen and element functionality descriptions, and complex natural language instructions, each averaging 13 steps with stepwise GUI-action chains. We develop this dataset from a more instructive and detailed perspective, complementing the general settings of existing datasets. Additionally, we develop a baseline model SPHINX Agent and compare its performance across state-of-the-art agents trained on other datasets. To facilitate further research, we open-source our dataset, models, and relevant evaluation tools. The project is available at https://yuxiangchai.github.io/AMEX/
翻訳日:2024-07-28 17:59:54 公開日:2024-07-03
# ITEM:トップkレコメンデーションのためのメッセージパッシングに基づくGNNのトレーニングと評価の改善

ITEM: Improving Training and Evaluation of Message-Passing based GNNs for top-k recommendation ( http://arxiv.org/abs/2407.07912v1 )

ライセンス: Link先を確認
Yannis Karmim, Elias Ramzi, Raphaël Fournier-S'niehotta, Nicolas Thome, (参考訳) グラフニューラルネットワーク(GNN)、特にメッセージパスベースのモデルは、より広いコンテキストから情報を効率的に集約する能力により、行列分解モデルを上回るトップkレコメンデーションタスクで顕著になっている。 GNNは、NDCG@kやRecall@kのようなランキングベースのメトリクスで評価されているが、BPR損失など、プロキシ損失を主にトレーニングしている。 本研究では,評価指標を直接最適化するためのランキング損失関数の利用について検討する。 我々は、ランクのスムーズな近似を利用して、GNNのエンドツーエンドトレーニングを促進するとともに、ランキング損失関数に適したパーソナライズされたPageRankベースのネガティブサンプリング戦略を提案する。 さらに、誘導型ユーザ中心プロトコルを用いてトップkレコメンデーションタスクのためのGNNモデルの評価を拡張し、現実世界のアプリケーションのより正確なリフレクションを提供する。 提案手法は、4つのデータセットと4つのGNNアーキテクチャにまたがる標準的なBPR損失と、より高度な損失を著しく上回りながら、より高速なトレーニングを行う。 協調フィルタリング作業におけるGNNトレーニング改善におけるランキング損失関数の可能性を示す。

Graph Neural Networks (GNNs), especially message-passing-based models, have become prominent in top-k recommendation tasks, outperforming matrix factorization models due to their ability to efficiently aggregate information from a broader context. Although GNNs are evaluated with ranking-based metrics, e.g NDCG@k and Recall@k, they remain largely trained with proxy losses, e.g the BPR loss. In this work we explore the use of ranking loss functions to directly optimize the evaluation metrics, an area not extensively investigated in the GNN community for collaborative filtering. We take advantage of smooth approximations of the rank to facilitate end-to-end training of GNNs and propose a Personalized PageRank-based negative sampling strategy tailored for ranking loss functions. Moreover, we extend the evaluation of GNN models for top-k recommendation tasks with an inductive user-centric protocol, providing a more accurate reflection of real-world applications. Our proposed method significantly outperforms the standard BPR loss and more advanced losses across four datasets and four recent GNN architectures while also exhibiting faster training. Demonstrating the potential of ranking loss functions in improving GNN training for collaborative filtering tasks.
翻訳日:2024-07-22 13:58:01 公開日:2024-07-03
# 拡張FCOSライトと知識蒸留によるエッジAIによる鶏の健康診断

Edge AI-Enabled Chicken Health Detection Based on Enhanced FCOS-Lite and Knowledge Distillation ( http://arxiv.org/abs/2407.09562v1 )

ライセンス: Link先を確認
Qiang Tong, Jinrui Wang, Wenshuang Yang, Songtao Wu, Wenqi Zhang, Chen Sun, Kuanhong Xu, (参考訳) AIoT技術の利用は、現代の養鶏経営において重要なトレンドとなり、農業作業の最適化と人的作業の削減の可能性を秘めている。 本稿では,エッジAI機能付きCMOSセンサを備えた軽量でインテリジェントなカメラを用いて,ニワトリとその健康状態を特定するための,リアルタイムかつコンパクトなエッジAI対応検出器を提案する。 メモリ制約付きエッジAI対応CMOSセンサに提案する小型検出器を効率よく配置するために,MobileNetをバックボーンとして利用するFCOSライト検出器を用いる。 追加の推論コストを発生させることなく、小型エッジAI検出器の精度低下の問題を軽減するため、勾配重み付け損失関数を分類損失として、CIOU損失関数を局所化損失として導入する。 さらに,大規模教師検出器から提案したFCOS-Lite検出器に貴重な情報を伝達する知識蒸留手法を提案し,コンパクトなモデルサイズを維持しながらその性能を向上させる。 実験により、提案したエッジAI有効検出器は、平均平均精度95.1$\%$、F1スコア94.2$\%$などを含む平均性能測定値を達成することを示した。 特に、提案検出器は、Int8量子化により達成されたエッジAI対応CMOSセンサ上で、20FPSを超える速度で効率よく展開および動作することができる。 これは、消費電力が低く、帯域幅が最小限の軽量インテリジェントカメラを使用して、養鶏自動健康モニタリングの実践的な要求を満たす。

The utilization of AIoT technology has become a crucial trend in modern poultry management, offering the potential to optimize farming operations and reduce human workloads. This paper presents a real-time and compact edge-AI enabled detector designed to identify chickens and their healthy statuses using frames captured by a lightweight and intelligent camera equipped with an edge-AI enabled CMOS sensor. To ensure efficient deployment of the proposed compact detector within the memory-constrained edge-AI enabled CMOS sensor, we employ a FCOS-Lite detector leveraging MobileNet as the backbone. To mitigate the issue of reduced accuracy in compact edge-AI detectors without incurring additional inference costs, we propose a gradient weighting loss function as classification loss and introduce CIOU loss function as localization loss. Additionally, we propose a knowledge distillation scheme to transfer valuable information from a large teacher detector to the proposed FCOS-Lite detector, thereby enhancing its performance while preserving a compact model size. Experimental results demonstrate the proposed edge-AI enabled detector achieves commendable performance metrics, including a mean average precision (mAP) of 95.1$\%$ and an F1-score of 94.2$\%$, etc. Notably, the proposed detector can be efficiently deployed and operates at a speed exceeding 20 FPS on the edge-AI enabled CMOS sensor, achieved through int8 quantization. That meets practical demands for automated poultry health monitoring using lightweight intelligent cameras with low power consumption and minimal bandwidth costs.
翻訳日:2024-07-22 13:08:55 公開日:2024-07-03
# 外因性変数を用いた機械学習によるLEOの高精度かつ効率的な軌道予測

Precise and Efficient Orbit Prediction in LEO with Machine Learning using Exogenous Variables ( http://arxiv.org/abs/2407.11026v1 )

ライセンス: Link先を確認
Francisco Caldas, Cláudia Soares, (参考訳) 地球の軌道における宇宙物体の量の増加は、宇宙状況認識(Space situational Awareness, SSA)にとって重要な課題である。 そして、特に正確な軌道予測は、衝突回避と宇宙ゴミの緩和のために、宇宙物体の位置と速度を予測するために不可欠である。 軌道予測(OP)を行う場合、大気抵抗や重力摂動といった非保守的な力の影響を考慮する必要がある。 SGP4のような従来のプロパゲータ手法ではこれらの力は不十分であり、数値プロパゲータは高い計算コストで力をモデル化することができる。 これらの制約に対処するために,機械学習を用いた軌道予測アルゴリズムを提案する。 このアルゴリズムは、過去の位置と外部からの大気密度のような環境変数を用いて、宇宙船の状態ベクトルを予測する。 論文で使用される軌道データは、ILRS(International Laser Ranging Service)の精密なエフェメリスデータから約1年間収集される。 機械学習と時系列技術を用いることで、非常に低い計算コストで低い位置決め誤差を発生させることで、より高速で信頼性の高い軌道決定を宇宙オブジェクト数の増加にもたらすことにより、SSA能力を大幅に向上させることができることを示す。

The increasing volume of space objects in Earth's orbit presents a significant challenge for Space Situational Awareness (SSA). And in particular, accurate orbit prediction is crucial to anticipate the position and velocity of space objects, for collision avoidance and space debris mitigation. When performing Orbit Prediction (OP), it is necessary to consider the impact of non-conservative forces, such as atmospheric drag and gravitational perturbations, that contribute to uncertainty around the future position of spacecraft and space debris alike. Conventional propagator methods like the SGP4 inadequately account for these forces, while numerical propagators are able to model the forces at a high computational cost. To address these limitations, we propose an orbit prediction algorithm utilizing machine learning. This algorithm forecasts state vectors on a spacecraft using past positions and environmental variables like atmospheric density from external sources. The orbital data used in the paper is gathered from precision ephemeris data from the International Laser Ranging Service (ILRS), for the period of almost a year. We show how the use of machine learning and time-series techniques can produce low positioning errors at a very low computational cost, thus significantly improving SSA capabilities by providing faster and reliable orbit determination for an ever increasing number of space objects.
翻訳日:2024-07-22 12:20:02 公開日:2024-07-03
# 正当性粒度に基づくシャドードグラニュラーボールを用いた頑健な3方向分類器

A robust three-way classifier with shadowed granular-balls based on justifiable granularity ( http://arxiv.org/abs/2407.11027v1 )

ライセンス: Link先を確認
Jie Yang, Lingyun Xiaodiao, Guoyin Wang, Witold Pedrycz, Shuyin Xia, Qinghua Zhang, Di Wu, (参考訳) Xiaによって導入されたグラニュラーボール(GB)ベースの分類器は、入力のための粗粒度情報グラニュラーを作成する適応性を示し、その汎用性と柔軟性を高める。 それでも、現在のGBベースの分類器は、各データインスタンスに特定のクラスラベルを厳格に割り当てており、不確実なインスタンスに対処するために必要な戦略が欠如している。 このような、不確実な事例に対する特定の分類アプローチは、かなりのリスクを被る可能性がある。 この問題を解決するために、不確実なデータのために、影付きGBの頑健な3方向分類器を構築する。 まず,情報エントロピーと組み合わせて,良質な粒度の原理を用いた拡張GB生成法を提案する。 その後、最小不確実性に基づいて、シャドーマッピングを使用して、GBをコア領域、重要領域、ユシデンシャル領域に分割する。 構築されたシャドウGBに基づいて、データインスタンスを特定のクラスと不確実なケースに分類する3方向分類器を確立する。 最後に、2つの3方向分類器、3つの最先端のGBベースの分類器、3つの古典的な機械学習分類器を12の公開ベンチマークデータセットで比較実験する。 その結果,不確実なデータ管理におけるロバスト性を示し,分類リスクを効果的に軽減できることが示唆された。 さらに、本モデルでは、他の比較手法よりも効率と効率の両面で優れています。

The granular-ball (GB)-based classifier introduced by Xia, exhibits adaptability in creating coarse-grained information granules for input, thereby enhancing its generality and flexibility. Nevertheless, the current GB-based classifiers rigidly assign a specific class label to each data instance and lacks of the necessary strategies to address uncertain instances. These far-fetched certain classification approachs toward uncertain instances may suffer considerable risks. To solve this problem, we construct a robust three-way classifier with shadowed GBs for uncertain data. Firstly, combine with information entropy, we propose an enhanced GB generation method with the principle of justifiable granularity. Subsequently, based on minimum uncertainty, a shadowed mapping is utilized to partition a GB into Core region, Important region and Unessential region. Based on the constructed shadowed GBs, we establish a three-way classifier to categorize data instances into certain classes and uncertain case. Finally, extensive comparative experiments are conducted with 2 three-way classifiers, 3 state-of-the-art GB-based classifiers, and 3 classical machine learning classifiers on 12 public benchmark datasets. The results show that our model demonstrates robustness in managing uncertain data and effectively mitigates classification risks. Furthermore, our model almost outperforms the other comparison methods in both effectiveness and efficiency.
翻訳日:2024-07-22 12:20:02 公開日:2024-07-03
# 機械学習における敵対的脆弱性のための幾何学的枠組み

A Geometric Framework for Adversarial Vulnerability in Machine Learning ( http://arxiv.org/abs/2407.11029v1 )

ライセンス: Link先を確認
Brian Bell, (参考訳) この研究は、人工ニューラルネットワークにおいて ~\citet{szegedy2013} によって観察される興味深い脆弱性を理解するために数学を使う意図から始まった。 その過程で、敵ドメイン以外のアプリケーションを含む新しいツールを開発します。 我々はこの問題を検証するための厳密な数学的枠組みを開発しながらこれを行う。 我々のゴールは、 ~\citet{shamir2021dimpled} のいわゆる ‘Dimpled Manifold hypothesis' に特に焦点をあてて、敵攻撃に関するより洗練された予想を支持する理論を構築することである。 第1章では、ニューラルネットワークアーキテクチャの歴史とアーキテクチャについて取り上げる。 第2章は敵の脆弱性の背景に焦点を当てている。 ~\citet{szegedy2013} のセミナー論文から始め、敵の摂動と攻撃の理論を発展させる。 第3章は、決定境界の性質を測定するために使用できるリッチ曲率に関連する永続性の理論を構築する。 我々はこの基礎を利用して敵の攻撃に関する予想を行う。 第4章と第5章は、ニューラルネットワークの空間解析に関する興味深い理論の体系をカーネルマシンの近似として検証し、バイリニアマップでニューラルネットワークを表現するための新しい理論となる、突然で素晴らしい進歩を表している。 これらの非常に数学的な章はフレームワークを構築し、空間的および幾何学的な情報を用いてニューラルネットワーク学習を分析するための非常に重要な理論基盤となるものの適用を探求する。 今後,第3章の予測に対処する新たな手法を策定し,研究を継続する。

This work starts with the intention of using mathematics to understand the intriguing vulnerability observed by ~\citet{szegedy2013} within artificial neural networks. Along the way, we will develop some novel tools with applications far outside of just the adversarial domain. We will do this while developing a rigorous mathematical framework to examine this problem. Our goal is to build out theory which can support increasingly sophisticated conjecture about adversarial attacks with a particular focus on the so called ``Dimpled Manifold Hypothesis'' by ~\citet{shamir2021dimpled}. Chapter one will cover the history and architecture of neural network architectures. Chapter two is focused on the background of adversarial vulnerability. Starting from the seminal paper by ~\citet{szegedy2013} we will develop the theory of adversarial perturbation and attack. Chapter three will build a theory of persistence that is related to Ricci Curvature, which can be used to measure properties of decision boundaries. We will use this foundation to make a conjecture relating adversarial attacks. Chapters four and five represent a sudden and wonderful digression that examines an intriguing related body of theory for spatial analysis of neural networks as approximations of kernel machines and becomes a novel theory for representing neural networks with bilinear maps. These heavily mathematical chapters will set up a framework and begin exploring applications of what may become a very important theoretical foundation for analyzing neural network learning with spatial and geometric information. We will conclude by setting up our new methods to address the conjecture from chapter 3 in continuing research.
翻訳日:2024-07-22 12:20:02 公開日:2024-07-03
# DLO: LLMの効率的な垂直スケーリングのための動的層操作

DLO: Dynamic Layer Operation for Efficient Vertical Scaling of LLMs ( http://arxiv.org/abs/2407.11030v1 )

ライセンス: Link先を確認
Zhen Tan, Daize Dong, Xinyu Zhao, Jie Peng, Yu Cheng, Tianlong Chen, (参考訳) 本稿では,動的層操作(Dynamic Layer Operations, DLO)を導入し, 階層的特徴類似性に基づく高度なルーティングポリシを用いて動的に拡張, 活性化, スキップすることで, トランスフォーマベース大規模言語モデル(LLM)を垂直スケールする手法を提案する。 モデル幅の拡張に重点を置く従来のMixture-of-Experts(MoE)手法とは異なり,本手法はモデル深度を対象とし,様々な入力サンプルに対して層表現間で観測される冗長性に対処する。 我々のフレームワークはスーパービジョンファインチューニング(SFT)の段階と統合されており、リソース集約型連続事前学習(CPT)の必要性を排除している。 実験結果から,DLOは元の非スケールモデルよりも優れるだけでなく,効率が大幅に向上した高密度モデルと同等の結果が得られることが示された。 私たちの研究は、効率的でパワフルなLLMを構築するための有望な方向性を提供します。 私たちは受け入れに応じて実装とモデルウェイトをリリースします。

In this paper, we introduce Dynamic Layer Operations (DLO), a novel approach for vertically scaling transformer-based Large Language Models (LLMs) by dynamically expanding, activating, or skipping layers using a sophisticated routing policy based on layerwise feature similarity. Unlike traditional Mixture-of-Experts (MoE) methods that focus on extending the model width, our approach targets model depth, addressing the redundancy observed across layer representations for various input samples. Our framework is integrated with the Supervised Fine-Tuning (SFT) stage, eliminating the need for resource-intensive Continual Pre-Training (CPT). Experimental results demonstrate that DLO not only outperforms the original unscaled models but also achieves comparable results to densely expanded models with significantly improved efficiency. Our work offers a promising direction for building efficient yet powerful LLMs. We will release our implementation and model weights upon acceptance.
翻訳日:2024-07-22 12:20:02 公開日:2024-07-03
# 知識に基づく大規模言語モデルの一貫性テスト

Knowledge-based Consistency Testing of Large Language Models ( http://arxiv.org/abs/2407.12830v1 )

ライセンス: Link先を確認
Sai Sathiesh Rajan, Ezekiel Soremekun, Sudipta Chattopadhyay, (参考訳) 本研究では,大規模言語モデル(LLM)の不整合性と知識ギャップを系統的に明らかにし,評価する。 具体的には、知識グラフを利用してテストケースを構築する自動テストフレームワーク(KONTEST)を提案する。 KONTESTは、意味論的に等価なクエリとテストオラクル(メタモルフィックまたはオントロジ的オラクル)の組み合わせによって、LLMの世界の知識の不整合を調査し、測定する。 KONTESTはLLMモデルのアンサンブルによって知識ギャップを緩和する。 最先端の4つのLLM(Falcon, Gemini, GPT3.5, Llama2)を用いて、KoNTESTは19.2%のエラーを発生させる(9983の試験入力から1917のエラーを発生させる)。 また、全試験LLMの16.5%の知識ギャップも明らかにしている。 KONTEST の緩和手法は LLM の知識ギャップを 32.48% 削減する。 さらに, GPT3.5は知識構築において60%-68%しか有効ではないため, 知識ベース一貫性試験には適さないことを示した。

In this work, we systematically expose and measure the inconsistency and knowledge gaps of Large Language Models (LLMs). Specifically, we propose an automated testing framework (called KONTEST) which leverages a knowledge graph to construct test cases. KONTEST probes and measures the inconsistencies in the LLM's knowledge of the world via a combination of semantically-equivalent queries and test oracles (metamorphic or ontological oracle). KONTEST further mitigates knowledge gaps via a weighted LLM model ensemble. Using four state-of-the-art LLMs (Falcon, Gemini, GPT3.5, and Llama2), we show that KONTEST generates 19.2% error inducing inputs (1917 errors from 9983 test inputs). It also reveals a 16.5% knowledge gap across all tested LLMs. KONTEST's mitigation method reduces LLM knowledge gap by 32.48%. Our ablation study further shows that GPT3.5 is not suitable for knowledge-based consistency testing because it is only 60%-68% effective in knowledge construction.
翻訳日:2024-07-22 08:37:51 公開日:2024-07-03
# 真実は普遍である: LLMにおける嘘のロバスト検出

Truth is Universal: Robust Detection of Lies in LLMs ( http://arxiv.org/abs/2407.12831v1 )

ライセンス: Link先を確認
Lennart Bürger, Fred A. Hamprecht, Boaz Nadler, (参考訳) 大きな言語モデル(LLM)は自然言語処理に革命をもたらし、印象的な人間的な能力を示している。 特にLLMは、意図的に偽の文を出力する"lying"能力を持つ。 したがって、LSMがいつあるかを検出する手法を開発することが重要かつ重要である。 実際、いくつかの著者はLPMを検出するための分類器を内部モデルアクティベーションに基づいて訓練した。 しかし、他の研究者はこれらの分類器が一般化に失敗する可能性があることを示した。 本研究では,LLMが横になっていることを検知するロバストな手法を開発することを目的とする。 この目的のために、我々は以下の重要な貢献をしている。 i) 真と偽の文の活性化ベクトルを分離できる2次元部分空間の存在を実証する。 特に、この発見は普遍的であり、Gemma-7B、LLaMA2-13B、LLaMA3-8Bなど様々なLLMに当てはまる。 我々の分析は、過去の研究で見られた一般化の失敗を説明し、より堅牢な嘘検出のステージを設定します。 (二)造営 i) 正確なLLM嘘検出装置を構築した。 提案した分類器は,94%の精度で単純な真偽文を識別し,95%の精度でより複雑な実世界の嘘を検出する。

Large Language Models (LLMs) have revolutionised natural language processing, exhibiting impressive human-like capabilities. In particular, LLMs are capable of "lying", knowingly outputting false statements. Hence, it is of interest and importance to develop methods to detect when LLMs lie. Indeed, several authors trained classifiers to detect LLM lies based on their internal model activations. However, other researchers showed that these classifiers may fail to generalise, for example to negated statements. In this work, we aim to develop a robust method to detect when an LLM is lying. To this end, we make the following key contributions: (i) We demonstrate the existence of a two-dimensional subspace, along which the activation vectors of true and false statements can be separated. Notably, this finding is universal and holds for various LLMs, including Gemma-7B, LLaMA2-13B and LLaMA3-8B. Our analysis explains the generalisation failures observed in previous studies and sets the stage for more robust lie detection; (ii) Building upon (i), we construct an accurate LLM lie detector. Empirically, our proposed classifier achieves state-of-the-art performance, distinguishing simple true and false statements with 94% accuracy and detecting more complex real-world lies with 95% accuracy.
翻訳日:2024-07-22 08:37:51 公開日:2024-07-03
# 語彙メトリクスの文レベル集約はコーパスレベル集約よりも人的判断と強く関連している

Sentence-level Aggregation of Lexical Metrics Correlate Stronger with Human Judgements than Corpus-level Aggregation ( http://arxiv.org/abs/2407.12832v1 )

ライセンス: Link先を確認
Paulo Cavalin, Pedro Henrique Domingues, Claudio Pinhanez, (参考訳) 本稿では,コーパスレベルのアグリゲーションが,機械翻訳システム(MT)を正確に評価する語彙メトリクスの能力をかなり損なうことを示す。 実験的な実験により、個々のセグメントレベルのスコアを平均すると、BLEUやchrFのようなメトリクスが人間の判断と非常に強く相関し、COMETやBLEURTのような神経メトリクスと非常によく似た振る舞いをすることを示した。 コーパスレベルとセグメントレベルのアグリゲーションは、古典的な平均値と平均値の比からかなり異なるため、この差が存在することを示す。 さらに、この差はコーパスレベルの凝集の統計的堅牢性にも大きく影響する。 本論文は,現在,十分なリソースを持つ少数の言語のみを対象としているため,低リソース言語に対するMTシステムの評価をより信頼性の高いものにする上で有効である。

In this paper we show that corpus-level aggregation hinders considerably the capability of lexical metrics to accurately evaluate machine translation (MT) systems. With empirical experiments we demonstrate that averaging individual segment-level scores can make metrics such as BLEU and chrF correlate much stronger with human judgements and make them behave considerably more similar to neural metrics such as COMET and BLEURT. We show that this difference exists because corpus- and segment-level aggregation differs considerably owing to the classical average of ratio versus ratio of averages Mathematical problem. Moreover, as we also show, such difference affects considerably the statistical robustness of corpus-level aggregation. Considering that neural metrics currently only cover a small set of sufficiently-resourced languages, the results in this paper can help make the evaluation of MT systems for low-resource languages more trustworthy.
翻訳日:2024-07-22 08:37:51 公開日:2024-07-03
# ESQA: イベントシーケンスの質問回答

ESQA: Event Sequences Question Answering ( http://arxiv.org/abs/2407.12833v1 )

ライセンス: Link先を確認
Irina Abdullaeva, Andrei Filatov, Mikhail Orlov, Ivan Karpukhin, Viacheslav Vasilev, Denis Dimitrov, Andrey Kuznetsov, Ivan Kireev, Andrey Savchenko, (参考訳) イベントシーケンス(ES)は、金融、小売、ソーシャルネットワーク、医療など、多くの実践的な領域で発生する。 機械学習の文脈では、イベントシーケンスは注釈付きタイムスタンプを持つ特別なタイプの表データと見なすことができる。 ESsモデリングと分析の重要性にもかかわらず、大きな言語モデル(LLM)をESsドメインに適応させる努力はほとんど行われなかった。 本稿では,ESs処理の難しさを強調し,複数の下流タスクを微調整をほとんどあるいは全く行わずに解決できる新しい解法を提案する。 特に、長いシーケンスで作業することの問題を解決し、時間と数値の特徴処理を改善する。 ESQAと呼ばれるこの手法は、LLMのパワーを効果的に利用し、広範な実験により、ESs領域における最先端の結果を得る。

Event sequences (ESs) arise in many practical domains including finance, retail, social networks, and healthcare. In the context of machine learning, event sequences can be seen as a special type of tabular data with annotated timestamps. Despite the importance of ESs modeling and analysis, little effort was made in adapting large language models (LLMs) to the ESs domain. In this paper, we highlight the common difficulties of ESs processing and propose a novel solution capable of solving multiple downstream tasks with little or no finetuning. In particular, we solve the problem of working with long sequences and improve time and numeric features processing. The resulting method, called ESQA, effectively utilizes the power of LLMs and, according to extensive experiments, achieves state-of-the-art results in the ESs domain.
翻訳日:2024-07-22 08:37:51 公開日:2024-07-03
# リハビリテーショントレーニング:大規模言語モデルの訓練における実データの価値

Regurgitative Training: The Value of Real Data in Training Large Language Models ( http://arxiv.org/abs/2407.12835v1 )

ライセンス: Link先を確認
Jinghui Zhang, Dandan Qiao, Mochen Yang, Qiang Wei, (参考訳) 他のLLMによって少なくとも部分的に生成されるデータを使って、新しいLarge Language Model(LLM)をトレーニングした場合、どうなるでしょう? LLMの爆発的な成功は、オンライン上のかなりの量のコンテンツが人間ではなくLCMによって生成されることを意味する。 LLM性能に対するこのような「相対的学習」の影響について検討した。 GPT-3.5を機械翻訳タスクで生成したデータを用いて微調整することにより,LLMの性能が向上することを示す強い証拠が得られた。 私たちがゼロからトレーニングするトランスフォーマーモデルでは、同じパフォーマンスの低下が見られます。 その結果,(1) 誤り率の増加と(2) LLM 生成データにおける語彙の多様性の低下の2つのメカニズムが,実データと比較できる可能性が示唆された。 本研究は,これらのメカニズムを基礎として,学習能力の低下を緩和するための3つの戦略を提案し,評価する。 まず、LLMの生成する各データインスタンスの品質を計測するために、データ駆動メトリクスを考案し、次に、高品質なデータを低品質のデータの前に追加する順序付きトレーニングプロセスを実行します。 第二に、複数の異なるLSMによって生成されたデータを組み合わせる(語彙の多様性を高めるために)。 第3に、LLMと人間生成データとを区別するためにAI検出分類器を訓練し、人生成データと類似した順にLLM生成データを含む。 これら3つの戦略は、ある程度のリグルジティブトレーニングのパフォーマンスを改善することができるが、実際のデータによるトレーニングのギャップを完全に埋めることはできない。 この結果から,LLM 生成データに置き換えることができない LLM の学習において,実際の人為的データの価値が浮き彫りになった。

What happens if we train a new Large Language Model (LLM) using data that are at least partially generated by other LLMs? The explosive success of LLMs means that a substantial amount of content online will be generated by LLMs rather than humans, which will inevitably enter the training datasets of next-generation LLMs. We evaluate the implications of such "regurgitative training" on LLM performance. Through fine-tuning GPT-3.5 with data generated either by itself or by other LLMs in a machine translation task, we find strong evidence that regurgitative training clearly handicaps the performance of LLMs. The same performance loss of regurgitative training is observed on transformer models that we train from scratch. We find suggestive evidence that the performance disadvantage of regurgitative training can be attributed to at least two mechanisms: (1) higher error rates and (2) lower lexical diversity in LLM-generated data as compared to real data. Based on these mechanisms, we propose and evaluate three different strategies to mitigate the performance loss of regurgitative training. First, we devise data-driven metrics to gauge the quality of each LLM-generated data instance, and then carry out an ordered training process where high-quality data are added before low-quality ones. Second, we combine data generated by multiple different LLMs (as an attempt to increase lexical diversity). Third, we train an AI detection classifier to differentiate between LLM- and human-generated data, and include LLM-generated data in the order of resemblance to human-generated data. All three strategies can improve the performance of regurgitative training to some extent but are not always able to fully close the gap from training with real data. Our results highlight the value of real, human-generated data in training LLMs, which cannot be easily substituted by synthetic, LLM-generated data.
翻訳日:2024-07-22 08:37:51 公開日:2024-07-03
# OSPC: 有害なミーム検出のための人工VLM機能

OSPC: Artificial VLM Features for Hateful Meme Detection ( http://arxiv.org/abs/2407.12836v1 )

ライセンス: Link先を確認
Peter Grönquist, (参考訳) デジタル革命とワールドワイドウェブの出現は、特にミームの出現によって人間のコミュニケーションに変化をもたらした。 ミームは人気があり素直な表現であるが、匿名性や使いやすさから誤報や憎悪を広めるためにも用いられる。 これらの課題に対応するために,本論文では,AIシンガポールオンライン安全賞の「ベースライン」チームが開発したソリューションを紹介する。 計算効率と特徴工学に重点を置き、AUROCは0.76、精度は0.69に達した。 重要な特徴として、このソリューションは、大きな視覚言語モデル(VLM)の固有の確率的能力を活用して、テキストからタスク適応型特徴符号化を生成し、シンガポールにある特定の文化的ニュアンスに合わせた蒸留量化を適用する。 この種の処理や微調整は様々な視覚的・テキスト的理解や分類タスクに適応することができ、OpenAIのGPTのようなプライベートなVLMにも適用できる。 最後に、リソース制約のあるアプリケーションのための大規模なGPU上での広範なモデルトレーニングの必要性を排除し、データがほとんど、あるいは全く利用できない場合にソリューションを提供する。

The digital revolution and the advent of the world wide web have transformed human communication, notably through the emergence of memes. While memes are a popular and straightforward form of expression, they can also be used to spread misinformation and hate due to their anonymity and ease of use. In response to these challenges, this paper introduces a solution developed by team 'Baseline' for the AI Singapore Online Safety Prize Challenge. Focusing on computational efficiency and feature engineering, the solution achieved an AUROC of 0.76 and an accuracy of 0.69 on the test dataset. As key features, the solution leverages the inherent probabilistic capabilities of large Vision-Language Models (VLMs) to generate task-adapted feature encodings from text, and applies a distilled quantization tailored to the specific cultural nuances present in Singapore. This type of processing and fine-tuning can be adapted to various visual and textual understanding and classification tasks, and even applied on private VLMs such as OpenAI's GPT. Finally it can eliminate the need for extensive model training on large GPUs for resource constrained applications, also offering a solution when little or no data is available.
翻訳日:2024-07-22 08:37:51 公開日:2024-07-03
# 行動変化介入によるエンゲージメント改善のための大規模言語モデルエージェント:デジタルマインドフルネスへの応用

Large Language Model Agents for Improving Engagement with Behavior Change Interventions: Application to Digital Mindfulness ( http://arxiv.org/abs/2407.13067v1 )

ライセンス: Link先を確認
Harsh Kumar, Suhyeon Yoo, Angela Zavaleta Bernuy, Jiakai Shi, Huayin Luo, Joseph Williams, Anastasia Kuzminykh, Ashton Anderson, Rachel Kornfield, (参考訳) 自己指向型ウェルネスエクササイズへの関与は、一般的には時間の経過とともに減少するが、コーチングのようなソーシャルサポートの統合はそれを維持できる。 しかし、コストと複雑な調整のため、伝統的な支援形態はアクセスできないことが多い。 大きな言語モデル(LLM)は、社会的なサポートをエミュレートできる人間のような対話を提供するという約束を示す。 しかし, 行動変化を支えるLLMの詳細な調査はいまだに未調査である。 LLMエージェントがマインドフルネス運動のユーザエンゲージメントに与える影響を評価するために2つのランダム化実験を行った。 1回目は502人のクラウドワーカーを対象にした1回の調査、2回目は3週間にわたる調査で、54人の参加者が参加した。 情報提供と自己回帰を容易にする2種類のLSMエージェントについて検討した。 どちらのエージェントも、マインドフルネスを実践するユーザーの意図を高めた。 しかし、フレンドリーなペルソナを特徴とする情報提供LLMのみが、演習への関与を著しく改善した。 以上の結果から,特定のLSMエージェントがデジタルヘルス介入の社会的支援ギャップを埋める可能性が示唆された。

Although engagement in self-directed wellness exercises typically declines over time, integrating social support such as coaching can sustain it. However, traditional forms of support are often inaccessible due to the high costs and complex coordination. Large Language Models (LLMs) show promise in providing human-like dialogues that could emulate social support. Yet, in-depth, in situ investigations of LLMs to support behavior change remain underexplored. We conducted two randomized experiments to assess the impact of LLM agents on user engagement with mindfulness exercises. First, a single-session study, involved 502 crowdworkers; second, a three-week study, included 54 participants. We explored two types of LLM agents: one providing information and another facilitating self-reflection. Both agents enhanced users' intentions to practice mindfulness. However, only the information-providing LLM, featuring a friendly persona, significantly improved engagement with the exercises. Our findings suggest that specific LLM agents may bridge the social support gap in digital health interventions.
翻訳日:2024-07-22 08:18:00 公開日:2024-07-03
# 2つの弱結合ボース・アインシュタイン凝縮体のジョセフソン振動

Josephson oscillations of two weakly coupled Bose-Einstein condensates ( http://arxiv.org/abs/2407.06208v1 )

ライセンス: Link先を確認
Dr. Alexej Schelle, (参考訳) 2つの温度でコヒーレントに結合した2つの独立なボース=アインシュタイン凝縮体に対して、粒子数保存量子場理論に基づく数値実験を行う。 このモデルでは、2つの縮合体のそれぞれの初期相対位相がランダムに残らないが、ボルツマン平衡における前方および後方伝播物質波の干渉と熱化から整数倍の2$2\pi$の値で分布しており、この2つの縮合体のそれぞれに対して本質的にゼロ平均位相を測っている。 このアプローチに従うと、アンダーソンの最初のゲダンケンの実験に焦点が当てられ、最初に分離された2つのボース=アインシュタイン凝縮体の間のジョセフソン電流が、初期位相分布によって決定論的に起こるかどうかに焦点が当てられる。

A numerical experiment based on a particle number-conserving quantum field theory is performed for two initially independent Bose-Einstein condensates that are coherently coupled at two temperatures. The present model illustrates ab initio that the initial relative phase of each of the two condensates doesn't remain random, but is distributed around integer multiple values of $2\pi$ from the interference and thermalization of forward and backward propagating matter waves at the Boltzmann equilibrium, that intrinsically measures zero average phases for each of the two independent condensates. Following this approach, focus is put on the original Gedanken experiment of Anderson on whether a Josephson current between two initially separated Bose-Einstein condensates occurs in a deterministic way or not, depending on the initial phase distribution.
翻訳日:2024-07-10 22:32:40 公開日:2024-07-03
# 部分微分方程式に対する自己教師付き事前学習

Self-supervised Pretraining for Partial Differential Equations ( http://arxiv.org/abs/2407.06209v1 )

ライセンス: Link先を確認
Varun Madhavan, Amal S Sebastian, Bharath Ramsundar, Venkatasubramanian Viswanathan, (参考訳) 本稿では、トランスフォーマーに基づくニューラルネットワークアーキテクチャの最近の進歩を活用し、ニューラルPDEソルバを構築するための新しいアプローチについて述べる。 我々のモデルは、ネットワークを再トレーニングすることなく、PDEパラメータの異なる値に対するソリューションを提供することができる。 トレーニングは、言語や視覚タスクに適用された事前学習アプローチと同様、自己指導的な方法で実施される。 我々は、モデルが実効的に(複数のパラメータに対して)演算子の族を学習していると仮定し、初期条件を任意の将来のステップ t における PDE の解にマッピングする。 この手法をフーリエニューラル演算子(FNO)と比較し、FNOと比較して個々のパラメータ値の予測誤差が高いにもかかわらず、PDEパラメータの空間上で一般化できることを実証する。 非常に少ないデータ量でモデルを微調整することで、特定のパラメータの性能を向上させることができることを示す。 また、モデルのサイズだけでなく、データでスケールすることも示しています。

In this work, we describe a novel approach to building a neural PDE solver leveraging recent advances in transformer based neural network architectures. Our model can provide solutions for different values of PDE parameters without any need for retraining the network. The training is carried out in a self-supervised manner, similar to pretraining approaches applied in language and vision tasks. We hypothesize that the model is in effect learning a family of operators (for multiple parameters) mapping the initial condition to the solution of the PDE at any future time step t. We compare this approach with the Fourier Neural Operator (FNO), and demonstrate that it can generalize over the space of PDE parameters, despite having a higher prediction error for individual parameter values compared to the FNO. We show that performance on a specific parameter can be improved by finetuning the model with very small amounts of data. We also demonstrate that the model scales with data as well as model size.
翻訳日:2024-07-10 22:32:40 公開日:2024-07-03
# 合成データ:伝染病研究にどのように使用できるか?

Synthetic data: How could it be used for infectious disease research? ( http://arxiv.org/abs/2407.06211v1 )

ライセンス: Link先を確認
Styliani-Christina Fragkouli, Dhwani Solanki, Leyla J Castro, Fotis E Psomopoulos, Núria Queralt-Rosinach, Davide Cirillo, Lisa C Crossman, (参考訳) 過去3~5年間で、医療関連用途のために機械学習合成データを生成することが可能になった。 しかし、人工データセット生成の可能性に関連する潜在的な負の要因について懸念が高まっている。 これには、サイバー犯罪のような分野における生成的人工知能(AI)の潜在的誤用、ディープフェイクとフェイクニュースの使用による騙しや操作、および様々な市場セクターにおける人間の仕事の移動が含まれる。 ここでは、合成データセットの現在および将来的な進歩と可能性について考察する。 合成データは、特にデータプライバシ、研究、データセットのバランシングと機械学習モデルのバイアス低減において、大きなメリットを提供する。 生成AI(Generative AI)は、生成モデルを用いてテキスト、画像、ビデオ、その他のデータを作成することができる人工知能のジャンルである。 最近のGenAIへの関心の爆発は、大型言語モデル(LLM)の使用への発明と迅速な動きに支えられた。 これらの計算モデルは汎用言語生成やその他の自然言語処理タスクを達成することができ、トランスフォーマーアーキテクチャに基づいており、従来のニューラルネットワークアーキテクチャから進化的な飛躍を遂げた。 改良されたGenAI技術と大規模利用の出現により、今こそ感染症研究の進展に人工データをどのように活用できるかを考える時だ。 本解説では,感染症研究における合成データの現状と今後の動向について概説する。

Over the last three to five years, it has become possible to generate machine learning synthetic data for healthcare-related uses. However, concerns have been raised about potential negative factors associated with the possibilities of artificial dataset generation. These include the potential misuse of generative artificial intelligence (AI) in fields such as cybercrime, the use of deepfakes and fake news to deceive or manipulate, and displacement of human jobs across various market sectors. Here, we consider both current and future positive advances and possibilities with synthetic datasets. Synthetic data offers significant benefits, particularly in data privacy, research, in balancing datasets and reducing bias in machine learning models. Generative AI is an artificial intelligence genre capable of creating text, images, video or other data using generative models. The recent explosion of interest in GenAI was heralded by the invention and speedy move to use of large language models (LLM). These computational models are able to achieve general-purpose language generation and other natural language processing tasks and are based on transformer architectures, which made an evolutionary leap from previous neural network architectures. Fuelled by the advent of improved GenAI techniques and wide scale usage, this is surely the time to consider how synthetic data can be used to advance infectious disease research. In this commentary we aim to create an overview of the current and future position of synthetic data in infectious disease research.
翻訳日:2024-07-10 22:32:40 公開日:2024-07-03
# LLMcap: 教師なしPCAP故障検出のための大規模言語モデル

LLMcap: Large Language Model for Unsupervised PCAP Failure Detection ( http://arxiv.org/abs/2407.06085v1 )

ライセンス: Link先を確認
Lukasz Tulczyjew, Kinan Jarrah, Charles Abondo, Dina Bennett, Nathanael Weill, (参考訳) 通信ネットワークへの高度な技術の統合はトラブルシューティングを複雑にし、パケットキャプチャ(PCAP)データにおける手動エラー識別の課題を提起する。 この手動のアプローチは、かなりのリソースを必要とするが、大規模では実用的ではない。 機械学習(ML)メソッドは代替手段を提供するが、ラベル付きデータの不足は精度を制限している。 本研究では,PCAP故障検出のための自己教師型大規模言語モデル(LLMcap)を提案する。 LLMcapは言語学習能力を活用し、文法、文脈、構造を学ぶためにマスク付き言語モデリングを採用している。 様々なPCAP上で厳密にテストされ、トレーニング中にラベル付きデータがないにもかかわらず高い精度を示し、効率的なネットワーク分析のための有望なソリューションを提供する。 インデックス用語:ネットワークトラブルシューティング、パケットキャプチャ分析、自己改善学習、大規模言語モデル、ネットワーク品質・オブ・サービス、ネットワークパフォーマンス。

The integration of advanced technologies into telecommunication networks complicates troubleshooting, posing challenges for manual error identification in Packet Capture (PCAP) data. This manual approach, requiring substantial resources, becomes impractical at larger scales. Machine learning (ML) methods offer alternatives, but the scarcity of labeled data limits accuracy. In this study, we propose a self-supervised, large language model-based (LLMcap) method for PCAP failure detection. LLMcap leverages language-learning abilities and employs masked language modeling to learn grammar, context, and structure. Tested rigorously on various PCAPs, it demonstrates high accuracy despite the absence of labeled data during training, presenting a promising solution for efficient network analysis. Index Terms: Network troubleshooting, Packet Capture Analysis, Self-Supervised Learning, Large Language Model, Network Quality of Service, Network Performance.
翻訳日:2024-07-09 14:51:28 公開日:2024-07-03
# 分析畳み込み層:分析ニューラルネットワークへのステップ

Analytic Convolutional Layer: A Step to Analytic Neural Network ( http://arxiv.org/abs/2407.06087v1 )

ライセンス: Link先を確認
Jingmao Cui, Donglai Tao, Linmi Tao, Ruiyang Liu, Yu Cheng, (参考訳) 畳み込み層に事前知識を埋め込むための一般的なアプローチは、通常、ステアブルカーネルの設計や、指定されたカーネルバンクを使ったそれらの変調を含む。 本研究では,分析畳み込みカーネル(ACK)と従来の畳み込みカーネルのモザイクであるモデル駆動畳み込みレイヤ(ACL)を紹介する。 ACKは、トレーニングプロセスで学んだ解析的カーネルパラメータ(AKP)によって制御される数学的関数によって特徴づけられる。 学習可能なAKPは、組み込まれた知識を適応的に更新し、データの特徴表現と整合させることができる。 実験により,ACLはパラメータ数が少なく,特徴表現に顕著な能力を持つだけでなく,ACKの解析的定式化による信頼性の向上も示している。 さらに、ACLはニューラルネットワーク解釈の手段を提供し、それによってニューラルネットワークの固有の解釈可能性の道を開く。 ソースコードは同紙と共同で公開される予定だ。

The prevailing approach to embedding prior knowledge within convolutional layers typically includes the design of steerable kernels or their modulation using designated kernel banks. In this study, we introduce the Analytic Convolutional Layer (ACL), an innovative model-driven convolutional layer, which is a mosaic of analytical convolution kernels (ACKs) and traditional convolution kernels. ACKs are characterized by mathematical functions governed by analytic kernel parameters (AKPs) learned in training process. Learnable AKPs permit the adaptive update of incorporated knowledge to align with the features representation of data. Our extensive experiments demonstrate that the ACLs not only have a remarkable capacity for feature representation with a reduced number of parameters but also attain increased reliability through the analytical formulation of ACKs. Furthermore, ACLs offer a means for neural network interpretation, thereby paving the way for the intrinsic interpretability of neural network. The source code will be published in company with the paper.
翻訳日:2024-07-09 14:51:28 公開日:2024-07-03
# Neuro-BERT:自己教師型神経前処理のためのマスクオートエンコーディングの再考

Neuro-BERT: Rethinking Masked Autoencoding for Self-supervised Neurological Pretraining ( http://arxiv.org/abs/2204.12440v2 )

ライセンス: Link先を確認
Di Wu, Siyuan Li, Jie Yang, Mohamad Sawan, (参考訳) 神経信号に関連する深層学習は、医学診断、神経リハビリテーション、脳とコンピュータのインターフェースなど、様々な分野で大きな進歩をもたらす可能性がある。 これらの信号の潜在能力を最大限に活用する上での課題は、広範囲で高品質な注釈付きデータへの依存にある。 深層学習におけるデータへの欲求に対処するために,フーリエ領域におけるマスク付き自己符号化に基づく神経信号の自己教師付き事前学習フレームワークNeuro-BERTを提案する。 我々のアプローチの背景にある直感は単純で、神経学的信号の周波数と位相分布は複雑な神経学的活動を明らかにすることができる。 本稿では、入力信号の一部をランダムにマスキングし、フーリエ反転定理を用いて欠落情報を予測するFIP(Fourier Inversion Prediction)と呼ばれる新しい事前学習タスクを提案する。 事前訓練されたモデルは、睡眠ステージ分類やジェスチャー認識など、さまざまな下流タスクに使用することができる。 厳密な手作りの強化とシム構造に強く依存する対照的な手法とは異なり、我々の手法は、拡張要求のない単純なトランスフォーマーエンコーダと合理的に機能する。 提案手法をいくつかのベンチマークデータセットで評価することにより,Neuro-BERTは下流神経関連タスクを大きなマージンで改善することを示す。

Deep learning associated with neurological signals is poised to drive major advancements in diverse fields such as medical diagnostics, neurorehabilitation, and brain-computer interfaces. The challenge in harnessing the full potential of these signals lies in the dependency on extensive, high-quality annotated data, which is often scarce and expensive to acquire, requiring specialized infrastructure and domain expertise. To address the appetite for data in deep learning, we present Neuro-BERT, a self-supervised pre-training framework of neurological signals based on masked autoencoding in the Fourier domain. The intuition behind our approach is simple: frequency and phase distribution of neurological signals can reveal intricate neurological activities. We propose a novel pre-training task dubbed Fourier Inversion Prediction (FIP), which randomly masks out a portion of the input signal and then predicts the missing information using the Fourier inversion theorem. Pre-trained models can be potentially used for various downstream tasks such as sleep stage classification and gesture recognition. Unlike contrastive-based methods, which strongly rely on carefully hand-crafted augmentations and siamese structure, our approach works reasonably well with a simple transformer encoder with no augmentation requirements. By evaluating our method on several benchmark datasets, we show that Neuro-BERT improves downstream neurological-related tasks by a large margin.
翻訳日:2024-07-09 03:30:47 公開日:2024-07-03
# 即時フィードバックによる逐次クエリ勧告の改善

Improving Sequential Query Recommendation with Immediate User Feedback ( http://arxiv.org/abs/2205.06297v3 )

ライセンス: Link先を確認
Shameem A Puthiya Parambath, Christos Anagnostopoulos, Roderick Murray-Smith, (参考訳) 本稿では,情報収集のための知識発見など,インタラクティブなデータ探索設定において,次のクエリレコメンデーションのためのアルゴリズムを提案する。 最先端のクエリレコメンデーションアルゴリズムは、過去のインタラクションデータを利用するシーケンス・ツー・シーケンスの学習アプローチに基づいている。 学習プロセスに関わる監督のため、このようなアプローチはすぐにユーザーのフィードバックに適応できない。 本稿では,マルチアームバンディット(MAB)フレームワークを用いて,クエリレコメンデーションのためのトランスフォーマーベースの因果言語モデルを拡張し,ユーザからのフィードバックに即時に適応することを提案する。 我々は,人気のオンライン文献発見サービスからログファイルを用いた大規模実験を行い,現在最先端のトランスフォーマーベースのクエリレコメンデーションモデルに関して,我々のアルゴリズムが即時ユーザフィードバックを生かしていないため,全体の後悔を著しく改善することを示した。 データモデルとソースコードはhttps://github.com/shampp/exp3_ssで公開されています。

We propose an algorithm for next query recommendation in interactive data exploration settings, like knowledge discovery for information gathering. The state-of-the-art query recommendation algorithms are based on sequence-to-sequence learning approaches that exploit historical interaction data. Due to the supervision involved in the learning process, such approaches fail to adapt to immediate user feedback. We propose to augment the transformer-based causal language models for query recommendations to adapt to the immediate user feedback using multi-armed bandit (MAB) framework. We conduct a large-scale experimental study using log files from a popular online literature discovery service and demonstrate that our algorithm improves the per-round regret substantially, with respect to the state-of-the-art transformer-based query recommendation models, which do not make use of immediate user feedback. Our data model and source code are available at https://github.com/shampp/exp3_ss
翻訳日:2024-07-09 03:30:47 公開日:2024-07-03
# 輸送は変分推論に合致する:制御モンテカルロ拡散

Transport meets Variational Inference: Controlled Monte Carlo Diffusions ( http://arxiv.org/abs/2307.01050v9 )

ライセンス: Link先を確認
Francisco Vargas, Shreyas Padhy, Denis Blessing, Nikolas Nüsken, (参考訳) 最適輸送と変分推論を結びつけることにより,経路空間上の発散を中心とした標本化および生成モデル作成のための,原理的かつ体系的な枠組みを提示する。 本研究は, 拡散モデルにおいて, 前方および後方の両方に重要な適応を行うスコアベースアニーリング技術であるベイズ計算のための<emph{Controlled Monte Carlo Diffusion} sampler (CMCD) の開発において, 本研究の成果である。 そこで本研究では,Shr{\"o}dingerブリッジのEM-algorithmと反復比例フィッティング(IPF)の関係を明らかにするとともに,標準IPF更新の反復的ボトルネックを回避した正規化目的を導出する。 最後に,CMCDは統計物理学からJarzinskyとCrooksのアイデンティティに強い基盤を持ち,様々な実験において競合するアプローチよりも優れていることを示す。

Connecting optimal transport and variational inference, we present a principled and systematic framework for sampling and generative modelling centred around divergences on path space. Our work culminates in the development of the \emph{Controlled Monte Carlo Diffusion} sampler (CMCD) for Bayesian computation, a score-based annealing technique that crucially adapts both forward and backward dynamics in a diffusion model. On the way, we clarify the relationship between the EM-algorithm and iterative proportional fitting (IPF) for Schr{\"o}dinger bridges, deriving as well a regularised objective that bypasses the iterative bottleneck of standard IPF-updates. Finally, we show that CMCD has a strong foundation in the Jarzinsky and Crooks identities from statistical physics, and that it convincingly outperforms competing approaches across a wide array of experiments.
翻訳日:2024-07-09 01:11:44 公開日:2024-07-03
# トロッター誤差の測定と精度保証ハミルトニアンシミュレーションへの応用

Measuring Trotter error and its application to precision-guaranteed Hamiltonian simulations ( http://arxiv.org/abs/2307.05406v3 )

ライセンス: Link先を確認
Tatsuhiko N. Ikeda, Hideki Kono, Keisuke Fujii, (参考訳) トロタライゼーションは、デジタル量子コンピュータ上でのハミルトンシミュレーションにおいて最も一般的で便利な近似法であるが、その誤差を正確に推定することは、大規模量子システムでは計算が困難である。 本稿では,数理的誤差境界を考慮せずに,$m$th-および$n$th-order ($m<n$) のトロッター化を組み合わせ,量子回路上のアシラリー量子ビットを使わずにトロッター誤差を測定する手法を開発した。 この手法を用いて、Trotterizationの精度を保証し、Trotter$(m,n)$というアルゴリズムを開発する。 Trotter$(m,n)$ は時間に依存しないハミルトニアンと依存するハミルトンの双方に適用でき、量子回路を誤差耐性の中で最も浅く保つ最も大きなステップサイズ $\mathrm{d}t$ を適応的に選択する。 量子スピン連鎖でベンチマークすると、適応的に選択された$\mathrm{d}t$は、既知のトロッター誤差の上限から推定されるものより約10倍大きいことが分かる。

Trotterization is the most common and convenient approximation method for Hamiltonian simulations on digital quantum computers, but estimating its error accurately is computationally difficult for large quantum systems. Here, we develop a method for measuring the Trotter error without ancillary qubits on quantum circuits by combining the $m$th- and $n$th-order ($m<n$) Trotterizations rather than consulting with mathematical error bounds. Using this method, we make Trotterization precision-guaranteed, developing an algorithm named Trotter$(m,n)$, in which the Trotter error at each time step is within an error tolerance $\epsilon$ preset for our purpose. Trotter$(m,n)$ is applicable to both time- independent and dependent Hamiltonians, and it adaptively chooses almost the largest stepsize $\mathrm{d}t$, which keeps quantum circuits shallowest within the error tolerance. Benchmarking it in a quantum spin chain, we find the adaptively chosen $\mathrm{d}t$ to be about ten times larger than that inferred from known upper bounds of Trotter errors.
翻訳日:2024-07-09 01:11:44 公開日:2024-07-03
# パディング・アンド・パーフォーミングフィンガープリント符号による個人差分アルゴリズムの滑らかな下界

Smooth Lower Bounds for Differentially Private Algorithms via Padding-and-Permuting Fingerprinting Codes ( http://arxiv.org/abs/2307.07604v4 )

ライセンス: Link先を確認
Naty Peter, Eliad Tsfadia, Jonathan Ullman, (参考訳) Bun, Ullman, Vadhan (STOC 2014) が最初に導入したフィンガープリンティング引数は、サンプルの複雑さや約微分プライベート(DP)アルゴリズムの誤差を下げるための最も広く使われている手法である。 しかし、差分プライバシーには、適切な下位境界が分かっていない問題が多く、私たちがしている問題においても、下位境界は滑らかではなく、エラーがしきい値より大きい場合は通常空白になる。 非常に弱い精度を満足する微分プライベートアルゴリズムのサンプル複雑性に対して,スムーズな下界を生成するための新しいフレームワークとツールを提案する。 1)低精度政権におけるDP平均化の厳密な下限は,特にNissim, Stemmer, Vadhan (PODS 2016) が導入したプライベート1クラスタ問題に対する下限を意味する。 2) 近似k平均クラスタリングと一般(k,z)クラスタリングのためのDPアルゴリズムの加算誤差に対する下限を乗算誤差の関数として用いた。 3) 低精度な状態における行列の頂点特異ベクトルをDPの下で推定する下界は、シンガルとシュタインケ(NeurIPS 2021)によって研究されたDP部分空間推定の特別な場合である。 我々の主な技術は、指紋コードにパディング・アンド・パーミュート変換を適用することである。 しかし、既存の指紋認証コード(例えば、Tardosのコード)へのブラックボックスアクセスを使って結果を証明する代わりに、Dwork et al (FOCS 2015) や Bun et al (SODA 2017) よりも強い新しい指紋認証補題を開発し、この補題から直接下位境界を証明します。 私たちの補題は、特に、独立した関心を持つ最適な速度(多言語的要因まで)で、より単純なフィンガープリントコードの構築を提供します。

Fingerprinting arguments, first introduced by Bun, Ullman, and Vadhan (STOC 2014), are the most widely used method for establishing lower bounds on the sample complexity or error of approximately differentially private (DP) algorithms. Still, there are many problems in differential privacy for which we don't know suitable lower bounds, and even for problems that we do, the lower bounds are not smooth, and usually become vacuous when the error is larger than some threshold. We present a new framework and tools to generate smooth lower bounds on the sample complexity of differentially private algorithms satisfying very weak accuracy. We illustrate the applicability of our method by providing new lower bounds in various settings: 1. A tight lower bound for DP averaging in the low-accuracy regime, which in particular implies a lower bound for the private 1-cluster problem introduced by Nissim, Stemmer, and Vadhan (PODS 2016). 2. A lower bound on the additive error of DP algorithms for approximate k-means clustering and general (k,z)-clustering, as a function of the multiplicative error, which is tight for a constant multiplication error. 3. A lower bound for estimating the top singular vector of a matrix under DP in low-accuracy regimes, which is a special case of DP subspace estimation studied by Singhal and Steinke (NeurIPS 2021). Our main technique is to apply a padding-and-permuting transformation to a fingerprinting code. However, rather than proving our results using a black-box access to an existing fingerprinting code (e.g., Tardos' code), we develop a new fingerprinting lemma that is stronger than those of Dwork et al. (FOCS 2015) and Bun et al. (SODA 2017), and prove our lower bounds directly from the lemma. Our lemma, in particular, gives a simpler fingerprinting code construction with optimal rate (up to polylogarithmic factors) that is of independent interest.
翻訳日:2024-07-09 01:11:44 公開日:2024-07-03
# ユーザ反応予測のための時間的関心ネットワーク

Temporal Interest Network for User Response Prediction ( http://arxiv.org/abs/2308.08487v4 )

ライセンス: Link先を確認
Haolin Zhou, Junwei Pan, Xinyi Zhou, Xihua Chen, Jie Jiang, Xiaofeng Gao, Guihai Chen, (参考訳) オンラインディスプレイ広告のような産業レコメンデーションシステムでは,ユーザ反応の予測が不可欠である。 レコメンデーションモデルのすべての機能の中で、ユーザの振る舞いが最も重要になります。 多くの研究で、ユーザの行動は、行動と候補者の間の意味的あるいは時間的相関から、候補項目に対するユーザの関心を反映していることが明らかになっている。 論文はそれぞれの相関関係を個別に検討しているが、研究者はまだそれらを意味的・時間的相関関係(意味的・時間的相関関係)と組み合わせて分析していない。 我々はこの相関を経験的に測定し、直感的で頑健なパターンを観察する。 そして、いくつかの人気ユーザー関心モデルを調べ、驚くべきことに、誰もそのような相関関係をうまく学ばないということに気付きました。 このギャップを埋めるために,行動と対象間の意味的時間的相関を同時に捉えるための時間的関心ネットワーク(TIN)を提案する。 これを実現するために,意味的エンコーディングに加えて,対象を意識したテンポラルエンコーディングを組み込んで行動や対象を表現する。 さらに,ターゲット認識とターゲット認識表現を配置して,意味的・時間的相関を捉えることで,明示的な4方向インタラクションを行う。 我々は2つの人気のある公開データセットに対して総合的な評価を行い、提案したTINはGAUCにおいてそれぞれ0.43%、0.29%で最高のパフォーマンスのベースラインを上回ります。 Tencentの広告プラットフォームにおけるオンラインA/Bテストでは、TINは1.65%のコストリフトと1.93%のGMVリフトを達成した。 2023年10月から運用に成功し、WeChat Momentsのトラフィックを処理した。 コードをhttps://github.com/zhouxy1003/TINでリリースしました。

User response prediction is essential in industrial recommendation systems, such as online display advertising. Among all the features in recommendation models, user behaviors are among the most critical. Many works have revealed that a user's behavior reflects her interest in the candidate item, owing to the semantic or temporal correlation between behaviors and the candidate. While the literature has individually examined each of these correlations, researchers have yet to analyze them in combination, that is, the semantic-temporal correlation. We empirically measure this correlation and observe intuitive yet robust patterns. We then examine several popular user interest models and find that, surprisingly, none of them learn such correlation well. To fill this gap, we propose a Temporal Interest Network (TIN) to capture the semantic-temporal correlation simultaneously between behaviors and the target. We achieve this by incorporating target-aware temporal encoding, in addition to semantic encoding, to represent behaviors and the target. Furthermore, we conduct explicit 4-way interaction by deploying target-aware attention and target-aware representation to capture both semantic and temporal correlation. We conduct comprehensive evaluations on two popular public datasets, and our proposed TIN outperforms the best-performing baselines by 0.43% and 0.29% on GAUC, respectively. During online A/B testing in Tencent's advertising platform, TIN achieves 1.65% cost lift and 1.93% GMV lift over the base model. It has been successfully deployed in production since October 2023, serving the WeChat Moments traffic. We have released our code at https://github.com/zhouxy1003/TIN.
翻訳日:2024-07-09 01:11:44 公開日:2024-07-03
# 物理インフォームド境界積分ネットワーク(PIBI-Nets):部分微分方程式を解くためのデータ駆動アプローチ

Physics-Informed Boundary Integral Networks (PIBI-Nets): A Data-Driven Approach for Solving Partial Differential Equations ( http://arxiv.org/abs/2308.09571v3 )

ライセンス: Link先を確認
Monika Nagy-Huber, Volker Roth, (参考訳) 偏微分方程式(PDE)は力学系の関連する現象を記述するために広く用いられる。 実世界の応用では、形式的なPDEモデルと(潜在的にノイズの多い)観測を組み合わせることが一般的である。 これは、境界条件や初期条件に関する情報が欠けている設定や、未知のモデルパラメータを識別する必要がある設定に特に関係している。 近年,物理情報ニューラルネットワーク(PINN)は,このような問題に対する一般的なツールとなっている。 しかし、高次元設定では、PINNは計算領域全体にわたって密度の高いコロケーションポイントを必要とするため、しばしば計算上の問題に悩まされる。 この問題を解決するために,PDEを元の問題空間よりも1次元以下で解くためのデータ駆動手法として,Physical-Informed boundary Integral Networks (PIBI-Nets)を提案する。 PIBI-Netsは計算領域境界の点のみを必要とするが、精度は高い。 さらに、PIBI-Netsは、いくつかの実践的な設定でPINNよりも明らかに優れている。 線形微分作用素の基本解の基本的な性質を探索し、逆問題における点源を扱う原理的かつ簡単な方法を提案する。 ラプラス方程式とポアソン方程式に対するPIBI-Netの優れた性能を示す。

Partial differential equations (PDEs) are widely used to describe relevant phenomena in dynamical systems. In real-world applications, we commonly need to combine formal PDE models with (potentially noisy) observations. This is especially relevant in settings where we lack information about boundary or initial conditions, or where we need to identify unknown model parameters. In recent years, Physics-Informed Neural Networks (PINNs) have become a popular tool for this kind of problems. In high-dimensional settings, however, PINNs often suffer from computational problems because they usually require dense collocation points over the entire computational domain. To address this problem, we present Physics-Informed Boundary Integral Networks (PIBI-Nets) as a data-driven approach for solving PDEs in one dimension less than the original problem space. PIBI-Nets only require points at the computational domain boundary, while still achieving highly accurate results. Moreover, PIBI-Nets clearly outperform PINNs in several practical settings. Exploiting elementary properties of fundamental solutions of linear differential operators, we present a principled and simple way to handle point sources in inverse problems. We demonstrate the excellent performance of PIBI- Nets for the Laplace and Poisson equations, both on artificial datasets and within a real-world application concerning the reconstruction of groundwater flows.
翻訳日:2024-07-09 01:01:54 公開日:2024-07-03
# エントロピーに基づく深部ニューラルネットワークの高速化と性能向上のための誘導

Entropy-based Guidance of Deep Neural Networks for Accelerated Convergence and Improved Performance ( http://arxiv.org/abs/2308.14938v2 )

ライセンス: Link先を確認
Mackenzie J. Meni, Ryan T. White, Michael Mayo, Kevin Pilkiewicz, (参考訳) ニューラルネットワークは、無数の分野にわたる大規模で高次元のデータセットから学ぶ能力を大幅に向上させた。 しかし、それらの決定は容易に解釈できるものではなく、計算コストが高く、それらを構築および訓練することは簡単なプロセスではない。 これらの取り組みに構造を加えるために、完全に接続された畳み込みニューラルネットワークの処理データとしてエントロピーの変化を効率的に測定するために、新しい数学的結果を得る。 ネットワーク処理データとしてのエントロピーの変化を効果的に測定することにより、良好なネットワークに不可欠なパターンを視覚化し、同定することができる。 エントロピーに基づく損失項は、理想エントロピーパターンの促進により、密度と畳み込みモデルの精度と効率を向上させるために開発された。 ベンチマークデータセットにおける画像圧縮、画像分類、イメージセグメンテーションの実験は、これらの損失がニューラルネットワークを誘導し、より少ない次元でリッチな潜在データ表現を学習し、より少ないトレーニングエポックに収束し、より高い精度を達成することを示した。

Neural networks have dramatically increased our capacity to learn from large, high-dimensional datasets across innumerable disciplines. However, their decisions are not easily interpretable, their computational costs are high, and building and training them are not straightforward processes. To add structure to these efforts, we derive new mathematical results to efficiently measure the changes in entropy as fully-connected and convolutional neural networks process data. By measuring the change in entropy as networks process data effectively, patterns critical to a well-performing network can be visualized and identified. Entropy-based loss terms are developed to improve dense and convolutional model accuracy and efficiency by promoting the ideal entropy patterns. Experiments in image compression, image classification, and image segmentation on benchmark datasets demonstrate these losses guide neural networks to learn rich latent data representations in fewer dimensions, converge in fewer training epochs, and achieve higher accuracy.
翻訳日:2024-07-09 01:01:54 公開日:2024-07-03
# Budget-Aware Pruning: 少ないパラメータで複数のドメインを扱う

Budget-Aware Pruning: Handling Multiple Domains with Less Parameters ( http://arxiv.org/abs/2309.11464v2 )

ライセンス: Link先を確認
Samuel Felipe dos Santos, Rodrigo Berriel, Thiago Oliveira-Santos, Nicu Sebe, Jurandy Almeida, (参考訳) ディープラーニングは、いくつかのコンピュータビジョンタスクやドメインで最先端のパフォーマンスを達成した。 それでも計算コストが高く、大量のパラメータを必要とする。 このような要件はリソース制限された環境での使用を妨げ、ソフトウェアとハードウェアの最適化の両方を必要とする。 もう1つの制限は、ディープモデルは通常単一のドメインまたはタスクに特化され、新しいドメインごとに新しいパラメータを学習して保存する必要があることである。 マルチドメイン学習(MDL)は、複数のドメインでうまく機能する単一モデルを学習することでこの問題を解決する。 それでも、モデルは通常、1つのドメインのベースラインよりも大きい。 本研究の目的は, ユーザ定義予算に従って複数のドメインを処理可能なモデルを作成することであり, 類似の分類性能を維持しつつ, 計算コストを高くすることである。 これを実現するために、すべてのドメインに対して、ベースラインモデルからユーザーの予算で定義された量まで、同様のフィルタのサブセットを使用することを奨励します。 次に、任意のドメインで使用されていないフィルタをネットワークからプルーニングする。 提案手法は、テスト時に複数のドメインを処理する数少ない作業のひとつでありながら、リソース制限されたデバイスへの適応性を向上し、パラメータが少なく、単一のドメインのベースラインモデルよりも計算の複雑さを小さくする。

Deep learning has achieved state-of-the-art performance on several computer vision tasks and domains. Nevertheless, it still has a high computational cost and demands a significant amount of parameters. Such requirements hinder the use in resource-limited environments and demand both software and hardware optimization. Another limitation is that deep models are usually specialized into a single domain or task, requiring them to learn and store new parameters for each new one. Multi-Domain Learning (MDL) attempts to solve this problem by learning a single model capable of performing well in multiple domains. Nevertheless, the models are usually larger than the baseline for a single domain. This work tackles both of these problems: our objective is to prune models capable of handling multiple domains according to a user-defined budget, making them more computationally affordable while keeping a similar classification performance. We achieve this by encouraging all domains to use a similar subset of filters from the baseline model, up to the amount defined by the user's budget. Then, filters that are not used by any domain are pruned from the network. The proposed approach innovates by better adapting to resource-limited devices while being one of the few works that handles multiple domains at test time with fewer parameters and lower computational complexity than the baseline model for a single domain.
翻訳日:2024-07-09 01:01:54 公開日:2024-07-03
# ホモトピー, 対称性, 非エルミートバンドトポロジー

Homotopy, Symmetry, and Non-Hermitian Band Topology ( http://arxiv.org/abs/2309.14416v3 )

ライセンス: Link先を確認
Kang Yang, Zhi Li, J. Lukas K. König, Lukas Rødland, Marcus Stålhammar, Emil J. Bergholtz, (参考訳) 非エルミート行列は、光学的、電気的、機械的メタマテリアルを含む古典的な散逸系から、波の散乱やオープン量子多体系まで、自然の記述においてユビキタスである。 K-理論を用いた非エルミート系の素線ギャップと点ギャップ分類は、多くの物理現象の理解を深めた。 基準点と線は一般に、複数の非エルミート帯域が興味深い例外点、スペクトルブレイド、交差を示すかどうかを区別しない。 これに対処するために、非エルミートバンドギャップと、多バンドシナリオの幅広いクラスを決定的に包含する分離ギャップという2つの異なる概念を考える。 これらの概念により、ホモトピー理論を用いた物理的に関連するパリティ時間(「\mathcal{PT}$」)と擬エルミート対称性の存在下で、ギャップ付き系と結節系の両方を統一的かつ包括的に分類する。 このことは固有値と波動関数の両方から生じる新しい安定位相を明らかにし、また明らかに脆弱な位相も示している。 特に、フレームおよびブレイド位相によって記述された$\mathcal{PT}$-対称系において、アベリア位相と非アベリア位相をそれぞれ明らかにする。 対応する不変量は、(例外的な)縮退を誘導しない対称性保存摂動に対して頑健であり、また、彼らは結節位相の変形規則も予測する。 さらに、自発$\mathcal{PT}$対称性の破れは、前例のない非エルミート位相の指紋であるChern-EulerとChern-Stiefel-Whitneyの記述によって捉えられることを示した。 これらの結果は、様々な物理プラットフォームにおいて、様々な新しい位相現象を理論的、実験的に探索するための扉を開く。

Non-Hermitian matrices are ubiquitous in the description of nature ranging from classical dissipative systems, including optical, electrical, and mechanical metamaterials, to scattering of waves and open quantum many-body systems. Seminal line-gap and point-gap classifications of non-Hermitian systems using K-theory have deepened the understanding of many physical phenomena. However, ample systems remain beyond this description; reference points and lines do not in general distinguish whether multiple non-Hermitian bands exhibit intriguing exceptional points, spectral braids and crossings. To address this we consider two different notions: non-Hermitian band gaps and separation gaps that crucially encompass a broad class of multi-band scenarios, enabling the description of generic band structures with symmetries. With these concepts, we provide a unified and comprehensive classification of both gapped and nodal systems in the presence of physically relevant parity-time ($\mathcal{PT}$) and pseudo-Hermitian symmetries using homotopy theory. This uncovers new stable topology stemming from both eigenvalues and wave functions, and remarkably also implies distinct fragile topological phases. In particular, we reveal different Abelian and non-Abelian phases in $\mathcal{PT}$-symmetric systems, described by frame and braid topology. The corresponding invariants are robust to symmetry-preserving perturbations that do not induce (exceptional) degeneracy, and they also predict the deformation rules of nodal phases. We further demonstrate that spontaneous $\mathcal{PT}$ symmetry breaking is captured by Chern-Euler and Chern-Stiefel-Whitney descriptions, a fingerprint of unprecedented non-Hermitian topology previously overlooked. These results open the door for theoretical and experimental exploration of a rich variety of novel topological phenomena in a wide range of physical platforms.
翻訳日:2024-07-09 01:01:54 公開日:2024-07-03
# 魔法の言葉って何? LLMプロンプティングの制御理論

What's the Magic Word? A Control Theory of LLM Prompting ( http://arxiv.org/abs/2310.04444v4 )

ライセンス: Link先を確認
Aman Bhargava, Cameron Witkowski, Shi-Zhuo Looi, Matt Thomson, (参考訳) プロンプト工学はLLMの展開には不可欠であるが、数学的には理解されていない。 我々はLSMシステムを離散確率力学系のクラスとして定式化し、制御理論のレンズを通して迅速な工学を探求する。 パラメータ行列の特異値の関数として自己注意の制御可能性に関する制限を数学的に解析する。 本研究では, Falcon-7b, Llama-7b, Falcon-40bを含むLLMパネルの制御性に関する実証実験を行った。 Wikitextからの初期状態$\mathbf x_0$と長さ$k \leq 10$トークンのプロンプトを考えると、"正しい"次のトークンは少なくとも97%の確率で到達可能であり、上位75のトークンは少なくとも85%の確率で到達可能である。 興味深いことに、短いプロンプトシーケンスは特定の出力の可能性を劇的に変え、最も可能性の低いトークンを最も可能性の高いものにする。 このLLMの制御理論解析は、入力シーケンスが出力確率を操る上で重要な役割を担っていることを実証し、言語モデルシステム機能を強化するための基礎的な視点を提供する。

Prompt engineering is crucial for deploying LLMs but is poorly understood mathematically. We formalize LLM systems as a class of discrete stochastic dynamical systems to explore prompt engineering through the lens of control theory. We offer a mathematical analysis of the limitations on the controllability of self-attention as a function of the singular values of the parameter matrices. We present complementary empirical results on the controllability of a panel of LLMs, including Falcon-7b, Llama-7b, and Falcon-40b. Given initial state $\mathbf x_0$ from Wikitext and prompts of length $k \leq 10$ tokens, we find that the "correct" next token is reachable at least 97% of the time, and that the top 75 most likely next tokens are reachable at least 85% of the time. Intriguingly, short prompt sequences can dramatically alter the likelihood of specific outputs, even making the least likely tokens become the most likely ones. This control-theoretic analysis of LLMs demonstrates the significant and poorly understood role of input sequences in steering output probabilities, offering a foundational perspective for enhancing language model system capabilities.
翻訳日:2024-07-09 00:52:08 公開日:2024-07-03
# 20のクエリでブラックボックスの大規模言語モデルを脱獄させる

Jailbreaking Black Box Large Language Models in Twenty Queries ( http://arxiv.org/abs/2310.08419v3 )

ライセンス: Link先を確認
Patrick Chao, Alexander Robey, Edgar Dobriban, Hamed Hassani, George J. Pappas, Eric Wong, (参考訳) 大きな言語モデル(LLM)が人間の価値と一致することを保証することへの関心が高まっている。 しかし、このようなモデルのアライメントは敵のジェイルブレイクに対して脆弱であり、LLMは彼らの安全ガードレールを覆い隠すようにコックスする。 これらの脆弱性の特定は、固有の弱点を理解し、将来の誤用を防ぐのに役立つ。 そこで本研究では,LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムであるPrompt Automatic Iterative Refinement (PAIR)を提案する。 PAIRは、社会工学的な攻撃にインスパイアされたもので、人間の介入なしに、個別のLLMに対するジェイルブレイクを自動的に生成する。 このようにして、攻撃者 LLM は、ターゲットの LLM を反復的にクエリして、候補のjailbreak を更新および精査する。 経験的に、PAIRは、既存のアルゴリズムよりも桁違いに効率的なジェイルブレイクを生成するために、20未満のクエリを必要とすることが多い。 PAIRは、GPT-3.5/4、Vicuna、Geminiなど、オープンでクローズドなLLM上で、競合するジェイルブレイクの成功率と転送性も達成している。

There is growing interest in ensuring that large language models (LLMs) align with human values. However, the alignment of such models is vulnerable to adversarial jailbreaks, which coax LLMs into overriding their safety guardrails. The identification of these vulnerabilities is therefore instrumental in understanding inherent weaknesses and preventing future misuse. To this end, we propose Prompt Automatic Iterative Refinement (PAIR), an algorithm that generates semantic jailbreaks with only black-box access to an LLM. PAIR -- which is inspired by social engineering attacks -- uses an attacker LLM to automatically generate jailbreaks for a separate targeted LLM without human intervention. In this way, the attacker LLM iteratively queries the target LLM to update and refine a candidate jailbreak. Empirically, PAIR often requires fewer than twenty queries to produce a jailbreak, which is orders of magnitude more efficient than existing algorithms. PAIR also achieves competitive jailbreaking success rates and transferability on open and closed-source LLMs, including GPT-3.5/4, Vicuna, and Gemini.
翻訳日:2024-07-09 00:52:08 公開日:2024-07-03
# ワッサーシュタイン空間における近位勾配勾配によるフローベース生成モデルの収束

Convergence of flow-based generative models via proximal gradient descent in Wasserstein space ( http://arxiv.org/abs/2310.17582v3 )

ライセンス: Link先を確認
Xiuyuan Cheng, Jianfeng Lu, Yixin Tan, Yao Xie, (参考訳) フローベースの生成モデルは、データ生成と可能性の計算において一定の利点を享受し、最近は競争力のある経験的性能を示している。 関連するスコアベース拡散モデルに関する累積理論的研究と比較すると、前(データ・ツー・ノイズ)と逆(ノイズ・トゥ・データ)のどちらにおいても決定論的であるフローベースモデルの解析は依然として少ないままである。 本稿では,Jordan-Kinderleherer-Otto(JKO)方式を正規化フローネットワークに実装した,プログレッシブフローモデルであるJKOフローモデルによりデータ分散を生成する理論的保証を提供する。 ワッサーシュタイン空間における近位勾配降下(GD)の指数収束を利用して、JKOフローモデルによるデータ生成のKL(Kullback-Leibler)保証が$O(\varepsilon^2)$であると証明し、$N \lesssim \log (1/\varepsilon)$多くのJKOステップ(フロー内のResidual Blocks)を使用する場合、$\varepsilon $はステップ1次条件の誤差である。 データ密度の仮定は単に有限第二モーメントであり、この理論は密度のないデータ分布と、KL-$W_2$混合誤差を保証する逆過程に逆誤差が存在する場合に拡張される。 JKO型 $W_2$-proximal GD の非漸近収束速度は、KL の発散を特別な場合として含む凸目的函数の一般クラスに対して証明され、これは独立な関心を持つことができる。 解析フレームワークはフローベース生成モデルに適用された他の一階ワッサーシュタイン最適化スキームにまで拡張することができる。

Flow-based generative models enjoy certain advantages in computing the data generation and the likelihood, and have recently shown competitive empirical performance. Compared to the accumulating theoretical studies on related score-based diffusion models, analysis of flow-based models, which are deterministic in both forward (data-to-noise) and reverse (noise-to-data) directions, remain sparse. In this paper, we provide a theoretical guarantee of generating data distribution by a progressive flow model, the so-called JKO flow model, which implements the Jordan-Kinderleherer-Otto (JKO) scheme in a normalizing flow network. Leveraging the exponential convergence of the proximal gradient descent (GD) in Wasserstein space, we prove the Kullback-Leibler (KL) guarantee of data generation by a JKO flow model to be $O(\varepsilon^2)$ when using $N \lesssim \log (1/\varepsilon)$ many JKO steps ($N$ Residual Blocks in the flow) where $\varepsilon $ is the error in the per-step first-order condition. The assumption on data density is merely a finite second moment, and the theory extends to data distributions without density and when there are inversion errors in the reverse process where we obtain KL-$W_2$ mixed error guarantees. The non-asymptotic convergence rate of the JKO-type $W_2$-proximal GD is proved for a general class of convex objective functionals that includes the KL divergence as a special case, which can be of independent interest. The analysis framework can extend to other first-order Wasserstein optimization schemes applied to flow-based generative models.
翻訳日:2024-07-09 00:52:08 公開日:2024-07-03
# Gromov-Monge 埋め込みによるモノトン生成モデル

Monotone Generative Modeling via a Gromov-Monge Embedding ( http://arxiv.org/abs/2311.01375v2 )

ライセンス: Link先を確認
Wonjun Lee, Yifei Yang, Dongmian Zou, Gilad Lerman, (参考訳) GAN(Generative Adversarial Network)は、ジェネレーティブなタスクに人気があるが、注意深いアーキテクチャ選択、広範な経験的チューニングが必要であり、モード崩壊の傾向にある。 これらの課題を克服するために、基礎となるデータ分布の低次元構造を同定し、基礎となる幾何学を保ちながら低次元の潜在空間にマッピングし、埋め込み分布への参照測度を最適に伝達する新しいモデルを提案する。 我々は,本手法の3つの重要な特性を証明した。 1) エンコーダは,基礎となるデータの形状を保存する。 2)ジェネレータは,$c$循環単調で,$c$はエンコーダが使用する固有の埋め込みコストである。 3) 識別器の連続度は, データの幾何的保存により向上する。 数値実験により,高画質画像の生成とモード崩壊とトレーニング不安定性の両面に対するロバスト性を示す手法の有効性が示された。

Generative adversarial networks (GANs) are popular for generative tasks; however, they often require careful architecture selection, extensive empirical tuning, and are prone to mode collapse. To overcome these challenges, we propose a novel model that identifies the low-dimensional structure of the underlying data distribution, maps it into a low-dimensional latent space while preserving the underlying geometry, and then optimally transports a reference measure to the embedded distribution. We prove three key properties of our method: 1) The encoder preserves the geometry of the underlying data; 2) The generator is $c$-cyclically monotone, where $c$ is an intrinsic embedding cost employed by the encoder; and 3) The discriminator's modulus of continuity improves with the geometric preservation of the data. Numerical experiments demonstrate the effectiveness of our approach in generating high-quality images and exhibiting robustness to both mode collapse and training instability.
翻訳日:2024-07-09 00:52:08 公開日:2024-07-03
# ビデオ時間グラウンドにおける相関型クエリ依存性の校正

Correlation-Guided Query-Dependency Calibration for Video Temporal Grounding ( http://arxiv.org/abs/2311.08835v4 )

ライセンス: Link先を確認
WonJun Moon, Sangeek Hyun, SuBeen Lee, Jae-Pil Heo, (参考訳) 時間的グラウンディング(Temporal Grounding)とは、テキスト記述に対応するビデオから特定の瞬間やハイライトを特定することである。 時間的グラウンドディングにおける典型的なアプローチは、テキストクエリと意味的関連性にかかわらず、エンコーディングプロセス中にすべてのビデオクリップを等しく扱う。 そこで本研究では,CG-DETR(Relational-Guided Detection TRansformer)を提案する。 まず,ダミートークンを用いた適応的クロスアテンションを設計する。 テキストクエリによって条件付けられたダミートークンは、注意重みの一部を取り、無関係なビデオクリップがテキストクエリで表現されるのを防ぐ。 しかし、すべての単語が、ビデオクリップに対するテキストクエリの相関を均等に継承するわけではない。 そこで我々は,ビデオクリップと単語の微妙な相関関係を推定することにより,クロスアテンションマップをさらにガイドする。 我々は,高レベルな概念,すなわちモーメントと文レベルの共同埋め込み空間を学習し,クリップワードの相関関係を推定することで,これを実現できる。 最後に、モーメント固有の特徴を利用して、各ビデオのコンテキストと組み合わせて、モーメント適応型サリエンシ検出器を形成する。 各ビデオクリップのテキストエンゲージメントの度合いを利用して、各クリップのハイライト度を正確に測定する。 CG-DETRは時間的接地のための様々なベンチマークで最先端の結果を得る。 コードはhttps://github.com/wjun0830/CGDETRで公開されている。

Temporal Grounding is to identify specific moments or highlights from a video corresponding to textual descriptions. Typical approaches in temporal grounding treat all video clips equally during the encoding process regardless of their semantic relevance with the text query. Therefore, we propose Correlation-Guided DEtection TRansformer (CG-DETR), exploring to provide clues for query-associated video clips within the cross-modal attention. First, we design an adaptive cross-attention with dummy tokens. Dummy tokens conditioned by text query take portions of the attention weights, preventing irrelevant video clips from being represented by the text query. Yet, not all words equally inherit the text query's correlation to video clips. Thus, we further guide the cross-attention map by inferring the fine-grained correlation between video clips and words. We enable this by learning a joint embedding space for high-level concepts, i.e., moment and sentence level, and inferring the clip-word correlation. Lastly, we exploit the moment-specific characteristics and combine them with the context of each video to form a moment-adaptive saliency detector. By exploiting the degrees of text engagement in each video clip, it precisely measures the highlightness of each clip. CG-DETR achieves state-of-the-art results on various benchmarks for temporal grounding. Codes are available at https://github.com/wjun0830/CGDETR.
翻訳日:2024-07-09 00:42:23 公開日:2024-07-03
# 教育計測における人工知能の統合:項目応答理論の範囲内におけるデータ生成におけるChatGPTの有効性

Integration of Artificial Intelligence in Educational Measurement: Efficacy of ChatGPT in Data Generation within the Scope of Item Response Theory ( http://arxiv.org/abs/2402.01731v2 )

ライセンス: Link先を確認
Hatice Gurdil, Yesim Beril Soguksu, Salih Salihoglu, Fatma Coskun, (参考訳) 本研究の目的は,R言語を用いた項目応答理論(IRT)フレームワークにおけるデータ生成アルゴリズムの開発におけるChatGPT 3.5の有効性を検討することである。 この文脈では,ChatGPT 3.5 と研究者らによるアルゴリズムを用いて,2PLM (Two-Parameter Logistic Model) に基づいて生成されたデータセットに対する妥当性検証を行った。 これらの調査では、データセットがIRTの仮定と項目パラメータのシミュレーション条件を満たしているかどうかを検討した。 その結果, ChatGPT 3.5 は IRT の仮定に合致したデータを生成するのにかなり成功したが, パラメータのシミュレーション条件を満たすには, 研究者が開発したアルゴリズムに比べて効果が低かった。 この点に関してChatGPT 3.5は、IRTのデータ生成アルゴリズムの開発に研究者が利用できる便利なツールとして推奨されている。

The aim of this study is to investigate the effectiveness of ChatGPT 3.5 in developing algorithms for data generation within the framework of Item Response Theory (IRT) using the R programming language. In this context, validity examinations were conducted on data sets generated according to the Two-Parameter Logistic Model (2PLM) with algorithms written by ChatGPT 3.5 and researchers. These examinations considered whether the data sets met the IRT assumptions and the simulation conditions of the item parameters. As a result, it was determined that while ChatGPT 3.5 was quite successful in generating data that met the IRT assumptions, it was less effective in meeting the simulation conditions of the item parameters compared to the algorithm developed by the researchers. In this regard, ChatGPT 3.5 is recommended as a useful tool that researchers can use in developing data generation algorithms for IRT.
翻訳日:2024-07-09 00:03:17 公開日:2024-07-03
# JailBreakV-28K: ジェイルブレイク攻撃に対するマルチモーダル大言語モデルのロバスト性を評価するベンチマーク

JailBreakV-28K: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks ( http://arxiv.org/abs/2404.03027v3 )

ライセンス: Link先を確認
Weidi Luo, Siyuan Ma, Xiaogeng Liu, Xiaoyu Guo, Chaowei Xiao, (参考訳) MLLM(Multimodal Large Language Models)の急速な進歩に伴い、これらのモデルが悪意ある入力に対して安全でありながら、それらを人間の価値と整合させることが重要な課題となっている。 本稿では,Large Language Models (LLM) を成功させる手法が,MLLMのジェイルブレイクに等しく有効であるかどうか,重要かつ未解明の課題について検討する。 そこで本研究では,MLLMのジェイルブレイクテクニックのMLLMへの転送性を評価するための先駆的ベンチマークであるJailBreakV-28Kを紹介し,さまざまなジェイルブレイク攻撃に対するMLLMの堅牢性を評価する。 この論文でも提案されている2,000の悪意のあるクエリのデータセットを利用して、LSMの高度なジェイルブレイク攻撃を使用して、20,000のテキストベースのジェイルブレイクプロンプトを生成し、最近のMLLMのジェイルブレイク攻撃からの8,000の画像ベースのジェイルブレイクインプットに加えて、当社の包括的なデータセットには、さまざまなシナリオを対象とした28,000のテストケースが含まれています。 10個のオープンソースMLLMを評価したところ、LSMから転送された攻撃に対する攻撃成功率(ASR)が顕著に高く、テキスト処理能力に起因したMLLMの重大な脆弱性が明らかとなった。 本研究は,テキスト入力と視覚入力の両方からMLLMのアライメント脆弱性に対処するための,今後の研究の必要性を浮き彫りにするものである。

With the rapid advancements in Multimodal Large Language Models (MLLMs), securing these models against malicious inputs while aligning them with human values has emerged as a critical challenge. In this paper, we investigate an important and unexplored question of whether techniques that successfully jailbreak Large Language Models (LLMs) can be equally effective in jailbreaking MLLMs. To explore this issue, we introduce JailBreakV-28K, a pioneering benchmark designed to assess the transferability of LLM jailbreak techniques to MLLMs, thereby evaluating the robustness of MLLMs against diverse jailbreak attacks. Utilizing a dataset of 2, 000 malicious queries that is also proposed in this paper, we generate 20, 000 text-based jailbreak prompts using advanced jailbreak attacks on LLMs, alongside 8, 000 image-based jailbreak inputs from recent MLLMs jailbreak attacks, our comprehensive dataset includes 28, 000 test cases across a spectrum of adversarial scenarios. Our evaluation of 10 open-source MLLMs reveals a notably high Attack Success Rate (ASR) for attacks transferred from LLMs, highlighting a critical vulnerability in MLLMs that stems from their text-processing capabilities. Our findings underscore the urgent need for future research to address alignment vulnerabilities in MLLMs from both textual and visual inputs.
翻訳日:2024-07-08 23:24:01 公開日:2024-07-03
# 変分量子クランクニコソンと初期値問題の解法

Variational Quantum Crank-Nicolson and Method of Lines for the Solution of Initial Value Problems ( http://arxiv.org/abs/2404.07016v2 )

ライセンス: Link先を確認
Francisco Guzman-Cajica, Francisco S. Guzman, (参考訳) 本稿では、変分量子アルゴリズムを用いて、インプリシト・クランク・ニコソンと方法・オブ・ライン(MoL)の進化スキームによる初期値問題の解法を提案する。 未知の関数はフーリエ基底のスペクトル分解を用いる。 実装を説明するために開発された例は、Advection equation、一階結合方程式系として記述された波動方程式、非線形の場合として粘性バーガース方程式である。 問題は次の通り解決される。 一 比較すべき解としての標準差分 二 国家ベクトル形式主義(SVF)及び 三 サンプリング誤り形式主義(SEF) 本論文の貢献は以下のとおりである。 1) 暗黙のクランク・ニコルソンとMoLを用いた時間PDEにおける一般一階のコスト関数。 2) 解いたすべての方程式に対して, 詳細な収束, 自己収束試験が提示される。 3) 3つの結合PDEの系を解く。 4)サンプリングエラーを用いた解が提示される。 5) SVFとSEFの高速バージョンが開発され、様々なオプティマイザを高速にテストできる。

In this paper we use a Variational Quantum Algorithm to solve Initial Value Problems with the Implicit Crank-Nicolson and the Method of Lines (MoL) evolution schemes. The unknown functions use a spectral decomposition with the Fourier basis. The examples developed to illustrate the implementation are the Advection equation, the wave equation written as a system of first order coupled equations and the viscous Burgers equation as a non-linear case. The problems are solved using: i) standard Finite Differences as the solution to compare with, ii) the State Vector Formalism (SVF), and iii) the Sampling Error Formalism (SEF). The contributions of this paper include: 1) cost functions for generic first order in time PDEs using the implicit Crank-Nicholson and the MoL, 2) detailed convergence or self-convergence tests are presented for all the equations solved, 3) a system of three coupled PDEs is solved, 4) solutions using sampling error are presented and 5) a fast version of the SVF and SEF was developed which can be used to test different optimizers faster.
翻訳日:2024-07-08 23:24:01 公開日:2024-07-03
# 可換性対非可換性CSPの満足度

Satisfiability of commutative vs. non-commutative CSPs ( http://arxiv.org/abs/2404.11709v2 )

ライセンス: Link先を確認
Andrei A. Bulatov, Stanislav Živný, (参考訳) マーミン・ペレスのマジック正方形は(古典的には)満足できないが、次元 4 のヒルベルト空間上の線型作用素によって満足できるブール線型方程式のシステムの有名な例である。 自然の疑問は、そのような現象がどんな問題を引き起こすのかということだ。 Atserias, Kolaitis, and Severini はこの質問に答えた: 0-Valid-SAT, 1-Valid-SAT, 2-SAT, Horn-SAT, Dual Horn-SAT に対して、古典的満足性と作用素の満足性は同じであり、ギャップがない。 まず、NP-ハードな CSP は、有限次元および無限次元ヒルベルト空間上の作用素を通して古典的満足性と満足性の間の分離を許すことを示す。 第2に,有界幅のトラクタブル CSP は任意の種類の充足性ギャップを持たないことを示す。 最後に、有界幅のトラクタブル CSP が、無限次元ヒルベルト空間上の作用素を通して古典的満足性と満足性の分離を得るため、アベリア群上の素数$p$の線形方程式を満足度-ギャップ保存形式でシミュレートできることを示す。 さらに、$p=2$ の場合、そのような CSP はまた、有限次元および無限次元ヒルベルト空間上の作用素を通して古典的満足性と満足性を分離するギャップを持つ。

The Mermin-Peres magic square is a celebrated example of a system of Boolean linear equations that is not (classically) satisfiable but is satisfiable via linear operators on a Hilbert space of dimension four. A natural question is then, for what kind of problems such a phenomenon occurs? Atserias, Kolaitis, and Severini answered this question for all Boolean Constraint Satisfaction Problems (CSPs): For 0-Valid-SAT, 1-Valid-SAT, 2-SAT, Horn-SAT, and Dual Horn-SAT, classical satisfiability and operator satisfiability is the same and thus there is no gap; for all other Boolean CSPs, these notions differ as there are gaps, i.e., there are unsatisfiable instances that are satisfiable via operators on Hilbert spaces. We generalize their result to CSPs on arbitrary finite domains and give an almost complete classification: First, we show that NP-hard CSPs admit a separation between classical satisfiability and satisfiability via operators on finite- and infinite-dimensional Hilbert spaces. Second, we show that tractable CSPs of bounded width have no satisfiability gaps of any kind. Finally, we show that tractable CSPs of unbounded width can simulate, in a satisfiability-gap-preserving fashion, linear equations over an Abelian group of prime order $p$; for such CSPs, we obtain a separation of classical satisfiability and satisfiability via operators on infinite-dimensional Hilbert spaces. Furthermore, if $p=2$, such CSPs also have gaps separating classical satisfiability and satisfiability via operators on finite- and infinite-dimensional Hilbert spaces.
翻訳日:2024-07-08 23:14:17 公開日:2024-07-03
# 量子符号の最小距離問題に対する量子アニール法

A quantum annealing approach to the minimum distance problem of quantum codes ( http://arxiv.org/abs/2404.17703v3 )

ライセンス: Link先を確認
Refat Ismail, Ashish Kakkar, Anatoly Dymarsky, (参考訳) 量子誤り訂正符号(QECC)は、フォールトトレラント量子コンピューティングの中心にある。 量子プラットフォームのサイズが大きくなると予想されているため、オープンな疑問の1つは、常に増加するサイズの新しい最適なコードの設計である。 関連する課題は、最小距離、量子情報を保存するためのコードの能力を特徴づける量を評価することで、与えられたコードの品質を '`certify'' することである。 この問題はNPハードであることが知られている。 ここでは、現代の量子プラットフォームのパワーを活用してこの問題に対処することを提案し、この方法では未来の量子プラットフォームの設計を支援する。 すなわち、量子安定化器符号の最小距離を計算するアプローチとして、量子非拘束バイナリ最適化(QUBO)問題として問題を修正し、確立されたQUBOアルゴリズムとヒューリスティックス、および量子アニール(QA)を活用して後者に対処する。 QUBOとしての再構成は、必要な変数数の対数乗算オーバーヘッドのみを導入する。 D-Wave Advantage 4.1 量子アニールとハイブリッド量子古典アルゴリズム Qbsolv の性能を比較することで,本手法の実用性を示す。 このハイブリッド手法はQUBOを解くのに最適な古典的アルゴリズムに匹敵する競争性能を示す。 現実的な意味では、QUBOベースのアプローチは現在、決定論的最小距離アルゴリズムに遅れを取っているが、プラットフォームのサイズが大きくなるにつれて、この優位性は消滅する可能性がある。

Quantum error-correcting codes (QECCs) is at the heart of fault-tolerant quantum computing. As the size of quantum platforms is expected to grow, one of the open questions is to design new optimal codes of ever-increasing size. A related challenge is to ``certify'' the quality of a given code by evaluating its minimum distance, a quantity characterizing code's capacity to preserve quantum information. This problem is known to be NP-hard. Here we propose to harness the power of contemporary quantum platforms to address this question, and in this way help design quantum platforms of the future. Namely, we introduce an approach to compute the minimum distance of quantum stabilizer codes by reformulating the problem as a Quadratic Unconstrained Binary Optimization (QUBO) problem and leveraging established QUBO algorithms and heuristics as well as quantum annealing (QA) to address the latter. The reformulation as a QUBO introduces only a logarithmic multiplicative overhead in the required number of variables. We demonstrate practical viability of our method by comparing the performance of purely classical algorithms with the D-Wave Advantage 4.1 quantum annealer as well as hybrid quantum-classical algorithm Qbsolv. We found that the hybrid approach demonstrates competitive performance, on par with the best available classical algorithms to solve QUBO. In a practical sense, the QUBO-based approach is currently lagging behind the best deterministic minimal distance algorithms, however this advantage may disappear as the size of the platforms grows.
翻訳日:2024-07-08 23:14:17 公開日:2024-07-03
# 混合量子状態における強弱自発対称性の破れ

Strong-to-Weak Spontaneous Symmetry Breaking in Mixed Quantum States ( http://arxiv.org/abs/2405.03639v2 )

ライセンス: Link先を確認
Leonardo A. Lessa, Ruochen Ma, Jian-Hao Zhang, Zhen Bi, Meng Cheng, Chong Wang, (参考訳) 混合量子状態の対称性は、2つの異なる形式で表せる: \textit{strong symmetric}、量子アンサンブル内の個々の純状態が同じ電荷で対称である場合、および、全アンサンブルにのみ適用される \textit{weak symmetric}。 本稿では,強い対称性を弱い対称性に分解する新しいタイプの自発対称性破壊(SSB)について検討する。 弱対称性のSSBは長距離2点相関関数$\mathrm{Tr}(O_xO^{\dagger}_y\rho)$で測定されるが、強弱SSB(SW-SSB)は、fF(\rho,O_xO^{\dagger}_y\rho O_yO^{\dagger}_x)$で測定される。 SW-SSBが混合状態量子相の普遍的性質であることは、SW-SSBの現象が対称的な低深さ局所量子チャネルに対して堅牢であるという意味で証明する。 また, 局所対称性破断測定の効果を局所的に回復できないという意味で, 対称性破断は「自発的」であることを示す。 熱状態は(固定対称性の電荷を持つ)正準アンサンブルの非零温度で自発的に強い対称性を破るべきであると論じる。 さらに,デコヒーレンスがSW-SSBを誘導する非熱的シナリオを考察し,結合ランダム性を持つ古典統計モデルによって記述された相転移を導いた。 特に、デコヒードIsingモデルのSW-SSBトランジションは、祝福されたトーリックコードデオーダビリティトランジションの"未修正"バージョンと見なすことができる。 我々は、デコヒードイジングモデルにおいて、忠実度相関器によって定義されるSW-SSB遷移が、チャネル回復性の観点から唯一の物理的遷移であることを確認した。 SW-SSBの他の(等価な)定義についても、高いR'enyi指標との相関関数を通して論じる。

Symmetry in mixed quantum states can manifest in two distinct forms: \textit{strong symmetry}, where each individual pure state in the quantum ensemble is symmetric with the same charge, and \textit{weak symmetry}, which applies only to the entire ensemble. This paper explores a novel type of spontaneous symmetry breaking (SSB) where a strong symmetry is broken to a weak one. While the SSB of a weak symmetry is measured by the long-ranged two-point correlation function $\mathrm{Tr}(O_xO^{\dagger}_y\rho)$, the strong-to-weak SSB (SW-SSB) is measured by the fidelity $F(\rho, O_xO^{\dagger}_y\rho O_yO^{\dagger}_x)$, dubbed the \textit{fidelity correlator}. We prove that SW-SSB is a universal property of mixed-state quantum phases, in the sense that the phenomenon of SW-SSB is robust against symmetric low-depth local quantum channels. { We also show that the symmetry breaking is "spontaneous " in the sense that the effect of a local symmetry-breaking measurement cannot be recovered locally.} We argue that a thermal state at a nonzero temperature in the canonical ensemble (with fixed symmetry charge) should have spontaneously broken strong symmetry. Additionally, we study non-thermal scenarios where decoherence induces SW-SSB, leading to phase transitions described by classical statistical models with bond randomness. In particular, the SW-SSB transition of a decohered Ising model can be viewed as the "ungauged" version of the celebrated toric code decodability transition. We confirm that, in the decohered Ising model, the SW-SSB transition defined by the fidelity correlator is the only physical transition in terms of channel recoverability. We also comment on other (inequivalent) definitions of SW-SSB, through correlation functions with higher R\'enyi indices.
翻訳日:2024-07-08 23:04:18 公開日:2024-07-03
# 抑うつ的言語においてコンテキストは重要である:Redditの議論における感覚と言語マーカーの相互作用に関する研究

Context is Important in Depressive Language: A Study of the Interaction Between the Sentiments and Linguistic Markers in Reddit Discussions ( http://arxiv.org/abs/2405.18061v2 )

ライセンス: Link先を確認
Neha Sharma, Kairit Sirts, (参考訳) うつ病患者の言語マーカーを探索する研究は、言語の使用がメンタルヘルスの指標となることを示した。 本研究では、Redditデータセットを用いて、言語マーカーと抑うつの感情表現に対する議論トピックの文脈の影響について検討した。 共通の知見とは対照的に, 私たちの感情分析では, 抑うつ者の感情の強さはコントロールよりも否定的, 肯定的であった。 このパターンは感情的な言葉を含まないポストによって駆動され、完全な感情的文脈を捉えるための語彙に基づくアプローチの限界を明らかにする。 文脈分析の重要性を示すいくつかの興味深い結果が得られた。 例えば、怒りや悲しみに関連する1人称代名詞と1人称代名詞の使用は、肯定的な感情の増加と相関した。 本研究は、抑うつに使用される言語を解釈しながら、議論文脈の重要性を強調し、議論の話題によって、言語マーカーの感情的強度と意味が変化することを明らかにする。

Research exploring linguistic markers in individuals with depression has demonstrated that language usage can serve as an indicator of mental health. This study investigates the impact of discussion topic as context on linguistic markers and emotional expression in depression, using a Reddit dataset to explore interaction effects. Contrary to common findings, our sentiment analysis revealed a broader range of emotional intensity in depressed individuals, with both higher negative and positive sentiments than controls. This pattern was driven by posts containing no emotion words, revealing the limitations of the lexicon based approaches in capturing the full emotional context. We observed several interesting results demonstrating the importance of contextual analyses. For instance, the use of 1st person singular pronouns and words related to anger and sadness correlated with increased positive sentiments, whereas a higher rate of present-focused words was associated with more negative sentiments. Our findings highlight the importance of discussion contexts while interpreting the language used in depression, revealing that the emotional intensity and meaning of linguistic markers can vary based on the topic of discussion.
翻訳日:2024-07-08 22:54:33 公開日:2024-07-03
# 強化学習への応用のためのスケーラブルヘッセン対角近似の再検討

Revisiting Scalable Hessian Diagonal Approximations for Applications in Reinforcement Learning ( http://arxiv.org/abs/2406.03276v2 )

ライセンス: Link先を確認
Mohamed Elsayed, Homayoon Farrahi, Felix Dangel, A. Rupam Mahmood, (参考訳) 二次情報は多くのアプリケーションにとって価値があるが、計算は困難である。 いくつかの研究はヘッセン対角線の計算や近似に重点を置いているが、この単純化でさえ、勾配の計算に比べてかなりのコストがかかる。 ヘッセン対角線に対する効率的な正確な計算スキームがないため、ベッカーとルクーン (1989, BL89) が提唱した早期近似スキームを再検討する。 BL89よりも改善されたHesScaleを導入し、無視できる余分な計算を追加した。 小さなネットワークでは、この改善は全ての代替品よりも高い品質であり、不偏性のような理論的保証のあるものでさえも計算がより安価である。 この知見を,小規模ネットワークを用いた強化学習問題に応用し,第2次最適化とステップサイズパラメータのスケーリングにおいてHesScaleを実証する。 私たちの実験では、HesScaleは既存のメソッドよりも高速に最適化し、ステップサイズのスケーリングによって安定性を改善します。 これらの発見は、将来的にはより大規模なモデルで2階法をスケールすることが期待できる。

Second-order information is valuable for many applications but challenging to compute. Several works focus on computing or approximating Hessian diagonals, but even this simplification introduces significant additional costs compared to computing a gradient. In the absence of efficient exact computation schemes for Hessian diagonals, we revisit an early approximation scheme proposed by Becker and LeCun (1989, BL89), which has a cost similar to gradients and appears to have been overlooked by the community. We introduce HesScale, an improvement over BL89, which adds negligible extra computation. On small networks, we find that this improvement is of higher quality than all alternatives, even those with theoretical guarantees, such as unbiasedness, while being much cheaper to compute. We use this insight in reinforcement learning problems where small networks are used and demonstrate HesScale in second-order optimization and scaling the step-size parameter. In our experiments, HesScale optimizes faster than existing methods and improves stability through step-size scaling. These findings are promising for scaling second-order methods in larger models in the future.
翻訳日:2024-07-08 22:44:48 公開日:2024-07-03
# IWISDM:大規模マルチモーダルモデルにおける命令追従の評価

IWISDM: Assessing instruction following in multimodal models at scale ( http://arxiv.org/abs/2406.14343v4 )

ライセンス: Link先を確認
Xiaoxuan Lei, Lucas Gomez, Hao Yuan Bai, Pouya Bashivan, (参考訳) 詳細な指示から複雑なタスクを実行する能力は、我々の種の多くの顕著な成果の鍵となる。 人間としては、幅広いタスクを実行するだけでなく、数百から数千のステップを完了させる、非常に複雑なタスクも実行できます。 テキスト入力と視覚入力を統合した大規模言語モデルとそのより最近のマルチモーダルモデルは、複雑なタスクの実行において前例のない成功を収めた。 しかし、既存のベンチマークのほとんどは単一のモダリティ入力(テキストやビジョン)に限られており、特にマルチモダリティコンテキストでのインストラクションフォローは、マルチモダリティアセスメントの範囲を狭めている。 このギャップを埋めるために,複雑度が変化する視覚言語タスクの制限のない配列を生成するために設計された,指示された仮想VISual Decision Making (iWISDM)環境を導入する。 iWISDMを用いて、様々な複雑さレベルにわたる視覚的タスクに追従する命令の3つの異なるベンチマークをコンパイルし、これらのベンチマーク上で新たに開発された複数のマルチモーダルモデルを評価した。 我々の研究は,既存のマルチモーダルモデルと創発的マルチモーダルモデルの両方の命令順守を評価するための堅牢なベンチマークとしてiWISDMを確立し,これらのモデルと人間の命令を正確に追従する能力の大きなギャップを浮き彫りにした。iWISDMのコードはGitHubで公開されている。

The ability to perform complex tasks from detailed instructions is a key to many remarkable achievements of our species. As humans, we are not only capable of performing a wide variety of tasks but also very complex ones that may entail hundreds or thousands of steps to complete. Large language models and their more recent multimodal counterparts that integrate textual and visual inputs have achieved unprecedented success in performing complex tasks. Yet, most existing benchmarks are largely confined to single-modality inputs (either text or vision), narrowing the scope of multimodal assessments, particularly for instruction-following in multimodal contexts. To bridge this gap, we introduce the instructed-Virtual VISual Decision Making (iWISDM) environment engineered to generate a limitless array of vision-language tasks of varying complexity. Using iWISDM, we compiled three distinct benchmarks of instruction following visual tasks across varying complexity levels and evaluated several newly developed multimodal models on these benchmarks. Our findings establish iWISDM as a robust benchmark for assessing the instructional adherence of both existing and emergent multimodal models and highlight a large gap between these models' ability to precisely follow instructions with that of humans.The code of iWISDM is available on GitHub at https://github.com/BashivanLab/iWISDM.
翻訳日:2024-07-08 22:35:04 公開日:2024-07-03
# SD-BLS:無リンクの閾値取り消しによる検証可能なクレデンシャルの選択的開示を保存するプライバシー保護

SD-BLS: Privacy Preserving Selective Disclosure of Verifiable Credentials with Unlinkable Threshold Revocation ( http://arxiv.org/abs/2406.19035v2 )

ライセンス: Link先を確認
Denis Roio, Rebecca Selvaggini, Andrea D'Intino, (参考訳) 市民のプライバシーを保証し、発行者の腐敗から保護するデジタルアイデンティティシステムを設計することが重要である。 本稿では,2次楕円曲線とBoneh-Lynn-Shacham(BLS)署名の特異な同型特性を用いて,デジタル認証情報の選択的開示とプライバシ保護のための手法を提案する。 提案手法は,特定の発行者によって署名された証明書を選択的に公開することを保証する。 我々の目標は、複数の取り消し発行者間での集団合意を要求することで、ユーザを発行者腐敗から守ることです。

It is of critical importance to design digital identity systems that ensure the privacy of citizens as well as protecting them from issuer corruption. We aim to solve this issue and propose a method for selective disclosure and privacy preserving revocation of digital credentials, using the unique homomorphic characteristics of second order Elliptic Curves and Boneh-Lynn-Shacham (BLS) signatures. Our approach ensures that users can selectively reveal credentials signed by a certain issuer, which can be interactively revoked by a quorum of other agreeing issuers without revealing the identity of users. Our goal is to protect users from issuer corruption by requiring collective agreement among multiple revocation issuers.
翻訳日:2024-07-08 22:24:52 公開日:2024-07-03
# 外部性を緩和する学習--密接な連帯性を持つ因果論

Learning to Mitigate Externalities: the Coase Theorem with Hindsight Rationality ( http://arxiv.org/abs/2406.19824v2 )

ライセンス: Link先を確認
Antoine Scheid, Aymeric Capitaine, Etienne Boursier, Eric Moulines, Michael I Jordan, Alain Durmus, (参考訳) 経済理論において、外部性の概念は、社会的福祉に影響を与えるプレイヤー間の相互作用から生じる間接的な効果を指す。 外部性を研究するモデルの多くは、エージェントが環境や嗜好について完全な知識を持っていると仮定している。 これは、多くの提案されたソリューションの実践的な実装に対する大きな障害である。 この問題に対処するため、一方のプレイヤーのアクションが他方のプレイヤーに影響を与えるような2人のプレイヤーのバンディット設定を検討し、コーズ定理を拡張した(Coase, 1960)。 この結果は、外部性の存在下での社会的福祉を最大化するための最適なアプローチは、財産権を確立すること、すなわちプレイヤー間の移動と交渉を可能にすることである。 我々の研究は、バーゲンが根底にあるゲームについて完全な知識を持っているという古典的な仮定を取り除いている。 まず、財産権がなければ社会福祉は崩壊するということを実証する。 次に、プレイヤーが全福祉を最大化する交渉戦略を学べるようにポリシーを設計し、不確実性の下でコーズ定理を回復する。

In economic theory, the concept of externality refers to any indirect effect resulting from an interaction between players that affects the social welfare. Most of the models within which externality has been studied assume that agents have perfect knowledge of their environment and preferences. This is a major hindrance to the practical implementation of many proposed solutions. To address this issue, we consider a two-player bandit setting where the actions of one of the players affect the other player and we extend the Coase theorem [Coase, 1960]. This result shows that the optimal approach for maximizing the social welfare in the presence of externality is to establish property rights, i.e., enable transfers and bargaining between the players. Our work removes the classical assumption that bargainers possess perfect knowledge of the underlying game. We first demonstrate that in the absence of property rights, the social welfare breaks down. We then design a policy for the players which allows them to learn a bargaining strategy which maximizes the total welfare, recovering the Coase theorem under uncertainty.
翻訳日:2024-07-08 22:24:52 公開日:2024-07-03
# オフライン切替点検出と推定のための連続最適化

Continuous Optimization for Offline Change Point Detection and Estimation ( http://arxiv.org/abs/2407.03383v1 )

ライセンス: Link先を確認
Hans Reimann, Sarat Moka, Georgy Sofronov, (参考訳) この研究は、一変量ガウスデータ列におけるオフライン変化点の検出と推定のための連続最適化による回帰モデリングのためのベストサブセット選択における新しい進歩を探求する。 このアプローチは、通常の平均多重変化点モデルを、間隔を強制する正規化統計逆問題に再構成する。 問題文, 基準, 先行調査をLasso-regularizationを通じて導入した後, 最近開発された, ベストサブセット選択(COMBSS)のための連続最適化フレームワークを手近に紹介し, 課題に関連づける。 教師なしの視点は、不一致原理と信頼境界を通した正規化ペナルティパラメータの選択のために、後者のテストによって検討される。 本研究の主な成果は、正則化パラメータの異なる選択のためのシミュレーションデータに対する実験結果による、オフライン正規化平均多重変化点検出のためのCOMBSSアプローチの適応と評価である。 結果と今後の方向性について論じる。

This work explores use of novel advances in best subset selection for regression modelling via continuous optimization for offline change point detection and estimation in univariate Gaussian data sequences. The approach exploits reformulating the normal mean multiple change point model into a regularized statistical inverse problem enforcing sparsity. After introducing the problem statement, criteria and previous investigations via Lasso-regularization, the recently developed framework of continuous optimization for best subset selection (COMBSS) is briefly introduced and related to the problem at hand. Supervised and unsupervised perspectives are explored with the latter testing different approaches for the choice of regularization penalty parameters via the discrepancy principle and a confidence bound. The main result is an adaptation and evaluation of the COMBSS approach for offline normal mean multiple change-point detection via experimental results on simulated data for different choices of regularisation parameters. Results and future directions are discussed.
翻訳日:2024-07-08 20:20:26 公開日:2024-07-03
# Visual Robustness Benchmark for Visual Question Answering (VQA)

Visual Robustness Benchmark for Visual Question Answering (VQA) ( http://arxiv.org/abs/2407.03386v1 )

ライセンス: Link先を確認
Md Farhan Ishmam, Ishmam Tashdeed, Talukder Asir Saadat, Md Hamjajul Ashmafee, Dr. Abu Raihan Mostofa Kamal, Dr. Md. Azam Hossain, (参考訳) VQA(Visual Question Answering)システムは、実世界でも同じように動作するだろうか? あるいは、医療用VQAのようなセンシティブなアプリケーションでは有害な、g画像のぼかしのような現実的な汚職の影響を受けやすいのか? 言語的あるいはテキスト的堅牢性はVQAの文献で徹底的に研究されているが、VQAモデルの視覚的堅牢性についてはまだ大きな研究がなされていない。 本稿では,213,000個の拡張画像からなる最初の大規模ベンチマークを提案し,複数のVQAモデルの視覚的堅牢性に挑戦し,現実的な視覚的腐敗の強さを評価する。 さらに、統一されたメトリクスに集約され、さまざまなユースケースに適合するように調整された、堅牢性評価メトリクスを設計しました。 我々の実験は、モデルのサイズ、性能、そして視覚的腐敗との堅牢性との関係に関するいくつかの洞察を明らかにした。 私たちのベンチマークでは、堅牢性を損なうことなくモデルパフォーマンスを考慮したモデル開発におけるバランスのとれたアプローチの必要性を強調しています。

Can Visual Question Answering (VQA) systems perform just as well when deployed in the real world? Or are they susceptible to realistic corruption effects e.g. image blur, which can be detrimental in sensitive applications, such as medical VQA? While linguistic or textual robustness has been thoroughly explored in the VQA literature, there has yet to be any significant work on the visual robustness of VQA models. We propose the first large-scale benchmark comprising 213,000 augmented images, challenging the visual robustness of multiple VQA models and assessing the strength of realistic visual corruptions. Additionally, we have designed several robustness evaluation metrics that can be aggregated into a unified metric and tailored to fit a variety of use cases. Our experiments reveal several insights into the relationships between model size, performance, and robustness with the visual corruptions. Our benchmark highlights the need for a balanced approach in model development that considers model performance without compromising the robustness.
翻訳日:2024-07-08 20:20:26 公開日:2024-07-03
# ConCodeEval: ドメイン特化言語におけるコード制約に対する大規模言語モデルの評価

ConCodeEval: Evaluating Large Language Models for Code Constraints in Domain-Specific Languages ( http://arxiv.org/abs/2407.03387v1 )

ライセンス: Link先を確認
Mehant Kammakomati, Sameer Pimparkhede, Srikanth Tamilselvam, Prince Kumar, Pushpak Bhattacharyya, (参考訳) 最近の研究によると、Large Language Models (LLM) は、ゼロショットと少数ショットの設定で様々なテキスト生成タスクの自然言語制約を理解するのに苦労している。 コードドメインでは、ドメイン特化言語(DSL)で記述されたコードの整合性を維持するためにコードフォーマットの制約が広く使われていますが、これらの制約でLLMを評価する作業は行われていません。 5つの表現にまたがってコードとして表現されるハード制約とソフト制約を用いてLLMの可制御性を評価するための2つの新しいタスクを提案する。 以上の結果から,LLMは事前学習データに係わる部分に関係なく,すべての表現における制約を理解するのに苦労していることが示唆された。 モデルはJSON、YAML、自然言語表現の制約を理解するのに優れていますが、XMLやリソース豊富なPythonで表現される制約に苦労しています。

Recent work shows Large Language Models (LLMs) struggle to understand natural language constraints for various text generation tasks in zero- and few-shot settings. While, in the code domain, there is wide usage of constraints in code format to maintain the integrity of code written in Domain-Specific Languages (DSLs), yet there has been no work evaluating LLMs with these constraints. We propose two novel tasks to assess the controllability of LLMs using hard and soft constraints represented as code across five representations. Our findings suggest that LLMs struggle to comprehend constraints in all representations irrespective of their portions in the pre-training data. While models are better at comprehending constraints in JSON, YAML, and natural language representations, they struggle with constraints represented in XML and the resource-rich language Python.
翻訳日:2024-07-08 20:20:26 公開日:2024-07-03
# 混合型データのクラスタリングのための決定論的情報ボトルネック法

A Deterministic Information Bottleneck Method for Clustering Mixed-Type Data ( http://arxiv.org/abs/2407.03389v1 )

ライセンス: Link先を確認
Efthymios Costa, Ioanna Papatsouma, Angelos Markos, (参考訳) 本稿では,混合型データ,すなわち連続変数と分類変数の両方からなるデータをクラスタリングするための情報理論手法を提案する。 この方法は決定論的情報ボトルネックアルゴリズムの変種であり、基盤構造に関する関連情報を保持しながらデータを最適に圧縮する。 提案手法の性能をシミュレーションおよび実世界のデータセット上での3つの確立されたクラスタリング手法(KAMILA, K-Prototypes, Partitioning Around Medoids with Gower's Dissimilarity)と比較した。 その結果,提案手法は,特定の条件下での従来のクラスタリング手法に代わる競合的な手法であることが示された。

In this paper, we present an information-theoretic method for clustering mixed-type data, that is, data consisting of both continuous and categorical variables. The method is a variant of the Deterministic Information Bottleneck algorithm which optimally compresses the data while retaining relevant information about the underlying structure. We compare the performance of the proposed method to that of three well-established clustering methods (KAMILA, K-Prototypes, and Partitioning Around Medoids with Gower's dissimilarity) on simulated and real-world datasets. The results demonstrate that the proposed approach represents a competitive alternative to conventional clustering techniques under specific conditions.
翻訳日:2024-07-08 20:20:26 公開日:2024-07-03
# ソフト・ベグ: プロンプト・チューニングに基づくプロンプト・インジェクション・ジェイルブレイクに対するLCMのモジュール的かつ効率的な遮蔽

Soft Begging: Modular and Efficient Shielding of LLMs against Prompt Injection and Jailbreaking based on Prompt Tuning ( http://arxiv.org/abs/2407.03391v1 )

ライセンス: Link先を確認
Simon Ostermann, Kevin Baum, Christoph Endres, Julia Masloh, Patrick Schramowski, (参考訳) プロンプトインジェクション(直接的および間接的の両方)とジェイルブレイクは、特にアプリケーション統合コンテキストにおいて有害な可能性があるため、大規模言語モデル(LLM)の重要な問題として認識されるようになった。 この拡張抽象概念は、LSMをこのような攻撃から保護するための新しいアプローチを探求し、「ソフト・ギグ(soft begging)」と呼ばれる。 この方法は、LSMの出力に対する劣化したプロンプトの影響を対処するためのソフトプロンプトの訓練を含む。 本稿では,インジェクションとジェイルブレイクについて概説し,この手法の理論的基礎を紹介し,その有効性について論じる。

Prompt injection (both direct and indirect) and jailbreaking are now recognized as significant issues for large language models (LLMs), particularly due to their potential for harm in application-integrated contexts. This extended abstract explores a novel approach to protecting LLMs from such attacks, termed "soft begging." This method involves training soft prompts to counteract the effects of corrupted prompts on the LLM's output. We provide an overview of prompt injections and jailbreaking, introduce the theoretical basis of the "soft begging" technique, and discuss an evaluation of its effectiveness.
翻訳日:2024-07-08 20:20:26 公開日:2024-07-03
# M5:1個のヌクレオチド分解能を持つ全ゲノム細菌エンコーダ

M5: A Whole Genome Bacterial Encoder at Single Nucleotide Resolution ( http://arxiv.org/abs/2407.03392v1 )

ライセンス: Link先を確認
Agust Egilsson, (参考訳) 本報告では, エンコーダのみのトランスフォーマー(M5)のコンテキスト長を, 細菌全ゲノム上で事前学習した数百万個のヌクレオチド分解基盤モデルに拡張する。 使用した線形アテンション機構は、完全二次アテンション機構を密接に近似し、キー・クエリの埋め込み次元が低い場合に、ユースケースに対してシンプルで軽量な実装を有する。 M5小モデルは、トレーニング中に最大196Kヌクレオチド、テスト中に2Mヌクレオチドを含む40gbのメモリを持つ1つのA100 GPUで完全にトレーニングされ、テストされる。 我々はM5小モデルの性能を検証し、全ゲノムの細菌配列長が増加するとともに、配列長として使われる全マルチヘッドアテンション近似の安定性が向上することを示す。

A linear attention mechanism is described to extend the context length of an encoder only transformer, called M5 in this report, to a multi-million single nucleotide resolution foundation model pretrained on bacterial whole genomes. The linear attention mechanism used approximates a full quadratic attention mechanism tightly and has a simple and lightweight implementation for the use case when the key-query embedding dimensionality is low. The M5-small model is entirely trained and tested on one A100 GPU with 40gb of memory up to 196K nucleotides during training and 2M nucleotides during testing. We test the performance of the M5-small model and record notable improvements in performance as whole genome bacterial sequence lengths are increased as well as demonstrating the stability of the full multi-head attention approximation used as sequence length is increased.
翻訳日:2024-07-08 20:20:26 公開日:2024-07-03
# メソン質量セットによる異常量子相転移の開始時間

Meson Mass Sets Onset Time of Anomalous Dynamical Quantum Phase Transitions ( http://arxiv.org/abs/2407.03394v1 )

ライセンス: Link先を確認
Jesse J. Osborne, Johannes Knaute, Ian P. McCulloch, Jad C. Halimeh, (参考訳) 動的量子相転移(DQPT)は、非平衡量子多体臨界性を研究するための厳密な枠組みとして確立されている。 当初は、順序パラメータの反転符号に自明に結びついていると考えられていたが、ある種の \textit{anomalous} DQPTs が発見され、順序パラメータと直接関係がなく、閉じ込めの存在下で生じることが示されている。 ここでは、2つのパラダイムモデルにおいて、異常DQPTの開始時刻が、大域対称性破壊相の閉じ込められた状態における中間子質量に、電力法則を介して直接接続されているかを示す。 この関係は、相対論的場の量子論が現れる平衡量子臨界点に初期パラメータが近いほど顕著になる。 以上の結果から,中間子と異常DQPTの直接的関連が指摘され,外因性極端平衡臨界度を分類するための後者のパワーが強調された。

Dynamical quantum phase transitions (DQPTs) have been established as a rigorous framework for investigating far-from-equilibrium quantum many-body criticality. Although initially thought to be trivially connected to an order parameter flipping sign, a certain kind of \textit{anomalous} DQPTs have been discovered that exhibit no direct connection to the order parameter and have been shown to arise in the presence of confinement. Here, we show in two paradigmatic models how the onset time of anomalous DQPTs is directly connected, through a power law, to the meson mass in the confined regime of a global symmetry-broken phase. This relation becomes more prominent the closer the initial parameters are to the equilibrium quantum critical point, where a relativistic quantum field theory emerges. Our findings draw a direct connection between mesons and anomalous DQPTs, highlighting the power of the latter to classify exotic far-from-equilibrium criticality.
翻訳日:2024-07-08 20:20:26 公開日:2024-07-03
# NO$_3$ラジカルの2500ビブロニック固有状態

2500 vibronic eigenstates of the NO$_3$ radical ( http://arxiv.org/abs/2407.03398v1 )

ライセンス: Link先を確認
Henrik R. Larsson, Alexandra Viel, (参考訳) 硝酸基のNO$_3$は大気化学において重要な役割を担っているが、その結合と無調和のビブロニック構造には多くの側面がある。 ここでは、5つの電子状態を含む正確な全次元双極子ポテンシャルを用いて、電子の$\tilde X ^2A_2'$状態に関連する振動スペクトルを再検討する。 最近開発されたテンソルネットワーク状態法を用いて2500以上のビブロニック状態を計算することができ、計算された全次元状態の数を以前の研究と比べて50倍に増やすことができる。 我々は割り当てられたバイブロニックレベルのほとんどについて実験と良好な一致を得たが、他のいくつかの実験では、顕著な意見の不一致が観察された。 さらに、反対称曲げ運動に対しては、零次基準よりも大きい大きな対称性誘起準位分割が顕著に現れる。 本研究は,非無視的非透析効果について考察し,ボルン・オッペンハイマー近似がスペクトルに有意な誤差をもたらすことを示す。

The nitrate radical NO$_3$ plays an important role in atmospheric chemistry, yet many aspects of its coupled and anharmonic vibronic structure remain elusive. Here, using an accurate, coupled full-dimensional diabatic potential that includes five electronic states, we revisit the vibronic spectrum associated with the electronic $\tilde X ^2A_2'$ state. Using recently developed tensor network state methods, we are able to compute more than 2500 vibronic states, thereby increasing the number of computed full-dimensional states by a factor of 50, compared to previous work. While we obtain good agreement with experiment for most of the assigned vibronic levels, for several others, we observe striking disagreement. Further, for the antisymmetric bending motion we find remarkably large symmetry-induced level splittings that are larger than the zero-order reference. We discuss non-negligible nonadiabatic effects and show that the Born-Oppenheimer approximation leads to significant errors in the spectrum.
翻訳日:2024-07-08 20:20:26 公開日:2024-07-03
# ブラックボックスワーク抽出と複合仮説テスト

Black box work extraction and composite hypothesis testing ( http://arxiv.org/abs/2407.03400v1 )

ライセンス: Link先を確認
Kaito Watanabe, Ryuji Takagi, (参考訳) ワーク抽出は量子熱力学において最も中心的なプロセスの1つである。 しかし、最適抽出可能な作業の事前解析は、初期状態に関する完全な情報が与えられる限られた運用シナリオに限定されている。 ここでは,ブラックボックス作業抽出の一般的な枠組みを紹介し,初期状態に関する情報の入手不能に対処する。 ブラックボックス設定における最適抽出可能作業は,情報理論の基本的な問題である複合仮説テストタスクの性能によって完全に特徴づけられ,この一般関係を用いて,合成仮説テストにおける量子シュタインの補題への漸近ブラックボックスワーク抽出を削減し,ヘルムホルツ自由エネルギーの観点からそれらの正確な特徴付けを行うことができることを示す。 また、この物理環境では、合成仮説が特定の相関を含む新しい量子シュタインの補題も示している。 本研究は、初期状態に関する情報の重要性を示し、複合量子仮説テストにおける量の新しい解釈を与え、物理設定と情報理論の相互作用を奨励する。

Work extraction is one of the most central processes in quantum thermodynamics. However, the prior analysis of optimal extractable work has been restricted to a limited operational scenario where complete information about the initial state is given. Here, we introduce a general framework of black box work extraction, which addresses the inaccessibility of information on the initial state. We show that the optimal extractable work in the black box setting is completely characterized by the performance of a composite hypothesis testing task, a fundamental problem in information theory.We employ this general relation to reduce the asymptotic black box work extraction to the quantum Stein's lemma in composite hypothesis testing, allowing us to provide their exact characterization in terms of the Helmholtz free energy. We also show a new quantum Stein's lemma motivated in this physical setting, where a composite hypothesis contains a certain correlation. Our work exhibits the importance of information about the initial state and gives a new interpretation of the quantities in the composite quantum hypothesis testing, encouraging the interplay between the physical settings and the information theory.
翻訳日:2024-07-08 20:20:26 公開日:2024-07-03
# ツイストしたMoTe$_2$における分数量子スピンホール状態からのチェシャークォーディット

Cheshire qudits from fractional quantum spin Hall states in twisted MoTe$_2$ ( http://arxiv.org/abs/2407.03401v1 )

ライセンス: Link先を確認
Rui Wen, Andrew C. Potter, (参考訳) ツイストされたMoTe$_2$ホモ双層は、分数量子スピンホール(FQSH)状態と整合した輸送シグネチャを示す。 本稿では,このようなFQSH状態に穴をあけ,近接超伝導を用いてヘリカルエッジ状態のギャップを空けることで形成される,チェシャークイディットと呼ばれるトポロジカル量子メモリ要素を構築する方法について述べる。 チェシャーキューディットは、凝縮体中の局所的な検出から隠された分数的なトポロジカルな「チェシャー」電荷によって異なる状態の量子情報を符号化する。 ゲートによるエッジ間トンネルの制御は、チェシャー・クーディットの超電流による読み出しと、そのトポロジカルな地上空間の縮退に伴う熱エントロピーの容量測定の両方を可能にする。 さらに,輸送データに整合した種々のアベリア人および非アベリア人候補FQSH命令に対して,異なるタイプのギャップ付き境界,チェシャークイディット,およびパラフェルミオンねじれ欠陥を体系的に分類し,これらの命令を識別するための実験的シグネチャを記述する。

Twisted MoTe$_2$ homobilayers exhibit transport signatures consistent with a fractional quantum spin Hall (FQSH) state. We describe a route to construct topological quantum memory elements, dubbed Cheshire qudits, formed from punching holes in such a FQSH state and using proximity-induced superconductivity to gap out the resulting helical edge states. Cheshire qudits encode quantum information in states that differ by a fractional topological "Cheshire" charge that is hidden from local detection within a condensate anyons. Control of inter-edge tunneling by gates enables both supercurrent-based readout of a Cheshire qudit, and capacitive measurement of the thermal entropy associated with its topological ground-space degeneracy. Additionally, we systematically classify different types of gapped boundaries, Cheshire qudits, and parafermionic twist defects for various Abelian and non-Abelian candidate FQSH orders that are consistent with the transport data, and describe experimental signatures to distinguish these orders.
翻訳日:2024-07-08 20:10:41 公開日:2024-07-03
# フェルミオン系の状態密度の直接推定

Direct Estimation of the Density of States for Fermionic Systems ( http://arxiv.org/abs/2407.03414v1 )

ライセンス: Link先を確認
Matthew L. Goh, Bálint Koczor, (参考訳) 時間進化のシミュレーションは、量子コンピュータの最も自然な応用の1つであり、実用的な量子優位性を達成するための最も有望な可能性の1つである。 ここでは、量子統計力学の中心となる状態(DOS)の密度を推定することにより、熱力学特性を抽出する量子アルゴリズムを開発する。 我々は,従来の手法の実用性を大幅に向上し,汎用性を高める重要なイノベーションを導入する。 まず、Hilbert空間の特定の部分空間に対してDOSを推定することができる。 これはフェルミオン系にとって重要なことであり、フェルミオン-量子写像はフルヒルベルト空間を固定数の部分空間に分割するからである。 第二に、我々のアプローチでは、非常に単純でランダムな初期状態(例えば、ランダムな計算ベース状態)を進化させるにつれて、平均してDOSを正確に回復することができる。 第三に、回路深度制限のため、DOSをガウス窓で畳み込みまで再構築するだけで、したがって畳み込み窓の幅よりもエネルギーレベルをシフトする全ての欠陥は、推定されたDOSに大きく影響しない。 これらの理由から、この手法は、短時間でもノイズ力学がDOSの半定量的再構成(ガウス窓との畳み込み)をもたらすのに対して、早期の耐故障装置は長期間の進化を通じてより高分解能のDOS再構成を可能にする可能性があるため、早期量子優位の候補となる。 我々はFermi-Hubbardおよびスピンモデルにおける我々のアプローチの実用性を実証し、我々のアプローチは時間進化におけるアルゴリズム的誤りやゲートノイズに対して非常に堅牢であることを示した。 提案手法はNISQフレンドリな変分法と互換性があり,ノイズの多いDOS計算における変動時間進化のための新しい手法を提案する。

Simulating time evolution is one of the most natural applications of quantum computers and is thus one of the most promising prospects for achieving practical quantum advantage. Here we develop quantum algorithms to extract thermodynamic properties by estimating the density of states (DOS), a central object in quantum statistical mechanics. We introduce key innovations that significantly improve the practicality and extend the generality of previous techniques. First, our approach allows one to estimate the DOS for a specific subspace of the full Hilbert space. This is crucial for fermionic systems, since fermion-to-qubit mappings partition the full Hilbert space into subspaces of fixed number, on which both canonical and grand canonical ensemble properties depend. Second, in our approach, by time evolving very simple, random initial states (e.g. random computational basis states), we can exactly recover the DOS on average. Third, due to circuit-depth limitations, we only reconstruct the DOS up to a convolution with a Gaussian window - thus all imperfections that shift the energy levels by less than the width of the convolution window will not significantly affect the estimated DOS. For these reasons we find the approach is a promising candidate for early quantum advantage as even short-time, noisy dynamics yield a semi-quantitative reconstruction of the DOS (convolution with a broad Gaussian window), while early fault tolerant devices will likely enable higher resolution DOS reconstruction through longer time evolution. We demonstrate the practicality of our approach in representative Fermi-Hubbard and spin models and find that our approach is highly robust to algorithmic errors in the time evolution and to gate noise. We show that our approach is compatible with NISQ-friendly variational methods, introducing a new technique for variational time evolution in noisy DOS computations.
翻訳日:2024-07-08 20:10:41 公開日:2024-07-03
# 長手および分散的読み出しのフロケ理論の統一化

Unifying Floquet theory of longitudinal and dispersive readout ( http://arxiv.org/abs/2407.03417v1 )

ライセンス: Link先を確認
Alessandro Chessari, Esteban A. Rodríguez-Mena, José Carlos Abadillo-Uriel, Victor Champain, Simon Zihlmann, Romain Maurand, Yann-Michel Niquet, Michele Filippone, (参考訳) 回路QEDにおける長手および分散読み出しのフロケ理論を考案する。 キャビティ光子に結合し、キャビティ$\omega_{\rm r}$の共振周波数で駆動する量子ビットを研究することにより、クビットACスタークシフトと光子への長手および分散結合との普遍的な接続を確立する。 縦結合$g_\parallel$は、ACスタークシフトの傾斜によって駆動強度$A_{\rm q}$の関数として制御され、分散シフト$\chi$はその曲率に依存する。 この2つの量は、弱い駆動限界(A_{\rm q}\rightarrow 0$)において互いに比例する。 我々のアプローチは、静的スペクトル曲率(または量子容量)によって$g_\parallel$が生成されるような断熱極限(\omega_{\rm r}\rightarrow 0$)と、静的スペクトルが役に立たないダイアバティック限界(英語版)を統一する。 正確な数値シミュレーションにより解析結果を導出する。 超伝導およびスピンハイブリドcQEDシステムに適用し, より高速な分散長手読み出しの柔軟性を示す。

We devise a Floquet theory of longitudinal and dispersive readout in circuit QED. By studying qubits coupled to cavity photons and driven at the resonance frequency of the cavity $\omega_{\rm r}$, we establish a universal connection between the qubit AC Stark shift and the longitudinal and dispersive coupling to photons. We find that the longitudinal coupling $g_\parallel$ is controlled by the slope of the AC Stark shift as function of the driving strength $A_{\rm q}$, while the dispersive shift $\chi$ depends on its curvature. The two quantities become proportional to each other in the weak drive limit ($A_{\rm q}\rightarrow 0$). Our approach unifies the adiabatic limit ($\omega_{\rm r}\rightarrow 0$) -- where $g_\parallel$ is generated by the static spectrum curvature (or quantum capacitance) -- with the diabatic one, where the static spectrum plays no role. We derive analytical results supported by exact numerical simulations. We apply them to superconducting and spin-hybrid cQED systems, showcasing the flexibility of faster-than-dispersive longitudinal readout.
翻訳日:2024-07-08 20:10:41 公開日:2024-07-03
# HEMM:マルチモーダル基礎モデルの全体的評価

HEMM: Holistic Evaluation of Multimodal Foundation Models ( http://arxiv.org/abs/2407.03418v1 )

ライセンス: Link先を確認
Paul Pu Liang, Akshay Goindani, Talha Chafekar, Leena Mathur, Haofei Yu, Ruslan Salakhutdinov, Louis-Philippe Morency, (参考訳) 画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理できるマルチモーダル基礎モデルは、様々な現実世界のアプリケーションでますます使われている。 しかし、モデリング決定やタスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。 本稿では, 基本スキル, 情報フロー, 実世界のユースケースの3次元にわたって, マルチモーダル基礎モデルの能力を体系的に評価するために, HEMM(Holistic Evaluation of Multimodal Models)を導入する。 基本的なマルチモーダルスキルは、モダリティ間の相互作用の学習、きめ細かいアライメント、多段階推論、外部知識を扱う能力など、問題を解決するのに必要な内部能力である。 情報フローは、クエリ、翻訳、編集、融合を通じて、タスク中にマルチモーダルコンテンツがどのように変化するかを研究する。 ユースケースは、現実世界のマルチメディア、感情コンピューティング、自然科学、ヘルスケア、人間とコンピュータのインタラクションアプリケーションで導入されたドメイン固有の課題にまたがる。 HEMMにおける30のタスクを対象とした総合的な実験を通じて,(1)今日のモデルに課題をもたらす重要なデータセット次元(基本的なスキル,情報フロー,ユースケース)を特定し,(2)異なるモデリング次元(例えば,スケール,事前学習データ,マルチモーダルアライメント,事前学習,指導訓練目標)がパフォーマンスに与える影響について,パフォーマンス傾向を調査する。 マルチモーダルなインタラクションの挑戦,ユースケース,推論と外部知識を必要とするタスク,データとモデルスケールのメリット,および指導チューニングの影響は,将来のマルチモーダル基盤モデルにおける実用的な洞察をもたらす。

Multimodal foundation models that can holistically process text alongside images, video, audio, and other sensory modalities are increasingly used in a variety of real-world applications. However, it is challenging to characterize and study progress in multimodal foundation models, given the range of possible modeling decisions, tasks, and domains. In this paper, we introduce Holistic Evaluation of Multimodal Models (HEMM) to systematically evaluate the capabilities of multimodal foundation models across a set of 3 dimensions: basic skills, information flow, and real-world use cases. Basic multimodal skills are internal abilities required to solve problems, such as learning interactions across modalities, fine-grained alignment, multi-step reasoning, and the ability to handle external knowledge. Information flow studies how multimodal content changes during a task through querying, translation, editing, and fusion. Use cases span domain-specific challenges introduced in real-world multimedia, affective computing, natural sciences, healthcare, and human-computer interaction applications. Through comprehensive experiments across the 30 tasks in HEMM, we (1) identify key dataset dimensions (e.g., basic skills, information flows, and use cases) that pose challenges to today's models, and (2) distill performance trends regarding how different modeling dimensions (e.g., scale, pre-training data, multimodal alignment, pre-training, and instruction tuning objectives) influence performance. Our conclusions regarding challenging multimodal interactions, use cases, and tasks requiring reasoning and external knowledge, the benefits of data and model scale, and the impacts of instruction tuning yield actionable insights for future work in multimodal foundation models.
翻訳日:2024-07-08 20:10:41 公開日:2024-07-03
# シリコン中のフェルミオンスピン系を持つ量子場理論のアナログ量子シミュレータ

Analog Quantum Simulator of a Quantum Field Theory with Fermion-Spin Systems in Silicon ( http://arxiv.org/abs/2407.03419v1 )

ライセンス: Link先を確認
Ali Rad, Alexander Schuckert, Eleanor Crane, Gautam Nambiar, Fan Fei, Jonathan Wyrick, Richard M. Silver, Mohammad Hafezi, Zohreh Davoudi, Michael J. Gullans, (参考訳) 量子場理論に関連するスピン度に結合したフェルミオンのシミュレーションは、量子シミュレーターへの有望な応用である。 フェルミオンを量子ビットにマッピングすることは、2+1$以上の時空次元で難しい。 これらの特徴は、デジタル量子コンピュータにおける混合フェルミオンボソン量子系の実現を複雑にする。 シリコン中のドーパントアレイを用いた固有フェルミオンスピンアナログ量子シミュレータを提案する。 具体的には、結合した核スピンと伝導バンド電子の動的格子を用いて量子場理論、すなわち結合したフェルミオンと量子ローターを含む拡張ジャッキー・レビモデルを実現する方法を示す。 我々は,強い長距離クーロン相互作用の存在下においても,このプラットフォーム上の1+1次元における動的質量生成と閉じ込め分解量子相転移の観測可能性を示す。 さらに, 有限温度ハーツリー・フォック・ボゴリューボフシミュレーションを用いて2次元正方形およびハニカムアレイの質量生成のダイナミクスを解析し, この現象を現実的な実験パラメータでシミュレートできることを示した。 以上の結果から,クーロン相互作用の付加に対する強靭性を示す2つの相が明らかとなった。 最後に、ドーパントアレイにおける輸送および局所電荷センシングによる位相の実験的シグネチャについて論じる。 この研究は、ケイ素のドナーを用いてスピン自由度に結合したフェルミオンを示す量子場理論の量子シミュレーションの基礎を築いた。

Simulating fermions coupled to spin degrees of freedom, relevant for a range of quantum field theories, represents a promising application for quantum simulators. Mapping fermions to qubits is challenging in $2+1$ and higher spacetime dimensions, and mapping bosons demands substantial quantum-computational overhead. These features complicate the realization of mixed fermion-boson quantum systems in digital quantum computers. We propose a native fermion-(large-)spin analog quantum simulator by utilizing dopant arrays in silicon. Specifically, we show how to use a dynamical lattice of coupled nuclear spins and conduction-band electrons to realize a quantum field theory: an extended Jackiw-Rebbi model involving coupled fermions and quantum rotors. We demonstrate the feasibility of observing dynamical mass generation and a confinement-deconfinement quantum phase transition in 1+1 dimensions on this platform, even in the presence of strong long-range Coulomb interactions. Furthermore, we employ finite-temperature Hartree-Fock-Bogoliubov simulations to investigate the dynamics of mass generation in two-dimensional square and honeycomb arrays, showing that this phenomenon can be simulated with realistic experimental parameters. Our findings reveal two distinct phases, and demonstrate robustness against the addition of Coulomb interactions. Finally, we discuss experimental signatures of the phases through transport and local charge sensing in dopant arrays. This study lays the foundation for quantum simulations of quantum field theories exhibiting fermions coupled to spin degrees of freedom using donors in silicon.
翻訳日:2024-07-08 20:10:41 公開日:2024-07-03
# アダマール試験を用いた動的相関のための量子ネイティブ測定プロトコル

Qudit-native measurement protocol for dynamical correlations using Hadamard tests ( http://arxiv.org/abs/2407.03421v1 )

ライセンス: Link先を確認
Pavel P. Popov, Kevin T. Geier, Valentin Kasper, Maciej Lewenstein, Philipp Hauke, (参考訳) 動的相関は、基礎となる量子多体系の重要な平衡特性を示すが、実験では測定が困難であることが知られている。 量子ビットデバイスに対するアダマールテストに基づく動的相関測定プロトコルは存在するが、直接量子ビットに拡張するわけではない。 本稿では、量子回路で実装および探索可能なユニタリ演算にquditオブザーバブルを分解することで、この制限を克服する修正されたプロトコルを提案する。 我々は,有限ショット雑音を持つスピン-1 XXZ 鎖のクエンチ力学の例を数値的にベンチマークし,線形応答に基づく確立されたプロトコルに対する信号-雑音比の利点を示す。 提案手法は,様々なプラットフォーム上で容易に実装でき,多体システムにおける変動量子最適化やサーモライゼーションの探索など,幅広い応用が期待できる。

Dynamical correlations reveal important out-of-equilibrium properties of the underlying quantum many-body system, yet they are notoriously difficult to measure in experiments. While measurement protocols for dynamical correlations based on Hadamard tests for qubit quantum devices exist, they do not straightforwardly extend to qudits. Here, we propose a modified protocol to overcome this limitation by decomposing qudit observables into unitary operations that can be implemented and probed in a quantum circuit. We benchmark our algorithm numerically at the example of quench dynamics in a spin-1 XXZ chain with finite shot noise and demonstrate advantages in terms of signal-to-noise ratio over established protocols based on linear response. Our scheme can readily be implemented on various platforms and offers a wide range of applications like variational quantum optimization or probing thermalization in many-body systems.
翻訳日:2024-07-08 20:10:41 公開日:2024-07-03
# Lift, Splat, Map: Lfting Foundation Masks for Label-free Semantic Scene Completion

Lift, Splat, Map: Lifting Foundation Masks for Label-Free Semantic Scene Completion ( http://arxiv.org/abs/2407.03425v1 )

ライセンス: Link先を確認
Arthur Zhang, Rainier Heijne, Joydeep Biswas, (参考訳) 都市環境に展開される自律移動ロボットは、コンテキストアウェア、すなわち、異なるセマンティックエンティティを区別でき、密閉に対して堅牢でなければならない。 セマンティックシーン補完(SSC)のような現在のアプローチでは、クラスとコストのかかる人間のアノテーションのセットを事前に列挙する必要がある。 これらの制約に対処するため、LSMapは、視覚基盤モデルからマスクを持ち上げて、動的実体の下の領域や閉ざされた領域を含む、鳥の目視(BEV)における連続的でオープンなセマンティクスと高度認識表現を予測する手法を提案する。 我々のモデルは1枚のRGBD画像しか必要とせず、人間のラベルを必要とせず、リアルタイムに動作する。 提案手法は,スクラッチから訓練した既存モデルに対して,微調整によるセマンティックおよび標高シーン完了タスクにおいて,定量的に優れた性能を示す。 さらに、事前学習された表現は、教師なしのセマンティックシーンの完了時に、既存の視覚基盤モデルよりも優れていることを示す。 大規模で現実的な都市ロボットデータセットであるCODaを用いて,我々のアプローチを評価する。 補助的なビジュアライゼーション、コード、データ、事前訓練されたモデルなどが近く公開される。

Autonomous mobile robots deployed in urban environments must be context-aware, i.e., able to distinguish between different semantic entities, and robust to occlusions. Current approaches like semantic scene completion (SSC) require pre-enumerating the set of classes and costly human annotations, while representation learning methods relax these assumptions but are not robust to occlusions and learn representations tailored towards auxiliary tasks. To address these limitations, we propose LSMap, a method that lifts masks from visual foundation models to predict a continuous, open-set semantic and elevation-aware representation in bird's eye view (BEV) for the entire scene, including regions underneath dynamic entities and in occluded areas. Our model only requires a single RGBD image, does not require human labels, and operates in real time. We quantitatively demonstrate our approach outperforms existing models trained from scratch on semantic and elevation scene completion tasks with finetuning. Furthermore, we show that our pre-trained representation outperforms existing visual foundation models at unsupervised semantic scene completion. We evaluate our approach using CODa, a large-scale, real-world urban robot dataset. Supplementary visualizations, code, data, and pre-trained models, will be publicly available soon.
翻訳日:2024-07-08 20:10:41 公開日:2024-07-03
# 無線ネットワーク上でのマルチユーザ360度ビデオ処理のためのマルチタスク意思決定

Multi-Task Decision-Making for Multi-User 360 Video Processing over Wireless Networks ( http://arxiv.org/abs/2407.03426v1 )

ライセンス: Link先を確認
Babak Badnava, Jacob Chakareski, Morteza Hashemi, (参考訳) 我々は、エッジコンピューティングユニット(ECU)を含む無線マルチユーザーバーチャルリアリティ(VR)システムにおいて、360度ビデオをVRユーザーに配信し、ビデオフレームのデコード/レンダリングのためのコンピューティング支援を提供するマルチタスク決定問題について検討する。 しかし、これはデータ量の増加と帯域幅の増大を犠牲にしている。 このトレードオフのバランスをとるために、ビデオフレーム間の再バッファリング時間と品質変動がユーザとビデオ要求によって制限された品質評価(QoE)の最大化問題を定式化する。 定式化マルチユーザQoE最大化を実現するために,マルチタスクレート適応と計算分布(MTRC)の深部強化学習(DRL)を利用する。 提案手法は,ビデオ再生統計(過去のスループット,復号時間,伝送時間など),映像情報,ビデオビットレートと計算分布の調整を行う性能に依存する。 MTRCを実世界の無線ネットワークトレースと360度ビデオデータセットでトレーニングし、平均QoE、ピーク信号-雑音比(PSNR)、リバッファリング時間、品質変化の評価結果を得る。 以上の結果から,MTRCはユーザのQoEを最先端の適応アルゴリズムと比較して改善することが示された。 具体的には,PSNRにおける5.97dBから6.44dBの改善,リバッファリング時間における1.66Xから4.23Xの改善,品質変動における4.21dBから4.35dBの改善を示す。

We study a multi-task decision-making problem for 360 video processing in a wireless multi-user virtual reality (VR) system that includes an edge computing unit (ECU) to deliver 360 videos to VR users and offer computing assistance for decoding/rendering of video frames. However, this comes at the expense of increased data volume and required bandwidth. To balance this trade-off, we formulate a constrained quality of experience (QoE) maximization problem in which the rebuffering time and quality variation between video frames are bounded by user and video requirements. To solve the formulated multi-user QoE maximization, we leverage deep reinforcement learning (DRL) for multi-task rate adaptation and computation distribution (MTRC). The proposed MTRC approach does not rely on any predefined assumption about the environment and relies on video playback statistics (i.e., past throughput, decoding time, transmission time, etc.), video information, and the resulting performance to adjust the video bitrate and computation distribution. We train MTRC with real-world wireless network traces and 360 video datasets to obtain evaluation results in terms of the average QoE, peak signal-to-noise ratio (PSNR), rebuffering time, and quality variation. Our results indicate that the MTRC improves the users' QoE compared to state-of-the-art rate adaptation algorithm. Specifically, we show a 5.97 dB to 6.44 dB improvement in PSNR, a 1.66X to 4.23X improvement in rebuffering time, and a 4.21 dB to 4.35 dB improvement in quality variation.
翻訳日:2024-07-08 20:10:41 公開日:2024-07-03
# NEBULA:分子ライブラリーの効率的かつ制御可能な設計のための潜在表現下での神経経験的ベイズ

NEBULA: Neural Empirical Bayes Under Latent Representations for Efficient and Controllable Design of Molecular Libraries ( http://arxiv.org/abs/2407.03428v1 )

ライセンス: Link先を確認
Ewa M. Nowara, Pedro O. Pinheiro, Sai Pooja Mahajan, Omar Mahmood, Andrew Martin Watkins, Saeed Saremi, Michael Maser, (参考訳) NEBULAはシード化合物を中心とした大規模分子ライブラリーをスケーラブルに生成するための,最初の潜伏3次元生成モデルである。 このようなライブラリーは科学的な発見には不可欠であるが、大量の高品質のサンプルを効率的に生成することは依然として困難である。 3D-voxel-based method has shown great quality sample de novo from random noise (Pinheiro et al , 2023)。 しかし, 3D-voxel空間でのサンプリングは計算コストが高く, ライブラリ生成における利用は極めて遅い。 ここでは、ベクトル量子化された変分オートエンコーダの学習潜在空間において、ニューラルネットワークによるベイズサンプリング(Saremi & Hyvarinen, 2019)を行う。 NEBULAは、サンプルの品質を犠牲にすることなく、既存の方法よりもほぼ1桁早く大きな分子ライブラリを生成する。 さらに、NEBULAは2つの公開データセットと最近リリースされた複数の薬物で示されるように、目に見えない薬物のような分子を一般化する。 ここでのアプローチは、機械学習ベースの薬物発見に極めて有効になることを期待しています。 コードはhttps://github.com/prescient-design/nebulaで公開されている。

We present NEBULA, the first latent 3D generative model for scalable generation of large molecular libraries around a seed compound of interest. Such libraries are crucial for scientific discovery, but it remains challenging to generate large numbers of high quality samples efficiently. 3D-voxel-based methods have recently shown great promise for generating high quality samples de novo from random noise (Pinheiro et al., 2023). However, sampling in 3D-voxel space is computationally expensive and use in library generation is prohibitively slow. Here, we instead perform neural empirical Bayes sampling (Saremi & Hyvarinen, 2019) in the learned latent space of a vector-quantized variational autoencoder. NEBULA generates large molecular libraries nearly an order of magnitude faster than existing methods without sacrificing sample quality. Moreover, NEBULA generalizes better to unseen drug-like molecules, as demonstrated on two public datasets and multiple recently released drugs. We expect the approach herein to be highly enabling for machine learning-based drug discovery. The code is available at https://github.com/prescient-design/nebula
翻訳日:2024-07-08 20:10:41 公開日:2024-07-03
# 深層強化学習エージェントの表現学習における環境複雑さの役割

A Role of Environmental Complexity on Representation Learning in Deep Reinforcement Learning Agents ( http://arxiv.org/abs/2407.03436v1 )

ライセンス: Link先を確認
Andrew Liu, Alla Borisyuk, (参考訳) 個人が住む環境は多様なナビゲーション課題を呈し、様々なナビゲーション能力と戦略をもたらす。 都市環境の異なるレイアウトと人間のナビゲータに使用されるデュアルソリューション・パラダイム・テストにインスパイアされた我々は,ショートカット作業で深層強化学習エージェントを訓練するためのシミュレートされたナビゲーション環境を開発した。 ショートカットおよびナビゲーションキューへの露出頻度を変調し,異なる能力を有する人工エージェントの開発に繋がった。 これらのエージェントを駆動する人工ニューラルネットワークにおける符号化された表現について検討し、表現学習における複雑なダイナミクスを明らかにし、それらをショートカットの使用嗜好と相関させた。 さらに,ノード群をまたいだ表現を解析する方法を実証し,ノイズの多い単一ノードデータのパターンを見つけるのに有効であることを示した。 これらの技術は神経活動の研究にも広く応用できる可能性がある。 表現学習のダイナミックスにおける観察から,ランドマークのみへの繰り返し露見よりも,ランドマーク的な知識を発達させる上でのナビゲーション課題の重要性を強調し,人間のナビゲーション学習に対する洞察を提案する。

The environments where individuals live can present diverse navigation challenges, resulting in varying navigation abilities and strategies. Inspired by differing urban layouts and the Dual Solutions Paradigm test used for human navigators, we developed a simulated navigation environment to train deep reinforcement learning agents in a shortcut usage task. We modulated the frequency of exposure to a shortcut and navigation cue, leading to the development of artificial agents with differing abilities. We examined the encoded representations in artificial neural networks driving these agents, revealing intricate dynamics in representation learning, and correlated them with shortcut use preferences. Furthermore, we demonstrated methods to analyze representations across a population of nodes, which proved effective in finding patterns in what would otherwise be noisy single-node data. These techniques may also have broader applications in studying neural activity. From our observations in representation learning dynamics, we propose insights for human navigation learning, emphasizing the importance of navigation challenges in developing strong landmark knowledge over repeated exposures to landmarks alone.
翻訳日:2024-07-08 20:10:41 公開日:2024-07-03
# DACB-Net:Dual Attentiond Compact Bilinear Convolution Neural Networkによる皮膚疾患分類

DACB-Net: Dual Attention Guided Compact Bilinear Convolution Neural Network for Skin Disease Classification ( http://arxiv.org/abs/2407.03439v1 )

ライセンス: Link先を確認
Belal Ahmad, Mohd Usama, Tanvir Ahmad, Adnan Saeed, Shabnam Khatoon, Min Chen, (参考訳) 本稿では,Dual Attention-Guided Compact Bilinear CNN (DACB-Net)を提案する。 グローバルブランチは、失った識別的特徴を補償し、関連する収穫地に対する注意熱マップ(AHM)を生成する。 最後に、グローバルおよびローカルブランチの最後のプール層は微調整のために結合され、皮膚疾患の診断によって引き起こされる課題に対する包括的な解決策を提供する。 現在のCNNでは、SGD(Stochastic Gradient Descent)を識別的特徴学習に採用しているが、個別のローカルイメージパッチを使用して勾配を計算し、トレーニング中に複雑なデータにフォーカスする損失に変調係数を取り入れている。 しかし、このアプローチはデータセットの不均衡、重量調整、過度に適合する脆弱性につながる可能性がある。 提案手法は、これらの問題に対処するために、2つの監視部と新しい損失関数を組み合わせることで、性能と解釈可能性を向上させる。 このフレームワークはデータ強化、転送学習、微調整を統合し、データの不均衡に対処し、分類性能を改善し、計算コストを削減する。 HAM10000とISIC2019データセットのシミュレーションは、このアプローチの有効性を示し、最先端と比較して2.59%の精度向上を示している。

This paper introduces the three-branch Dual Attention-Guided Compact Bilinear CNN (DACB-Net) by focusing on learning from disease-specific regions to enhance accuracy and alignment. A global branch compensates for lost discriminative features, generating Attention Heat Maps (AHM) for relevant cropped regions. Finally, the last pooling layers of global and local branches are concatenated for fine-tuning, which offers a comprehensive solution to the challenges posed by skin disease diagnosis. Although current CNNs employ Stochastic Gradient Descent (SGD) for discriminative feature learning, using distinct pairs of local image patches to compute gradients and incorporating a modulation factor in the loss for focusing on complex data during training. However, this approach can lead to dataset imbalance, weight adjustments, and vulnerability to overfitting. The proposed solution combines two supervision branches and a novel loss function to address these issues, enhancing performance and interpretability. The framework integrates data augmentation, transfer learning, and fine-tuning to tackle data imbalance to improve classification performance, and reduce computational costs. Simulations on the HAM10000 and ISIC2019 datasets demonstrate the effectiveness of this approach, showcasing a 2.59% increase in accuracy compared to the state-of-the-art.
翻訳日:2024-07-08 20:10:41 公開日:2024-07-03
# 特徴最適化による動物音分類の高度化

Advanced Framework for Animal Sound Classification With Features Optimization ( http://arxiv.org/abs/2407.03440v1 )

ライセンス: Link先を確認
Qiang Yang, Xiuying Chen, Changsheng Ma, Carlos M. Duarte, Xiangliang Zhang, (参考訳) 動物音の自動分類は、音声信号の多様な統計的特性、記録装置のバリエーション、および有意な低信号-雑音比(SNR)条件により、生体音響学における持続的な課題を示す。 畳み込みニューラルネットワーク(CNN)やLong Short-Term Memory(LSTM)のようなディープラーニングモデルは、人間の音声認識に優れていますが、動物音の複雑な性質に効果的に適合していません。 一般的な動物音響分類に適用可能な自動分類フレームワークを提案する。 提案手法は,Mel- frequency cepstral coefficients (MFCC) の音響特性を最適化する。 次に、深層学習モデル、すなわち注目に基づく双方向LSTM(Bidirectional LSTM)に最適化された特徴を用いて、音の分類のための深い意味的特徴を抽出する。 また,海洋動物と鳥類1を対象とする動物音響ベンチマークデータセットも提供した。 実世界のデータセットによる大規模な実験により、我々の手法は、精度、リコール、精度が25%以上向上し、動物の音の分類の進歩が期待できることを示した。

The automatic classification of animal sounds presents an enduring challenge in bioacoustics, owing to the diverse statistical properties of sound signals, variations in recording equipment, and prevalent low Signal-to-Noise Ratio (SNR) conditions. Deep learning models like Convolutional Neural Networks (CNN) and Long Short-Term Memory (LSTM) have excelled in human speech recognition but have not been effectively tailored to the intricate nature of animal sounds, which exhibit substantial diversity even within the same domain. We propose an automated classification framework applicable to general animal sound classification. Our approach first optimizes audio features from Mel-frequency cepstral coefficients (MFCC) including feature rearrangement and feature reduction. It then uses the optimized features for the deep learning model, i.e., an attention-based Bidirectional LSTM (Bi-LSTM), to extract deep semantic features for sound classification. We also contribute an animal sound benchmark dataset encompassing oceanic animals and birds1. Extensive experimentation with real-world datasets demonstrates that our approach consistently outperforms baseline methods by over 25% in precision, recall, and accuracy, promising advancements in animal sound classification.
翻訳日:2024-07-08 20:10:41 公開日:2024-07-03
# 臨界カテゴリーを対象とするDETR検出器のフィッシャーアウェア量子化

Fisher-aware Quantization for DETR Detectors with Critical-category Objectives ( http://arxiv.org/abs/2407.03442v1 )

ライセンス: Link先を確認
Huanrui Yang, Yafeng Huang, Zhen Dong, Denis A Gudovskiy, Tomoyuki Okuno, Yohei Nakata, Yuan Du, Kurt Keutzer, Shanghang Zhang, (参考訳) ディープラーニングモデル全体のパフォーマンスに対する量子化の影響は、よく研究されている問題である。 しかし、その効果をよりきめ細かなレベルで理解し緩和することは、特に分類と回帰の両方の目的を持つオブジェクト検出のような難しいタスクでは、依然として不足している。 この研究は、タスククリティカルなカテゴリのサブセット、すなわちクリティカルカテゴリのパフォーマンスを、検出タスクの非常に重要で見過ごされがちな目標として定義する。 本稿では,カテゴリレベルの粒度における量子化の影響を分析し,臨界カテゴリの性能向上手法を提案する。 具体的には、特定の臨界カテゴリは量子化に対する感度が高く、量子化対応訓練(QAT)後に過度に適合する傾向にある。 これを説明するために、Fisher情報フレームワークを用いて、それらの性能ギャップと対応する損失景観との間に理論的および実証的なリンクを提供する。 このエビデンスを用いて、臨界カテゴリーの損失ランドスケープに対して、フィッシャー対応の混合精度量子化スキームと、QATに対するフィッシャートラス正規化を適用する。 提案手法は量子化変圧器を用いたDECR検出器の臨界カテゴリー測定値を改善する。 より大きなモデルや過剰適合がより深刻になるクラスの数が多い場合には、さらに重要である。 例えば、COCO Panoptic データセットの最も影響の大きい臨界クラスにおいて、4ビット DETR-R50 と Deformable DETR の 10.4% と 14.5% の mAP ゲインが得られる。

The impact of quantization on the overall performance of deep learning models is a well-studied problem. However, understanding and mitigating its effects on a more fine-grained level is still lacking, especially for harder tasks such as object detection with both classification and regression objectives. This work defines the performance for a subset of task-critical categories, i.e. the critical-category performance, as a crucial yet largely overlooked fine-grained objective for detection tasks. We analyze the impact of quantization at the category-level granularity, and propose methods to improve performance for the critical categories. Specifically, we find that certain critical categories have a higher sensitivity to quantization, and are prone to overfitting after quantization-aware training (QAT). To explain this, we provide theoretical and empirical links between their performance gaps and the corresponding loss landscapes with the Fisher information framework. Using this evidence, we apply a Fisher-aware mixed-precision quantization scheme, and a Fisher-trace regularization for the QAT on the critical-category loss landscape. The proposed methods improve critical-category metrics of the quantized transformer-based DETR detectors. They are even more significant in case of larger models and higher number of classes where the overfitting becomes more severe. For example, our methods lead to 10.4% and 14.5% mAP gains for, correspondingly, 4-bit DETR-R50 and Deformable DETR on the most impacted critical classes in the COCO Panoptic dataset.
翻訳日:2024-07-08 20:10:41 公開日:2024-07-03
# バリウムタイタネートとニオブ酸リチウムの誘電率とポッケル係数

Barium Titanate and Lithium Niobate Permittivity and Pockels Coefficients from MHz to Sub-THz Frequencies ( http://arxiv.org/abs/2407.03443v1 )

ライセンス: Link先を確認
Daniel Chelladurai, Manuel Kohli, Joel Winiger, David Moor, Andreas Messner, Yuriy Fedoryshyn, Mohammed Eleraky, Yuqi Liu, Hua Wang, Juerg Leuthold, (参考訳) ポッケルス効果は最高速度での光信号の制御に不可欠である。 ニオブ酸リチウム(LN)とチタン酸バリウム(BTO)のポッケルス係数と誘電率を100MHzから330GHzの範囲で測定した。 これらの性質は、LNのこの周波数範囲にわたって一定であるが、BTOにおいて有意な周波数依存性を持つ。 それでも、BTO(\varepsilon$ = 1136, $r_{42}$ = 481 pm/V, $r_{33}$ = 125 pm/V at 100 MHz, $\varepsilon$ = 453, $r_{42}$ = 191 pm/V, $r_{33}$ = 60 pm/V at 330 GHz)は、LN(\varepsilon$ = 27, $r_{42}$ = 15 pm/V, $r_{33}$ = 27 pm/V)に比べて非常に大きな電気光学特性を持つ。 さらに,ポッケルス係数の分散にもかかわらず,平面電気光学周波数応答を用いてBTOデバイスを設計する方法を示す。 最後に,これらの電気光学特性のブロードバンド評価法について述べる。 また、この研究は高速BTOデバイスの設計と新しい電気光学材料の開発に基礎を置いている。

The Pockels effect is essential for controlling optical signals at the highest speeds. We present the first measurements of the Pockels coefficients and permittivity in lithium niobate (LN) and barium titanate (BTO) over a continuous frequency range from 100 MHz to 330 GHz. These properties are constant across this frequency range in LN but have a significant frequency dependence in BTO. Still, our measurements show that BTO ($\varepsilon$ = 1136, $r_{42}$ = 481 pm/V, $r_{33}$ = 125 pm/V at 100 MHz, $\varepsilon$ = 453, $r_{42}$ = 191 pm/V, $r_{33}$ = 60 pm/V at 330 GHz) has remarkably large electro-optic properties compared to LN ($\varepsilon$ = 27, $r_{42}$ = 15 pm/V, $r_{33}$ = 27 pm/V). Furthermore, we show how BTO devices can be designed with a flat electro-optic frequency response despite the Pockels coefficient dispersion. Finally, we expound our method for broadband characterization of these vital electro-optic properties, utilizing specialized integrated electro-optic phase shifters. Altogether, this work is foundational to designing high-speed BTO devices and to developing new electro-optic materials.
翻訳日:2024-07-08 20:10:41 公開日:2024-07-03
# アシモフの心理史 : 社会トレンド予測のためのトポロジカルデータ分析、人工知能、ソーシャルメディアデータ

Towards Asimov's Psychohistory: Harnessing Topological Data Analysis, Artificial Intelligence and Social Media data to Forecast Societal Trends ( http://arxiv.org/abs/2407.03446v1 )

ライセンス: Link先を確認
Isabela Rocha, (参考訳) ビッグデータと高度な計算手法の時代には、アイザック・アシモフの架空の心理史学を思い起こさせる大規模な社会行動の予測がますます実現可能になっている。 本稿では,特にTDA(Topological Data Analysis, Carlsson, Vejdemo-Johansson, 2022)とAI(Artificial Intelligence, AI)を通じて,計算能力と数学的枠組みの統合を理論的に検討し,ソーシャルメディアデータ分析による社会的傾向の予測を行う。 組織的行動主義的アプローチ(Glenn, et al , 2016)を通じて、ソーシャルメディアを集団行動の反射面として考察することにより、これらのツールが大規模コミュニティのダイナミクスに前例のない明確性をもたらすと論じる。 この研究は、アシモフの研究と対話し、彼の幻想的概念と現代の方法論の類似性を描き、現代の計算技術がいかにしてパターンを発見し、社会行動の変化を予測するかを示し、デジタル社会学の新たな分野、あるいは心理学そのものに寄与する。

In the age of big data and advanced computational methods, the prediction of large-scale social behaviors, reminiscent of Isaac Asimov's fictional science of Psychohistory, is becoming increasingly feasible. This paper consists of a theoretical exploration of the integration of computational power and mathematical frameworks, particularly through Topological Data Analysis (TDA) (Carlsson, Vejdemo-Johansson, 2022) and Artificial Intelligence (AI), to forecast societal trends through social media data analysis. By examining social media as a reflective surface of collective human behavior through the systematic behaviorist approach (Glenn, et al., 2016), I argue that these tools provide unprecedented clarity into the dynamics of large communities. This study dialogues with Asimov's work, drawing parallels between his visionary concepts and contemporary methodologies, illustrating how modern computational techniques can uncover patterns and predict shifts in social behavior, contributing to the emerging field of digital sociology -- or even, Psychohistory itself.
翻訳日:2024-07-08 20:10:41 公開日:2024-07-03
# アルトゥル的目標のための個人データの自発的寄付におけるプライバシ保証の役割

The Role of Privacy Guarantees in Voluntary Donation of Private Data for Altruistic Goals ( http://arxiv.org/abs/2407.03451v1 )

ライセンス: Link先を確認
Ruizhe Wang, Roberta De Viti, Aarushi Dubey, Elissa M. Redmiles, (参考訳) 研究を進めるなど利他的な目的のために個人情報を自発的に寄付することが一般的である。 しかし、データの誤用や漏洩に関する懸念は、個人が情報を寄付することを妨げる可能性がある。 以前の研究では、プライバシ強化技術(PET)がこれらの懸念を緩和できることが示されているが、これらの技術がデータの寄付意欲にどのような影響を及ぼすかは定かではない。 本研究は,データの有効期限,匿名化,使用制限,アクセス制御という4つのプライバシ保証の下で,新たな治療法を開発するための医療データを寄付する意思について,ビグネット調査(N=485)を実施している。 この研究は、これらの保証を検証するための2つのメカニズムを探求し、自己監査と専門家監査を行い、非営利団体と非営利団体の2種類のデータ受信者に与える影響を評価する。 以上の結果から,収集したデータの種類がプライバシの期待に強く影響していることが判明した。 レスポンデントは、非営利団体が提供したプライバシーに対する高い期待を持ち、提供されたプライバシー保護がそれらの期待にほとんど適応しない。 対照的に、プライバシに関する声明は、非営利団体が提供したプライバシに対する回答者の期待を、非営利団体の期待とほぼ一致させます。 これらの結果のリスクに加えて,PETの監査の有効性に対する技術コミュニティとエンドユーザの認識の整合性の向上,およびデータ漏洩に対するエンドユーザの懸念に直面したPETの有効性に対する期待の効果的設定など,今後の研究の必要性も強調する。

Voluntary donation of private information for altruistic purposes, such as advancing research, is common. However, concerns about data misuse and leakage may deter individuals from donating their information. While prior research has indicated that Privacy Enhancement Technologies (PETs) can alleviate these concerns, the extent to which these techniques influence willingness to donate data remains unclear. This study conducts a vignette survey (N=485) to examine people's willingness to donate medical data for developing new treatments under four privacy guarantees: data expiration, anonymization, use restriction, and access control. The study explores two mechanisms for verifying these guarantees: self-auditing and expert auditing, and evaluates the impact on two types of data recipient entities: for-profit and non-profit institutions. Our findings reveal that the type of entity collecting data strongly influences respondents' privacy expectations, which in part influence their willingness to donate data. Respondents have such high expectations of the privacy provided by non-profit entities that explicitly stating the privacy protections provided makes little adjustment to those expectations. In contrast, statements about privacy bring respondents' expectations of the privacy provided by for-profit entities nearly in-line with non-profit expectations. We highlight the risks of these respective results as well as the need for future research to better align technical community and end-user perceptions about the effectiveness of auditing PETs and to effectively set expectations about the efficacy of PETs in the face of end-user concerns about data breaches.
翻訳日:2024-07-08 20:00:48 公開日:2024-07-03
# 多体系の量子コンピューティングにおけるRevealing symmetries

Revealing symmetries in quantum computing for many-body systems ( http://arxiv.org/abs/2407.03452v1 )

ライセンス: Link先を確認
Robert van Leeuwen, (参考訳) 本研究では,ジョルダン・ウィグナー形式を用いて量子コンピュータ上での評価を行う際に,多体ハミルトニアンの対称性特性を推定する手法を開発した。 分子の点群対称性のような対称性は、ハミルトニアンの標準的な第2量子化形式で明らかである。 しかし、それらは、ハミルトニアンが qubit 上の演算に必要なパウリ行列表現に変換されるときにマスクされる。 これらの対称性を明らかにするために、対称性演算の下でのパウリテンソル弦の変換を計算する簡単な方法を提供する一般的な定理を証明する。 これらはクリフォード群変換の部分群であり、シンプレクティック行列の中で対応する群表現を誘導する。 最終的に、ブール対称性による量子ビットの除去を可能にするアフィン量子ビット符号化方式を単純化し、量子コンピューティングアプリケーションにおける計算労力を削減する。

We develop a method to deduce the symmetry properties of many-body Hamiltonians when they are prepared in Jordan-Wigner form for evaluation on quantum computers. Symmetries, such as point-group symmetries in molecules, are apparent in the standard second quantized form of the Hamiltonian. They are, however, masked when the Hamiltonian is translated into a Pauli matrix representation required for its operation on qubits. To reveal these symmetries we prove a general theorem that provides a straightforward method to calculate the transformation of Pauli tensor strings under symmetry operations. They are a subgroup of the Clifford group transformations and induce a corresponding group representation inside the symplectic matrices. We finally give a simplified derivation of an affine qubit encoding scheme which allows for the removal of qubits due to Boolean symmetries and thus reduces computational effort in quantum computing applications.
翻訳日:2024-07-08 20:00:48 公開日:2024-07-03
# 国家安全保障分野における大規模言語モデルについて

On Large Language Models in National Security Applications ( http://arxiv.org/abs/2407.03453v1 )

ライセンス: Link先を確認
William N. Caballero, Phillip R. Jenkins, (参考訳) 2023年初頭のGPT-4の圧倒的な成功は、国家安全保障を含む様々な分野にわたる大規模言語モデル(LLM)の変革の可能性を強調した。 本稿では,情報処理,意思決定,運用効率に革命をもたらす可能性を分析し,国家安全保障におけるLLM統合の意義について考察する。 LLMは、タスクの自動化やデータ分析の強化など、大きなメリットを提供する一方で、幻覚、データプライバシの懸念、敵の攻撃に対する脆弱性など、重大なリスクも生じている。 意思決定理論の原則とベイズ的推論との結合により、LLMは国家安全保障機関内の意思決定プロセスを大幅に改善することができる。 すなわち、LCMはデータから実行可能な決定への移行を容易にし、意思決定者はより少ない人力で利用可能な情報を素早く受け取り、蒸留することができる。 例えば、アメリカ空軍が戦争ゲームや自動要約にLLMを使うことは、作戦の合理化と意思決定を支援する可能性を示している。 しかし、これらのアプリケーションは精度と信頼性を確保するために厳格な保護が必要である。 LLM統合のより広範な意味は、戦略的計画、国際関係、より広い地政学的景観にまで及んでいる。 人工知能の「スパーク」を示すにもかかわらず、LSMは戦略的な決定を導くよりも、役割を支援するのに最適である。 訓練とウォーガミングにおける彼らの使用は、軍人に貴重な洞察と個人化された学習体験を提供し、それによって運用の準備が整う。

The overwhelming success of GPT-4 in early 2023 highlighted the transformative potential of large language models (LLMs) across various sectors, including national security. This article explores the implications of LLM integration within national security contexts, analyzing their potential to revolutionize information processing, decision-making, and operational efficiency. Whereas LLMs offer substantial benefits, such as automating tasks and enhancing data analysis, they also pose significant risks, including hallucinations, data privacy concerns, and vulnerability to adversarial attacks. Through their coupling with decision-theoretic principles and Bayesian reasoning, LLMs can significantly improve decision-making processes within national security organizations. Namely, LLMs can facilitate the transition from data to actionable decisions, enabling decision-makers to quickly receive and distill available information with less manpower. Current applications within the US Department of Defense and beyond are explored, e.g., the USAF's use of LLMs for wargaming and automatic summarization, that illustrate their potential to streamline operations and support decision-making. However, these applications necessitate rigorous safeguards to ensure accuracy and reliability. The broader implications of LLM integration extend to strategic planning, international relations, and the broader geopolitical landscape, with adversarial nations leveraging LLMs for disinformation and cyber operations, emphasizing the need for robust countermeasures. Despite exhibiting "sparks" of artificial general intelligence, LLMs are best suited for supporting roles rather than leading strategic decisions. Their use in training and wargaming can provide valuable insights and personalized learning experiences for military personnel, thereby improving operational readiness.
翻訳日:2024-07-08 20:00:48 公開日:2024-07-03
# 双レベルアプローチによる複素最適化問題の解法

Decomposition of Difficulties in Complex Optimization Problems Using a Bilevel Approach ( http://arxiv.org/abs/2407.03454v1 )

ライセンス: Link先を確認
Ankur Sinha, Dhaval Pujara, Hemant Kumar Singh, (参考訳) 実際の最適化問題には、特定の最適化方法に依存する場合、しばしば難解な様々な困難が含まれている。 異なる最適化アプローチは、最適化問題の1つ以上の困難に取り組むのに長けている異なる強みを提供する。 例えば、進化的アルゴリズムは、不連続性、非微分可能性、離散性、非凸性といった複雑さを扱うニッチを持つ。 しかし、進化的アルゴリズムは、古典的な数学的プログラミングアプローチがより適した多くの変数を持つ数学的によく振る舞う問題に対して計算的に高価になる可能性がある。 本稿では,複素最適化問題に対して,相乗的に2つの相補的アプローチを同時に適用できる分解戦略を実証する。 進化的アルゴリズムは、柔軟性によって他のソリューションとのペアリングが容易になるため、この文脈で有用である。 分解のアイデアは、難易度を2つのレベルに分けた双レベル最適化の特殊なケースであり、それぞれのレベルに異なるアプローチを割り当て、それを扱うのに適している。 幅広いテスト問題に対して,提案手法の利点を実証する。

Practical optimization problems may contain different kinds of difficulties that are often not tractable if one relies on a particular optimization method. Different optimization approaches offer different strengths that are good at tackling one or more difficulty in an optimization problem. For instance, evolutionary algorithms have a niche in handling complexities like discontinuity, non-differentiability, discreteness and non-convexity. However, evolutionary algorithms may get computationally expensive for mathematically well behaved problems with large number of variables for which classical mathematical programming approaches are better suited. In this paper, we demonstrate a decomposition strategy that allows us to synergistically apply two complementary approaches at the same time on a complex optimization problem. Evolutionary algorithms are useful in this context as their flexibility makes pairing with other solution approaches easy. The decomposition idea is a special case of bilevel optimization that separates the difficulties into two levels and assigns different approaches at each level that is better equipped at handling them. We demonstrate the benefits of the proposed decomposition idea on a wide range of test problems.
翻訳日:2024-07-08 20:00:48 公開日:2024-07-03
# XferBench: 創発的言語のためのデータ駆動ベンチマーク

XferBench: a Data-Driven Benchmark for Emergent Language ( http://arxiv.org/abs/2407.03456v1 )

ライセンス: Link先を確認
Brendon Boldt, David Mortensen, (参考訳) 本稿では,データ駆動手法を用いて創発言語全体の品質を評価するベンチマークを提案する。 具体的には、深層学習フレームワークにおける人間の言語との類似性として、創発的言語の「品質」の概念を解釈する。 人間の言語における下流のNLPタスクのための事前トレーニングデータとして、創発言語を使用することで、これを測定します。 我々はこのベンチマークを,評価対象の創発言語からの発話のテキストファイルのみを必要とする,使い易いPythonパッケージとして実装する。 最後に,人,合成,創発的な言語ベースラインを用いて,ベンチマークの有効性を実証的に検証する。

In this paper, we introduce a benchmark for evaluating the overall quality of emergent languages using data-driven methods. Specifically, we interpret the notion of the "quality" of an emergent language as its similarity to human language within a deep learning framework. We measure this by using the emergent language as pretraining data for a downstream NLP tasks in human language -- the better the downstream performance, the better the emergent language. We implement this benchmark as an easy-to-use Python package that only requires a text file of utterances from the emergent language to be evaluated. Finally, we empirically test the benchmark's validity using human, synthetic, and emergent language baselines.
翻訳日:2024-07-08 20:00:48 公開日:2024-07-03
# MinecraftにおけるLLM駆動型非プレーヤキャラクタとの協調的クエスト補完

Collaborative Quest Completion with LLM-driven Non-Player Characters in Minecraft ( http://arxiv.org/abs/2407.03460v1 )

ライセンス: Link先を確認
Sudha Rao, Weijia Xu, Michael Xu, Jorge Leandro, Ken Lobb, Gabriel DesGarennes, Chris Brockett, Bill Dolan, (参考訳) ビデオゲーム開発における生成AIの利用は増加傾向にあり、大きな言語モデルの対話的およびその他の能力の向上が進むにつれ、LLM駆動型ノンプレイヤーキャラクタ(NPC)が広く展開されることを期待している。 本稿では,人間プレイヤーがLLM駆動NPCとどのように協調してゲーム内ゴールを達成するかを理解することを目的とする。 我々はMinecraft内のミニゲームを設計し、プレイヤーは2台のGPT4駆動のNPCを使ってクエストを完了する。 28人のMinecraftプレーヤーがこのミニゲームをプレイし、フィードバックを共有するユーザスタディを実行します。 ゲームログと記録の分析において,NPCや人間プレイヤーから協調行動のパターンがいくつか出現していることが判明した。 また,ゲーム状態や視覚的理解が充実していない言語のみのモデルについても報告する。 この予備的な研究と分析は、ゲームにおける協調的な役割のために、これらの急速に改善された生成AIモデルをうまく活用する方法を、将来のゲーム開発者に与えるだろうと考えている。

The use of generative AI in video game development is on the rise, and as the conversational and other capabilities of large language models continue to improve, we expect LLM-driven non-player characters (NPCs) to become widely deployed. In this paper, we seek to understand how human players collaborate with LLM-driven NPCs to accomplish in-game goals. We design a minigame within Minecraft where a player works with two GPT4-driven NPCs to complete a quest. We perform a user study in which 28 Minecraft players play this minigame and share their feedback. On analyzing the game logs and recordings, we find that several patterns of collaborative behavior emerge from the NPCs and the human players. We also report on the current limitations of language-only models that do not have rich game-state or visual understanding. We believe that this preliminary study and analysis will inform future game developers on how to better exploit these rapidly improving generative AI models for collaborative roles in games.
翻訳日:2024-07-08 20:00:48 公開日:2024-07-03
# スケールでの精度:ドメイン特有なデータセットのオン・デマンド

Precision at Scale: Domain-Specific Datasets On-Demand ( http://arxiv.org/abs/2407.03463v1 )

ライセンス: Link先を確認
Jesús M Rodríguez-de-Vera, Imanol G Estepa, Ignacio Sarasúa, Bhalaji Nagarajan, Petia Radeva, (参考訳) 自己教師付き学習(SSL)の分野では、従来の知恵は、堅牢なバックボーンを事前訓練するための、大規模で汎用的なドメインデータセットの活用に向けられてきた。 本稿では、汎用ドメインデータセットと(従来より小さい)ドメイン固有のデータセットのスケールを橋渡しして、現在のパフォーマンスギャップを減らし、このアイデアに挑戦する。 具体的には、オンデマンドでドメイン固有のデータセットを自動生成する新しい方法であるPrecision at Scale (PaS)を提案する。 PaSパイプラインのモジュラリティにより、最先端の基盤モデルと生成モデルを活用して、人間の介入を最小限に抑えた、特定のドメインに属する任意のサイズのイメージのコレクションを作成することができる。 2つの複雑なドメインにおける広範囲な分析は、ビジュアルトランスフォーマーと畳み込みニューラルネットワークのトレーニングにおいて、多様性、スケール、有効性の観点から、従来のドメイン固有のデータセットよりもPaSデータセットの方が優れていることを証明している。 最も注目すべきは、自動生成されたドメイン固有のデータセットが、ImageNet-1kやImageNet-21kのような大規模な教師付きデータセットよりも、より優れた事前トレーニングにつながることだ。 具体的には、PaSパイプラインによって構築されたドメイン固有のデータセットに基づいてトレーニングされたモデルが、すべての考慮されたドメインと分類タスクにおいて、ImageNet-1kで事前訓練されたバックボーンを少なくとも12%上回り、教師付きImageNet-21kプリトレーニングよりも12倍小さい状態で、食品ドメインのパフォーマンスが向上した。 コードリポジトリ:https://github.com/jesusmolrdv/Precision-at-Scale/

In the realm of self-supervised learning (SSL), conventional wisdom has gravitated towards the utility of massive, general domain datasets for pretraining robust backbones. In this paper, we challenge this idea by exploring if it is possible to bridge the scale between general-domain datasets and (traditionally smaller) domain-specific datasets to reduce the current performance gap. More specifically, we propose Precision at Scale (PaS), a novel method for the autonomous creation of domain-specific datasets on-demand. The modularity of the PaS pipeline enables leveraging state-of-the-art foundational and generative models to create a collection of images of any given size belonging to any given domain with minimal human intervention. Extensive analysis in two complex domains, proves the superiority of PaS datasets over existing traditional domain-specific datasets in terms of diversity, scale, and effectiveness in training visual transformers and convolutional neural networks. Most notably, we prove that automatically generated domain-specific datasets lead to better pretraining than large-scale supervised datasets such as ImageNet-1k and ImageNet-21k. Concretely, models trained on domain-specific datasets constructed by PaS pipeline, beat ImageNet-1k pretrained backbones by at least 12% in all the considered domains and classification tasks and lead to better food domain performance than supervised ImageNet-21k pretrain while being 12 times smaller. Code repository: https://github.com/jesusmolrdv/Precision-at-Scale/
翻訳日:2024-07-08 20:00:48 公開日:2024-07-03
# モノのインターネットにおけるデータ保護のためのセキュリティアプローチ: 体系的な文献レビュー

Security Approaches for Data Provenance in the Internet of Things: A Systematic Literature Review ( http://arxiv.org/abs/2407.03466v1 )

ライセンス: Link先を確認
Omair Faraj, David Megias, Joaquin Garcia-Alfaro, (参考訳) IoT(Internet of Things)は、保護されていない環境にデプロイされるリソース制限されたデバイスに依存している。 シングルホップとマルチホップのシナリオでは、データ転送中にさまざまなタイプのリスクが直面する可能性がある。 これらの脆弱性に対処することが重要です。 既存の技術、実践的実装、セキュリティ要件、パフォーマンスメトリクスを探求する、IoTにおけるデータ証明に関する体系的な文献レビューが紹介されている。 レトロスペクティブのコントリビューションと欠点を比較します。 IoTにおけるデータ証明の開発に関連する分類法が提案されている。 オープンな問題が特定され、今後の研究方向性が示され、IoTのコンテキストにおけるデータプロファイランス研究の進化に関する有用な洞察を提供する。

The Internet of Things (IoT) relies on resource-constrained devices deployed in unprotected environments. Different types of risks may be faced during data transmission in single-hop and multi-hop scenarios. Addressing these vulnerabilities is crucial. A systematic literature review of data provenance in IoT is presented, exploring existing techniques, practical implementations, security requirements, and performance metrics. Respective contributions and shortcomings are compared. A taxonomy related to the development of data provenance in IoT is proposed. Open issues are identified, and future research directions are presented, providing useful insights for the evolution of data provenance research in the context of the IoT.
翻訳日:2024-07-08 20:00:48 公開日:2024-07-03
# 大規模言語モデルを用いたデータ駆動建築エネルギーモデリングのスケーリング

Scaling Data-Driven Building Energy Modelling using Large Language Models ( http://arxiv.org/abs/2407.03469v1 )

ライセンス: Link先を確認
Sunil Khadka, Liang Zhang, (参考訳) データ駆動方式による管理システム(BMS)の構築は、常にデータとモデルのスケーラビリティの問題に直面します。 本稿では,大規模言語モデル(LLM)を用いて,BMSのデータ駆動モデルの開発に伴うスケーラビリティ問題に対処する手法を提案する。 LLMのコード生成適応性は、特にデータ処理とデータ駆動モデリングプロセスの自動化によって、BMSをより広く採用することができる。 本稿では,BMS から構造化データを処理するコードを生成するために LLM を使用し,BMS 固有の要求に対するデータ駆動モデルを構築する。 これにより、手動のデータやモデルの開発が不要になり、このプロセスに関連する時間、労力、コストが削減される。 我々の仮説は、LLMがデータサイエンスとBMSに関するドメイン知識をデータ処理とモデリングに組み込むことができ、データ駆動モデリングが様々なビルディングタイプと制御目的の特定の要求に対して自動化され、精度とスケーラビリティも向上する、というものである。 機械学習操作のフレームワークに従ってプロンプトテンプレートを生成し、データ駆動モデリングのためのPythonコードを体系的に生成するようにプロンプトを設計する。 ケーススタディでは、プロンプトテンプレートの下での双方向のプロンプトは、高いコード生成率とコード精度を実現し、人件費を大幅に削減できることを示す。

Building Management System (BMS) through a data-driven method always faces data and model scalability issues. We propose a methodology to tackle the scalability challenges associated with the development of data-driven models for BMS by using Large Language Models (LLMs). LLMs' code generation adaptability can enable broader adoption of BMS by "automating the automation," particularly the data handling and data-driven modeling processes. In this paper, we use LLMs to generate code that processes structured data from BMS and build data-driven models for BMS's specific requirements. This eliminates the need for manual data and model development, reducing the time, effort, and cost associated with this process. Our hypothesis is that LLMs can incorporate domain knowledge about data science and BMS into data processing and modeling, ensuring that the data-driven modeling is automated for specific requirements of different building types and control objectives, which also improves accuracy and scalability. We generate a prompt template following the framework of Machine Learning Operations so that the prompts are designed to systematically generate Python code for data-driven modeling. Our case study indicates that bi-sequential prompting under the prompt template can achieve a high success rate of code generation and code accuracy, and significantly reduce human labor costs.
翻訳日:2024-07-08 20:00:48 公開日:2024-07-03
# 韻律駆動型プライバシ保存認知症検出

Prosody-Driven Privacy-Preserving Dementia Detection ( http://arxiv.org/abs/2407.03470v1 )

ライセンス: Link先を確認
Dominika Woszczyk, Ranya Aloufi, Soteris Demetriou, (参考訳) 音声記録から抽出した話者埋め込みは認知症検出に有用であることが証明されている。 しかし、その性質上、これらの埋め込みには、プライバシーの懸念を引き起こす識別可能な情報が含まれている。 本研究は,認知症検出のための診断ユーティリティを保ちつつ,埋め込みを匿名化することを目的とする。 これまでの研究は、ターゲット属性に基づいて訓練された敵対的学習とモデルに依存しており、限られたリソース設定で苦労している。 本稿では,認知症分類器に頼らずに,認知症に関連する韻律的特徴を話者埋め込みから切り離す手法を提案する。 本実験は,ADReSSデータセット上での認知度検出スコアF1-scoreの74%を維持しながら,話者のプライバシー(話者認識F1-score .01%)を維持するためのアプローチの有効性を示す。 また,ADReSSo(.01%および.66%)のより制約された分類器依存システムと同等であり,合成音声の自然性には影響しない。

Speaker embeddings extracted from voice recordings have been proven valuable for dementia detection. However, by their nature, these embeddings contain identifiable information which raises privacy concerns. In this work, we aim to anonymize embeddings while preserving the diagnostic utility for dementia detection. Previous studies rely on adversarial learning and models trained on the target attribute and struggle in limited-resource settings. We propose a novel approach that leverages domain knowledge to disentangle prosody features relevant to dementia from speaker embeddings without relying on a dementia classifier. Our experiments show the effectiveness of our approach in preserving speaker privacy (speaker recognition F1-score .01%) while maintaining high dementia detection score F1-score of 74% on the ADReSS dataset. Our results are also on par with a more constrained classifier-dependent system on ADReSSo (.01% and .66%), and have no impact on synthesized speech naturalness.
翻訳日:2024-07-08 20:00:48 公開日:2024-07-03
# ビデオとシミュレーションからの学習行動と推論中心画像編集

Learning Action and Reasoning-Centric Image Editing from Videos and Simulations ( http://arxiv.org/abs/2407.03471v1 )

ライセンス: Link先を確認
Benno Krojer, Dheeraj Vattikonda, Luis Lara, Varun Jampani, Eva Portelance, Christopher Pal, Siva Reddy, (参考訳) 画像編集モデルは、オブジェクトの置換、属性やスタイルの変更、アクションやムーブメントの実行など、さまざまな形式の推論を必要とするさまざまな編集を行うことができるべきである。 現在の一般的な命令誘導編集モデルは、アクションや推論中心の編集に重大な欠点がある。 オブジェクト、属性、スタイリスティックな変更は、視覚的に静的なデータセットから学ぶことができる。 一方、アクションや推論中心の編集のための高品質なデータは乏しく、物理的ダイナミクス、時間性、空間的推論などをカバーする全く異なるソースから来る必要がある。 この目的のために,ビデオやシミュレーションエンジンから,高品質なトレーニングデータを集めたAURORAデータセット(Action-Reasoning-Object-Attribute)を慎重にキュレートする。 我々は、高品質なトレーニングデータの重要な側面に焦点を当てる:三脚(ソースイメージ、プロンプト、ターゲットイメージ)には、プロンプトによって記述された1つの意味のある視覚的変化、すなわち、ソースとターゲットイメージの真に最小限の変更が含まれている。 AURORA-Bench(AURORA-Bench)を用いて,8種類の編集タスクを対象としたAURORA-fintunedモデルの評価を行った。 我々のモデルは従来の編集モデルよりもはるかに優れており、人間のレーティングによって判断される。 自動評価では、過去のメトリクスに重要な欠陥を見つけ、セマンティックにハードな編集作業に使用することを注意する。 代わりに、差別的理解に焦点を当てた新しい自動尺度を提案する。 我々は,(1)品質トレーニングデータセットと評価ベンチマークのキュレーション,(2)批判的評価の展開,(3)最先端のモデルをリリースすることで,画像編集のさらなる進歩を期待する。

An image editing model should be able to perform diverse edits, ranging from object replacement, changing attributes or style, to performing actions or movement, which require many forms of reasoning. Current general instruction-guided editing models have significant shortcomings with action and reasoning-centric edits. Object, attribute or stylistic changes can be learned from visually static datasets. On the other hand, high-quality data for action and reasoning-centric edits is scarce and has to come from entirely different sources that cover e.g. physical dynamics, temporality and spatial reasoning. To this end, we meticulously curate the AURORA Dataset (Action-Reasoning-Object-Attribute), a collection of high-quality training data, human-annotated and curated from videos and simulation engines. We focus on a key aspect of quality training data: triplets (source image, prompt, target image) contain a single meaningful visual change described by the prompt, i.e., truly minimal changes between source and target images. To demonstrate the value of our dataset, we evaluate an AURORA-finetuned model on a new expert-curated benchmark (AURORA-Bench) covering 8 diverse editing tasks. Our model significantly outperforms previous editing models as judged by human raters. For automatic evaluations, we find important flaws in previous metrics and caution their use for semantically hard editing tasks. Instead, we propose a new automatic metric that focuses on discriminative understanding. We hope that our efforts : (1) curating a quality training dataset and an evaluation benchmark, (2) developing critical evaluations, and (3) releasing a state-of-the-art model, will fuel further progress on general image editing.
翻訳日:2024-07-08 20:00:48 公開日:2024-07-03
# ESBMC-Python:Pythonプログラムのバウンドモデルチェッカー

ESBMC-Python: A Bounded Model Checker for Python Programs ( http://arxiv.org/abs/2407.03472v1 )

ライセンス: Link先を確認
Bruno Farias, Rafael Menezes, Eddie B. de Lima Filho, Youcheng Sun, Lucas C. Cordeiro, (参考訳) 本稿では,型アノテーションとフロントエンド処理を用いて,境界モデルチェック(BMC)パイプラインの機能を利用するPythonプログラムの検証ツールを提案する。 入力プログラムを抽象構文木に変換し、型情報を推論し追加する。 そして、Pythonの式とステートメントを中間表現に変換する。 最後に、この記述を満足度変調理論(SMT)の解法で評価された公式に変換する。 提案手法は、効率的なSMTベースの有界モデルチェッカー(ESBMC)によって実現され、その結果、最初のBMCベースのPythonコード検証ツールであるESBMC-Pythonと呼ばれるツールが生まれた。 この目的のために特別に開発したテストスイートによる実験結果から,試験が成功し,失敗した場合の有効性が示された。 さらに、Ethereum Consensus Specificationで本当の問題を見つけた。

This paper introduces a tool for verifying Python programs, which, using type annotation and front-end processing, can harness the capabilities of a bounded model-checking (BMC) pipeline. It transforms an input program into an abstract syntax tree to infer and add type information. Then, it translates Python expressions and statements into an intermediate representation. Finally, it converts this description into formulae evaluated with satisfiability modulo theories (SMT) solvers. The proposed approach was realized with the efficient SMT-based bounded model checker (ESBMC), which resulted in a tool called ESBMC-Python, the first BMC-based Python-code verifier. Experimental results, with a test suite specifically developed for this purpose, showed its effectiveness, where successful and failed tests were correctly evaluated. Moreover, it found a real problem in the Ethereum Consensus Specification.
翻訳日:2024-07-08 20:00:48 公開日:2024-07-03
# 異なる国と宗教状況における生成的AI回答におけるLGBTQ+バイアスの探索

Exploring LGBTQ+ Bias in Generative AI Answers across Different Country and Religious Contexts ( http://arxiv.org/abs/2407.03473v1 )

ライセンス: Link先を確認
Lilla Vicsek, Anna Vancsó, Mike Zajko, Judit Takacs, (参考訳) それまでの議論は、創造的なAIツールがより文化的に敏感になる必要性を強調してきたが、しばしば、文化や宗教によって異なると認識されるマイノリティに関するコンテンツを扱う複雑さを無視している。 本研究は,2つの生成AIシステムが,文化的・宗教的文脈の異なるホモフォビックステートメントにどのように反応するかを検討した。 発見によると、ChatGPT 3.5の回答は文化的な相対主義を示しており、バードは人権を強調し、LGBTQ+の問題をもっと支持した。 どちらも、プロンプトで提供された文脈情報に基づいて、応答の著しい変化を示し、AIシステムは、ユーザのバックグラウンドに関する情報に基づいて、LGBTQ+の人々のサポートの程度と形式を、その応答で調整することができることを示唆している。 この研究は、AI反応の社会的および倫理的意味を理解することに寄与し、生成するAIの出力をより文化的に多様にするためには、基本的人権の基盤が必要であると論じている。

Previous discussions have highlighted the need for generative AI tools to become more culturally sensitive, yet often neglect the complexities of handling content about minorities, who are perceived differently across cultures and religions. Our study examined how two generative AI systems respond to homophobic statements with varying cultural and religious context information. Findings showed ChatGPT 3.5's replies exhibited cultural relativism, in contrast to Bard's, which stressed human rights and provided more support for LGBTQ+ issues. Both demonstrated significant change in responses based on contextual information provided in the prompts, suggesting that AI systems may adjust in their responses the degree and forms of support for LGBTQ+ people according to information they receive about the user's background. The study contributes to understanding the social and ethical implications of AI responses and argues that any work to make generative AI outputs more culturally diverse requires a grounding in fundamental human rights.
翻訳日:2024-07-08 20:00:48 公開日:2024-07-03
# 男性中心の文脈における女性同士のコラボレーションの促進

How high-status women promote repeated collaboration among women in male-dominated contexts ( http://arxiv.org/abs/2407.03474v1 )

ライセンス: Link先を確認
Huimin Xu, Jamie Strassman, Ying Ding, Steven Gray, Maytal Saar-Tsechansky, (参考訳) 男性支配の文脈はジレンマを引き起こし、女性間の反復的なコラボレーションの利点を増大させるが、同時にそのようなコラボレーションの可能性が低下する。 本研究は,男性を主体とした環境下での男女の反復的コラボレーションを促進する条件について,現状階層の重要役割を考察することによって理解することを目的とする。 コンピュータサイエンス研究チーム8,232,769人の協力データを用いて、女性が上位の地位を急な地位の階層で保持している場合、そのチームの他の女性は、階層が平坦な場合や、男性が上位の地位を占める場合と比較して、再び男性よりも協力する可能性が高いことがわかった。 急な階層では、上位階級の女性であるが上位階級の男性ではない女性は、同様の地位にある下層階級の男性よりも、下層階級の女性が再び協力する傾向にある。 現状階層は, 若年者同士の反復的コラボレーションに特に有害であるのに対し, 急激な地位階層の女性は, 男女間のネガティブな影響を緩和することが示唆された。

Male-dominated contexts pose a dilemma: they increase the benefits of repeated collaboration among women, yet at the same time, make such collaborations less likely. This paper seeks to understand the conditions that foster repeated collaboration among women versus men in male-dominated settings by examining the critical role of status hierarchies. Using collaboration data on 8,232,769 computer science research teams, we found that when a woman holds the top-ranking position in a steep status hierarchy, other women on that team are more likely than men to collaborate again, as compared to when the hierarchy is flat, and compared to when men occupy the top-ranking position. In steep hierarchies, top-ranking women but not top-ranking men foster conditions in which junior women are more likely to collaborate again than junior men of similar status levels. Our research suggests that whereas status hierarchies are especially detrimental to repeated collaboration among underrepresented individuals, top-ranking women in steep status hierarchies mitigate these negative impacts between women in male-dominated settings.
翻訳日:2024-07-08 20:00:48 公開日:2024-07-03
# JEPAがノイズの多い機能を避ける方法 - 深い線形自己蒸留ネットワークの暗黙のバイアス

How JEPA Avoids Noisy Features: The Implicit Bias of Deep Linear Self Distillation Networks ( http://arxiv.org/abs/2407.03475v1 )

ライセンス: Link先を確認
Etai Littwin, Omid Saremi, Madhu Advani, Vimal Thilak, Preetum Nakkiran, Chen Huang, Joshua Susskind, (参考訳) データ表現の自己教師型学習には2つの競合パラダイムが存在する。 JEPA(Joint Embedding Predictive Architecture)は、意味的に類似した入力が互いに予測可能な表現に符号化されるアーキテクチャのクラスである。 最近のJEPAフレームワークに該当するアプローチとして、オンラインエンコーダをトレーニングしてターゲットエンコーダの出力を予測するという、自己蒸留が成功している。 これはMasked AutoEncoder(MAE)パラダイムとは対照的で、エンコーダとデコーダは遅延表現ではなく、データ空間の入力の欠落部分を再構築するために訓練される。 MAEよりもJEPAアプローチを使う一般的な動機は、JEPAの目標は、細かいピクセル情報(予測不可能で非形式的)よりも抽象的なフィーチャを優先することにある。 本研究では, 深部線形モデルのトレーニング力学を解析することにより, この経験的観察の背後にあるメカニズムを理解することを目的とする。 両方のアプローチが同様の表現を学習する単純化された線形設定において、JEPAsは高影響の特徴、すなわち高い回帰係数を持つ特徴を学習するためにバイアスを受ける。 我々の結果は、潜在空間における予測の明確な暗黙バイアスが、実際の成功を暗示していることを示している。

Two competing paradigms exist for self-supervised learning of data representations. Joint Embedding Predictive Architecture (JEPA) is a class of architectures in which semantically similar inputs are encoded into representations that are predictive of each other. A recent successful approach that falls under the JEPA framework is self-distillation, where an online encoder is trained to predict the output of the target encoder, sometimes using a lightweight predictor network. This is contrasted with the Masked AutoEncoder (MAE) paradigm, where an encoder and decoder are trained to reconstruct missing parts of the input in the data space rather, than its latent representation. A common motivation for using the JEPA approach over MAE is that the JEPA objective prioritizes abstract features over fine-grained pixel information (which can be unpredictable and uninformative). In this work, we seek to understand the mechanism behind this empirical observation by analyzing the training dynamics of deep linear models. We uncover a surprising mechanism: in a simplified linear setting where both approaches learn similar representations, JEPAs are biased to learn high-influence features, i.e., features characterized by having high regression coefficients. Our results point to a distinct implicit bias of predicting in latent space that may shed light on its success in practice.
翻訳日:2024-07-08 20:00:48 公開日:2024-07-03
# 基礎モデルのドメイン対応微調整

Domain-Aware Fine-Tuning of Foundation Models ( http://arxiv.org/abs/2407.03482v1 )

ライセンス: Link先を確認
Ugur Ali Kaplan, Margret Keuper, Anna Khoreva, Dan Zhang, Yumeng Li, (参考訳) ファンデーションモデル(FM)はコンピュータビジョンに革命をもたらし、異なるドメイン間で効果的な学習を可能にした。 しかし、ドメインシフト時のパフォーマンスはまだ過小評価されていない。 本稿では、異なるバックボーンアーキテクチャを比較し、ドメイン関連テキスト埋め込みを利用した新しいドメイン認識コンポーネントを導入することにより、FMのゼロショットドメイン適応の可能性を検討する。 本研究では,ドメイン適応正規化を提案する。Dominoと呼ばれるドメイン適応正規化は,微調整中にドメイン埋め込みを明示的に活用することで,モデルドメインを意識する。 最終的にDominoは、さまざまな未確認領域に効果的に適応できる、より堅牢なコンピュータビジョンモデルを実現する。

Foundation models (FMs) have revolutionized computer vision, enabling effective learning across different domains. However, their performance under domain shift is yet underexplored. This paper investigates the zero-shot domain adaptation potential of FMs by comparing different backbone architectures and introducing novel domain-aware components that leverage domain related textual embeddings. We propose domain adaptive normalization, termed as Domino, which explicitly leverages domain embeddings during fine-tuning, thus making the model domain aware. Ultimately, Domino enables more robust computer vision models that can adapt effectively to various unseen domains.
翻訳日:2024-07-08 19:51:01 公開日:2024-07-03
# Celeb-FBI:ディープラーニングを用いた人体画像と年齢, 性別, 身長, 体重推定のベンチマークデータセット

Celeb-FBI: A Benchmark Dataset on Human Full Body Images and Age, Gender, Height and Weight Estimation using Deep Learning Approach ( http://arxiv.org/abs/2407.03486v1 )

ライセンス: Link先を確認
Pronay Debnath, Usafa Akther Rifa, Busra Kamal Rafa, Ali Haider Talukder Akib, Md. Aminur Rahman, (参考訳) 監視、識別、画像検索システム、医療における包括的データセットの不足は、研究者が新しい方法論を探求し、これらの分野における知識を進歩させる上で重要な課題となっている。 さらに、身長、体重、年齢、性別といった詳細な属性を持つフルボディの画像データセットの必要性は、ファッション業界分析、エルゴノミクスデザインアセスメント、バーチャルリアリティーアバターの作成、スポーツパフォーマンス分析といった分野において特に重要である。 このギャップに対処するため、私たちは、身長、年齢、体重、性別に関する詳細な情報とともに、7,211人の個人のフルボディイメージを含む「Celeb-FBI」データセットを作成しました。 データセットの作成に続いて、画像のクリーニング、スケーリング、およびSMOTE(Synthetic Minority Oversampling Technique)の適用など、事前処理の段階に進む。 その後、このデータセットを用いて、人間のフルボディ画像から身長、体重、年齢、性別を推定するために使用される、畳み込みニューラルネットワーク(CNN)、50層ResNet、16層VGの3つのディープラーニングアプローチを採用した。 結果から、ResNet-50の精度は79.18%、性別は95.43%、身長は85.60%、体重は81.91%であった。

The scarcity of comprehensive datasets in surveillance, identification, image retrieval systems, and healthcare poses a significant challenge for researchers in exploring new methodologies and advancing knowledge in these respective fields. Furthermore, the need for full-body image datasets with detailed attributes like height, weight, age, and gender is particularly significant in areas such as fashion industry analytics, ergonomic design assessment, virtual reality avatar creation, and sports performance analysis. To address this gap, we have created the 'Celeb-FBI' dataset which contains 7,211 full-body images of individuals accompanied by detailed information on their height, age, weight, and gender. Following the dataset creation, we proceed with the preprocessing stages, including image cleaning, scaling, and the application of Synthetic Minority Oversampling Technique (SMOTE). Subsequently, utilizing this prepared dataset, we employed three deep learning approaches: Convolutional Neural Network (CNN), 50-layer ResNet, and 16-layer VGG, which are used for estimating height, weight, age, and gender from human full-body images. From the results obtained, ResNet-50 performed best for the system with an accuracy rate of 79.18% for age, 95.43% for gender, 85.60% for height and 81.91% for weight.
翻訳日:2024-07-08 19:51:01 公開日:2024-07-03
# FlowCon:フローベースコントラスト学習を用いたアウト・オブ・ディストリビューション検出

FlowCon: Out-of-Distribution Detection using Flow-Based Contrastive Learning ( http://arxiv.org/abs/2407.03489v1 )

ライセンス: Link先を確認
Saandeep Aathreya, Shaun Canavan, (参考訳) ディープラーニング手法の現実的な応用が拡大するにつれて、OOD(Out-of-distriion)データの特定がますます重要になっている。 ポストホック法では、オフレイアデータに微調整されたソフトマックススコアを変更したり、中間特徴層を活用して、In-Distribution(ID)とOODサンプルの識別を行う。 他の方法は多様なOODサンプルを用いてIDとOODの相違を学習することに焦点を当てている。 しかしながら、これらの手法は典型的には、想定される外れ値のサンプルの品質に依存する。 密度ベースのメソッドは明示的にクラス条件の分布をモデル化するが、これは長いトレーニング時間や分類器の再訓練を必要とする。 これらの問題に対処するために、新しい密度に基づくOOD検出技術である \textit{FlowCon} を導入する。 我々の主な革新は、正規化フローの特性と教師付きコントラスト学習を効率的に組み合わせることであり、堅牢な表現学習とトラクタブル密度推定を確実にすることである。 ResNet18 や WideResNet の分類器で事前訓練した CIFAR-10 や CIFAR-100 などの共通ビジョンデータセットに対して,本手法の有効性を実証的に評価した。 また、UMAP埋め込みを用いた確率プロットと定性的可視化を用いて定量的解析を行い、様々なOODコンテキスト下で提案手法のロバスト性を示す。 コードは、決定後、オープンソース化される。

Identifying Out-of-distribution (OOD) data is becoming increasingly critical as the real-world applications of deep learning methods expand. Post-hoc methods modify softmax scores fine-tuned on outlier data or leverage intermediate feature layers to identify distinctive patterns between In-Distribution (ID) and OOD samples. Other methods focus on employing diverse OOD samples to learn discrepancies between ID and OOD. These techniques, however, are typically dependent on the quality of the outlier samples assumed. Density-based methods explicitly model class-conditioned distributions but this requires long training time or retraining the classifier. To tackle these issues, we introduce \textit{FlowCon}, a new density-based OOD detection technique. Our main innovation lies in efficiently combining the properties of normalizing flow with supervised contrastive learning, ensuring robust representation learning with tractable density estimation. Empirical evaluation shows the enhanced performance of our method across common vision datasets such as CIFAR-10 and CIFAR-100 pretrained on ResNet18 and WideResNet classifiers. We also perform quantitative analysis using likelihood plots and qualitative visualization using UMAP embeddings and demonstrate the robustness of the proposed method under various OOD contexts. Code will be open-sourced post decision.
翻訳日:2024-07-08 19:51:01 公開日:2024-07-03
# ヘリシティは質量を持たない粒子の位相不変量である:C=-2h

Helicity is a topological invariant of massless particles: C=-2h ( http://arxiv.org/abs/2407.03494v1 )

ライセンス: Link先を確認
Eric Palmerduca, Hong Qin, (参考訳) 質量粒子の位相と幾何学の間には、基本的なが必須の関係がある。 幾何スピン $s$ は、内部空間 $V$ by $\dim V = 2s + 1$ の位相次元に関連している。 これは質量のない粒子を分解し、そのヘリシティ$h$で特徴づけられるが、すべて1次元の内部空間を持つ。 質量のない粒子の位相と幾何学の間には、より微妙な関係があることが示される。 質量のない粒子の波動関数は光錐上の非自明な直線束の切断であり、その位相は最初のチャーン数$C$によって完全に特徴づけられる。 一般には$C = -2h$である。 また、質量のない粒子のアーベル群構造を用いて、すべての質量のないバンドル表現を生成する方法を示す。

There is an elementary but indispensable relationship between the topology and geometry of massive particles. The geometric spin $s$ is related to the topological dimension of the internal space $V$ by $\dim V = 2s + 1$. This breaks down for massless particles, which are characterized by their helicity $h$, but all have 1D internal spaces. We show that a subtler relation exists between the topological and geometry of massless particles. Wave functions of massless particles are sections of nontrivial line bundles over the lightcone whose topology are completely characterized by their first Chern number $C$. We prove that in general $C = -2h$. In doing so, we also exhibit a method of generating all massless bundle representations via an abelian group structure of massless particles.
翻訳日:2024-07-08 19:51:01 公開日:2024-07-03
# Codec-ASR:離散音声表現を用いた高性能音声認識システムの訓練

Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations ( http://arxiv.org/abs/2407.03495v1 )

ライセンス: Link先を確認
Kunal Dhawan, Nithin Rao Koluguri, Ante Jukić, Ryan Langman, Jagadeesh Balam, Boris Ginsburg, (参考訳) 音声認識(ASR)、翻訳、話者検証、共同音声テキスト基礎モデルなど、様々な音声関連タスクに対するトランスフォーマーベースモデルのトレーニングの有効性について、離散音声表現は近年注目されている。 本研究では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。 本稿では,量子化スキームや時間領域,スペクトル特徴符号化といったコーデックトレーニングの異なる手法について検討する。 さらに、性能の向上、訓練効率の向上、騒音の堅牢性向上を目的としたASRトレーニング手法について検討する。 この結果をもとに,エンコーデックを同様のビットレートで上回るコーデックASRパイプラインを導入した。 注目すべきは、サイズが小さく、データ量も大幅に少ないにも関わらず、143言語ML-SUPERBベンチマークの強力な自己教師型モデルによって達成された最先端の結果を上回ることだ。

Discrete speech representations have garnered recent attention for their efficacy in training transformer-based models for various speech-related tasks such as automatic speech recognition (ASR), translation, speaker verification, and joint speech-text foundational models. In this work, we present a comprehensive analysis on building ASR systems with discrete codes. We investigate different methods for codec training such as quantization schemes and time-domain vs spectral feature encodings. We further explore ASR training techniques aimed at enhancing performance, training efficiency, and noise robustness. Drawing upon our findings, we introduce a codec ASR pipeline that outperforms Encodec at similar bit-rate. Remarkably, it also surpasses the state-of-the-art results achieved by strong self-supervised models on the 143 languages ML-SUPERB benchmark despite being smaller in size and pretrained on significantly less data.
翻訳日:2024-07-08 19:51:01 公開日:2024-07-03
# 微分プライバシーを用いた大規模人体移動ヒストグラムのリリース

Releasing Large-Scale Human Mobility Histograms with Differential Privacy ( http://arxiv.org/abs/2407.03496v1 )

ライセンス: Link先を確認
Christopher Bian, Albert Cheu, Yannis Guzman, Marco Gruteser, Peter Kairouz, Ryan McKenna, Edo Roth, (参考訳) Environmental Insights Explorer(EIE)はGoogleのプロダクトで、人間の移動に関する統計データを報告している。 これらの統計は二酸化炭素排出量を推定するために使われ、政策立案者に交通政策やインフラに関する判断を伝えるために提供される。 この種のユーザデータの本質的な感度のため、そのデータから得られた統計データを適切なプライバシー保護によって計算することが重要である。 この作業では、フェデレートされた分析と差分プライバシーの組み合わせを使用して、これらの必要な統計情報を公開しつつ、厳しいエラー制約の下で運用し、下流の利害関係者に有効性を保証する。 本研究では,これらの厳密なユーティリティ制約を満たしつつ,$ \epsilon \approx 2 $-DP を達成する機構を提案する。 我々は、このメカニズムが、グループ・バイ・サムのワークロードの幅広いクラスにとってより一般的な関心事であると信じている。

Environmental Insights Explorer (EIE) is a Google product that reports aggregate statistics about human mobility, including various methods of transit used by people across roughly 50,000 regions globally. These statistics are used to estimate carbon emissions and provided to policymakers to inform their decisions on transportation policy and infrastructure. Due to the inherent sensitivity of this type of user data, it is crucial that the statistics derived and released from it are computed with appropriate privacy protections. In this work, we use a combination of federated analytics and differential privacy to release these required statistics, while operating under strict error constraints to ensure utility for downstream stakeholders. In this work, we propose a new mechanism that achieves $ \epsilon \approx 2 $-DP while satisfying these strict utility constraints, greatly improving over natural baselines. We believe this mechanism may be of more general interest for the broad class of group-by-sum workloads.
翻訳日:2024-07-08 19:51:01 公開日:2024-07-03
# 新しい活性化逆ResNetとハイブリッドメタヒューリスティック最適化DenseNetを用いたIrisとPalmprintのマルチモーダルバイオメトリック認識

Iris and Palmprint Multimodal Biometric Recognition using Novel Preactivated Inverted ResNet and Hybrid Metaheuristic Optimized DenseNet ( http://arxiv.org/abs/2407.03498v1 )

ライセンス: Link先を確認
Indu Singh, Gunbir Singh Baveja, Shruti Khatri, Sunaina Luthra, Tanvi Singh, (参考訳) 生体認証技術は、情報セキュリティに重点が置かれているため、日常生活に広く統合されている。 この領域では、複数の生体計測特性を組み合わせたマルチモーダルバイオメトリックスは、スプーフ攻撃に対する感受性や時間の経過とともに変化に適応できないといった、単調なシステムに見られる制限を克服している。 本稿では,アイリスとヤシプリントを用いた深層学習アルゴリズムを用いた新しいマルチモーダルバイオメトリック認識システムを提案する。 コントラスト限定適応ヒストグラム等化法 (CLAHE) アルゴリズムを最適化し, 画像コントラストを効果的に向上させる手法として, L'evy Flights (MFALF) を用いた改良ファイアフライアルゴリズムの導入から, 先駆的なアプローチが導入された。 その後、ReliefFとMoth Flame Optimization(MFOR)のユニークなハイブリッドを用いて特徴選択を行い、情報的特徴を抽出する。 分類には、まず、新しいPreactivated Inverted ResNet(PIR)アーキテクチャを導入し、次に、トランスファーラーベースDenseNetアーキテクチャ(JFPA-ROA)の学習率とドロップアウトパラメータの微調整に、革新的なJohnson Flower Pollination AlgorithmとRainfall Optimization Algorithmのハイブリッドを用いたメタヒューリスティックスを活用する。 最後に、2つの分類器の出力を組み合わせるためにスコアレベルの融合戦略を実装し、堅牢で正確なマルチモーダルバイオメトリック認識システムを提供する。 システムの性能は、精度、検出誤差トレードオフ(DET)曲線、EER(Equal Error Rate)曲線、およびトータルトレーニング時間に基づいて評価される。 CASIA Palmprint、MMU、BMPD、IITデータセットでテストされたマルチモーダル認識アーキテクチャは、100%の認識精度を実現し、不定形虹彩およびパームプリント識別アプローチを上回っている。

Biometric recognition technology has witnessed widespread integration into daily life due to the growing emphasis on information security. In this domain, multimodal biometrics, which combines multiple biometric traits, has overcome limitations found in unimodal systems like susceptibility to spoof attacks or failure to adapt to changes over time. This paper proposes a novel multimodal biometric recognition system that utilizes deep learning algorithms using iris and palmprint modalities. A pioneering approach is introduced, beginning with the implementation of the novel Modified Firefly Algorithm with L\'evy Flights (MFALF) to optimize the Contrast Limited Adaptive Histogram Equalization (CLAHE) algorithm, thereby effectively enhancing image contrast. Subsequently, feature selection is carried out through a unique hybrid of ReliefF and Moth Flame Optimization (MFOR) to extract informative features. For classification, we employ a parallel approach, first introducing a novel Preactivated Inverted ResNet (PIR) architecture, and secondly, harnessing metaheuristics with hybrid of innovative Johnson Flower Pollination Algorithm and Rainfall Optimization Algorithm for fine tuning of the learning rate and dropout parameters of Transfer Learning based DenseNet architecture (JFPA-ROA). Finally, a score-level fusion strategy is implemented to combine the outputs of the two classifiers, providing a robust and accurate multimodal biometric recognition system. The system's performance is assessed based on accuracy, Detection Error Tradeoff (DET) Curve, Equal Error Rate (EER), and Total Training time. The proposed multimodal recognition architecture, tested across CASIA Palmprint, MMU, BMPD, and IIT datasets, achieves 100% recognition accuracy, outperforming unimodal iris and palmprint identification approaches.
翻訳日:2024-07-08 19:51:01 公開日:2024-07-03
# Agent Instruct: エージェントフローによる生成教育を目指して

AgentInstruct: Toward Generative Teaching with Agentic Flows ( http://arxiv.org/abs/2407.03502v1 )

ライセンス: Link先を確認
Arindam Mitra, Luciano Del Corro, Guoqing Zheng, Shweti Mahajan, Dany Rouhana, Andres Codas, Yadong Lu, Wei-ge Chen, Olga Vrousgos, Corby Rosset, Fillipe Silva, Hamed Khanpour, Yash Lara, Ahmed Awadallah, (参考訳) 合成データは、大小を問わず、言語モデルの開発を加速する上で、ますます重要になりつつある。 いくつかのユースケースが成功したにも拘わらず、研究者はモデル崩壊と他のモデルを模倣する欠点について懸念を提起した。 この相違は、合成データが品質と多様性に異なるという事実に起因している。 合成データの効果的な利用は通常、データのキュレーションに多大な人的努力を必要とする。 ポストトレーニングに合成データを使うことに重点を置いており、特に強力なモデルによってデータを作成し、新しいスキルや振る舞いを他のモデルに教えることに重点を置いており、この設定を生成指導と呼ぶ。 本稿では,多種多様な高品質な合成データを自動生成する拡張可能なエージェントフレームワークであるAgentInstructを紹介する。 AgentInstructは、テキストドキュメントやコードファイルなどの生のデータソースのみをシードとして、プロンプトとレスポンスの両方を作成することができる。 テキスト編集,創造的執筆,ツール使用,コーディング,理解の理解など,さまざまなスキルを学習するための,2500万対のポストトレーニングデータセットを作成することで,AgentInstructの有用性を実証する。 データセットは、任意のベースモデルのインストラクションチューニングに使用することができる。 我々はデータを用いてMistral-7bの訓練を行った。 Orca-3をMistral-7b-Instruct(同じベースモデルを使っている)と比較すると、多くのベンチマークで大幅な改善が見られた。 例えば、AGIEvalが40%、MMLUが19%、GSM8Kが54%、BBHが38%、AlpacaEvalが45%改善した。 加えて、LLAMA-8BインストラクションやGPT-3.5-turboなど、他のモデルよりも一貫して優れている。

Synthetic data is becoming increasingly important for accelerating the development of language models, both large and small. Despite several successful use cases, researchers also raised concerns around model collapse and drawbacks of imitating other models. This discrepancy can be attributed to the fact that synthetic data varies in quality and diversity. Effective use of synthetic data usually requires significant human effort in curating the data. We focus on using synthetic data for post-training, specifically creating data by powerful models to teach a new skill or behavior to another model, we refer to this setting as Generative Teaching. We introduce AgentInstruct, an extensible agentic framework for automatically creating large amounts of diverse and high-quality synthetic data. AgentInstruct can create both the prompts and responses, using only raw data sources like text documents and code files as seeds. We demonstrate the utility of AgentInstruct by creating a post training dataset of 25M pairs to teach language models different skills, such as text editing, creative writing, tool usage, coding, reading comprehension, etc. The dataset can be used for instruction tuning of any base model. We post-train Mistral-7b with the data. When comparing the resulting model Orca-3 to Mistral-7b-Instruct (which uses the same base model), we observe significant improvements across many benchmarks. For example, 40% improvement on AGIEval, 19% improvement on MMLU, 54% improvement on GSM8K, 38% improvement on BBH and 45% improvement on AlpacaEval. Additionally, it consistently outperforms other models such as LLAMA-8B-instruct and GPT-3.5-turbo.
翻訳日:2024-07-08 19:51:01 公開日:2024-07-03
# AntibotV:Vehicular Networksにおけるボットネット検出のためのマルチレベル行動ベースフレームワーク

AntibotV: A Multilevel Behaviour-based Framework for Botnets Detection in Vehicular Networks ( http://arxiv.org/abs/2407.03506v1 )

ライセンス: Link先を確認
Rabah Rahal, Abdelaziz Amara Korba, Nacira Ghoualmi-Zine, Yacine Challal, Mohamed Yacine Ghamri-Doudane, (参考訳) 連結車両は個人および民間車両および公共交通機関の車両の安全性と効率性を提供する。 しかし、車両に情報と通信技術を搭載すると、プライバシとセキュリティの懸念が高まり、ユーザーのデータと生活を著しく脅かす。 ボットマルウェアを使用すると、ハッカーは車両を侵入して遠隔操作し、例えば、故障を無効にしたり、エンジンを遠隔操作できる。 本稿では,本文献に存在する車内攻撃に加えて,車内状況,WSMP-Flood,Geo-WSMP Floodに特有のゼロデイボット攻撃についても検討する。 次に,車載ネットワークにおける車載ボットネット検出のためのマルチレベル動作ベースフレームワークであるAntibotVを提案する。 提案するフレームワークは,攻撃検知のための2つの主要モジュールを結合し,第1のモジュールはネットワークレベルで車両の活動をモニタし,第2のモジュールは車内活動をモニタする。 2つの侵入検知モジュールは歴史的ネットワークと意思決定木アルゴリズムを用いた車内通信で訓練されている。 実験の結果,提案手法は既存手法よりも優れており,検出率は97%以上であり,偽陽性率は0.14%以下であることがわかった。

Connected cars offer safety and efficiency for both individuals and fleets of private vehicles and public transportation companies. However, equipping vehicles with information and communication technologies raises privacy and security concerns, which significantly threaten the user's data and life. Using bot malware, a hacker may compromise a vehicle and control it remotely, for instance, he can disable breaks or start the engine remotely. In this paper, besides in-vehicle attacks existing in the literature, we consider new zeroday bot malware attacks specific to the vehicular context, WSMP-Flood, and Geo-WSMP Flood. Then, we propose AntibotV, a multilevel behaviour-based framework for vehicular botnets detection in vehicular networks. The proposed framework combines two main modules for attack detection, the first one monitors the vehicle's activity at the network level, whereas the second one monitors the in-vehicle activity. The two intrusion detection modules have been trained on a historical network and in-vehicle communication using decision tree algorithms. The experimental results showed that the proposed framework outperforms existing solutions, it achieves a detection rate higher than 97% and a false positive rate lower than 0.14%.
翻訳日:2024-07-08 19:51:01 公開日:2024-07-03
# Sボックス生成への進化的アプローチ:対称暗号における非線形置換の最適化

Evolutionary Approach to S-box Generation: Optimizing Nonlinear Substitutions in Symmetric Ciphers ( http://arxiv.org/abs/2407.03510v1 )

ライセンス: Link先を確認
Oleksandr Kuznetsov, Nikolay Poluyanenko, Emanuele Frontoni, Marco Arnesano, Oleksii Smirnov, (参考訳) 本研究では,対称鍵暗号における非線形置換箱(Sボックス)生成における遺伝的アルゴリズムの適用について検討した。 本稿では,遺伝的アルゴリズムとWalsh-Hadamard Spectrum (WHS)コスト関数を組み合わせることで,非線形性104。 提案手法は, 平均49,399回, 100%の成功率で, 最もよく知られた手法と同等の性能を実現する。 この研究は、この分野での初期の遺伝的アルゴリズムの実装よりも顕著な改善を示し、イテレーションの回数を桁違いに減らした。 異なるアルゴリズムアプローチで同等のパフォーマンスを実現することで、我々の研究は、暗号学者に利用可能なツールキットを拡張し、暗号プリミティブ生成における遺伝的手法の可能性を強調します。 遺伝的アルゴリズムの適応性と並列化の可能性は、将来のSボックス生成への道のりを示唆しており、より堅牢で効率的で革新的な暗号システムに繋がる可能性がある。 我々の発見は、セキュアな通信システムの重要なコンポーネントを最適化するための新たな視点を提供する、対称鍵暗号の進化に寄与する。

This study explores the application of genetic algorithms in generating highly nonlinear substitution boxes (S-boxes) for symmetric key cryptography. We present a novel implementation that combines a genetic algorithm with the Walsh-Hadamard Spectrum (WHS) cost function to produce 8x8 S-boxes with a nonlinearity of 104. Our approach achieves performance parity with the best-known methods, requiring an average of 49,399 iterations with a 100% success rate. The study demonstrates significant improvements over earlier genetic algorithm implementations in this field, reducing iteration counts by orders of magnitude. By achieving equivalent performance through a different algorithmic approach, our work expands the toolkit available to cryptographers and highlights the potential of genetic methods in cryptographic primitive generation. The adaptability and parallelization potential of genetic algorithms suggest promising avenues for future research in S-box generation, potentially leading to more robust, efficient, and innovative cryptographic systems. Our findings contribute to the ongoing evolution of symmetric key cryptography, offering new perspectives on optimizing critical components of secure communication systems.
翻訳日:2024-07-08 19:51:01 公開日:2024-07-03
# ブロックチェーンアプリケーションにおける暗号化ハッシュ検証のためのスケーラブルゼロ知識証明

Scalable Zero-Knowledge Proofs for Verifying Cryptographic Hashing in Blockchain Applications ( http://arxiv.org/abs/2407.03511v1 )

ライセンス: Link先を確認
Oleksandr Kuznetsov, Anton Yezhov, Vladyslav Yusiuk, Kateryna Kuznetsova, (参考訳) ゼロ知識証明(ZKP)は、現代のブロックチェーンシステムのスケーラビリティ問題に対処するための、有望なソリューションとして登場した。 本研究では,暗号ハッシュの計算完全性を保証するため,特にSHA-256アルゴリズムに着目したZKPの生成と検証を行う手法を提案する。 PLONKプロトコルをFRIコミットメントスキームで実装したPlonky2フレームワークを利用することで、NEARブロックチェーンのランダムデータブロックと実データブロックの両方に対するアプローチの効率性とスケーラビリティを実証する。 実験の結果,異なるデータサイズと型で一貫した性能を示し,検証と検証に要する時間は許容範囲内に留まった。 生成された回路と証明は、多数のトランザクションを持つ現実世界のデータブロックであっても、管理可能なサイズを維持している。 提案手法はセキュアで信頼性の高いブロックチェーンシステムの開発に寄与し、基礎となるデータを明らかにすることなく、計算の完全性を検証することができる。 さらなる研究は、他の暗号プリミティブへのアプローチの適用性を評価し、より複雑な実世界のシナリオでそのパフォーマンスを評価するために必要である。

Zero-knowledge proofs (ZKPs) have emerged as a promising solution to address the scalability challenges in modern blockchain systems. This study proposes a methodology for generating and verifying ZKPs to ensure the computational integrity of cryptographic hashing, specifically focusing on the SHA-256 algorithm. By leveraging the Plonky2 framework, which implements the PLONK protocol with FRI commitment scheme, we demonstrate the efficiency and scalability of our approach for both random data and real data blocks from the NEAR blockchain. The experimental results show consistent performance across different data sizes and types, with the time required for proof generation and verification remaining within acceptable limits. The generated circuits and proofs maintain manageable sizes, even for real-world data blocks with a large number of transactions. The proposed methodology contributes to the development of secure and trustworthy blockchain systems, where the integrity of computations can be verified without revealing the underlying data. Further research is needed to assess the applicability of the approach to other cryptographic primitives and to evaluate its performance in more complex real-world scenarios.
翻訳日:2024-07-08 19:51:01 公開日:2024-07-03
# 意識に基づく音声スポフ検出のためのコントラスト学習に向けて

Towards Attention-based Contrastive Learning for Audio Spoof Detection ( http://arxiv.org/abs/2407.03514v1 )

ライセンス: Link先を確認
Chirag Goel, Surya Koppisetti, Ben Colman, Ali Shahriyari, Gaurav Bharaj, (参考訳) 視覚変換器 (ViT) はコンピュータビジョンにおける分類タスクに大きく進歩している。 Gongらは最近、いくつかの音声タスクの注意に基づくモデリングを導入した。 しかし、比較的探索されていないのは、オーディオスプーフ検出タスクにViTを使用することである。 このギャップを埋めて、このタスクにViTを導入します。 SSAST(Gong et al '22)オーディオViTモデルを微調整したバニラベースラインは、準最適等誤差率(EER)を達成する。 性能向上のために,クロスアテンションを用いて表現学習を支援する新しいアテンションベースコントラスト学習フレームワーク(SSAST-CL)を提案する。 実験の結果、我々のフレームワークは、bonafideクラスとspoofクラスをうまく切り離し、タスクのためのより良い分類器を学ぶのに役立ちます。 適切なデータ拡張ポリシでは、当社のフレームワークでトレーニングされたモデルが、ASVSpoof 2021チャレンジで競合するパフォーマンスを達成する。 我々は、我々の主張を正当化するために比較とアブレーション研究を提供する。

Vision transformers (ViT) have made substantial progress for classification tasks in computer vision. Recently, Gong et. al. '21, introduced attention-based modeling for several audio tasks. However, relatively unexplored is the use of a ViT for audio spoof detection task. We bridge this gap and introduce ViTs for this task. A vanilla baseline built on fine-tuning the SSAST (Gong et. al. '22) audio ViT model achieves sub-optimal equal error rates (EERs). To improve performance, we propose a novel attention-based contrastive learning framework (SSAST-CL) that uses cross-attention to aid the representation learning. Experiments show that our framework successfully disentangles the bonafide and spoof classes and helps learn better classifiers for the task. With appropriate data augmentations policy, a model trained on our framework achieves competitive performance on the ASVSpoof 2021 challenge. We provide comparisons and ablation studies to justify our claim.
翻訳日:2024-07-08 19:51:01 公開日:2024-07-03
# 木組における決定の特色係数

Feature-Specific Coefficients of Determination in Tree Ensembles ( http://arxiv.org/abs/2407.03515v1 )

ライセンス: Link先を確認
Zhongli Jiang, Dabao Zhang, Min Zhang, (参考訳) ツリーアンサンブル法は、解釈が難しいモデルで予測を期待できる。 最近のShapley値の導入は、予測された値に対する高速な計算アルゴリズムを伴って、興味をそそる結果を示している。 しかしながら、各特徴に対する決定係数、いわゆる$R^2$は、下層の二次的損失によって挑戦されるが、これらの係数は、単特徴のツリーアンサンブルへの寄与を相対的に評価することができる。 本稿では,2次損失に関連するShapley値を計算する際に,計算複雑性を多項式時間に短縮する効率的なアルゴリズムQ-SHAPを提案する。 本研究は,本手法が計算効率を高めるだけでなく,特徴特異的な決定係数の推定精度を向上させることを実証する。

Tree ensemble methods provide promising predictions with models difficult to interpret. Recent introduction of Shapley values for individualized feature contributions, accompanied with several fast computing algorithms for predicted values, shows intriguing results. However, individualizing coefficients of determination, aka $R^2$, for each feature is challenged by the underlying quadratic losses, although these coefficients allow us to comparatively assess single feature's contribution to tree ensembles. Here we propose an efficient algorithm, Q-SHAP, that reduces the computational complexity to polynomial time when calculating Shapley values related to quadratic losses. Our extensive simulation studies demonstrate that this approach not only enhances computational efficiency but also improves estimation accuracy of feature-specific coefficients of determination.
翻訳日:2024-07-08 19:51:01 公開日:2024-07-03
# 慣用翻訳におけるLLM能力の向上

Improving LLM Abilities in Idiomatic Translation ( http://arxiv.org/abs/2407.03518v1 )

ライセンス: Link先を確認
Sundesh Donthi, Maximilian Spencer, Om Patel, Joon Doh, Eid Rodan, (参考訳) NLLBやGPTのような大きな言語モデル(LLM)では、イディオムの翻訳は依然として困難である。 我々のゴールは、本来の言語スタイルを保ちながら、慣用的な言語のLLM処理を改善することで、翻訳の忠実性を高めることである。 これは、文化的なニュアンスを維持し、翻訳されたテキストがその意図と感情的共鳴を維持し、より優れた文化的なコミュニケーションを育むことを保証するため、大きな社会的影響を持つ。 これまでの研究は、翻訳に使用する慣用句の意味をLLMに提供することで、IdiomKBのような知識ベースを利用してきた。 この手法は直接翻訳よりも優れた結果を得たが、言語間で慣用的な書体を維持する能力は依然として限られている。 本研究では,対象言語に対応するイディオムを見つけるために,知識ベースを拡大する。 本研究は,2つの手法を用いて翻訳を行う。第1の方法はSentence Transformersモデルを用いて,原語と対象言語のイディオムの意味のコサイン類似度スコアを意味的に生成し,最適なイディオムを選択する(コサイン類似度法)。 第2の方法は、LLM生成イディオム法(LLM生成イディオム法)において、対象言語で対応するイディオムを見つけるためにLLMを使用する。 ベースラインとして、追加情報を提供しずに直接翻訳を行った。 英語・中国語・中国語の人的評価は,すべてのGPT4o翻訳において,コサイン類似性検索法が他より優れていたことを示している。 IdiomKBのさらなる構築のために、Urduイディオムとそれらの翻訳を含む低リソースなUrduデータセットを開発した。 データセットの制限にもかかわらず、Cosine similarity Lookupメソッドは、将来性を示し、言語障壁を克服し、中国語とウルドゥー語における多様な文学作品の探索を可能にする。 コードへのアクセスと実験のレプリケーションについては、https://github.com/ANON13222/ITR)を参照してください。

For large language models (LLMs) like NLLB and GPT, translating idioms remains a challenge. Our goal is to enhance translation fidelity by improving LLM processing of idiomatic language while preserving the original linguistic style. This has a significant social impact, as it preserves cultural nuances and ensures translated texts retain their intent and emotional resonance, fostering better cross-cultural communication. Previous work has utilized knowledge bases like IdiomKB by providing the LLM with the meaning of an idiom to use in translation. Although this method yielded better results than a direct translation, it is still limited in its ability to preserve idiomatic writing style across languages. In this research, we expand upon the knowledge base to find corresponding idioms in the target language. Our research performs translations using two methods: The first method employs the SentenceTransformers model to semantically generate cosine similarity scores between the meanings of the original and target language idioms, selecting the best idiom (Cosine Similarity method). The second method uses an LLM to find a corresponding idiom in the target language for use in the translation (LLM-generated idiom method). As a baseline, we performed a direct translation without providing additional information. Human evaluations on the English -> Chinese, and Chinese -> English show the Cosine Similarity Lookup method out-performed others in all GPT4o translations. To further build upon IdiomKB, we developed a low-resource Urdu dataset containing Urdu idioms and their translations. Despite dataset limitations, the Cosine Similarity Lookup method shows promise, potentially overcoming language barriers and enabling the exploration of diverse literary works in Chinese and Urdu. For access to the code and replication of our experiments, please visit (https://github.com/ANON13222/ITR).
翻訳日:2024-07-08 19:51:01 公開日:2024-07-03
# 高次元マルチモーダル学習モデルのための最適しきい値とアルゴリズム

Optimal thresholds and algorithms for a model of multi-modal learning in high dimensions ( http://arxiv.org/abs/2407.03522v1 )

ライセンス: Link先を確認
Christian Keup, Lenka Zdeborová, (参考訳) 本研究は,高次元単純化モデルにおけるマルチモーダル推論について検討し,モーダルを独立に解析する手法よりも,マルチモーダル推論の性能ゲインを解析的に定量化する。 相関スパイクを持つ2つのノイズデータ行列から潜伏構造を復元するモデルにおいて,ベイズ最適性能と弱い回復しきい値を示す。 本論文は、このモデルに対する近似メッセージパッシング(AMP)アルゴリズムを導出し、関連する状態の進化を通じて高次元限界におけるその性能を特徴付ける。 この分析は、様々な形態の異なる様々な先行と雑音のチャンネルに当てはまる。 AMPの線形化は、広く使われている部分最小二乗法(PLS)や正準相関解析法(CCA)と数値的に比較される。

This work explores multi-modal inference in a high-dimensional simplified model, analytically quantifying the performance gain of multi-modal inference over that of analyzing modalities in isolation. We present the Bayes-optimal performance and weak recovery thresholds in a model where the objective is to recover the latent structures from two noisy data matrices with correlated spikes. The paper derives the approximate message passing (AMP) algorithm for this model and characterizes its performance in the high-dimensional limit via the associated state evolution. The analysis holds for a broad range of priors and noise channels, which can differ across modalities. The linearization of AMP is compared numerically to the widely used partial least squares (PLS) and canonical correlation analysis (CCA) methods, which are both observed to suffer from a sub-optimal recovery threshold.
翻訳日:2024-07-08 19:51:01 公開日:2024-07-03
# ディープニューラルネットワークを用いた多カテゴリージェット画像分類フレームワーク

A multicategory jet image classification framework using deep neural network ( http://arxiv.org/abs/2407.03524v1 )

ライセンス: Link先を確認
Jairo Orozco Sandoval, Vidya Manian, Sudhir Malik, (参考訳) ジェットポイントクラウド画像は、単純な決定境界で区別するために、機械学習アルゴリズムのために分離可能な機能空間に変換する必要がある高次元データ構造である。 本稿では, 粒子とジェットの特徴抽出によるジェットカテゴリー分離性に着目し, より効率的な深層ニューラルネットワークの訓練を行い, ジェット分類のための計算効率の良い解釈可能なモデルを構築した。 この手法はJetNetベンチマークジェットタグデータセットから3~5カテゴリのジェットを用いて試験され、結果として粒子フローネットワークに匹敵する性能が得られた。 この研究は、分離可能な潜在空間で表される高次元データセットがジェット分類のためのより単純なアーキテクチャをもたらすことを示した。

Jet point cloud images are high dimensional data structures that needs to be transformed to a separable feature space for machine learning algorithms to distinguish them with simple decision boundaries. In this article, the authors focus on jet category separability by particle and jet feature extraction, resulting in more efficient training of a simple deep neural network, resulting in a computational efficient interpretable model for jet classification. The methodology is tested with three to five categories of jets from the JetNet benchmark jet tagging dataset, resulting in comparable performance to particle flow network. This work demonstrates that high dimensional datasets represented in separable latent spaces lead to simpler architectures for jet classification.
翻訳日:2024-07-08 19:41:16 公開日:2024-07-03
# UnSeenTimeQA: タイムセンシティブな質問-LLMの記憶を超えた回答

UnSeenTimeQA: Time-Sensitive Question-Answering Beyond LLMs' Memorization ( http://arxiv.org/abs/2407.03525v1 )

ライセンス: Link先を確認
Md Nayem Uddin, Amir Saeidi, Divij Handa, Agastya Seth, Tran Cao Son, Eduardo Blanco, Steven R. Corman, Chitta Baral, (参考訳) 本稿では,従来のTSQAベンチマークから切り離して,実時間およびWeb検索可能なクエリを回避した新しいTSQAベンチマークであるUnSeenTimeQAを紹介する。 実世界の事実情報から切り離された一連の時間に敏感なイベントシナリオを提示する。 大きな言語モデル(LLM)が真の時間的推論に携わる必要があり、事前学習の段階で得られた知識とは無関係である。 我々は,UnSeenTimeQA の6つのオープンソース LLM (サイズ2Bから70B) と3つのクローズドソース LLM の評価を行った。 これは、複雑な時間的推論シナリオを扱う上で、モデルが困難であることを示している。 さらに、時間に敏感な質問に答えるために、モデルの性能に光を当てるいくつかの分析結果を示す。

This paper introduces UnSeenTimeQA, a novel time-sensitive question-answering (TSQA) benchmark that diverges from traditional TSQA benchmarks by avoiding factual and web-searchable queries. We present a series of time-sensitive event scenarios decoupled from real-world factual information. It requires large language models (LLMs) to engage in genuine temporal reasoning, disassociating from the knowledge acquired during the pre-training phase. Our evaluation of six open-source LLMs (ranging from 2B to 70B in size) and three closed-source LLMs reveal that the questions from the UnSeenTimeQA present substantial challenges. This indicates the models' difficulties in handling complex temporal reasoning scenarios. Additionally, we present several analyses shedding light on the models' performance in answering time-sensitive questions.
翻訳日:2024-07-08 19:41:16 公開日:2024-07-03
# BVI-RLV: フル登録データセットと低照度ビデオ強調のためのベンチマーク

BVI-RLV: A Fully Registered Dataset and Benchmarks for Low-Light Video Enhancement ( http://arxiv.org/abs/2407.03535v1 )

ライセンス: Link先を確認
Ruirui Lin, Nantheera Anantrasirichai, Guoxi Huang, Joanne Lin, Qi Sun, Alexandra Malyugina, David R Bull, (参考訳) 低照度ビデオはしばしば時空間的不整合ノイズを示し、コンピュータビジョンアプリケーションにおける可視性と性能を損なう。 このようなコンテンツをディープラーニングで強化する上で重要な課題のひとつは、トレーニングデータの不足である。 本稿では,2つの異なる低照度条件下での様々な動きシナリオを持つ40のシーンからなる,新しい低照度映像データセットを提案する。 我々は、プログラム可能なモータードリーを用いて、通常の光で捉えた完全に登録された地上真実データを提供し、異なる光レベルにわたる画素ワイドフレームアライメントのための画像ベースアプローチによりそれを洗練する。 畳み込みニューラルネットワーク、トランスフォーマー、拡散モデル、状態空間モデル(mamba)の4つの異なる技術に基づくベンチマークを提供する。 実験の結果,Low-light Video enhancement (LLVE) における完全登録ビデオペアの重要性が示された。 私たちのデータセットとベンチマークへのリンクはhttps://doi.org/10.21227/mzny-8c77で公開されています。

Low-light videos often exhibit spatiotemporal incoherent noise, compromising visibility and performance in computer vision applications. One significant challenge in enhancing such content using deep learning is the scarcity of training data. This paper introduces a novel low-light video dataset, consisting of 40 scenes with various motion scenarios under two distinct low-lighting conditions, incorporating genuine noise and temporal artifacts. We provide fully registered ground truth data captured in normal light using a programmable motorized dolly and refine it via an image-based approach for pixel-wise frame alignment across different light levels. We provide benchmarks based on four different technologies: convolutional neural networks, transformers, diffusion models, and state space models (mamba). Our experimental results demonstrate the significance of fully registered video pairs for low-light video enhancement (LLVE) and the comprehensive evaluation shows that the models trained with our dataset outperform those trained with the existing datasets. Our dataset and links to benchmarks are publicly available at https://doi.org/10.21227/mzny-8c77.
翻訳日:2024-07-08 19:41:16 公開日:2024-07-03
# バングラ語大言語モデルにおける社会バイアス : ジェンダーと宗教バイアスに関する実証的研究

Social Bias in Large Language Models For Bangla: An Empirical Study on Gender and Religious Bias ( http://arxiv.org/abs/2407.03536v1 )

ライセンス: Link先を確認
Jayanta Sadhu, Maneesha Rani Saha, Rifat Shahriyar, (参考訳) 大規模言語モデル(LLM)の急速な成長は、バイアスの研究を重要な分野として前進させてきた。 LLMに埋め込まれた様々な種類のバイアスの影響を評価することが重要であり、センシティブな分野における公正な利用を保証することが重要である。 英語には偏見評価に関する広範な研究があるが、バングラ語のような主要言語にとって、そのような取り組みは稀で不十分である。 本研究では,LLMが生成するバングラ語に対する2種類の社会的バイアスについて検討する。 本研究の主な貢献は,(1)バングラの2つの異なる社会的バイアスに関するバイアス研究,(2)バイアス測定ベンチマークのための訓練データセット,(3)バングラの文脈における2つの異なるバイアス検出手法のバイアス研究である。 これは、バングラのLLMのバイアス評価を私たちの知識の最大限に活用する、この種の研究としては初めてのものです。 すべてのコードとリソースは、Bangla NLPにおけるバイアス関連研究の進展のために公開されています。

The rapid growth of Large Language Models (LLMs) has put forward the study of biases as a crucial field. It is important to assess the influence of different types of biases embedded in LLMs to ensure fair use in sensitive fields. Although there have been extensive works on bias assessment in English, such efforts are rare and scarce for a major language like Bangla. In this work, we examine two types of social biases in LLM generated outputs for Bangla language. Our main contributions in this work are: (1) bias studies on two different social biases for Bangla (2) a curated dataset for bias measurement benchmarking (3) two different probing techniques for bias detection in the context of Bangla. This is the first work of such kind involving bias assessment of LLMs for Bangla to the best of our knowledge. All our code and resources are publicly available for the progress of bias related research in Bangla NLP.
翻訳日:2024-07-08 19:41:16 公開日:2024-07-03
# Comics Datasets Framework:ベンチマーク検出のためのComicsデータセットの混合

Comics Datasets Framework: Mix of Comics datasets for detection benchmarking ( http://arxiv.org/abs/2407.03540v1 )

ライセンス: Link先を確認
Emanuele Vivoli, Irene Campaioli, Mariateresa Nardoni, Niccolò Biondi, Marco Bertini, Dimosthenis Karatzas, (参考訳) コミックはメディアとして、現実の視覚と異なるスタイルのテキストとイメージを独自に組み合わせている。 過去30年間、コミックの計算研究は、基本的な物体検出からより洗練されたタスクへと進化してきた。 しかしながら、フィールドは、小さなデータセット、一貫性のないアノテーション、アクセシブルモデルウェイト、および様々なトレイン/テストの分割とメトリクスのために直接比較できない結果といった永続的な課題に直面しています。 これらの問題に対処するため、データセット間でアノテーションを標準化し、データセットにさまざまなコミックスタイルを導入し、明確でレプリケート可能な設定でベンチマーク結果を確立することを目的としている。 提案するComics Datasets Frameworkは,データセットアノテーションを共通フォーマットに標準化し,デジタルコミックミュージアムの100冊のキュレートされたコレクションであるComics100を導入することで,マンガの過剰表現に対処する。 Comics Datasets Frameworkを使って、さまざまな検出アーキテクチャをベンチマークしました。 関連するコード、モデルウェイト、詳細な評価プロセスはすべてhttps://github.com/emanuelevivoli/cdfで公開されており、透明性を確保し、レプリケーションを容易にする。 このイニシアチブは、コミックのオブジェクト検出を改善するための重要な進歩であり、より複雑な計算タスクの基盤を正確なオブジェクト認識に依存している。

Comics, as a medium, uniquely combine text and images in styles often distinct from real-world visuals. For the past three decades, computational research on comics has evolved from basic object detection to more sophisticated tasks. However, the field faces persistent challenges such as small datasets, inconsistent annotations, inaccessible model weights, and results that cannot be directly compared due to varying train/test splits and metrics. To address these issues, we aim to standardize annotations across datasets, introduce a variety of comic styles into the datasets, and establish benchmark results with clear, replicable settings. Our proposed Comics Datasets Framework standardizes dataset annotations into a common format and addresses the overrepresentation of manga by introducing Comics100, a curated collection of 100 books from the Digital Comics Museum, annotated for detection in our uniform format. We have benchmarked a variety of detection architectures using the Comics Datasets Framework. All related code, model weights, and detailed evaluation processes are available at https://github.com/emanuelevivoli/cdf, ensuring transparency and facilitating replication. This initiative is a significant advancement towards improving object detection in comics, laying the groundwork for more complex computational tasks dependent on precise object recognition.
翻訳日:2024-07-08 19:41:16 公開日:2024-07-03
# Probing Perfection: Human-AI Collaboration-based Active Learning Method を用いたHRCTからの肺気道分画に対するメドリング法

Probing Perfection: The Relentless Art of Meddling for Pulmonary Airway Segmentation from HRCT via a Human-AI Collaboration Based Active Learning Method ( http://arxiv.org/abs/2407.03542v1 )

ライセンス: Link先を確認
Shiyi Wang, Yang Nan, Sheng Zhang, Federico Felder, Xiaodan Xing, Yingying Fang, Javier Del Ser, Simon L F Walsh, Guang Yang, (参考訳) 肺気管セグメンテーションでは,アノテートデータの不足が医学的セグメンテーションにおいて大きな問題となっている。 さらに、Deep Learning(DL)メソッドは、'ブラックボックス'モデルの不透明さとパフォーマンス向上の必要性という課題に直面している。 我々のHCIベースのモデル(RS_UNet、LC_UNet、UUNet、WD_UNet)は、様々なDLモデルと多様なクエリ戦略を組み合わせることでこれらの課題に対処する。 1) クエリ戦略: HCIモデルは、各イテレーションにラベル付けされたときに最も追加の代表的な情報を提供するサンプルを選択し、Wasserstein Distance、Last Confidence、Entropy Sampling、Random Samplingを使って、最も予測上の相違点のあるラベル付けされていないサンプルを識別する。 2) 中央線補正: 各訓練ラウンドにおいて, システム生成気管中央線を専門的に補正するために, 選択標本を用いる。 (3) 更新トレーニングデータセット: 各DLモデルのトレーニングエポック後のトレーニングデータセットを更新し、モデルの信頼性とパフォーマンスを高める。 (4) モデルトレーニング: HCIモデルは更新データセットと拡張されたUNetバージョンを使用してトレーニングされる。 WD-UNet、LC-UNet、UUNet、RS-UNetは、最先端のDLモデルに匹敵する、あるいは優れた性能を発揮することを示す。 特に、WD-UNetはトレーニングデータのわずか15%-35%でこれを達成し、医師のアノテーション時間を65%-85%削減した。

In pulmonary tracheal segmentation, the scarcity of annotated data is a prevalent issue in medical segmentation. Additionally, Deep Learning (DL) methods face challenges: the opacity of 'black box' models and the need for performance enhancement. Our Human-Computer Interaction (HCI) based models (RS_UNet, LC_UNet, UUNet, and WD_UNet) address these challenges by combining diverse query strategies with various DL models. We train four HCI models and repeat these steps: (1) Query Strategy: The HCI models select samples that provide the most additional representative information when labeled in each iteration and identify unlabeled samples with the greatest predictive disparity using Wasserstein Distance, Least Confidence, Entropy Sampling, and Random Sampling. (2) Central line correction: Selected samples are used for expert correction of system-generated tracheal central lines in each training round. (3) Update training dataset: Experts update the training dataset after each DL model's training epoch, enhancing the trustworthiness and performance of the models. (4) Model training: The HCI model is trained using the updated dataset and an enhanced UNet version. Experimental results confirm the effectiveness of these HCI-based approaches, showing that WD-UNet, LC-UNet, UUNet, and RS-UNet achieve comparable or superior performance to state-of-the-art DL models. Notably, WD-UNet achieves this with only 15%-35% of the training data, reducing physician annotation time by 65%-85%.
翻訳日:2024-07-08 19:41:16 公開日:2024-07-03
# PEDDiM: メムプールにおけるDoS防衛のための形式的定義とおそらく安全な設計

PEDDiM: Formal Definitions and Provably Secure Designs for Pre-Execution DoS Defense in Mempools ( http://arxiv.org/abs/2407.03543v1 )

ライセンス: Link先を確認
Wanning Ding, Yibo Wang, Yuzhe Tang, (参考訳) メムプールはブロックチェーンシステムにおいて、実行前にトランザクションを保留するバッファゾーンとして重要な役割を果たす。 しかし、既存の研究は主に、既に特定された現実世界の攻撃に対する防御を緩和することに焦点を当てている。 本稿では,非対称なDoS攻撃に対して防御可能なセキュアなブロックチェーン・メムプール設計を提案する。 我々は,エビクションに基づく攻撃ベクトルの下で,メムプールの正式なセキュリティ定義を確立する。 提案アルゴリズムは, 排除DoS攻撃の実行コストに対して, 証明可能な低境界を提供することにより, 消去セキュリティを確保する。 実際のトランザクショントレースリプレイによる評価を通じて、‘textsc{saferAd-PR}’は、任意の排除攻撃に対する無視可能なレイテンシと極めて低いバウンダリを示し、ブロックチェーンメムプールの安全性と堅牢性を強調している。

The mempool plays a crucial role in blockchain systems as a buffer zone for pending transactions before they are executed and included in a block. However, existing works primarily focus on mitigating defenses against already identified real-world attacks. This paper introduces secure blockchain-mempool designs capable of defending against any form of asymmetric eviction DoS attacks. We establish formal security definitions for mempools under the eviction-based attack vector. Our proposed secure transaction admission algorithm, named \textsc{saferAd-PR}, ensures eviction-security by providing a provable lower bound on the cost of executing eviction DoS attacks. Through evaluation with real transaction trace replays, \textsc{saferAd-PR} demonstrates negligible latency and significantly high lower bounds against any eviction attack, highlighting its effectiveness and robustness in securing blockchain mempools.
翻訳日:2024-07-08 19:41:16 公開日:2024-07-03
# NLPにおけるヒューマンAI意思決定のための説明ユーティリティの評価について

On Evaluating Explanation Utility for Human-AI Decision Making in NLP ( http://arxiv.org/abs/2407.03545v1 )

ライセンス: Link先を確認
Fateme Hashemi Chaleshtori, Atreya Ghosal, Alexander Gill, Purbid Bambroo, Ana Marasović, (参考訳) 説明責任は偽りの約束か? この議論は、説明が人々を助けるという不十分な証拠から生まれた。 これを解決するには、より人間中心のアプリケーション基底による説明の評価が必要である。 しかし、NLPにおけるそのような研究のガイドラインが確立されていないため、標準化されたプロキシ評価に慣れた研究者は、研究において人間とAIチームのための適切な測定、タスク、データセット、および賢明なモデルを見つける必要がある。 これを支援するために、私たちはまず既存のメトリクスを適合させます。 次に、アプリケーション基底評価に適したデータセットの要件を確立します。 NLPで説明可能性研究に利用できる50以上のデータセットのうち、4つは我々の基準を満たしている。 Flan-T5-3Bを微調整することで、人間のAIチームを編成し研究するために最先端の技術を再評価することの重要性を実証する。 最後に,契約に基づく法的請求の正当性を検証した,特定された適切なタスクの1つについて,人間とAIによる意思決定の模範的研究について述べる。

Is explainability a false promise? This debate has emerged from the insufficient evidence that explanations aid people in situations they are introduced for. More human-centered, application-grounded evaluations of explanations are needed to settle this. Yet, with no established guidelines for such studies in NLP, researchers accustomed to standardized proxy evaluations must discover appropriate measurements, tasks, datasets, and sensible models for human-AI teams in their studies. To help with this, we first review fitting existing metrics. We then establish requirements for datasets to be suitable for application-grounded evaluations. Among over 50 datasets available for explainability research in NLP, we find that 4 meet our criteria. By finetuning Flan-T5-3B, we demonstrate the importance of reassessing the state of the art to form and study human-AI teams. Finally, we present the exemplar studies of human-AI decision-making for one of the identified suitable tasks -- verifying the correctness of a legal claim given a contract.
翻訳日:2024-07-08 19:41:16 公開日:2024-07-03
# HiDiff: 医用画像分割のためのハイブリッド拡散フレームワーク

HiDiff: Hybrid Diffusion Framework for Medical Image Segmentation ( http://arxiv.org/abs/2407.03548v1 )

ライセンス: Link先を確認
Tao Chen, Chenhui Wang, Zhihao Chen, Yiming Lei, Hongming Shan, (参考訳) 深層学習(DL)技術の急速な発展に伴い,医用画像のセグメンテーションが著しく進歩した。 既存のDLベースのセグメンテーションモデルは一般的に差別的であり、入力画像からセグメンテーションマスクへのマッピングを学習することを目指している。 しかし,これらの識別法は,不安定な特徴空間に悩まされ,基礎となるデータ分布や固有のクラス特性を無視する。 本研究では,識別的セグメンテーション手法と,生成モデルに基づくデータ分布の知識を補完する手法を提案する。 そこで本研究では,既存の識別的セグメンテーションモデルと新たな生成的拡散モデルの強みを相乗化可能な,医用画像セグメンテーションのためのハイブリッド拡散フレームワークHiDiffを提案する。 HiDiffは、差別的セグメンタと拡散精製器の2つの重要なコンポーネントから構成される。 まず,従来のセグメンテーションモデルを識別セグメンテーションとして利用し,このセグメンテーションマスクを拡散精錬機に使用する。 第2に,拡散精錬機としての新たなバイナリベルヌーイ拡散モデル(BBDM)を提案し,基礎となるデータ分布をモデル化することにより,効果的に,効率的に,インタラクティブにセグメンテーションマスクを改良することができる。 第3に、セグメンタとBBDMを相互に強化するために、相互に協調的に訓練する。 腹部臓器, 脳腫瘍, ポリープ, 網膜血管セグメンテーションデータセットの広範囲にわたる実験結果は, 4つの広く使用されているモダリティを網羅し, 最先端のトランスフォーマーや拡散型セグメンテーションアルゴリズムを含む既存の医療セグメンテーションアルゴリズムよりも優れたハイディフ性能を示した。 さらに、HiDiffは小さなオブジェクトをセグメンテーションし、新しいデータセットに一般化する。 ソースコードはhttps://github.com/takimailto/HiDiff.comで公開されている。

Medical image segmentation has been significantly advanced with the rapid development of deep learning (DL) techniques. Existing DL-based segmentation models are typically discriminative; i.e., they aim to learn a mapping from the input image to segmentation masks. However, these discriminative methods neglect the underlying data distribution and intrinsic class characteristics, suffering from unstable feature space. In this work, we propose to complement discriminative segmentation methods with the knowledge of underlying data distribution from generative models. To that end, we propose a novel hybrid diffusion framework for medical image segmentation, termed HiDiff, which can synergize the strengths of existing discriminative segmentation models and new generative diffusion models. HiDiff comprises two key components: discriminative segmentor and diffusion refiner. First, we utilize any conventional trained segmentation models as discriminative segmentor, which can provide a segmentation mask prior for diffusion refiner. Second, we propose a novel binary Bernoulli diffusion model (BBDM) as the diffusion refiner, which can effectively, efficiently, and interactively refine the segmentation mask by modeling the underlying data distribution. Third, we train the segmentor and BBDM in an alternate-collaborative manner to mutually boost each other. Extensive experimental results on abdomen organ, brain tumor, polyps, and retinal vessels segmentation datasets, covering four widely-used modalities, demonstrate the superior performance of HiDiff over existing medical segmentation algorithms, including the state-of-the-art transformer- and diffusion-based ones. In addition, HiDiff excels at segmenting small objects and generalizing to new datasets. Source codes are made available at https://github.com/takimailto/HiDiff.
翻訳日:2024-07-08 19:41:16 公開日:2024-07-03
# MIA-Bench:マルチモーダルLCMの評価による教育改善に向けて

MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs ( http://arxiv.org/abs/2407.01509v2 )

ライセンス: Link先を確認
Yusu Qian, Hanrong Ye, Jean-Philippe Fauconnier, Peter Grasch, Yinfei Yang, Zhe Gan, (参考訳) MIA-Benchは,マルチモーダルな大規模言語モデル(MLLM)を,複雑な命令に厳密に準拠する能力に基づいて評価するための新しいベンチマークである。 私たちのベンチマークは400のイメージプロンプトペアで構成されており、それぞれが特定の要求されたパターンを満たす正確な応答を生成するために、階層化された命令に対するモデルのコンプライアンスに挑戦するために作られています。 最先端MLLMの幅広い評価結果から, 性能の大幅な変化が明らかとなり, 命令忠実度向上のための領域が強調された。 さらに、余分なトレーニングデータを作成し、教師付き微調整を探索し、他のタスクのパフォーマンスを損なうことなく、モデルが厳格に指示に従う能力を高める。 我々は,このベンチマークがMLLMの指示への付着度を測定するツールとして機能するだけでなく,MLLMトレーニング手法の今後の発展を導くことを願っている。

We introduce MIA-Bench, a new benchmark designed to evaluate multimodal large language models (MLLMs) on their ability to strictly adhere to complex instructions. Our benchmark comprises a diverse set of 400 image-prompt pairs, each crafted to challenge the models' compliance with layered instructions in generating accurate responses that satisfy specific requested patterns. Evaluation results from a wide array of state-of-the-art MLLMs reveal significant variations in performance, highlighting areas for improvement in instruction fidelity. Additionally, we create extra training data and explore supervised fine-tuning to enhance the models' ability to strictly follow instructions without compromising performance on other tasks. We hope this benchmark not only serves as a tool for measuring MLLM adherence to instructions, but also guides future developments in MLLM training methods.
翻訳日:2024-07-08 12:21:54 公開日:2024-07-03
# SAVE:Segment Anything Modelを用いたSegment Audio-Visual Easy Way

SAVE: Segment Audio-Visual Easy way using Segment Anything Model ( http://arxiv.org/abs/2407.02004v2 )

ライセンス: Link先を確認
Khanh-Binh Nguyen, Chae Jung Park, (参考訳) オーディオ・ビジュアル・セグメンテーション(AVS)の主な目的は、ピクセルレベルでのセグメンテーション・マスクを正確に予測することにより、視覚シーン内の聴覚要素を正確に識別し、特定することである。 これを達成するには、このタスクに効果的に対処するために、データとモデルの側面を包括的に考慮する必要がある。 本研究は,AVSタスクに対して,事前訓練されたセグメントアプライスモデル(SAM)を効率的に適応する軽量なアプローチSAVEを提案する。 画像エンコーダアダプタをトランスフォーマブロックに組み込んで、異なるデータセット情報をよりよくキャプチャし、音声特徴をスパースプロンプトとしてエンコードする残差オーディオエンコーダアダプタを提案することにより、符号化段階における効果的なオーディオ-視覚融合と相互作用を実現する。 提案手法は,入力解像度を1024から256ピクセルに削減し,従来のSOTAと比較して高い性能を実現し,トレーニングと推論速度を高速化する。 大規模な実験により,提案手法が他のSOTA法よりも優れていることを示す。 さらに、合成データに事前トレーニングされたモデルを利用することで、実際のAVSBenchデータの性能が向上し、S4(V1S)サブセットで84.59 mIoU、入力画像に256ピクセルしか持たないMS3(V1M)セットで70.28 mIoUが達成される。 これにより、S4(V1S)では86.16 mIoU、MS3(V1M)では70.83 mIoUまで増加し、入力は1024ピクセルである。

The primary aim of Audio-Visual Segmentation (AVS) is to precisely identify and locate auditory elements within visual scenes by accurately predicting segmentation masks at the pixel level. Achieving this involves comprehensively considering data and model aspects to address this task effectively. This study presents a lightweight approach, SAVE, which efficiently adapts the pre-trained segment anything model (SAM) to the AVS task. By incorporating an image encoder adapter into the transformer blocks to better capture the distinct dataset information and proposing a residual audio encoder adapter to encode the audio features as a sparse prompt, our proposed model achieves effective audio-visual fusion and interaction during the encoding stage. Our proposed method accelerates the training and inference speed by reducing the input resolution from 1024 to 256 pixels while achieving higher performance compared with the previous SOTA. Extensive experimentation validates our approach, demonstrating that our proposed model outperforms other SOTA methods significantly. Moreover, leveraging the pre-trained model on synthetic data enhances performance on real AVSBench data, achieving 84.59 mIoU on the S4 (V1S) subset and 70.28 mIoU on the MS3 (V1M) set with only 256 pixels for input images. This increases up to 86.16 mIoU on the S4 (V1S) and 70.83 mIoU on the MS3 (V1M) with inputs of 1024 pixels.
翻訳日:2024-07-08 12:21:54 公開日:2024-07-03
# リッチコンテクスト条件付き拡散モデルによるストーリービジュアライゼーションにおけるブースティング一貫性

Boosting Consistency in Story Visualization with Rich-Contextual Conditional Diffusion Models ( http://arxiv.org/abs/2407.02482v2 )

ライセンス: Link先を確認
Fei Shen, Hu Ye, Sibo Liu, Jun Zhang, Cong Wang, Xiao Han, Wei Yang, (参考訳) 最近の研究では、一貫したストーリーを生成するための条件拡散モデルのかなりの可能性を示している。 しかし, 自己回帰的かつ過剰にキャプションに依存した方法で物語を主に生成する現在の手法は, 逐次生成時のフレームの文脈的一貫性と関連性を低くすることが多い。 そこで本研究では,ストーリ生成のセマンティック一貫性と時間的一貫性を高めるための2段階アプローチであるRich-Contextual Conditional Diffusion Models (RCDMs)を提案する。 具体的には、第1段階では、未知クリップのフレーム意味埋め込みを予測するために、既知のクリップのキャプションとフレーム間のセマンティック相関を整列させることにより、フレーム優先トランスフォーマー拡散モデルを提示する。 第2段階は、既知のクリップの参照画像、未知のクリップの予測フレームセマンティック埋め込み、すべてのキャプションのテキスト埋め込みを含む、リッチなコンテキスト条件を持つロバストモデルを確立する。 画像と特徴レベルでこれらのリッチなコンテキスト条件を共同で注入することで、RCDMは意味的および時間的一貫性のストーリーを生成することができる。 さらに、RCDMは自動回帰モデルと比較して、1つの前方推論で一貫したストーリーを生成することができる。 定性的かつ定量的な結果から,提案したRCDMは難易度の高いシナリオにおいて優れた性能を示した。 コードとモデルはhttps://github.com/muzishen/RCDMsで入手できる。

Recent research showcases the considerable potential of conditional diffusion models for generating consistent stories. However, current methods, which predominantly generate stories in an autoregressive and excessively caption-dependent manner, often underrate the contextual consistency and relevance of frames during sequential generation. To address this, we propose a novel Rich-contextual Conditional Diffusion Models (RCDMs), a two-stage approach designed to enhance story generation's semantic consistency and temporal consistency. Specifically, in the first stage, the frame-prior transformer diffusion model is presented to predict the frame semantic embedding of the unknown clip by aligning the semantic correlations between the captions and frames of the known clip. The second stage establishes a robust model with rich contextual conditions, including reference images of the known clip, the predicted frame semantic embedding of the unknown clip, and text embeddings of all captions. By jointly injecting these rich contextual conditions at the image and feature levels, RCDMs can generate semantic and temporal consistency stories. Moreover, RCDMs can generate consistent stories with a single forward inference compared to autoregressive models. Our qualitative and quantitative results demonstrate that our proposed RCDMs outperform in challenging scenarios. The code and model will be available at https://github.com/muzishen/RCDMs.
翻訳日:2024-07-08 12:21:54 公開日:2024-07-03
# バンドルアプローチにおける文脈性、n-文脈性、ホロノミーの役割

Contextuality in the Bundle Approach, n-Contextuality, and the Role of Holonomy ( http://arxiv.org/abs/2105.14132v4 )

ライセンス: Link先を確認
Sidiney B. Montanhano, (参考訳) 文脈性(Contextuality)は、たとえ局所的な合意があるとしても、モデル全体の一貫した記述を構築することができないと理解することができる。 特に、量子モデルは、この性質を示す。 ここでは、シナリオは単純複素体として表現され、ファイバーは結果の集合であり、文脈性は測度バンドルのグローバルセクションの非存在として表現される。 非有限結果ファイバーへの一般化を用いて測度バンドルの概念を詳細に構築し、バンドル形式に対するファイン・アブラムスキー・ブランデンバーグの定理を実証した。 n-contextuality(n-contextuality)と呼ばれる階層を導入して、モデルの文脈的振る舞いとシナリオのトポロジへの依存性を探る。 これにより、高次ホモロジー群への依存を例示し、GHZモデル、すなわち量子論が階層のすべてのレベルを持つことを示す。 また,シナリオの非自明なトポロジーが文脈行動の増加をもたらすことを示す。 階層の最初のレベルでは、測度バンドルに対するマルコフ作用素を通して接続の概念を構築する。 等繊維の場合、接続から抽出された群に従って変換されるベクトル空間の基底として結果を特定することができる。 したがって、文脈性は各フレームバンドル内のホロノミー群の非自明性と関係があることが示される。

Contextuality can be understood as the impossibility to construct a globally consistent description of a model even if there is local agreement. In particular, quantum models present this property. We can describe contextuality with the bundle approach, where the scenario is represented as a simplicial complex, the fibers being the sets of outcomes, and contextuality as the non-existence of global section in the measure bundle. Using the generalization to non-finite outcome fibers, we built in details the concept of measure bundle, demonstrating the Fine-Abramsky-Brandenburger theorem for the bundle formalism. We introduce a hierarchy called n-contextuality to explore the dependence of contextual behavior of a model to the topology of the scenario, following the construction of it as a simplicial complex. With it we exemplify the dependence on higher homology groups and show that GHZ models, thus quantum theory, has all levels of the hierarchy. Also, we give an example of how non-trivial topology of the scenario result an increase of contextual behavior. For the first level of the hierarchy, we construct the concept of connection through Markov operators for the measure bundle. Taking the case of equal fibers we can identify the outcomes as the basis of a vector space, that transform according to a group extracted from the connection. We thus show that contextuality has a relationship with the non-triviality of the holonomy group in the respective frame bundle.
翻訳日:2024-07-04 22:56:23 公開日:2024-07-03
# 文脈の微分幾何学

Differential Geometry of Contextuality ( http://arxiv.org/abs/2202.08719v2 )

ライセンス: Link先を確認
Sidiney B. Montanhano, (参考訳) 文脈性は、長い間トポロジカルな性質と関連付けられてきた。 この研究において、そのような関係は一般化された文脈性というより広い枠組みにおける識別に高められる。 ベクトル空間における状態、効果、変換をベクトルとし、それらを接空間にエンコードし、離散閉経路が付値におけるヌル位相を暗示する一般的な条件を非コンテキスト条件で表す。 文脈的行動は、この形式主義において2つの等価な解釈を認める。 幾何学的あるいは本質的実在論的な見解では、平面空間は「Schr\」と呼ばれ、電磁テンソルに類似した確率関数の非自明なホロノミーとして表される。 評価関数の修正として、同値な曲率を用いて、干渉、非可換性、署名された測度と文脈性を結びつける。 評定関数は古典的な測度公理を満たさなければならず、結果として事象の位相的欠陥で表わさなければならない文脈的振舞いが生じ、非自明なモノドロミーをもたらす。 このような欠陥を利用して、文脈性と非埋め込み性(英語版)を結びつけるとともに、一般化されたボロブエフの定理、すなわち非コンテキスト性の不必然性に関する結果を構築する。 このフォーマリズムでは、結果決定論を持つモデルに対する文脈的分節と、存在論的モデルの乱れに対処する経路を非自明な遷移写像として同定する。 また、文脈性を符号化する2つの視点が量子論の解釈とどのように関連しているかについても論じる。

Contextuality has long been associated with topological properties. In this work, such a relationship is elevated to identification in the broader framework of generalized contextuality. We employ the usual identification of states, effects, and transformations as vectors in a vector space and encode them into a tangent space, rendering the noncontextual conditions the generic condition that discrete closed paths imply null phases in valuations, which are immediately extended to the continuous case. Contextual behavior admits two equivalent interpretations in this formalism. In the geometric or intrinsic-realistic view, termed "Schr\"odinger", flat space is imposed, leading to contextual behavior being expressed as non-trivial holonomy of probabilistic functions, analogous to the electromagnetic tensor. As a modification of the valuation function, we use the equivalent curvature to connect contextuality with interference, noncommutativity, and signed measures. In the topological or participatory-realistic view, termed "Heisenberg", valuation functions must satisfy classical measure axioms, resulting in contextual behavior needing to be expressed in topological defects in events, resulting in non-trivial monodromy. We utilize such defects to connect contextuality with non-embeddability and to construct a generalized Vorob'ev theorem, a result regarding the inevitability of noncontextuality. We identify in this formalism the contextual fraction for models with outcome-determinism, and a pathway to address disturbance in ontological models as non-trivial transition maps. We also discuss how the two views for encoding contextuality relate to interpretations of quantum theory.
翻訳日:2024-07-04 21:02:45 公開日:2024-07-03
# 任意のプロファイルを持つパーフェクトラゲール・ガウスビームの生成とキャラクタリゼーション

Generation and characterization of customized perfect Laguerre-Gaussian beams with arbitrary profiles ( http://arxiv.org/abs/2202.10692v2 )

ライセンス: Link先を確認
Chengyuan Wang, Yun Chen, Jinwen Wang, Xin Yang, Hong Gao, Fuli Li, (参考訳) 所望の曲線の周囲に最大強度が局在するパーフェクトラゲール・ガウスビーム(PLG)の発生を実験的に実証した。 原理は、PSGビームの角スペクトルに適切な代数関数を作用させることである。 我々はこれらのビームの伝搬特性を特徴付け、同じ強度プロファイルを持つ非回折因果ビームと比較する。 その結果、カスタマイズされたPLGビームは伝搬中にそのプロファイルを維持でき、非回折因果ビームよりもエネルギー損失が小さく、したがってより長い距離を伝播できることがわかった。 この新しい構造ビームは、光学通信、ソリトンルーティングとステアリング、光学的ツイーズとトラップ、原子光学などの分野に応用される可能性がある。

We experimentally demonstrate the generation of customized perfect Laguerre-Gaussian (PLG) beams whose intensity maxima localized around any desired curves. The principle is to act appropriate algebraic functions on the angular spectra of PLG beams. We characterize the propagation properties of these beams and compare them with non-diffraction caustic beams possessing the same intensity profiles. The results manifest that the customized-PLG beams can maintain their profiles during propagation and suffer less energy loss than the non-diffraction caustic beams, and hence are able to propagate a longer distance. This new structure beam would have potential applications in areas such as optical communication, soliton routing and steering, optical tweezing and trapping, atom optics, etc.
翻訳日:2024-07-04 21:02:45 公開日:2024-07-03
# 教示理解のための教示マニュアルからの学習行動条件

Learning Action Conditions from Instructional Manuals for Instruction Understanding ( http://arxiv.org/abs/2205.12420v2 )

ライセンス: Link先を確認
Te-Lin Wu, Caiqi Zhang, Qingyuan Hu, Alex Spangher, Nanyun Peng, (参考訳) アクションの事前条件と事後条件を推測する能力は、複雑な命令を解釈するのに不可欠であり、自律的な命令誘導エージェントや人間の物理的タスクの実行を支援する補助AIなどのアプリケーションに必須である。 本研究では,行動条件推論と呼ばれるタスクを提案し,命令マニュアルにおける行動の前提条件と後条件の高品質なアノテートされたデータセットを収集する。 本稿では,オンライン指導マニュアルから大規模トレーニングインスタンスを自動構築する弱い教師付きアプローチを提案し,人間に注釈を付けて検証したデータセットをキュレートし,現在のNLPモデルが命令テキストの動作条件依存性をいかに推測できるかを検証した。 我々は、文脈化された情報とグローバルな情報が活用されるか、弱い監督を構築するためのヒューリスティックの様々な組み合わせによって異なる2種類のモデルを設計する。 提案したヒューリスティックスでは,F1スコアが20%向上し,F1スコアが6%向上した。

The ability to infer pre- and postconditions of an action is vital for comprehending complex instructions, and is essential for applications such as autonomous instruction-guided agents and assistive AI that supports humans to perform physical tasks. In this work, we propose a task dubbed action condition inference, and collecting a high-quality, human annotated dataset of preconditions and postconditions of actions in instructional manuals. We propose a weakly supervised approach to automatically construct large-scale training instances from online instructional manuals, and curate a densely human-annotated and validated dataset to study how well the current NLP models can infer action-condition dependencies in the instruction texts. We design two types of models differ by whether contextualized and global information is leveraged, as well as various combinations of heuristics to construct the weak supervisions. Our experimental results show a >20% F1-score improvement with considering the entire instruction contexts and a >6% F1-score benefit with the proposed heuristics.
翻訳日:2024-07-04 21:02:45 公開日:2024-07-03
# リカレントスタイルGANベースジェネレータによる言語誘導顔アニメーション

Language-Guided Face Animation by Recurrent StyleGAN-based Generator ( http://arxiv.org/abs/2208.05617v2 )

ライセンス: Link先を確認
Tiankai Hang, Huan Yang, Bei Liu, Jianlong Fu, Xin Geng, Baining Guo, (参考訳) 言語誘導画像操作に関する最近の研究は、特に顔画像において、リッチなセマンティクスを提供する上で、言語の大きな力を示している。 しかし、他の自然情報、動き、言語での探索は少ない。 本稿では,動き情報を活用し,静的な顔画像のアニメーション化を目的とした言語誘導型顔画像の新たな課題について検討する。 言語からのセマンティクスと動作の両面をよりよく活用するために,我々はシンプルで効果的なフレームワークを提案する。 具体的には、言語から一連の意味情報と動き情報を抽出し、学習済みのStyleGANに視覚情報と共に供給し、高品質なフレームを生成するための繰り返し動作生成器を提案する。 提案手法を最適化するために,顔の同一性を維持するための正規化損失,動きの平滑性を確保するための経路長正規化損失,および1つのモデルで様々な言語指導によるビデオ合成を可能にするコントラスト的損失を含む3つの注意深く設計された損失関数を提案する。 人間の顔, アニメ顔, 犬の顔の質的, 定量的な評価を行った実験は, 言語指導による静止画像から高品質でリアルな映像を生成する上で, モデルが優れていることを示すものである。 コードはhttps://github.com/TiankaiHang/ language-guided-animation.gitで入手できる。

Recent works on language-guided image manipulation have shown great power of language in providing rich semantics, especially for face images. However, the other natural information, motions, in language is less explored. In this paper, we leverage the motion information and study a novel task, language-guided face animation, that aims to animate a static face image with the help of languages. To better utilize both semantics and motions from languages, we propose a simple yet effective framework. Specifically, we propose a recurrent motion generator to extract a series of semantic and motion information from the language and feed it along with visual information to a pre-trained StyleGAN to generate high-quality frames. To optimize the proposed framework, three carefully designed loss functions are proposed including a regularization loss to keep the face identity, a path length regularization loss to ensure motion smoothness, and a contrastive loss to enable video synthesis with various language guidance in one single model. Extensive experiments with both qualitative and quantitative evaluations on diverse domains (\textit{e.g.,} human face, anime face, and dog face) demonstrate the superiority of our model in generating high-quality and realistic videos from one still image with the guidance of language. Code will be available at https://github.com/TiankaiHang/language-guided-animation.git.
翻訳日:2024-07-04 21:02:45 公開日:2024-07-03
# 高分解能マルチスペクトル画像を用いた大規模都市環境における個体木検出

Individual Tree Detection in Large-Scale Urban Environments using High-Resolution Multispectral Imagery ( http://arxiv.org/abs/2208.10607v4 )

ライセンス: Link先を確認
Jonathan Ventura, Camille Pawlak, Milo Honsberger, Cameron Gonsalves, Julian Rice, Natalie L. R. Love, Skyler Han, Viet Nguyen, Keilana Sugano, Jacqueline Doremus, G. Andrew Fricker, Jenn Yost, Matt Ritter, (参考訳) 高分解能マルチスペクトル空中画像を用いた都市環境における個々の木検出のための新しい深層学習手法を提案する。 我々は畳み込みニューラルネットワークを用いて、ピーク探索アルゴリズムを用いて局所化された個々の木の位置を示す信頼マップを回帰する。 本手法は,公共空間と私的空間の両方で木を検知し,非常に広い範囲に拡張可能な空間被覆を提供する。 我々は,1500以上の画像と約10万のツリーアノテーションからなる新しいデータセットによって,8都市,6つの気候帯,3つの画像キャプチャー年をカバーし,本手法の徹底的な評価を行った。 南カリフォルニアのデータに基づいてモデルをトレーニングし、73.6%の精度と73.3%のリコールを達成した。 カリフォルニアの他の気候帯への外挿や画像撮影の日時において,ほぼ同様の精度と若干のリコールを観測した。 筆者らは,カリフォルニア州の都市林全体における樹木の分布図の作成にこの手法を用い,カリフォルニアの都会の樹木の総数は約4350万と見積もった。 本研究は、先例のない規模で将来の都市林業研究を支援するためのディープラーニング手法の可能性を示している。

We introduce a novel deep learning method for detection of individual trees in urban environments using high-resolution multispectral aerial imagery. We use a convolutional neural network to regress a confidence map indicating the locations of individual trees, which are localized using a peak finding algorithm. Our method provides complete spatial coverage by detecting trees in both public and private spaces, and can scale to very large areas. We performed a thorough evaluation of our method, supported by a new dataset of over 1,500 images and almost 100,000 tree annotations, covering eight cities, six climate zones, and three image capture years. We trained our model on data from Southern California, and achieved a precision of 73.6% and recall of 73.3% using test data from this region. We generally observed similar precision and slightly lower recall when extrapolating to other California climate zones and image capture dates. We used our method to produce a map of trees in the entire urban forest of California, and estimated the total number of urban trees in California to be about 43.5 million. Our study indicates the potential for deep learning methods to support future urban forestry studies at unprecedented scales.
翻訳日:2024-07-04 21:02:45 公開日:2024-07-03
# フィードバックによる皮膚効果による測定誘起の絡み合い遷移の欠如

Absence of measurement-induced entanglement transition due to feedback-induced skin effect ( http://arxiv.org/abs/2209.11241v5 )

ライセンス: Link先を確認
Yu-Peng Wang, Chen Fang, Jie Ren, (参考訳) 量子多体系は、一元的進化と、増大する速度で繰り返し局所的な測定を行うが、測定によって引き起こされる絡み合いは、広範囲(または亜集中)から領域法エントロピースケーリング(英語版)へと遷移する。 一般監視」と条件フィードバックからなる開放境界系では,非エルミート系における「皮膚効果」を反映した異常な遅延時間粒子濃度をエッジに表示する。 このようなフィードバックによって引き起こされる皮膚効果は絡み合いの発生を抑制し、測定によって引き起こされる絡み合いの遷移を伴わずに短距離の絡み合いを生じさせる。 最初は相互作用しないモデルで現れたが、そのような皮膚効果はカオス相互作用系やランダムな一般化された測定対象のフロケ量子回路でも起こりうる。 皮膚効果のダイナミクスはポストセレクションを必要としないため、粒子番号レベルで観測できるため、この現象は閉じ込められたイオンのようなノイズの多い中間スケールの量子プラットフォームにおいて実験的に関係があり、アクセス可能である。

A quantum many-body system subject to unitary evolution and repeated local measurements with an increasing rate undergoes a measurement-induced entanglement transition from extensive (or subextensive) to area law entropy scaling. We find that certain open boundary systems under "generalized monitoring", consisting of "projective monitoring" and conditional feedback, display an anomalous late-time particle concentration on the edge, reminiscent of the "skin effect" in non-Hermitian systems. Such feedback-induced skin effect will suppress the entanglement generation, rendering the system short-range entangled without measurement-induced entanglement transition. While initially emerged in noninteracting models, such skin effect can also occur in chaotic interacting systems and Floquet quantum circuits subjected to random generalized measurements. Since the dynamics of the skin effect do not require post selection, and can be observed at the particle number level, the phenomenon is experimentally relevant and accessible in noisy intermediate-scale quantum platforms, such as trapped ions.
翻訳日:2024-07-04 21:02:45 公開日:2024-07-03
# 熱力学極限における1次元量子系の自由エネルギーに対するサブポリノミカル時間アルゴリズム

A subpolynomial-time algorithm for the free energy of one-dimensional quantum systems in the thermodynamic limit ( http://arxiv.org/abs/2209.14989v3 )

ライセンス: Link先を確認
Hamza Fawzi, Omar Fawzi, Samuel O. Scalet, (参考訳) 局所的、翻訳不変な1次元量子系の自由エネルギーを無限鎖サイズの熱力学極限で近似する古典的アルゴリズムを導入する。 これらの系に対する基底状態問題(すなわち、温度$T = 0$の自由エネルギー)は、量子コンピュータに対しても計算的に困難であると予想されるが、我々のアルゴリズムは、任意の固定温度$T > 0$で、すなわち、時間$O((\frac{1}{\varepsilon})^{c})$で、任意の定数$c > 0$で、$\varepsilon$は加算近似誤差である。 以前は、最もよく知られたアルゴリズムは、$\frac{1}{\varepsilon}$の多項式であるランタイムを持っていた。 線形写像の半径半径の計算に還元されるため,本アルゴリズムは特に単純である。 この線型写像は非可換移動行列としての解釈を持ち、以前は自由エネルギーの解析性と相関の崩壊に関する結果を証明するために研究されてきた。 また、この写像の対応する固有ベクトルはギブス状態の辺の近似を与え、量子系の様々な熱力学特性の計算を可能にすることを示す。

We introduce a classical algorithm to approximate the free energy of local, translation-invariant, one-dimensional quantum systems in the thermodynamic limit of infinite chain size. While the ground state problem (i.e., the free energy at temperature $T = 0$) for these systems is expected to be computationally hard even for quantum computers, our algorithm runs for any fixed temperature $T > 0$ in subpolynomial time, i.e., in time $O((\frac{1}{\varepsilon})^{c})$ for any constant $c > 0$ where $\varepsilon$ is the additive approximation error. Previously, the best known algorithm had a runtime that is polynomial in $\frac{1}{\varepsilon}$. Our algorithm is also particularly simple as it reduces to the computation of the spectral radius of a linear map. This linear map has an interpretation as a noncommutative transfer matrix and has been studied previously to prove results on the analyticity of the free energy and the decay of correlations. We also show that the corresponding eigenvector of this map gives an approximation of the marginal of the Gibbs state and thereby allows for the computation of various thermodynamic properties of the quantum system.
翻訳日:2024-07-04 21:02:45 公開日:2024-07-03
# NegativaによるNuisances:データ拡張によるスパーラス相関の調整

Nuisances via Negativa: Adjusting for Spurious Correlations via Data Augmentation ( http://arxiv.org/abs/2210.01302v3 )

ライセンス: Link先を確認
Aahlad Puli, Nitish Joshi, Yoav Wald, He He, Rajesh Ranganath, (参考訳) 予測タスクには、そのタスクの異なる設定で同じ方法でラベルに関連する機能があります。 ラベルとの関係の異なる特徴はニュアンスである。 例えば、自然画像から牛を検出する場合、頭部の形状は意味があるが、牛の像は草の背景を持つことが多いため、背景は不快である。 ニュアンスとラベルの関係を利用するモデルは、これらの関係が変化するとパフォーマンスが低下する。 このような変更に対して堅牢なモデルを構築するには、機能やラベルのサンプル以上の知識が必要になる。 例えば、既存の研究ではニュアンセのアノテーションを使用しており、ERMで訓練されたモデルはニュアンセに依存していると仮定している。 新しい種類の追加知識を統合するアプローチは、堅牢なモデルの構築が可能な設定を拡大する。 本研究は,データ中の意味に関する知識を損なうことによって活用する手法を開発し,そのデータを用いてニュアンセとラベルの相関関係を同定するモデルを作成する。 これらの相関が特定されれば、ニュアンセが予測を行う場所の調整に使用できる。 本研究では,水鳥の分類,自然言語推論(NLI),胸部X線による心内膜検出など,複数のアウト・オブ・ディストリビューション(OOD)タスクにおいて,異なるスプリアス相関を回避するための意味的腐敗について検討した。

In prediction tasks, there exist features that are related to the label in the same way across different settings for that task; these are semantic features or semantics. Features with varying relationships to the label are nuisances. For example, in detecting cows from natural images, the shape of the head is semantic but because images of cows often have grass backgrounds but not always, the background is a nuisance. Models that exploit nuisance-label relationships face performance degradation when these relationships change. Building models robust to such changes requires additional knowledge beyond samples of the features and labels. For example, existing work uses annotations of nuisances or assumes ERM-trained models depend on nuisances. Approaches to integrate new kinds of additional knowledge enlarge the settings where robust models can be built. We develop an approach to use knowledge about the semantics by corrupting them in data, and then using the corrupted data to produce models which identify correlations between nuisances and the label. Once these correlations are identified, they can be used to adjust for where nuisances drive predictions. We study semantic corruptions in powering different spurious-correlation avoiding methods on multiple out-of-distribution (OOD) tasks like classifying waterbirds, natural language inference (NLI), and detecting cardiomegaly in chest X-rays.
翻訳日:2024-07-04 21:02:45 公開日:2024-07-03
# 項目応答理論に基づく説明(eXirt):信頼視点におけるツリー・アンサンブルモデルを記述するためのモデル特異的手法

Explanations Based on Item Response Theory (eXirt): A Model-Specific Method to Explain Tree-Ensemble Model in Trust Perspective ( http://arxiv.org/abs/2210.09933v3 )

ライセンス: Link先を確認
José Ribeiro, Lucas Cardoso, Raíssa Silva, Vitor Cirilo, Níkolas Carneiro, Ronnie Alves, (参考訳) 近年、XAI研究者はブラックボックスモデルを説明するための提案を形式化し、新しい方法を開発してきたが、コミュニティではこれらのモデルを説明するためにどの方法を使うかという一般的なコンセンサスはなく、この選択は特定の方法の人気とほぼ直接的に結びついている。 Ciu、Dalex、Eli5、Lofo、Shap、Skaterといった手法は、異なる方法論に基づく機能関連性のグローバルランキングを通じてブラックボックスモデルを説明するという提案から生まれた。 この文脈では、41のデータセットと4つのツリーアンサンブルアルゴリズム(Light Gradient Boosting、CatBoost、Random Forest、Gradient Boosting)、および6つのXAIメソッドがアイテム応答理論に基づくeXirtと呼ばれる新しいXAIメソッドのローンチをサポートするために使用された。 最初の分析では、eXirtのグローバルな特徴関連ランク164を、文献に存在する他のXAIメソッドの984のランクと比較し、それらの類似点と相違点を強調した。 第2の分析では、モデル信頼を理解するのに役立つ説明に基づくeXirtの排他的説明が提示された。 そこで,eXirt がツリーアンサンブルモデルのグローバルな説明や IRT によるモデルインスタンスの局所的な説明を生成できることを確認した。

In recent years, XAI researchers have been formalizing proposals and developing new methods to explain black box models, with no general consensus in the community on which method to use to explain these models, with this choice being almost directly linked to the popularity of a specific method. Methods such as Ciu, Dalex, Eli5, Lofo, Shap and Skater emerged with the proposal to explain black box models through global rankings of feature relevance, which based on different methodologies, generate global explanations that indicate how the model's inputs explain its predictions. In this context, 41 datasets, 4 tree-ensemble algorithms (Light Gradient Boosting, CatBoost, Random Forest, and Gradient Boosting), and 6 XAI methods were used to support the launch of a new XAI method, called eXirt, based on Item Response Theory - IRT and aimed at tree-ensemble black box models that use tabular data referring to binary classification problems. In the first set of analyses, the 164 global feature relevance ranks of the eXirt were compared with 984 ranks of the other XAI methods present in the literature, seeking to highlight their similarities and differences. In a second analysis, exclusive explanations of the eXirt based on Explanation-by-example were presented that help in understanding the model trust. Thus, it was verified that eXirt is able to generate global explanations of tree-ensemble models and also local explanations of instances of models through IRT, showing how this consolidated theory can be used in machine learning in order to obtain explainable and reliable models.
翻訳日:2024-07-04 21:02:45 公開日:2024-07-03
# 悪性オーバーフィッティング:補間はおそらく不均一を防げる

Malign Overfitting: Interpolation Can Provably Preclude Invariance ( http://arxiv.org/abs/2211.15724v2 )

ライセンス: Link先を確認
Yoav Wald, Gal Yona, Uri Shalit, Yair Carmon, (参考訳) 学習された分類器は、公正性、堅牢性、あるいは分布外一般化を促進するために、ある不変性を持つべきである。 しかし、近年のいくつかの研究は、共通不変性誘導正則化器が過度にパラメータ化された状態において非効率であることを示し、分類器はトレーニングデータに完全に適合する(すなわち補間する)。 これは、補間にもかかわらずモデルをうまく一般化する「良性過剰適合」現象が、堅牢性や公正性が望ましい設定にまで好ましくないことを示唆している。 この研究は、これらの観測について理論的に正当化するものである。 もっとも単純な設定であっても、任意の補間学習規則(任意に小さなマージンを持つ)がこれらの不変性を満たさないことを証明します。 次に、同じ設定で、確実に不変な非補間分類器をうまく学習するアルゴリズムを提案し、解析する。 シミュレーションデータとウォーターバードデータセットに関する理論的考察を検証した。

Learned classifiers should often possess certain invariance properties meant to encourage fairness, robustness, or out-of-distribution generalization. However, multiple recent works empirically demonstrate that common invariance-inducing regularizers are ineffective in the over-parameterized regime, in which classifiers perfectly fit (i.e. interpolate) the training data. This suggests that the phenomenon of "benign overfitting", in which models generalize well despite interpolating, might not favorably extend to settings in which robustness or fairness are desirable. In this work we provide a theoretical justification for these observations. We prove that -- even in the simplest of settings -- any interpolating learning rule (with arbitrarily small margin) will not satisfy these invariance properties. We then propose and analyze an algorithm that -- in the same setting -- successfully learns a non-interpolating classifier that is provably invariant. We validate our theoretical observations on simulated data and the Waterbirds dataset.
翻訳日:2024-07-04 21:02:45 公開日:2024-07-03
# ディープ・パーセプチュアル・ロス・ネットワークの系統的性能解析--Breaking Transfer Learning Conventions-

A Systematic Performance Analysis of Deep Perceptual Loss Networks: Breaking Transfer Learning Conventions ( http://arxiv.org/abs/2302.04032v3 )

ライセンス: Link先を確認
Gustav Grund Pihlgren, Konstantina Nikolaidou, Prakash Chandra Chhipa, Nosheen Abid, Rajkumar Saini, Fredrik Sandin, Marcus Liwicki, (参考訳) 近年、画像合成、セグメンテーション、オートエンコーディングなど、多くのコンピュータビジョンタスクのための機械学習モデルのトレーニングに、深い知覚損失が広く使われ、成功している。 ディープ・パーセプチュアル・ロス(英: Deep Perceptual Los)とは、2つの画像間の誤差をニューラルネットワークから抽出したディープ・特徴間の距離として計算する画像のロス関数の一種である。 損失のほとんどのアプリケーションは、深い特徴抽出のためにロスネットワークと呼ばれる事前訓練されたネットワークを使用する。 しかし、広く普及しているにもかかわらず、訓練されたモデルに対する損失ネットワークの実装の影響は研究されていない。 この研究は、異なる事前学習された損失ネットワークが4つの異なるアプリケーション領域に与える影響を体系的に評価することで、これを是正する。 具体的には、4つの異なる特徴抽出層を持つ14の事前訓練されたアーキテクチャを評価する。 評価の結果,バッチ正規化のないVGGネットワークは最高の性能を示し,特徴抽出層の選択はアーキテクチャの選択と同じくらい重要であることがわかった。 この分析は、ImageNetの精度が向上すると下流のパフォーマンスが向上し、後続のレイヤからの機能抽出によってパフォーマンスが向上するという、深い知覚的損失がトランスファー学習規則に従わないことも明らかにしている。

In recent years, deep perceptual loss has been widely and successfully used to train machine learning models for many computer vision tasks, including image synthesis, segmentation, and autoencoding. Deep perceptual loss is a type of loss function for images that computes the error between two images as the distance between deep features extracted from a neural network. Most applications of the loss use pretrained networks called loss networks for deep feature extraction. However, despite increasingly widespread use, the effects of loss network implementation on the trained models have not been studied. This work rectifies this through a systematic evaluation of the effect of different pretrained loss networks on four different application areas. Specifically, the work evaluates 14 different pretrained architectures with four different feature extraction layers. The evaluation reveals that VGG networks without batch normalization have the best performance and that the choice of feature extraction layer is at least as important as the choice of architecture. The analysis also reveals that deep perceptual loss does not adhere to the transfer learning conventions that better ImageNet accuracy implies better downstream performance and that feature extraction from the later layers provides better performance.
翻訳日:2024-07-04 21:02:45 公開日:2024-07-03
# 非ユークリッド型TSPに対するコンベックス・ハル・チープ・インサーション・ヒューリスティック

A Convex Hull Cheapest Insertion Heuristic for the Non-Euclidean TSP ( http://arxiv.org/abs/2302.06582v5 )

ライセンス: Link先を確認
Mithun Goutham, Meghna Menon, Sarah Garrow, Stephanie Stockar, (参考訳) 凸船体の最も安価な挿入ヒューリスティックは、ユークリッド旅行セールスパーソン問題に対して良い解決策をもたらすが、非ユークリッド問題に拡張されることはなかった。 本稿では,多次元スケーリングを用いて,まず非ユークリッド空間からユークリッド空間へ点を投影し,そのアルゴリズムを初期化する凸包を生成する。 提案アルゴリズムを評価するために、TSPLIBデータセットにセパレータを追加するか、L1ノルムを計量として使用することにより、非ユークリッド空間を生成する。

The convex hull cheapest insertion heuristic produces good solutions to the Euclidean Traveling Salesperson Problem, but it has never been extended to the non-Euclidean problem. This paper uses multidimensional scaling to first project the points from a non-Euclidean space into a Euclidean space, enabling the generation of a convex hull that initializes the algorithm. To evaluate the proposed algorithm, non-Euclidean spaces are created by adding separators to the TSPLIB data-set, or by using the L1 norm as a metric.
翻訳日:2024-07-04 21:02:45 公開日:2024-07-03
# mongoOSE:メタラーニングによるパスワイズベイズ最適化

MONGOOSE: Path-wise Smooth Bayesian Optimisation via Meta-learning ( http://arxiv.org/abs/2302.11533v2 )

ライセンス: Link先を確認
Adam X. Yang, Laurence Aitchison, Henry B. Moss, (参考訳) ベイズ最適化では、実世界の物理システムで発生するブラックボックスの目的関数を最小化することを求めることが多い。 このようなブラックボックスの客観的関数を評価するコストの主な貢献は、しばしば測定のためのシステムを作成するのに必要な労力である。 本稿では, 連続評価の間隔が大きくなるにつれて, 準備コストが増大する一般的なシナリオについて考察する。 この設定では、スムーズな最適化軌跡が好まれ、標準ミオピック(すなわち1ステップ最適化)ベイズ最適化法によって生成される跳躍路は準最適である。 我々のアルゴリズムであるMONGOOSEは、メタリアントパラメトリックポリシーを用いて、スムーズな最適化軌道を生成する。

In Bayesian optimisation, we often seek to minimise the black-box objective functions that arise in real-world physical systems. A primary contributor to the cost of evaluating such black-box objective functions is often the effort required to prepare the system for measurement. We consider a common scenario where preparation costs grow as the distance between successive evaluations increases. In this setting, smooth optimisation trajectories are preferred and the jumpy paths produced by the standard myopic (i.e.\ one-step-optimal) Bayesian optimisation methods are sub-optimal. Our algorithm, MONGOOSE, uses a meta-learnt parametric policy to generate smooth optimisation trajectories, achieving performance gains over existing methods when optimising functions with large movement costs.
翻訳日:2024-07-04 21:02:45 公開日:2024-07-03
# 表現学習と複合変数構築による多変量ネットワークの視覚分析

Visual Analytics of Multivariate Networks with Representation Learning and Composite Variable Construction ( http://arxiv.org/abs/2303.09590v3 )

ライセンス: Link先を確認
Hsiao-Ying Lu, Takanori Fujiwara, Ming-Yi Chang, Yang-chih Fu, Anders Ynnerman, Kwan-Liu Ma, (参考訳) 多変量ネットワークは、実世界のデータ駆動アプリケーションで一般的に見られる。 多変量ネットワークにおける関心関係の解明と理解は簡単な作業ではない。 本稿では,ネットワークの構造的特徴と意味的特徴の関連を抽出するために,多変量ネットワークを研究するための視覚的分析ワークフローを提案する(例えば,ソーシャルネットワークの密度に関連する属性の組み合わせはどのようなものか?)。 ワークフローは、選択された入力属性と出力属性に基づいてデータを分類するためのニューラルネットワークベースの学習フェーズと、検査のための簡易な結果セットを生成するための次元削減および最適化フェーズと、対話的な視覚化インターフェースを介してユーザによって実行される解釈フェーズとから構成される。 ニューラルネットワークから得られる非線形特徴を直感的に解釈できる線形特徴にモデル化する複合変数構築ステップが,我々の設計の鍵となる。 筆者らは,ソーシャルメディア利用によるネットワークのケーススタディにより,このワークフローの能力を実証するとともに,専門家からの質的なフィードバックによるワークフローの評価を行った。

Multivariate networks are commonly found in real-world data-driven applications. Uncovering and understanding the relations of interest in multivariate networks is not a trivial task. This paper presents a visual analytics workflow for studying multivariate networks to extract associations between different structural and semantic characteristics of the networks (e.g., what are the combinations of attributes largely relating to the density of a social network?). The workflow consists of a neural-network-based learning phase to classify the data based on the chosen input and output attributes, a dimensionality reduction and optimization phase to produce a simplified set of results for examination, and finally an interpreting phase conducted by the user through an interactive visualization interface. A key part of our design is a composite variable construction step that remodels nonlinear features obtained by neural networks into linear features that are intuitive to interpret. We demonstrate the capabilities of this workflow with multiple case studies on networks derived from social media usage and also evaluate the workflow with qualitative feedback from experts.
翻訳日:2024-07-04 20:52:46 公開日:2024-07-03
# 大規模事前訓練モデルが急激な新進クラス発見において驚くほど強力である

Large-scale Pre-trained Models are Surprisingly Strong in Incremental Novel Class Discovery ( http://arxiv.org/abs/2303.15975v3 )

ライセンス: Link先を確認
Mingxuan Liu, Subhankar Roy, Zhun Zhong, Nicu Sebe, Elisa Ricci, (参考訳) 乱れのないデータセットと連続した方法で新しい概念を発見することは、生涯学習者の重要なデシラタムである。 文献では、そのような問題は、関連するラベル付き集合(eg, NCD)や、教師付き事前学習されたモデル(eg, class-iNCD)にのみアクセスすることで、新しいクラスを学習する、非常に制限された設定の下で部分的に解決されている。 本研究は,クラス-iNCDにおける現状問題に挑戦し,関連するラベル付き集合を必要とせず,クラス発見を継続的に,真に教師なしで行う学習パラダイムを提案する。 本稿では,よりリッチな事前学習モデル(PTM)の活用を提案する。 そこで本研究では,凍結したPTMバックボーンと学習可能な線形分類器からなる単純なベースラインを提案する。 我々は,多数のベンチマークで広範な実証評価を行い,高度な最先端手法と比較して,提案するベースラインの有効性を示す。 コードはオープンソースです。

Discovering novel concepts in unlabelled datasets and in a continuous manner is an important desideratum of lifelong learners. In the literature such problems have been partially addressed under very restricted settings, where novel classes are learned by jointly accessing a related labelled set (e.g., NCD) or by leveraging only a supervisedly pre-trained model (e.g., class-iNCD). In this work we challenge the status quo in class-iNCD and propose a learning paradigm where class discovery occurs continuously and truly unsupervisedly, without needing any related labelled set. In detail, we propose to exploit the richer priors from strong self-supervised pre-trained models (PTM). To this end, we propose simple baselines, composed of a frozen PTM backbone and a learnable linear classifier, that are not only simple to implement but also resilient under longer learning scenarios. We conduct extensive empirical evaluation on a multitude of benchmarks and show the effectiveness of our proposed baselines when compared with sophisticated state-of-the-art methods. The code is open source.
翻訳日:2024-07-04 20:52:46 公開日:2024-07-03
# 医療画像フェアにおける人口動態モデルと表現は不変か?

Are demographically invariant models and representations in medical imaging fair? ( http://arxiv.org/abs/2305.01397v3 )

ライセンス: Link先を確認
Eike Petersen, Enzo Ferrante, Melanie Ganz, Aasa Feragen, (参考訳) 医療画像モデルは、年齢、人種、性別などの患者の人口統計情報を潜伏した表現にエンコードすることが示され、差別の可能性への懸念が高まっている。 ここでは、人口統計特性を符号化しないモデルが望ましいかどうかを問う。 限界表現とクラス条件表現の不変性は、それぞれ、人口統計学的パリティの標準群フェアネス概念と等化オッズの概念を暗示していると指摘する。 さらに、それらはリスク分布の一致を必要とするため、重要なグループ差を排除できる可能性がある。 代わりに伝統的な公正の概念を直接強制することは、これらの強い制約を伴わない。 さらに、表現的不変モデルは、予測を導出するために人口統計学的特性を考慮に入れ、不平等な扱いを暗示する。 理論上、これは(個人的)公正性や不変性の反実的概念によって防げる。 しかし, 人口統計学的属性に関して, 医用画像の正当性を適切に定義することは, 課題に満ちている。 最後に,「人種」や「ジェンダー」のような社会的構造に依存しない階層的特徴のタスク固有の符号化を学べば,階層的属性の符号化が有利になる可能性があると仮定する。 医用画像の公平性には,人口動態的不変表現は必要ではなく,十分ではないと結論付けた。 モデルは人口統計学的属性を符号化し、様々な患者集団における予測性能の観点から、包括的なモデルフェアネス評価の要求にさらなる緊急性を与える必要があるかもしれない。

Medical imaging models have been shown to encode information about patient demographics such as age, race, and sex in their latent representation, raising concerns about their potential for discrimination. Here, we ask whether requiring models not to encode demographic attributes is desirable. We point out that marginal and class-conditional representation invariance imply the standard group fairness notions of demographic parity and equalized odds, respectively. In addition, however, they require matching the risk distributions, thus potentially equalizing away important group differences. Enforcing the traditional fairness notions directly instead does not entail these strong constraints. Moreover, representationally invariant models may still take demographic attributes into account for deriving predictions, implying unequal treatment - in fact, achieving representation invariance may require doing so. In theory, this can be prevented using counterfactual notions of (individual) fairness or invariance. We caution, however, that properly defining medical image counterfactuals with respect to demographic attributes is fraught with challenges. Finally, we posit that encoding demographic attributes may even be advantageous if it enables learning a task-specific encoding of demographic features that does not rely on social constructs such as 'race' and 'gender.' We conclude that demographically invariant representations are neither necessary nor sufficient for fairness in medical imaging. Models may need to encode demographic attributes, lending further urgency to calls for comprehensive model fairness assessments in terms of predictive performance across diverse patient groups.
翻訳日:2024-07-04 20:52:46 公開日:2024-07-03
# 熱質量と捕捉イオン量子スピンモデル:$λ\!φ^4$モデルにおける湯川型相互作用への自己整合的アプローチ

Thermal masses and trapped-ion quantum spin models: a self-consistent approach to Yukawa-type interactions in the $λ\!φ^4$ model ( http://arxiv.org/abs/2305.06113v3 )

ライセンス: Link先を確認
Pablo Viñas Martínez, Esperanza López, Alejandro Bermudez, (参考訳) 閉じ込められたイオン系における磁気の量子シミュレーションは、結晶振動を利用して、イオンの内部電子状態に符号化されたスピン間の対の相互作用を仲介し、リアルタイムダイナミクスを探索する実験で測定する。 これらの相互作用は長い波長の相対論的理論によって説明され、フォノンは粗い粒度のクライン=ゴルドン場 $\phi(x)$ によってキャリアとして作用するスピンに局所的に結合され、ピオンを媒介する湯川相互作用のアナログとなる。 イオン結晶の構造転移の近傍では、Klein-Gordon場を超越し、フォノン-フォノン散乱の原因となる$\lambda\phi^4$項を含む必要がある。 これは、この量子場理論(QFT)の根底にある固定点を探索するために用いられる効果である、湯川型のスピン相互作用の範囲を変更するファインマンループ積分によって表現できる量子効果をもたらす。 残念なことに、閉じ込められたイオン結晶の剛性は、クォート結合$\lambda$の臨界点の流れのような真の量子効果の観測を困難にしている。 ここでは, レーザ冷却により制御できる熱効果が, 相互作用するQFTにおける熱質量の出現を通じて, この流れを明らかにすることができることを示す。 我々は、ある種のファインマン図形を再仮定する自己整合計算を行い、さらに平均場理論を超えて、捕捉されたイオンスピン系における測定が$\lambda\phi^4$ QFT の重要な性質をどのように探索するかを予測する。

The quantum simulation of magnetism in trapped-ion systems makes use of the crystal vibrations to mediate pairwise interactions between spins, which are encoded in the internal electronic states of the ions, and measured in experiments that probe the real-time dynamics. These interactions can be accounted for by a long-wavelength relativistic theory, where the phonons are described by a coarse-grained Klein-Gordon field $\phi(x)$ locally coupled to the spins that acts as a carrier, leading to an analogue of pion-mediated Yukawa interactions. In the vicinity of a structural transition of the ion crystal, one must go beyond the Klein-Gordon fields, and include additional $\lambda\phi^4$ terms responsible for phonon-phonon scattering. This leads to quantum effects that can be expressed by Feynman loop integrals that modify the range of the Yukawa-type spin interactions; an effect that could be used to probe the underlying fixed point of this quantum field theory (QFT). Unfortunately, the rigidity of the trapped-ion crystal makes it challenging to observe genuine quantum effects, such as the flow of the critical point with the quartic coupling $\lambda$. We hereby show that thermal effects, which can be controlled by laser cooling, can unveil this flow through the appearance of thermal masses in interacting QFTs. We perform self-consistent calculations that resum certain Feynman diagrams and, additionally, go beyond mean-field theory to predict how measurements on the trapped-ion spin system can probe key properties of the $\lambda\phi^4$ QFT.
翻訳日:2024-07-04 20:52:46 公開日:2024-07-03
# 誰がコードを書いたのか? コード生成のための透かし

Who Wrote this Code? Watermarking for Code Generation ( http://arxiv.org/abs/2305.15060v4 )

ライセンス: Link先を確認
Taehyun Lee, Seokhee Hong, Jaewoo Ahn, Ilgee Hong, Hwaran Lee, Sangdoo Yun, Jamin Shin, Gunhee Kim, (参考訳) 大規模言語モデルの顕著な世代性能が倫理的・法的懸念を招き、ウォーターマークを埋め込むことで機械生成テキストを検出するアプローチが開発されている。 しかし,タスクのエントロピーが低いため,既存の作業がコード生成タスクで適切に機能しないことがわかった。 本稿では,ロジト修飾透かし法を拡張して,透かしの生成・検出時に低エントロピーセグメントを除去し,検出能力を高め,コード品質の劣化を緩和する,エントロピーThresholding (SWEET)による選択WatErmarkingを提案する。 実験の結果、SWEETは、機械生成コードテキストの検出において、ポストホック検出法を含む全てのベースラインを上回りながら、コード品質の保存を著しく改善することがわかった。 私たちのコードはhttps://github.com/hongcheki/sweet-watermark.comで利用可能です。

Since the remarkable generation performance of large language models raised ethical and legal concerns, approaches to detect machine-generated text by embedding watermarks are being developed. However, we discover that the existing works fail to function appropriately in code generation tasks due to the task's nature of having low entropy. Extending a logit-modifying watermark method, we propose Selective WatErmarking via Entropy Thresholding (SWEET), which enhances detection ability and mitigates code quality degeneration by removing low-entropy segments at generating and detecting watermarks. Our experiments show that SWEET significantly improves code quality preservation while outperforming all baselines, including post-hoc detection methods, in detecting machine-generated code text. Our code is available in https://github.com/hongcheki/sweet-watermark.
翻訳日:2024-07-04 20:52:46 公開日:2024-07-03
# 学術論文からテキスト分類とオブジェクト認識を洗練するためのフレームワーク

A Framework For Refining Text Classification and Object Recognition from Academic Articles ( http://arxiv.org/abs/2305.17401v4 )

ライセンス: Link先を確認
Jinghong Li, Koichi Ota, Wen Gu, Shinobu Hasegawa, (参考訳) インターネットの普及に伴い、大量の学術論文から特定の情報を効率的に抽出することがますます重要になっている。 データマイニング技術はこの問題を解決するために一般的に用いられている。 しかし, 学術論文のデータマイニングは, 複雑かつ非構造的なレイアウト文書中の特定のパターンを自動的に抽出する必要があるため, 困難である。 現在の学術論文のデータマイニング手法はルールベース(RB)または機械学習(ML)アプローチを採用している。 しかし、ルールベースの手法を用いることで、複雑なタイプセット記事のコーディングコストが高くなる。 一方、単に機械学習手法を用いることで、論文内の複雑なコンテンツタイプに対するアノテーション作業が必要となり、コストがかかる可能性がある。 さらに、機械学習のみを用いることで、ルールベースの手法で容易に認識できるパターンを誤って抽出するケースが生まれる。 これらの課題を克服するため, 学術論文において, 標準レイアウトとタイプセットの分析の観点から, 特定の特徴の具体的手法の実装に重点を置いている。 我々は,機械学習とルールベースのスキームハイブリッドであるテクストブロックリファインメントフレームワーク(TBRF)を開発した。 検証実験では,よく知られたACL論文を実験データとして使用した。 実験の結果,表や図の95%以上の分類精度と90%以上の検出精度が得られた。

With the widespread use of the internet, it has become increasingly crucial to extract specific information from vast amounts of academic articles efficiently. Data mining techniques are generally employed to solve this issue. However, data mining for academic articles is challenging since it requires automatically extracting specific patterns in complex and unstructured layout documents. Current data mining methods for academic articles employ rule-based(RB) or machine learning(ML) approaches. However, using rule-based methods incurs a high coding cost for complex typesetting articles. On the other hand, simply using machine learning methods requires annotation work for complex content types within the paper, which can be costly. Furthermore, only using machine learning can lead to cases where patterns easily recognized by rule-based methods are mistakenly extracted. To overcome these issues, from the perspective of analyzing the standard layout and typesetting used in the specified publication, we emphasize implementing specific methods for specific characteristics in academic articles. We have developed a novel Text Block Refinement Framework (TBRF), a machine learning and rule-based scheme hybrid. We used the well-known ACL proceeding articles as experimental data for the validation experiment. The experiment shows that our approach achieved over 95% classification accuracy and 90% detection accuracy for tables and figures.
翻訳日:2024-07-04 20:52:46 公開日:2024-07-03
# 量子真空からの非局所コヒーレンス抽出

Nonlocal coherence harvesting from quantum vacuum ( http://arxiv.org/abs/2305.17461v2 )

ライセンス: Link先を確認
Rui-Di Wang, Shu-Min Wu, Xiao-Li Huang, (参考訳) 非局所コヒーレンスが量子絡み合いよりも非古典的相関を反映していることはよく知られている。 ここでは、ミンコフスキー時空における量子スカラー場と断熱的に相互作用する量子真空から粒子検出器への非局所コヒーレンス解析を行う。 我々は、非局所コヒーレンスの収穫達成可能な分離範囲が量子絡み合いよりも大きいことを発見した。 エネルギーギャップが十分に大きくなると、検出器は量子コヒーレンスを減らし、検出器は真空状態からより多くの量子絡みを抽出する。 線形構成やスパン構成と比較して、真空から三部構造コヒーレンスを抽出するためには、等辺三角形構成のモデルを選択する必要がある。 最後に、一夫一婦制の関係を見出す。つまり、コヒーレンスの三部類 l1-ノルムは本質的に二部類型である。

It is well known that nonlocal coherence reflects nonclassical correlations better than quantum entanglement. Here, we analyze nonlocal coherence harvesting from the quantum vacuum to particle detectors adiabatically interacting with a quantum scalar field in Minkowski spacetime. We find that the harvesting-achievable separation range of nonlocal coherence is larger than that of quantum entanglement. As the energy gap grows sufficiently large, the detectors harvest less quantum coherence, while the detectors could extract more quantum entanglement from the vacuum state. Compared with the linear configuration and the scalene configuration, we should choose the model of equilateral triangle configuration to harvest tripartite coherence from the vacuum. Finally, we find a monogamous relationship, which means that tripartite l1-norm of coherence is essentially bipartite types.
翻訳日:2024-07-04 20:52:46 公開日:2024-07-03
# 自然言語処理とネットワークを用いた構造化文献レビューの自動化:農家の気候変動適応への適用

Using Natural Language Processing and Networks to Automate Structured Literature Reviews: An Application to Farmers Climate Change Adaptation ( http://arxiv.org/abs/2306.09737v2 )

ライセンス: Link先を確認
Sofia Gil-Clavel, Tatiana Filatova, (参考訳) 研究論文の急増は、研究者が専門分野に関する新たな発見を追跡するのに問題となる。 さらに、急速に発展する分野における知識のリンクは、学際的な解決を求める気候変動のような複雑なトピックにおいて困難になる。 同時に、ブラックボックスタイプのテキスト要約の台頭は、因果関係を概念化して仮説化を許容する既存の理論に関係して、テキストの関係がどのように構築されているかを理解するのを困難にしている。 本研究の目的は、変数関係を抽出し、関連する分野に支配的な重要な概念を網羅しながら、それらの発見をネットワークを用いて合成することで、自然言語処理を巧みに活用することである。 一例として,農家の気候変動適応の分析に本手法を適用した。 このため,2022年8月にスコパスが返却した論文の自然言語処理解析を行った。 その結果、自然言語処理とネットワークを記述的手法で併用することで、研究者が理論で結果を裏付ける限り、文献レビューの結果を高速かつ解釈可能な方法で合成できることが示唆された。

The fast-growing number of research articles makes it problematic for scholars to keep track of the new findings related to their areas of expertise. Furthermore, linking knowledge across disciplines in rapidly developing fields becomes challenging for complex topics like climate change that demand interdisciplinary solutions. At the same time, the rise of Black Box types of text summarization makes it difficult to understand how text relationships are built, let alone relate to existing theories conceptualizing cause-effect relationships and permitting hypothesizing. This work aims to sensibly use Natural Language Processing by extracting variables relations and synthesizing their findings using networks while relating to key concepts dominant in relevant disciplines. As an example, we apply our methodology to the analysis of farmers' adaptation to climate change. For this, we perform a Natural Language Processing analysis of publications returned by Scopus in August 2022. Results show that the use of Natural Language Processing together with networks in a descriptive manner offers a fast and interpretable way to synthesize literature review findings as long as researchers back up results with theory.
翻訳日:2024-07-04 20:52:46 公開日:2024-07-03
# ニューラルネットワークが構成データをどのように学習するか:ランダム階層モデル

How Deep Neural Networks Learn Compositional Data: The Random Hierarchy Model ( http://arxiv.org/abs/2307.02129v5 )

ライセンス: Link先を確認
Francesco Cagnetta, Leonardo Petrini, Umberto M. Tomasini, Alessandro Favero, Matthieu Wyart, (参考訳) ディープラーニングアルゴリズムは、限られた例から高次元のタスクを学習する驚くべき能力を示す。 これは一般的にニューラルネットワークの深さによるもので、抽象的で低次元のデータ表現の階層を構築することができる。 しかし、そのような表現を学ぶのに必要なトレーニング例がいくつあるかは、いまだに不明である。 この問題を定量的に研究するために、言語と画像の階層構造から着想を得た合成タスクのファミリーであるランダム階層モデル(Random Hierarchy Model)を紹介する。 モデルは、各クラスが同じクラスに関連付けられたいくつかの等価なグループの中から選択された、高レベルの特徴のグループに対応する分類タスクである。 それぞれの特徴は、構成規則の階層に従って、いくつかの等価なものから選択されたサブ機能群に対応する。 深層ネットワークは、等価なグループを交換するために不変な内部表現を開発することでタスクを学習する。 さらに、必要なデータ数は、低レベルの特徴とクラス間の相関が検出できる点に対応する。 以上の結果から,階層的な課題を学習するのに必要となるデータの数を推定し,不変表現を構築することによって,ディープネットワークが次元性の呪いを克服する方法が示唆された。

Deep learning algorithms demonstrate a surprising ability to learn high-dimensional tasks from limited examples. This is commonly attributed to the depth of neural networks, enabling them to build a hierarchy of abstract, low-dimensional data representations. However, how many training examples are required to learn such representations remains unknown. To quantitatively study this question, we introduce the Random Hierarchy Model: a family of synthetic tasks inspired by the hierarchical structure of language and images. The model is a classification task where each class corresponds to a group of high-level features, chosen among several equivalent groups associated with the same class. In turn, each feature corresponds to a group of sub-features chosen among several equivalent ones and so on, following a hierarchy of composition rules. We find that deep networks learn the task by developing internal representations invariant to exchanging equivalent groups. Moreover, the number of data required corresponds to the point where correlations between low-level features and classes become detectable. Overall, our results indicate how deep networks overcome the curse of dimensionality by building invariant representations, and provide an estimate of the number of data required to learn a hierarchical task.
翻訳日:2024-07-04 20:52:46 公開日:2024-07-03
# PRD: 大規模言語モデルに基づく評価を改善するピアランクと考察

PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations ( http://arxiv.org/abs/2307.02762v2 )

ライセンス: Link先を確認
Ruosen Li, Teerth Patel, Xinya Du, (参考訳) 現在、様々な現代大言語モデル(LLM)が生成する応答の質は、自動で評価・比較することが困難である。 最近の研究は、オープンエンド質問応答の基準フリー評価にLLMを主に用いていることを示唆している。 より具体的には、彼らは認識された「最高の」LCMを評価器として使用し、候補モデルの回答を相互に比較し、ランキングスコアを提供する。 しかし、この直感的な手法には、自己強調(自身の答えを好む)や位置バイアスなど、複数の問題がある。 教育領域(Cho & MacArthur, 2011; Walsh, 2014)からLLMに基づく評価を改善するための洞察と教訓を導き出す。 具体的には,(1)LLMの各ペアのペアの選好を考慮に入れたピアランク(PR)アルゴリズムを提案し,モデルの最終選好を出力し,(2)LLMの2つの選好を議論し,相互に一致させようとするピアディスカッション(PD)を提案する。 2つのベンチマークデータセットで実験を行う。 我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。 興味深いことに、PRは匿名設定の下でモデルの比較的正確な自己ランク付けを誘導することができる。 私たちの研究は、人間と比較しにくいモデルを評価するためのスペースを提供する。

Nowadays, the quality of responses generated by different modern large language models (LLMs) is hard to evaluate and compare automatically. Recent studies suggest and predominantly use LLMs for reference-free evaluation of open-ended question answering. More specifically, they use the recognized "strongest" LLM as the evaluator, which conducts pairwise comparisons of candidate models' answers and provides a ranking score. However, this intuitive method has multiple problems, such as bringing in self-enhancement (favoring its own answers) and positional bias. We draw insights and lessons from the educational domain (Cho & MacArthur, 2011; Walsh, 2014) to improve LLM-based evaluations. Specifically, we propose (1) the peer rank (PR) algorithm that takes into account each peer LLM's pairwise preferences of all answer pairs, and outputs a final ranking of models; and (2) peer discussion (PD), where we prompt two LLMs to discuss and try to reach a mutual agreement on the preferences of two answers. We conduct experiments on two benchmark datasets. We find that our approaches achieve higher accuracy and align better with human judgments. Interestingly, PR can induce a relatively accurate self-ranking of models under the anonymous setting, where each model's name is unrevealed. Our work provides space to explore evaluating models that are hard to compare for humans.
翻訳日:2024-07-04 20:52:46 公開日:2024-07-03
# 一般観測モデルを用いたレストレスバンドのPCL指数とウィトル指数

PCL-Indexability and Whittle Index for Restless Bandits with General Observation Models ( http://arxiv.org/abs/2307.03034v2 )

ライセンス: Link先を確認
Keqin Liu, Chengzhong Zhang, (参考訳) 本稿では、レスレスマルチアームバンディット問題に対する一般的な観測モデルについて考察する。 プレイヤーの操作は、リソースの制約や環境や本質的なノイズによってエラーが発生しやすい特定のフィードバックメカニズムに基づいて行う必要がある。 フィードバック/観測のダイナミクスの一般的な確率モデルを確立することにより、任意の初期信念(事前情報)から始まる可算な信念状態空間で、この問題をレストレス・バンディットとして定式化する。 部分保存法則(PCL)を用いた達成可能な領域法を無限状態問題に適用し,その指数性と優先度(Whittle index)を分析する。 最後に、有限状態問題に対するNi\~no-Mora と Bertsimas の AG アルゴリズムを適用可能な問題に変換する近似法を提案する。 数値実験により,本アルゴリズムは優れた性能を示した。

In this paper, we consider a general observation model for restless multi-armed bandit problems. The operation of the player needs to be based on certain feedback mechanism that is error-prone due to resource constraints or environmental or intrinsic noises. By establishing a general probabilistic model for dynamics of feedback/observation, we formulate the problem as a restless bandit with a countable belief state space starting from an arbitrary initial belief (a priori information). We apply the achievable region method with partial conservation law (PCL) to the infinite-state problem and analyze its indexability and priority index (Whittle index). Finally, we propose an approximation process to transform the problem into which the AG algorithm of Ni\~no-Mora and Bertsimas for finite-state problems can be applied to. Numerical experiments show that our algorithm has an excellent performance.
翻訳日:2024-07-04 20:52:46 公開日:2024-07-03
# 収束保証を用いたフェアネスを考慮したフェデレーションミニマックス最適化

Fairness-aware Federated Minimax Optimization with Convergence Guarantee ( http://arxiv.org/abs/2307.04417v4 )

ライセンス: Link先を確認
Gerry Windiarto Mohamad Dunda, Shenghui Song, (参考訳) フェデレートラーニング(FL)はそのプライバシー保護機能のためにかなりの注目を集めている。 それでも、ユーザデータ管理の自由の欠如は、モデルが人種や性別などのセンシティブな要因に偏っている、グループフェアネスの問題につながる可能性がある。 そこで本研究では,FLにおけるグループフェアネス問題に明示的に対処するために,拡張ラグランジアン法(FFALM)を用いたフェアフェデレーション平均化アルゴリズムを提案する。 具体的には、トレーニング目標に公正性制約を課し、制約付き最適化問題の最小化を解消する。 次に、FFALMの収束率の理論上界を導出する。 FFALMの公正性向上効果は,CelebA および UTKFace データセットにおいて,統計的に重大な不均一性の存在下で実証的に示された。

Federated learning (FL) has garnered considerable attention due to its privacy-preserving feature. Nonetheless, the lack of freedom in managing user data can lead to group fairness issues, where models are biased towards sensitive factors such as race or gender. To tackle this issue, this paper proposes a novel algorithm, fair federated averaging with augmented Lagrangian method (FFALM), designed explicitly to address group fairness issues in FL. Specifically, we impose a fairness constraint on the training objective and solve the minimax reformulation of the constrained optimization problem. Then, we derive the theoretical upper bound for the convergence rate of FFALM. The effectiveness of FFALM in improving fairness is shown empirically on CelebA and UTKFace datasets in the presence of severe statistical heterogeneity.
翻訳日:2024-07-04 20:43:01 公開日:2024-07-03
# 低エネルギー分散の量子状態に対する行列積状態近似

Matrix product state approximations to quantum states of low energy variance ( http://arxiv.org/abs/2307.05200v3 )

ライセンス: Link先を確認
Kshiti Sneh Rai, J. Ignacio Cirac, Álvaro M. Alhambra, (参考訳) 有限エネルギー密度と消滅する小さなエネルギーゆらぎを持つ一次元系の純粋量子状態を効率的にシミュレートする方法を示す。 結合次元が大きくなるにつれてエネルギー差が減少する行列積状態を生成するテンソルネットワークアルゴリズムの性能について検討する。 我々の結果は、$\propto 1/\log N$ 程度の分散は多項式結合次元で達成できることを示唆している。 これにより、体積法則を示す典型的な固有状態とは対照的に、スペクトルの大部分にまだ適度な絡み合いエントロピーを持つ非常に狭い状態が存在することが証明される。 我々の主要な技術ツールはスピン系に対するベリー・エッシーの定理であり、積状態のエネルギー分布に対する中心極限定理の強化である。 また、この定理のより単純な証明と、独立した関心を持つべき誤差スケーリングのわずかな改善も与えている。

We show how to efficiently simulate pure quantum states in one dimensional systems that have both finite energy density and vanishingly small energy fluctuations. We do so by studying the performance of a tensor network algorithm that produces matrix product states whose energy variance decreases as the bond dimension increases. Our results imply that variances as small as $\propto 1/\log N$ can be achieved with polynomial bond dimension. With this, we prove that there exist states with a very narrow support in the bulk of the spectrum that still have moderate entanglement entropy, in contrast with typical eigenstates that display a volume law. Our main technical tool is the Berry-Esseen theorem for spin systems, a strengthening of the central limit theorem for the energy distribution of product states. We also give a simpler proof of that theorem, together with slight improvements in the error scaling, which should be of independent interest.
翻訳日:2024-07-04 20:43:01 公開日:2024-07-03
# VITS : 文脈的包帯に対する変分推論トンプソンサンプリング

VITS : Variational Inference Thompson Sampling for contextual bandits ( http://arxiv.org/abs/2307.10167v3 )

ライセンス: Link先を確認
Pierre Clavier, Tom Huix, Alain Durmus, (参考訳) 本稿では,文脈的バンディットに対するトンプソンサンプリング(TS)アルゴリズムの変種を導入・解析する。 各ラウンドでは、従来のTSは現在の後部分布からのサンプルを必要とするが、通常は引き離し可能である。 この問題を回避するため、近似推論技術を用い、後部に近い分布のサンプルを提供する。 しかし、現在の近似手法は低い推定(ラプラス近似)または計算に高価である(MCMC法、アンサンブルサンプリング...)。 本稿では,ガウス変分推論に基づく新しいアルゴリズムであるValational Inference Thompson sample VITSを提案する。 このスキームは、サンプリングが容易で、計算効率が良い強力な後続近似を提供し、TSにとって理想的な選択である。 さらに,VITS は線形文脈帯域に対して従来の TS の次元とラウンド数で同じ順序のサブ線形後悔境界を達成できることを示す。 最後に、人工と実世界の両方のデータセットに対するVITSの有効性を実験的に実証した。

In this paper, we introduce and analyze a variant of the Thompson sampling (TS) algorithm for contextual bandits. At each round, traditional TS requires samples from the current posterior distribution, which is usually intractable. To circumvent this issue, approximate inference techniques can be used and provide samples with distribution close to the posteriors. However, current approximate techniques yield to either poor estimation (Laplace approximation) or can be computationally expensive (MCMC methods, Ensemble sampling...). In this paper, we propose a new algorithm, Varational Inference Thompson sampling VITS, based on Gaussian Variational Inference. This scheme provides powerful posterior approximations which are easy to sample from, and is computationally efficient, making it an ideal choice for TS. In addition, we show that VITS achieves a sub-linear regret bound of the same order in the dimension and number of round as traditional TS for linear contextual bandit. Finally, we demonstrate experimentally the effectiveness of VITS on both synthetic and real world datasets.
翻訳日:2024-07-04 20:43:01 公開日:2024-07-03
# 知識グラフ補完のための意味豊かな埋め込みを目指して

Towards Semantically Enriched Embeddings for Knowledge Graph Completion ( http://arxiv.org/abs/2308.00081v3 )

ライセンス: Link先を確認
Mehwish Alam, Frank van Harmelen, Maribel Acosta, (参考訳) 埋め込みベースの知識グラフ(KG) 完成度はここ数年で大きな注目を集めている。 現在のアルゴリズムの多くは、KGを多方向ラベル付きグラフと見なしており、スキーマ情報に基づくセマンティクスをキャプチャする能力がない。 別の開発では、人工知能の分野に革命をもたらしたLarge Language Models(LLMs)内で、膨大な情報が収集されている。 KGはこれらのLCMの恩恵を受けることができる。 本稿では,KG埋め込み生成のバリエーションに基づいて,既存のKG完了アルゴリズムについて述べる。 まず、帰納的および帰納的リンク予測やエンティティタイプ予測アルゴリズムなど、さまざまなKG補完アルゴリズムについて議論する。 その後、KG、LLM内の型情報を利用したアルゴリズムに移行し、最後に、異なる記述論理公理で表されるセマンティクスをキャプチャするアルゴリズムに移行する。 本稿は、コミュニティにおける現在の作業状況について批判的な考察を行い、今後の方向性について推奨する。

Embedding based Knowledge Graph (KG) Completion has gained much attention over the past few years. Most of the current algorithms consider a KG as a multidirectional labeled graph and lack the ability to capture the semantics underlying the schematic information. In a separate development, a vast amount of information has been captured within the Large Language Models (LLMs) which has revolutionized the field of Artificial Intelligence. KGs could benefit from these LLMs and vice versa. This vision paper discusses the existing algorithms for KG completion based on the variations for generating KG embeddings. It starts with discussing various KG completion algorithms such as transductive and inductive link prediction and entity type prediction algorithms. It then moves on to the algorithms utilizing type information within the KGs, LLMs, and finally to algorithms capturing the semantics represented in different description logic axioms. We conclude the paper with a critical reflection on the current state of work in the community and give recommendations for future directions.
翻訳日:2024-07-04 20:43:01 公開日:2024-07-03
# 逆ロバスト性レンズによるグラフニューラルネットワークの表現性

Expressivity of Graph Neural Networks Through the Lens of Adversarial Robustness ( http://arxiv.org/abs/2308.08173v2 )

ライセンス: Link先を確認
Francesco Campi, Lukas Gosch, Tom Wollschläger, Yan Scholten, Stephan Günnemann, (参考訳) 従来のMPNN(Message Passing Neural Networks)よりも明らかに強力なグラフニューラルネットワーク(GNN)について,最初の対角的ロバストネス研究を行う。 特に, 理論的に可能であり, 実証的に達成された表現力の間に有意なギャップを明らかにするためのツールとして, 対向ロバスト性を用いる。 そこで我々は,表現力の確立された尺度である特定のサブグラフパターンをカウントするGNNの能力に着目し,対角的ロバスト性の概念をこの課題に拡張する。 そこで我々は, グラフの数値化に対する効率的な逆数攻撃を開発し, グラフ構造に対する小さな摂動に対しても, より強力なGNNが一般化できないことを示す。 これを拡張して、そのようなアーキテクチャは分布外グラフのサブ構造をカウントできないことを示す。

We perform the first adversarial robustness study into Graph Neural Networks (GNNs) that are provably more powerful than traditional Message Passing Neural Networks (MPNNs). In particular, we use adversarial robustness as a tool to uncover a significant gap between their theoretically possible and empirically achieved expressive power. To do so, we focus on the ability of GNNs to count specific subgraph patterns, which is an established measure of expressivity, and extend the concept of adversarial robustness to this task. Based on this, we develop efficient adversarial attacks for subgraph counting and show that more powerful GNNs fail to generalize even to small perturbations to the graph's structure. Expanding on this, we show that such architectures also fail to count substructures on out-of-distribution graphs.
翻訳日:2024-07-04 20:43:01 公開日:2024-07-03
# Marginal Contextual Information を用いた半教師付きセマンティックセマンティックセグメンテーション

Semi-Supervised Semantic Segmentation via Marginal Contextual Information ( http://arxiv.org/abs/2308.13900v2 )

ライセンス: Link先を確認
Moshe Kimhi, Shai Kimhi, Evgenii Zheltonozhskii, Or Litany, Chaim Baskin, (参考訳) 半教師付きセマンティックセグメンテーションにおける擬似ラベルを強化する新しい信頼度向上手法を提案する。 本手法では, 近傍の画素をグループ化し, 擬似ラベルをまとめて考えることにより, 分割写像におけるラベルの空間的相関を考慮し, 低信頼度予測を単独でフィルタリングする既存手法と異なり, セグメンテーションマップにおけるラベルの空間的相関を利用する。 この文脈情報により、S4MCと呼ばれる手法は、擬似ラベルの品質を維持しながら、トレーニング中に使用するラベルなしデータの量を増大させ、全て無視できる計算オーバーヘッドを伴う。 標準ベンチマークに関する広範な実験を通じて、S4MCは既存の最先端の半教師付き学習手法よりも優れており、高密度アノテーションの取得コストを削減できる有望なソリューションを提供する。 例えば、S4MCは366の注釈付き画像を持つPASCAL VOC 12の先行技術よりも1.39 mIoUの改善を実現している。 実験を再現するコードはhttps://s4mcontext.github.io/で公開されている。

We present a novel confidence refinement scheme that enhances pseudo labels in semi-supervised semantic segmentation. Unlike existing methods, which filter pixels with low-confidence predictions in isolation, our approach leverages the spatial correlation of labels in segmentation maps by grouping neighboring pixels and considering their pseudo labels collectively. With this contextual information, our method, named S4MC, increases the amount of unlabeled data used during training while maintaining the quality of the pseudo labels, all with negligible computational overhead. Through extensive experiments on standard benchmarks, we demonstrate that S4MC outperforms existing state-of-the-art semi-supervised learning approaches, offering a promising solution for reducing the cost of acquiring dense annotations. For example, S4MC achieves a 1.39 mIoU improvement over the prior art on PASCAL VOC 12 with 366 annotated images. The code to reproduce our experiments is available at https://s4mcontext.github.io/
翻訳日:2024-07-04 20:43:01 公開日:2024-07-03
# GitHubの課題は分類のレビューに役立つか?

Can GitHub Issues Help in pp Review Classifications? ( http://arxiv.org/abs/2308.14211v2 )

ライセンス: Link先を確認
Yasaman Abedini, Abbas Heydarnoori, (参考訳) アプリのレビューは、メンテナンスタスクの計画に役立つさまざまなユーザ要件を反映している。 近年,ユーザレビューの自動分類手法は機械学習アルゴリズムに依存している。 前回の研究では、既存のラベル付きデータセットでトレーニングされたモデルは、新しいデータセットを予測する際のパフォーマンスが低かったことが示されていた。 したがって、より正確なモデルをトレーニングするためには、包括的なラベル付きデータセットが不可欠である。 本稿では,ユーザ要求に関する貴重な情報を含むGitHubイシューの追加ソースから抽出した情報を活用することで,ラベル付きデータセットの強化を支援する新しいアプローチを提案する。 まず、イシューラベルを調べることにより、レビュー意図(バグレポート、機能要求など)に関する問題を特定する。 そして,課題を解析し,対象情報を抽出する19の言語パターンを定義する。 最後に、手動でラベル付けされたレビューデータセットを、 \emph{Within-App}、 \emph{Within-Context}、 \emph{Between-App Analysis}メソッドで処理された問題のサブセットで拡張します。 提案手法を評価するためにいくつかの実験を行った。 以上の結果から,データ拡張にラベル付き問題を用いることで,F1スコアが6.3,機能要求が7.2に向上することが示された。 さらに, 補助音量に対して0.3~0.7の有効範囲を同定し, 性能改善を図る。

App reviews reflect various user requirements that can aid in planning maintenance tasks. Recently, proposed approaches for automatically classifying user reviews rely on machine learning algorithms. A previous study demonstrated that models trained on existing labeled datasets exhibit poor performance when predicting new ones. Therefore, a comprehensive labeled dataset is essential to train a more precise model. In this paper, we propose a novel approach that assists in augmenting labeled datasets by utilizing information extracted from an additional source, GitHub issues, that contains valuable information about user requirements. First, we identify issues concerning review intentions (bug reports, feature requests, and others) by examining the issue labels. Then, we analyze issue bodies and define 19 language patterns for extracting targeted information. Finally, we augment the manually labeled review dataset with a subset of processed issues through the \emph{Within-App}, \emph{Within-Context}, and \emph{Between-App Analysis} methods. We conducted several experiments to evaluate the proposed approach. Our results demonstrate that using labeled issues for data augmentation can improve the F1-score to 6.3 in bug reports and 7.2 in feature requests. Furthermore, we identify an effective range of 0.3 to 0.7 for the auxiliary volume, which provides better performance improvements.
翻訳日:2024-07-04 20:43:01 公開日:2024-07-03
# 近似メッセージパッシングによる構造一般化線形モデルのスペクトル推定

Spectral Estimators for Structured Generalized Linear Models via Approximate Message Passing ( http://arxiv.org/abs/2308.14507v3 )

ライセンス: Link先を確認
Yihan Zhang, Hong Chang Ji, Ramji Venkataramanan, Marco Mondelli, (参考訳) 本研究では,高次元一般化線形モデルにおけるパラメータ推定の問題について考察する。 適切なデータ依存行列の主固有ベクトルを介して得られるスペクトル法は、単純だが驚くほど効果的な解を与える。 しかし、その広範囲な使用にもかかわらず、厳密な性能特性とデータ前処理の原理的な方法が、非構造化(すなわちガウスおよびハール直交)設計でのみ利用可能である。 対照的に、実世界のデータ行列は高度に構造化されており、非自明な相関を示す。 この問題に対処するために、共分散行列$\Sigma$を介して特徴の異方性を取り込む相関ガウス設計を考える。 本研究の主な成果は,スペクトル推定器の性能の高精度な漸近的評価である。 これにより、パラメータ推定に必要なサンプルの数を最小化する最適な前処理を特定できる。 驚くべきことに、そのような前処理は幅広い設計の集合で普遍的であり、部分的には回転不変モデルに対する最適スペクトル推定器の予想に対処する。 我々の原理的アプローチは、計算画像や遺伝学に共通する設計を含む、過去のヒューリスティックな手法を大幅に改善する。 提案手法は, 近似メッセージパッシングを基礎として, スパイクされた行列の精密な評価と, 対応するスペクトル手法の様々な設定への道を開くものである。

We consider the problem of parameter estimation in a high-dimensional generalized linear model. Spectral methods obtained via the principal eigenvector of a suitable data-dependent matrix provide a simple yet surprisingly effective solution. However, despite their wide use, a rigorous performance characterization, as well as a principled way to preprocess the data, are available only for unstructured (i.i.d.\ Gaussian and Haar orthogonal) designs. In contrast, real-world data matrices are highly structured and exhibit non-trivial correlations. To address the problem, we consider correlated Gaussian designs capturing the anisotropic nature of the features via a covariance matrix $\Sigma$. Our main result is a precise asymptotic characterization of the performance of spectral estimators. This allows us to identify the optimal preprocessing that minimizes the number of samples needed for parameter estimation. Surprisingly, such preprocessing is universal across a broad set of designs, which partly addresses a conjecture on optimal spectral estimators for rotationally invariant models. Our principled approach vastly improves upon previous heuristic methods, including for designs common in computational imaging and genetics. The proposed methodology, based on approximate message passing, is broadly applicable and opens the way to the precise characterization of spiked matrices and of the corresponding spectral methods in a variety of settings.
翻訳日:2024-07-04 20:43:01 公開日:2024-07-03
# 深度3次元視覚接地における両眼融合改善のための4つの方法

Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding ( http://arxiv.org/abs/2309.04561v2 )

ライセンス: Link先を確認
Ozan Unal, Christos Sakaridis, Suman Saha, Luc Van Gool, (参考訳) 3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。 自律型屋内ロボティクスからAR/VRまで幅広い応用により、このタスクは最近人気が高まっている。 3次元の視覚的接地に取り組むための一般的な定式化は、境界ボックスを介して局所化を行うグラウンド・バイ・検出である。 しかし、物理的な相互作用を必要とする現実のアプリケーションでは、境界ボックスは対象の幾何学を十分に記述していない。 そこで我々は,高密度な3次元視覚的接地,すなわちレファレンシャルベースの3次元インスタンスセグメンテーションの問題に取り組む。 本研究では,4つの新しいスタンドアロンモジュールを特徴とする高密度な3DグラウンドネットワークであるContactNetを提案する。 まず,階層間関係を曖昧にすることを目的としたボトムアップ注意融合モジュールを導入し,次に,潜時空間の分離を誘導する対照的な学習手法を構築し,学習されたグローバルカメラトークンを用いてビュー依存発話を解決し,最後に,参照マスクの品質を向上させるためにマルチビューアンサンブルを用いる。 concreteNetは、挑戦的なScanReferオンラインベンチマークで1位にランクインし、ICCV 3rd Workshop on Language for 3D Scenes "3D Object Localization"チャレンジで優勝した。

3D visual grounding is the task of localizing the object in a 3D scene which is referred by a description in natural language. With a wide range of applications ranging from autonomous indoor robotics to AR/VR, the task has recently risen in popularity. A common formulation to tackle 3D visual grounding is grounding-by-detection, where localization is done via bounding boxes. However, for real-life applications that require physical interactions, a bounding box insufficiently describes the geometry of an object. We therefore tackle the problem of dense 3D visual grounding, i.e. referral-based 3D instance segmentation. We propose a dense 3D grounding network ConcreteNet, featuring four novel stand-alone modules that aim to improve grounding performance for challenging repetitive instances, i.e. instances with distractors of the same semantic class. First, we introduce a bottom-up attentive fusion module that aims to disambiguate inter-instance relational cues, next, we construct a contrastive training scheme to induce separation in the latent space, we then resolve view-dependent utterances via a learned global camera token, and finally we employ multi-view ensembling to improve referred mask quality. ConcreteNet ranks 1st on the challenging ScanRefer online benchmark and has won the ICCV 3rd Workshop on Language for 3D Scenes "3D Object Localization" challenge.
翻訳日:2024-07-04 20:43:01 公開日:2024-07-03
# グレースケールでの顔認識と色の関係

What's color got to do with it? Face recognition in grayscale ( http://arxiv.org/abs/2309.05180v2 )

ライセンス: Link先を確認
Aman Bhatta, Domingo Mery, Haiyu Wu, Joyce Annan, Micheal C. King, Kevin W. Bowyer, (参考訳) 最先端のディープCNNフェイスマーカは通常、カラーフェイスイメージの広範なトレーニングセットを使用して作成される。 本研究は, カラーテスト画像を用いて評価を行った場合においても, トレーニングセットのグレースケール, カラーバージョンでトレーニングすると, ほぼ同一の精度が得られることを示した。 さらに、より浅いモデルでは、複雑な表現をモデル化する能力が欠如しており、色に関連するような低レベルの特徴に強く依存していることを示す。 その結果、グレースケール画像のトレーニングでは精度が低下した。 次に、より深いCNNフェイスマーカの「色が見えていない」原因について検討する。 一般的なウェブスクラッドの顔データセットは、実際には30から60%のアイデンティティを持ち、1つ以上のグレースケールのイメージを持っている。 トレーニングセットのこのグレースケール要素が達成した精度に影響を及ぼすかどうかを分析し、そうでないと結論付ける。 トレーニングとテストの両方にグレースケールの画像のみを使用することで、より深いモデルにカラー画像のみを使用することで、精度が向上することを示した。 これは、実際のトレーニングデータセットと合成トレーニングデータセットの両方に当てはまる。 色覚情報と色覚情報を分離するHSV色空間は、RGB色空間よりもネットワークの色の学習を改善するものではない。 次に、Webスクラッドトレーニングセットにおける個人の画像の皮膚領域は、色空間へのマッピングにおいて顕著な変化を示すことを示す。 これは色が限定的なアイデンティティ固有の情報を持っていることを示唆している。 また、第1畳み込み層を単一フィルタに制限すると、モデルがグレースケール変換フィルタを学習し、入力されたカラー画像のグレースケールバージョンを次の層に渡すことを示す。 最後に,画像単位の低いストレージをグレースケールに活用してトレーニングセット内の画像数を増やすことで,顔認識モデルの精度を向上させることを実証した。

State-of-the-art deep CNN face matchers are typically created using extensive training sets of color face images. Our study reveals that such matchers attain virtually identical accuracy when trained on either grayscale or color versions of the training set, even when the evaluation is done using color test images. Furthermore, we demonstrate that shallower models, lacking the capacity to model complex representations, rely more heavily on low-level features such as those associated with color. As a result, they display diminished accuracy when trained with grayscale images. We then consider possible causes for deeper CNN face matchers "not seeing color". Popular web-scraped face datasets actually have 30 to 60% of their identities with one or more grayscale images. We analyze whether this grayscale element in the training set impacts the accuracy achieved, and conclude that it does not. We demonstrate that using only grayscale images for both training and testing achieves accuracy comparable to that achieved using only color images for deeper models. This holds true for both real and synthetic training datasets. HSV color space, which separates chroma and luma information, does not improve the network's learning about color any more than in the RGB color space. We then show that the skin region of an individual's images in a web-scraped training set exhibits significant variation in their mapping to color space. This suggests that color carries limited identity-specific information. We also show that when the first convolution layer is restricted to a single filter, models learn a grayscale conversion filter and pass a grayscale version of the input color image to the next layer. Finally, we demonstrate that leveraging the lower per-image storage for grayscale to increase the number of images in the training set can improve accuracy of the face recognition model.
翻訳日:2024-07-04 20:43:01 公開日:2024-07-03
# マヨラナ・フェルミオンはヴィーデマン・フランツ法に違反してパワー・ロー・スケーリングを誘発する

Majorana fermion induced power-law scaling in the violation of Wiedemann-Franz law ( http://arxiv.org/abs/2309.05492v3 )

ライセンス: Link先を確認
Sachiraj Mishra, Ritesh Das, Colin Benjamin, (参考訳) マヨラナ境界状態 (MBS) による2次元トポロジカル絶縁体におけるウィーデマン・フランツ法 (WF) の違反について, 単一粒子像におけるローレンツ比を用いて検討した。 本研究では,バチカー電圧温度プローブを用いた非弾性散乱によるMBSの存在と欠如におけるローレンツ比のスケーリングについて検討した。 我々は、この結果と、トポロジカルな近藤政権で活動しているルッティンガー液体画像の量子ドット接合で見られるものとの比較を行った。 我々は, 相緩和と運動量緩和のいずれにおいても非弾性散乱が起こる場合, あるいは相緩和だけでローレンツ比のスケーリングを考察する。 このスケーリングは、未結合および結合マヨナ境界状態の両方に対してルッティンガー液体像によって予測されるものと異なり、非弾性散乱の性質に依存する。

Violation of the Wiedemann-Franz (WF) law in a 2D topological insulator due to Majorana bound states (MBS) is studied via the Lorenz ratio in the single-particle picture. We study the scaling of the Lorenz ratio in the presence and absence of MBS with inelastic scattering modeled using a Buttiker voltage-temperature probe. We compare our results with that seen in a quantum dot junction in the Luttinger liquid picture operating in the topological Kondo regime. We explore the scaling of the Lorentz ratio in our setup when either inelastic scattering occurs with both phase and momentum relaxation or via phase relaxation alone. This scaling differs from that predicted by the Luttinger liquid picture for both uncoupled and coupled Majorana bound states and depends on the nature of inelastic scattering.
翻訳日:2024-07-04 20:43:01 公開日:2024-07-03
# 卵巣癌に対するNeoadjuvant Chemotherapy(NACT)の臨床成績予測のための新しい画像マーカーの開発

Developing a Novel Image Marker to Predict the Clinical Outcome of Neoadjuvant Chemotherapy (NACT) for Ovarian Cancer Patients ( http://arxiv.org/abs/2309.07087v2 )

ライセンス: Link先を確認
Ke Zhang, Neman Abdoli, Patrik Gilley, Youkabed Sadri, Xuxin Chen, Theresa C. Thai, Lauren Dockery, Kathleen Moore, Robert S. Mannel, Yuchen Qiu, (参考訳) 目的的ネオアジュバント化学療法(英: Objective Neoadjuvant chemotherapy, NACT)は、進行期卵巣癌に対する治療の一種である。 しかし, 腫瘍の均一性の性質から, NACTに対する臨床効果はサブグループによって大きく異なっていた。 NACTに対する部分的反応は、近位部破裂手術を引き起こす可能性があり、予後不良を引き起こす。 本研究の目的は,NATの早期に高精度な予後予測を実現するために,新しい画像マーカーを開発することである。 方法 この目的のためにまず, 腫瘍の特徴を定量化するために, 1373個の放射能の特徴を計算し, その特徴を幾何学的, 強度, テクスチャ的特徴の3つのカテゴリに分類した。 第二に、これらすべての機能は主成分分析アルゴリズムによって最適化され、コンパクトで情報性の高い特徴クラスタを生成する。 このクラスタはサポートベクターマシン(SVM)をベースとした分類器の開発と最適化のインプットとして利用され,NAT処理後の至適細胞減少の可能性が示唆された。 SVMアルゴリズムのための2つの異なるカーネルを探索・比較した。 計42例の卵巣癌症例を振り返って検討した。 モデルパフォーマンス評価には、ネストしたLeft-one-outクロスバリデーションフレームワークが採用された。 その結果,ガウス半径基底関数カーネルSVMを用いたモデルでは,AUC(ROC(受信者特性演算曲線)の0.806が得られた。 一方、このモデルは全体の精度(ACC)が83.3%、正の予測値(PPV)が81.8%、負の予測値(NPV)が83.9%に達した。 結論 この研究は、NAT治療結果予測において、放射能に基づく画像マーカーの開発に有意義な情報を提供する。

Objective Neoadjuvant chemotherapy (NACT) is one kind of treatment for advanced stage ovarian cancer patients. However, due to the nature of tumor heterogeneity, the clinical outcomes to NACT vary significantly among different subgroups. Partial responses to NACT may lead to suboptimal debulking surgery, which will result in adverse prognosis. To address this clinical challenge, the purpose of this study is to develop a novel image marker to achieve high accuracy prognosis prediction of NACT at an early stage. Methods For this purpose, we first computed a total of 1373 radiomics features to quantify the tumor characteristics, which can be grouped into three categories: geometric, intensity, and texture features. Second, all these features were optimized by principal component analysis algorithm to generate a compact and informative feature cluster. This cluster was used as input for developing and optimizing support vector machine (SVM) based classifiers, which indicated the likelihood of receiving suboptimal cytoreduction after the NACT treatment. Two different kernels for SVM algorithm were explored and compared. A total of 42 ovarian cancer cases were retrospectively collected to validate the scheme. A nested leave-one-out cross-validation framework was adopted for model performance assessment. Results The results demonstrated that the model with a Gaussian radial basis function kernel SVM yielded an AUC (area under the ROC [receiver characteristic operation] curve) of 0.806. Meanwhile, this model achieved overall accuracy (ACC) of 83.3%, positive predictive value (PPV) of 81.8%, and negative predictive value (NPV) of 83.9%. Conclusion This study provides meaningful information for the development of radiomics based image markers in NACT treatment outcome prediction.
翻訳日:2024-07-04 20:43:01 公開日:2024-07-03
# 部分分割による幾何学的局所量子及び古典的符号

Geometrically Local Quantum and Classical Codes from Subdivision ( http://arxiv.org/abs/2309.16104v2 )

ライセンス: Link先を確認
Ting-Chun Lin, Adam Wills, Min-Hsiu Hsieh, (参考訳) 幾何学的に局所的な量子符号は$\mathbb{R}^D$内の誤り訂正符号であり、チェックは固定空間距離内の量子ビットにのみ作用する。 主な疑問は: 幾何学的に局所的なコードにとって最適な寸法と距離は何か? 最近、Portnoyはコードによってポリログまでの最適な寸法と距離を達成し、大きなブレークスルーを遂げた。 しかし、この構成は、多様体への鎖複体を持ち上げることを伴う幾分進んだ数学的結果を引き起こす。 本稿では、このステップを回避し、優れた量子低密度パリティチェック符号、バランスの取れた積符号の族が自然に2次元構造を持つことに気づき、構成を合理化する。 他の場所で示される新しい埋め込み結果とともに、この量子符号はすべての次元における最適な次元と距離を達成する。 さらに,コードには最適エネルギー障壁が存在することを示す。 また、古典的符号についても同様の結果について論じる。

A geometrically local quantum code is an error correcting code situated within $\mathbb{R}^D$, where the checks only act on qubits within a fixed spatial distance. The main question is: What is the optimal dimension and distance for a geometrically local code? Recently, Portnoy made a significant breakthrough with codes achieving optimal dimension and distance up to polylogs. However, the construction invokes a somewhat advanced mathematical result that involves lifting a chain complex to a manifold. This paper bypasses this step and streamlines the construction by noticing that a family of good quantum low-density parity-check codes, balanced product codes, naturally carries a two-dimensional structure. Together with a new embedding result that will be shown elsewhere, this quantum code achieves the optimal dimension and distance in all dimensions. In addition, we show that the code has an optimal energy barrier. We also discuss similar results for classical codes.
翻訳日:2024-07-04 20:43:01 公開日:2024-07-03
# 医用画像解析のための雑音正規化教師(SMART)を用いた自己蒸留仮面注意誘導マスク画像モデリング

Self-distilled Masked Attention guided masked image modeling with noise Regularized Teacher (SMART) for medical image analysis ( http://arxiv.org/abs/2310.01209v2 )

ライセンス: Link先を確認
Jue Jiang, Aneesh Rangnekar, Chloe Min Seo Choi, Harini Veeraraghavan, (参考訳) 注意誘導型マスク画像モデリング(MIM)を用いた事前学習型視覚変換器(ViT)は、自然画像解析において下流の精度を向上することを示した。 医用画像解析でよく用いられる階層シフトウィンドウ(スウィン)変換器は、選択マスキングのために注意マップを計算するのに必要な明示的な(CLS)トークンが欠けているため、注意誘導マスキングを使用することはできない。 これにより、セマンティックなクラスアテンションでSwinを拡張しました。 我々は,MIMの選択的マスキングを誘導するために,雑音の多い運動量更新教師を組み合わせた共蒸留スウィントランスを開発した。 肺結節および肺癌の3次元CTデータセットを解析するために,<textsc{s}e\textsc{m}antic \textsc{a}ttention guided co-distillation with noisy teacher \textsc{r}egularized Swin \textsc{T}rans\textsc{F}ormer (SMARTFormer) を用いた。 また,意味的注意と騒々しい教師が事前学習と下流の精度に与える影響を分析した。 SMARTFormerは,1000結節の0.895の良性病変(良性病変)を分類し,LC治療反応を0.74の精度で予測し,限られたデータ体制でも高い精度を達成した。 意味的な注意と騒々しい教師の訓練により、教師なしのクラスタリングタスクにおける臓器のような意味のある構造を識別し、腫瘍のような異常な構造を局在させる能力が改善された。 コード、モデルは、GitHubで論文の受理時に利用可能になる。

Pretraining vision transformers (ViT) with attention guided masked image modeling (MIM) has shown to increase downstream accuracy for natural image analysis. Hierarchical shifted window (Swin) transformer, often used in medical image analysis cannot use attention guided masking as it lacks an explicit [CLS] token, needed for computing attention maps for selective masking. We thus enhanced Swin with semantic class attention. We developed a co-distilled Swin transformer that combines a noisy momentum updated teacher to guide selective masking for MIM. Our approach called \textsc{s}e\textsc{m}antic \textsc{a}ttention guided co-distillation with noisy teacher \textsc{r}egularized Swin \textsc{T}rans\textsc{F}ormer (SMARTFormer) was applied for analyzing 3D computed tomography datasets with lung nodules and malignant lung cancers (LC). We also analyzed the impact of semantic attention and noisy teacher on pretraining and downstream accuracy. SMARTFormer classified lesions (malignant from benign) with a high accuracy of 0.895 of 1000 nodules, predicted LC treatment response with accuracy of 0.74, and achieved high accuracies even in limited data regimes. Pretraining with semantic attention and noisy teacher improved ability to distinguish semantically meaningful structures such as organs in a unsupervised clustering task and localize abnormal structures like tumors. Code, models will be made available through GitHub upon paper acceptance.
翻訳日:2024-07-04 20:33:17 公開日:2024-07-03
# 動的半群の発電機の特異分解の理解と一般化

Understanding and Generalizing Unique Decompositions of Generators of Dynamical Semigroups ( http://arxiv.org/abs/2310.04037v3 )

ライセンス: Link先を確認
Frederik vom Ende, (参考訳) 我々は、Gorini, Kossakowski, and Sudarshan [J. Math. Phys. 17:821, 1976] の結果を一般化し、量子力学的半群のすべての生成元は、両方の消滅の痕跡を仮定して、一意に閉かつ散逸的な部分に分解する。 より正確には、任意の生成元 $L$ が完全正の動的半群で任意の行列 $B$ が与えられたとき、一意の行列 $K$ と一意の正の写像 $Phi$ が存在することを示す。 (i)$L=K(\cdot)+(\cdot)K^*+\Phi$, (ii) Superoperator $\Phi(B^*(\cdot)B)$ はトレースゼロであり、 (iii)${\rm tr}(B^*K)$は実数である。 これを証明する鍵となるのは、完全正の写像のトレース、クラス作用素のトレース、チェイ行列の期待値の関係である。 さらに、上記の分解は、ある$B$重み付き内積に対して直交的であることを示す。

We generalize the result of Gorini, Kossakowski, and Sudarshan [J. Math. Phys. 17:821, 1976] that every generator of a quantum-dynamical semigroup decomposes uniquely into a closed and a dissipative part, assuming the trace of both vanishes. More precisely, we show that given any generator $L$ of a completely positive dynamical semigroup and any matrix $B$ there exists a unique matrix $K$ and a unique completely positive map $\Phi$ such that (i) $L=K(\cdot)+(\cdot)K^*+\Phi$, (ii) the superoperator $\Phi(B^*(\cdot)B)$ has trace zero, and (iii) ${\rm tr}(B^*K)$ is a real number. The key to proving this is the relation between the trace of a completely positive map, the trace of its Kraus operators, and expectation values of its Choi matrix. Moreover, we show that the above decomposition is orthogonal with respect to some $B$-weighted inner product.
翻訳日:2024-07-04 20:33:17 公開日:2024-07-03
# 同じ骨格を持つマルコフ等価クラスを数える固定パラメータトラクタブルアルゴリズム

A Fixed-Parameter Tractable Algorithm for Counting Markov Equivalence Classes with the same Skeleton ( http://arxiv.org/abs/2310.04218v5 )

ライセンス: Link先を確認
Vidya Sagar Sharma, (参考訳) 因果DAG(Bayesian Network)は、確率変数間の条件依存を符号化する一般的なツールである。 因果的DAGでは、ランダム変数はDAGの頂点としてモデル化され、全てのランダム変数は両親に条件付けられた祖先から独立していることが規定されている。 しかし、同じ確率変数の集合上の2つの異なる因果DAGに対して、全く同じ条件依存の集合をエンコードすることが可能である。 そのような因果DAGはマルコフ同値であるとされ、マルコフ同値DAGの同値類はマルコフ同値類(Markov Equivalent Classs、MECs)として知られている。 MECの美しい組合せ的特徴はここ数十年で開発され、特に同じMEC内のすべてのDAGは、同じ「スケルトン」と v-構造($a\rightarrow b \leftarrow c$ という形に誘導される部分グラフ)を持つ必要があることが知られている。 これらの組合せ的特徴は、いくつかの自然なアルゴリズム的問題も示唆している。 入力として無向グラフ$G$を与えられたとき、マルコフ同値類がスケルトン$G$を持つものはいくつあるか? ここ数年、多くの研究がこの問題や他の密接に関連する問題に注がれている。 しかし、我々の知る限りでは、この問題に対する多項式時間アルゴリズムはいまだに不明である。 本稿では、上記の問題に対してパラメータを木幅とし、入力グラフの最大度を$G$とすることで、この目標に向かって前進する。 我々の研究の主な技術的要素は、私たちがシャドウと呼ぶ構造であり、MECの組合せ的特徴によって課される長距離制約の「局所的な記述」を作成することができる。

Causal DAGs (also known as Bayesian networks) are a popular tool for encoding conditional dependencies between random variables. In a causal DAG, the random variables are modeled as vertices in the DAG, and it is stipulated that every random variable is independent of its ancestors conditioned on its parents. It is possible, however, for two different causal DAGs on the same set of random variables to encode exactly the same set of conditional dependencies. Such causal DAGs are said to be Markov equivalent, and equivalence classes of Markov equivalent DAGs are known as Markov Equivalent Classes (MECs). Beautiful combinatorial characterizations of MECs have been developed in the past few decades, and it is known, in particular that all DAGs in the same MEC must have the same "skeleton" (underlying undirected graph) and v-structures (induced subgraph of the form $a\rightarrow b \leftarrow c$). These combinatorial characterizations also suggest several natural algorithmic questions. One of these is: given an undirected graph $G$ as input, how many distinct Markov equivalence classes have the skeleton $G$? Much work has been devoted in the last few years to this and other closely related problems. However, to the best of our knowledge, a polynomial time algorithm for the problem remains unknown. In this paper, we make progress towards this goal by giving a fixed parameter tractable algorithm for the above problem, with the parameters being the treewidth and the maximum degree of the input graph $G$. The main technical ingredient in our work is a construction we refer to as shadow, which lets us create a "local description" of long-range constraints imposed by the combinatorial characterizations of MECs.
翻訳日:2024-07-04 20:33:17 公開日:2024-07-03
# LauraGPT: GPTによる聴取, 聴取, 理解, 再生

LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT ( http://arxiv.org/abs/2310.04673v4 )

ライセンス: Link先を確認
Zhihao Du, Jiaming Wang, Qian Chen, Yunfei Chu, Zhifu Gao, Zerui Li, Kai Hu, Xiaohuan Zhou, Jin Xu, Ziyang Ma, Wen Wang, Siqi Zheng, Chang Zhou, Zhijie Yan, Shiliang Zhang, (参考訳) Generative Pre-trained Transformer (GPT)モデルは、様々な自然言語処理タスクにおいて顕著な性能を発揮し、音声とテキストの大規模言語モデル(LLM)のバックボーンとして大きな可能性を示している。 従来の主流のLLMでは、入力音声と出力音声の両方を表すために離散音声トークンを使用していたが、音声認識、音声からテキストへの翻訳、連続した音声特徴を用いたモデルに対する音声強調といったタスクのパフォーマンス劣化に悩まされている。 本稿では,LuraGPTを提案する。LauraGPTは,音声認識,理解,生成のための新しい音声・テキストGPTベースのLLMである。 LauraGPTは、オーディオ入力とテキスト入力の両方を処理し、いずれのモードでも出力を生成する汎用LLMである。 ラウラGPTは音声エンコーダを用いて入力音声を連続表現に符号化し、離散コーデック符号から出力音声を生成する。 本稿では,コーデックトークンのマルチモーダル分布に起因する予測課題を克服するために,ワンステップのコーデックボコーダを提案する。 教師付きマルチタスク学習を用いてLauraGPTを微調整する。 大規模な実験により、LauraGPTは、音声の自動認識、音声合成、音声合成、音声強調、自動音声キャプション、音声感情認識、音声言語理解など、コンテンツ、セマンティクス、パラ言語学、音声信号分析に関連する幅広い音声タスクの強いベースラインに比べて、常に優れたパフォーマンスを達成することが示された。

Generative Pre-trained Transformer (GPT) models have achieved remarkable performance on various natural language processing tasks, and have shown great potential as backbones for audio-and-text large language models (LLMs). Previous mainstream audio-and-text LLMs use discrete audio tokens to represent both input and output audio; however, they suffer from performance degradation on tasks such as automatic speech recognition, speech-to-text translation, and speech enhancement over models using continuous speech features. In this paper, we propose LauraGPT, a novel unified audio-and-text GPT-based LLM for audio recognition, understanding, and generation. LauraGPT is a versatile LLM that can process both audio and text inputs and generate outputs in either modalities. We propose a novel data representation that combines continuous and discrete features for audio: LauraGPT encodes input audio into continuous representations using an audio encoder and generates output audio from discrete codec codes. We propose a one-step codec vocoder to overcome the prediction challenge caused by the multimodal distribution of codec tokens. We fine-tune LauraGPT using supervised multi-task learning. Extensive experiments show that LauraGPT consistently achieves comparable to superior performance compared to strong baselines on a wide range of audio tasks related to content, semantics, paralinguistics, and audio-signal analysis, such as automatic speech recognition, speech-to-text translation, text-to-speech synthesis, speech enhancement, automated audio captioning, speech emotion recognition, and spoken language understanding.
翻訳日:2024-07-04 20:33:17 公開日:2024-07-03
# 拡散モデルの含意的概念除去

Implicit Concept Removal of Diffusion Models ( http://arxiv.org/abs/2310.05873v5 )

ライセンス: Link先を確認
Zhili Liu, Kai Chen, Yifan Zhang, Jianhua Han, Lanqing Hong, Hang Xu, Zhenguo Li, Dit-Yan Yeung, James Kwok, (参考訳) テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。 これらの概念は「単純概念」と呼ばれ、訓練中に意図せず学習され、推論中に制御不能に生成される。 既存の除去方法は、主にモデルが実際に認識できない概念を認識する能力に依存しているため、暗黙的な概念を排除するのに依然として苦労している。 そこで我々は,暗黙的概念の内在的幾何学的特徴を活用し,幾何学的制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。 具体的には、不要な暗黙的な概念が特定されると、その概念の存在と幾何学的情報をテキストプロンプトに統合し、アクセス可能な分類器や検出器モデルの助けを借りる。 その後、モデルはこれらの情報を識別し、切り離すように最適化され、生成時に負のプロンプトとして採用される。 さらに,暗黙的概念が容易に注入される現実の状況を反映した,3つの典型的な暗黙的概念(QRコード,透かし,テキスト)を付与した新しい画像テキストデータセットであるImplicit Concept Dataset(ICD)を導入する。 Geom-Erasingは暗黙的な概念の生成を効果的に軽減し、不適切なイメージプロンプト(I2P)と我々の挑戦的なImplicit Concept Dataset(ICD)ベンチマークで最先端の結果を達成する。

Text-to-image (T2I) diffusion models often inadvertently generate unwanted concepts such as watermarks and unsafe images. These concepts, termed as the "implicit concepts", could be unintentionally learned during training and then be generated uncontrollably during inference. Existing removal methods still struggle to eliminate implicit concepts primarily due to their dependency on the model's ability to recognize concepts it actually can not discern. To address this, we utilize the intrinsic geometric characteristics of implicit concepts and present the Geom-Erasing, a novel concept removal method based on the geometric-driven control. Specifically, once an unwanted implicit concept is identified, we integrate the existence and geometric information of the concept into the text prompts with the help of an accessible classifier or detector model. Subsequently, the model is optimized to identify and disentangle this information, which is then adopted as negative prompts during generation. Moreover, we introduce the Implicit Concept Dataset (ICD), a novel image-text dataset imbued with three typical implicit concepts (i.e., QR codes, watermarks, and text), reflecting real-life situations where implicit concepts are easily injected. Geom-Erasing effectively mitigates the generation of implicit concepts, achieving the state-of-the-art results on the Inappropriate Image Prompts (I2P) and our challenging Implicit Concept Dataset (ICD) benchmarks.
翻訳日:2024-07-04 20:33:17 公開日:2024-07-03
# Dual Latent State Learning:QoS予測のための地域ネットワーク類似性の爆発

Dual Latent State Learning: Exploiting Regional Network Similarities for QoS Prediction ( http://arxiv.org/abs/2310.05988v2 )

ライセンス: Link先を確認
Ziliang Wang, Xiaohong Zhang, Kechi Zhang, Ze Shi Li, Meng Yan, (参考訳) 特定の領域内のユーザやサービスを問わず、個々のオブジェクトは、同じ都市または自律システム(AS)から共有されるため、しばしば同様のネットワーク状態を示す。 このような地域ネットワークの類似性にもかかわらず、既存の多くの技術はその可能性を見落とし、データスパシティやラベルの不均衡といった課題から生じる部分的なパフォーマンスをもたらす。 本稿では、QoS(Quality of Service)予測における従来の個別オブジェクトベースの予測手法の落とし穴を克服するために設計された、新しいディープラーニングフレームワークである、地域ベースデュアル潜在状態学習ネットワーク(R2SL)を紹介する。 前者とは異なり、R2SLは2つの異なる地域ネットワーク潜在状態(都市ネットワーク潜在状態とASネットワーク潜在状態)を導出することで、地域ネットワークの振舞いのニュアンスを捉えている。 これらの状態は、個々のオブジェクトデータではなく、共通領域からの集約データを利用して構築される。 さらに、R2SLは、線形損失成分を調整する拡張されたハマー損失関数を採用し、ラベルの不均衡の問題に対する対策を提供する。 予測処理を停止するために、マルチスケールの知覚ネットワークを利用して、統合された特徴マップ、地域ネットワーク潜伏特徴の融合、その他の関連する情報を解釈し、最終的にQoS予測を達成する。 実世界のQoSデータセットの厳密なテストを通じて、R2SLは、最先端の手法よりも優れたパフォーマンスを示している。 我々のR2SLアプローチは、オブジェクトに固有の地域ネットワークの類似性を十分に活用することで、正確なQoS予測のための革新的な道を開く。

Individual objects, whether users or services, within a specific region often exhibit similar network states due to their shared origin from the same city or autonomous system (AS). Despite this regional network similarity, many existing techniques overlook its potential, resulting in subpar performance arising from challenges such as data sparsity and label imbalance. In this paper, we introduce the regional-based dual latent state learning network(R2SL), a novel deep learning framework designed to overcome the pitfalls of traditional individual object-based prediction techniques in Quality of Service (QoS) prediction. Unlike its predecessors, R2SL captures the nuances of regional network behavior by deriving two distinct regional network latent states: the city-network latent state and the AS-network latent state. These states are constructed utilizing aggregated data from common regions rather than individual object data. Furthermore, R2SL adopts an enhanced Huber loss function that adjusts its linear loss component, providing a remedy for prevalent label imbalance issues. To cap off the prediction process, a multi-scale perception network is leveraged to interpret the integrated feature map, a fusion of regional network latent features and other pertinent information, ultimately accomplishing the QoS prediction. Through rigorous testing on real-world QoS datasets, R2SL demonstrates superior performance compared to prevailing state-of-the-art methods. Our R2SL approach ushers in an innovative avenue for precise QoS predictions by fully harnessing the regional network similarities inherent in objects.
翻訳日:2024-07-04 20:33:17 公開日:2024-07-03
# 医療画像解析のためのマルチドメインによるアウト・オブ・ディストリビューションとデータ制限シナリオの改善

Multi-domain improves out-of-distribution and data-limited scenarios for medical image analysis ( http://arxiv.org/abs/2310.06737v2 )

ライセンス: Link先を確認
Ece Ozkan, Xavier Boix, (参考訳) 医用画像分析のための現在の機械学習手法は、主にターゲット領域内のデータを利用して、特定のタスクに適したモデルを開発することに焦点を当てている。 これらの特化モデルはデータ収集であり、しばしば配布外サンプルへの一般化の限界を示す。 本研究では,複数のドメインを組み込んだモデルを用いることで,特殊なモデルで観測される限界を著しく軽減することを示す。 このアプローチをマルチドメインモデルと呼び、その性能を専門モデルと比較する。 そこで本研究では,X線,MRI,CT,超音波画像などの様々な画像モダリティや,軸方向,コロナ視,矢状視などの様々な視点を含む,多様な医用画像領域の取り込みについて紹介する。 以上の結果から,マルチドメインモデルの優れた一般化能力,特に医療アプリケーションで頻繁に発生するデータ可用性の制限とアウト・オブ・ディストリビューションを特徴とするシナリオにおいて,本研究の成果が浮き彫りになった。 多様なデータの統合により、複数のドメインモデルが複数のドメインにまたがる情報を活用することができ、全体的な結果を大幅に向上させることができる。 臓器認識のためのマルチドメインモデルは,従来の特殊モデルと比較して最大8%精度を向上させることができる。

Current machine learning methods for medical image analysis primarily focus on developing models tailored for their specific tasks, utilizing data within their target domain. These specialized models tend to be data-hungry and often exhibit limitations in generalizing to out-of-distribution samples. In this work, we show that employing models that incorporate multiple domains instead of specialized ones significantly alleviates the limitations observed in specialized models. We refer to this approach as multi-domain model and compare its performance to that of specialized models. For this, we introduce the incorporation of diverse medical image domains, including different imaging modalities like X-ray, MRI, CT, and ultrasound images, as well as various viewpoints such as axial, coronal, and sagittal views. Our findings underscore the superior generalization capabilities of multi-domain models, particularly in scenarios characterized by limited data availability and out-of-distribution, frequently encountered in healthcare applications. The integration of diverse data allows multi-domain models to utilize information across domains, enhancing the overall outcomes substantially. To illustrate, for organ recognition, multi-domain model can enhance accuracy by up to 8% compared to conventional specialized models.
翻訳日:2024-07-04 20:33:17 公開日:2024-07-03
# ワッサーシュタインラグランジアン流れを解くための計算フレームワーク

A Computational Framework for Solving Wasserstein Lagrangian Flows ( http://arxiv.org/abs/2310.10649v3 )

ライセンス: Link先を確認
Kirill Neklyudov, Rob Brekelmans, Alexander Tong, Lazar Atanackovic, Qiang Liu, Alireza Makhzani, (参考訳) 最適輸送の動的定式化は、基礎となる幾何(運動エネルギー)と密度経路(ポテンシャルエネルギー)の正則化によって拡張することができる。 これらの組み合わせは異なる変分問題(ラグランジアン)をもたらし、シュリンガー橋、不均衡の最適輸送、物理的制約を伴う最適輸送など、最適な輸送問題の多くのバリエーションを含んでいる。 一般に、最適密度経路は未知であり、これらの変動問題の解法は計算的に困難である。 本稿では,これらすべての問題に統一的な視点からアプローチする,新しいディープラーニングベースのフレームワークを提案する。 ラグランジアンの双対定式化を活用することで、学習力学の軌道をシミュレートしたりバックプロパゲートしたりする必要がなく、最適結合にアクセスする必要もない。 本稿では, 単一セル軌道推定における従来の手法よりも優れた手法として, 従来の知識を動的に組み込むことが, 正しい予測に不可欠であることを示す。

The dynamical formulation of the optimal transport can be extended through various choices of the underlying geometry (kinetic energy), and the regularization of density paths (potential energy). These combinations yield different variational problems (Lagrangians), encompassing many variations of the optimal transport problem such as the Schr\"odinger bridge, unbalanced optimal transport, and optimal transport with physical constraints, among others. In general, the optimal density path is unknown, and solving these variational problems can be computationally challenging. We propose a novel deep learning based framework approaching all of these problems from a unified perspective. Leveraging the dual formulation of the Lagrangians, our method does not require simulating or backpropagating through the trajectories of the learned dynamics, and does not need access to optimal couplings. We showcase the versatility of the proposed framework by outperforming previous approaches for the single-cell trajectory inference, where incorporating prior knowledge into the dynamics is crucial for correct predictions.
翻訳日:2024-07-04 20:33:17 公開日:2024-07-03
# 欠陥スペクトル: リッチセマンティックスを用いた大規模欠陥データセットの粒度図

Defect Spectrum: A Granular Look of Large-Scale Defect Datasets with Rich Semantics ( http://arxiv.org/abs/2310.17316v3 )

ライセンス: Link先を確認
Shuai Yang, Zhifei Chen, Pengguang Chen, Xi Fang, Shu Liu, Yingcong Chen, (参考訳) クローズドループ製造システムでは欠陥検査が最重要である。 しかし、欠陥検査のための既存のデータセットは、実際的なアプリケーションに必要な精度とセマンティックな粒度を欠いていることが多い。 本稿では,広範囲の産業的欠陥に対して,高精度でセマンティックなアノテーションと大規模アノテーションを提供する包括的ベンチマークであるDefect Spectrumを紹介する。 4つの重要な産業ベンチマークに基づいて、私たちのデータセットは既存のアノテーションを洗練し、単一のイメージ内の複数の欠陥タイプを識別する、リッチなセマンティックな詳細を導入します。 さらに、限られたデータセットを扱う場合でも、高品質で多様な欠陥画像を生成するように設計された2段階拡散ベースジェネレータであるDefect-Genを紹介する。 Defect-Genによって生成された合成画像は、欠陥検査モデルの有効性を著しく向上させた。 全体として、Defect Spectrumデータセットは、欠陥検査研究の可能性を実証し、高度なモデルをテストおよび精錬するための堅固なプラットフォームを提供する。

Defect inspection is paramount within the closed-loop manufacturing system. However, existing datasets for defect inspection often lack precision and semantic granularity required for practical applications. In this paper, we introduce the Defect Spectrum, a comprehensive benchmark that offers precise, semantic-abundant, and large-scale annotations for a wide range of industrial defects. Building on four key industrial benchmarks, our dataset refines existing annotations and introduces rich semantic details, distinguishing multiple defect types within a single image. Furthermore, we introduce Defect-Gen, a two-stage diffusion-based generator designed to create high-quality and diverse defective images, even when working with limited datasets. The synthetic images generated by Defect-Gen significantly enhance the efficacy of defect inspection models. Overall, The Defect Spectrum dataset demonstrates its potential in defect inspection research, offering a solid platform for testing and refining advanced models.
翻訳日:2024-07-04 20:33:17 公開日:2024-07-03
# Open Set Domain AdaptationのためのMixture-of-Experts: Dual-Space Detection Approach

Mixture-of-Experts for Open Set Domain Adaptation: A Dual-Space Detection Approach ( http://arxiv.org/abs/2311.00285v2 )

ライセンス: Link先を確認
Zhenbang Du, Jiayu An, Yunlu Tu, Jiahao Hong, Dongrui Wu, (参考訳) Open Set Domain Adaptation (OSDA)は、ソースとターゲットドメイン間の分散とラベルシフトを同時に処理し、ターゲットドメイン内の未知のクラスサンプルを特定しながら、既知のクラスを正確に分類することを目的としている。 既存のOSDAアプローチのほとんどは、ディープモデルの最終的な画像特徴空間に依存し、手動で調整されたしきい値を必要とし、未知のサンプルを既知のクラスとして容易に分類する。 Mixture-of-Experts (MoE)は治療薬かもしれない。 MoE内では、異なる専門家が異なる入力機能を処理し、ルーティング機能空間内の様々なクラスの独自の専門家ルーティングパターンを生成する。 その結果、未知のクラスサンプルは、既知のクラスに対して異なる専門家のルーティングパターンを表示することができる。 本稿では,画像特徴空間とルーティング特徴空間の不整合を利用して未知のクラスサンプルをしきい値なしで検出するDual-Space Detectionを提案する。 画像パッチ間の空間情報をよりよく活用するために、グラフルータも導入された。 3つの異なるデータセットの実験は、我々のアプローチの有効性と優位性を検証した。

Open Set Domain Adaptation (OSDA) aims to cope with the distribution and label shifts between the source and target domains simultaneously, performing accurate classification for known classes while identifying unknown class samples in the target domain. Most existing OSDA approaches, depending on the final image feature space of deep models, require manually-tuned thresholds, and may easily misclassify unknown samples as known classes. Mixture-of-Experts (MoE) could be a remedy. Within a MoE, different experts handle distinct input features, producing unique expert routing patterns for various classes in a routing feature space. As a result, unknown class samples may display different expert routing patterns to known classes. In this paper, we propose Dual-Space Detection, which exploits the inconsistencies between the image feature space and the routing feature space to detect unknown class samples without any threshold. Graph Router is further introduced to better make use of the spatial information among image patches. Experiments on three different datasets validated the effectiveness and superiority of our approach.
翻訳日:2024-07-04 20:33:17 公開日:2024-07-03
# グラフ変換システムを用いたBPMNの形式化と分析のための高次変換手法

A higher-order transformation approach to the formalization and analysis of BPMN using graph transformation systems ( http://arxiv.org/abs/2311.05243v4 )

ライセンス: Link先を確認
Tim Kräuter, Adrian Rutle, Harald König, Yngve Lamo, (参考訳) ビジネスプロセスモデリング表記法(BPMN、Business Process Modeling Notation)は、組織内および組織間ワークフローを定義するための広く使われている標準表記法である。 しかし、BPMN実行セマンティクスの非公式な記述は、BPMN要素の異なる解釈と振る舞い特性のチェックの難しさをもたらします。 本稿では、BPMNの実行セマンティクスの形式化を提案し、既存のアプローチと比較して、より多くのBPMN要素をカバーし、プロパティチェックを容易にする。 私たちのアプローチは、BPMNモデルからグラフ変換システムへの高次の変換に基づいています。 このアプローチの能力を示すため、オープンソースのWebベースツールとして実装しました。

The Business Process Modeling Notation (BPMN) is a widely used standard notation for defining intra- and inter-organizational workflows. However, the informal description of the BPMN execution semantics leads to different interpretations of BPMN elements and difficulties in checking behavioral properties. In this article, we propose a formalization of the execution semantics of BPMN that, compared to existing approaches, covers more BPMN elements while also facilitating property checking. Our approach is based on a higher-order transformation from BPMN models to graph transformation systems. To show the capabilities of our approach, we implemented it as an open-source web-based tool.
翻訳日:2024-07-04 20:33:17 公開日:2024-07-03
# Prompt Engineering - Prompt Engineer

Prompt Engineering a Prompt Engineer ( http://arxiv.org/abs/2311.05661v3 )

ライセンス: Link先を確認
Qinyuan Ye, Maxamed Axmed, Reid Pryzant, Fereshte Khani, (参考訳) プロンプトエンジニアリングは、カスタマイズされたタスクで大規模言語モデルのパフォーマンスを最適化する上で、難しいが重要なタスクである。 モデルのエラーを調べ、現在のプロンプトに欠けていることや誤解を招くことを仮説化し、明確さでタスクを伝えるには複雑な推論が必要である。 近年の研究では,大規模な言語モデルをメタプロンプトで自動的なプロンプトエンジニアリングを行う方法が提案されているが,メタプロンプトにおける複雑な推論のためのガイダンスが不十分なため,それらのポテンシャルは限られていると論じている。 このギャップを、詳細な説明、コンテキスト仕様、ステップバイステップの推論テンプレートという、メタプロンプトの3つの重要なコンポーネントに注入することで埋めます。 PE2と呼ばれるこの手法は、様々な言語タスクにまたがる優れた汎用性を示す。 これは「ステップバイステップ」がMultiArithで6.3%、GSM8Kで3.1%、対実的タスクで競争ベースラインが6.9%上回ったことを示唆している。 さらに,PE2は,ターゲットと高度に特定されたプロンプトを編集し,誤ったプロンプトを修正し,複雑なタスクのマルチステッププランを誘導できることを示す。

Prompt engineering is a challenging yet crucial task for optimizing the performance of large language models on customized tasks. It requires complex reasoning to examine the model's errors, hypothesize what is missing or misleading in the current prompt, and communicate the task with clarity. While recent works indicate that large language models can be meta-prompted to perform automatic prompt engineering, we argue that their potential is limited due to insufficient guidance for complex reasoning in the meta-prompt. We fill this gap by infusing into the meta-prompt three key components: detailed descriptions, context specification, and a step-by-step reasoning template. The resulting method, named PE2, exhibits remarkable versatility across diverse language tasks. It finds prompts that outperform "let's think step by step" by 6.3% on MultiArith and 3.1% on GSM8K, and outperforms competitive baselines on counterfactual tasks by 6.9%. Further, we show that PE2 can make targeted and highly specific prompt edits, rectify erroneous prompts, and induce multi-step plans for complex tasks.
翻訳日:2024-07-04 20:33:17 公開日:2024-07-03
# 温度スケーリングによる推定は、人間の読書時間に適合するが、それは「正しい理由」のためにできるのだろうか?

Temperature-scaling surprisal estimates improve fit to human reading times -- but does it do so for the "right reasons"? ( http://arxiv.org/abs/2311.09325v2 )

ライセンス: Link先を確認
Tong Liu, Iza Škrjanec, Vera Demberg, (参考訳) 人間の言語処理の難しさは、文脈における単語の負のログ確率である情報理論測度によって予測される。 しかし、人間の処理難易度を予測するのに必要なこれらの確率をどのように見積もるかは、いまだに不明であるが、長年の信念では、低いパープレキシティを持つモデルは単語の予測可能性をより正確に評価し、より良い読解時間予測をもたらすだろうと信じていたが、最近の研究は、非常に大きなモデルでは、精神言語的な予測力は減少することを示した。 一つの理由は、言語モデルが人間よりも予測に自信を持っているかもしれないためかもしれない。 本稿では,大規模言語モデル(LLM)の予測における温度スケーリングが,英文の読み出し時間に対する推定値と予測能力に与える影響を検証した。 まず,大言語モデルのキャリブレーションがモデルサイズによって改善されること,すなわち,キャリブレーションの低さが読解時間に適合しないことを示す。 第2に、温度スケーリングの確率は、いくつかの読み取り時間コーパスにおいて、読み取り時間(デルタログの確率が最大89%改善)に体系的に適合することがわかった。 最後に、この適合性の向上は、主に複数のサブワードトークンからなる単語によって駆動されることを示す。

A wide body of evidence shows that human language processing difficulty is predicted by the information-theoretic measure surprisal, a word's negative log probability in context. However, it is still unclear how to best estimate these probabilities needed for predicting human processing difficulty -- while a long-standing belief held that models with lower perplexity would provide more accurate estimates of word predictability, and therefore lead to better reading time predictions, recent work has shown that for very large models, psycholinguistic predictive power decreases. One reason could be that language models might be more confident of their predictions than humans, because they have had exposure to several magnitudes more data. In this paper, we test what effect temperature-scaling of large language model (LLM) predictions has on surprisal estimates and their predictive power of reading times of English texts. Firstly, we show that calibration of large language models typically improves with model size, i.e. poorer calibration cannot account for poorer fit to reading times. Secondly, we find that temperature-scaling probabilities lead to a systematically better fit to reading times (up to 89% improvement in delta log likelihood), across several reading time corpora. Finally, we show that this improvement in fit is chiefly driven by words that are composed of multiple subword tokens.
翻訳日:2024-07-04 20:33:17 公開日:2024-07-03
# 分散量子光相互作用に基づく自律計測におけるエネルギー交換の基礎機構

Fundamental mechanisms of energy exchanges in autonomous measurements based on dispersive qubit-light interaction ( http://arxiv.org/abs/2311.11870v2 )

ライセンス: Link先を確認
Nicolò Piccione, Maria Maffei, Xiayu Linpeng, Andrew N. Jordan, Kater W. Murch, Alexia Auffèves, (参考訳) 量子系のハミルトニアンと通勤しない観測可能度を測定することは、通常、この系の平均エネルギーを変更する。 自律的な測定スキームでは、システムのエネルギー変化はメーターのエネルギー変化によって補償されなければならない。 本稿では,1次元導波路内を伝播する光パルスと分散的に相互作用する量子ビットという,そのような自律的なメータ系力学を理論的に研究する。 光パルスの位相はシフトし、$z$-方向に沿ってキュービットの状態に条件付けされるが、キュービットハミルトニアンの向きは任意である。 相互作用が分散するため、光パルスのスペクトル変形によってエネルギー収支が達成されるように光子番号が保存される。 解析的および数値解に基づいて、このスペクトル変形の基礎となるメカニズムを明らかにし、量子ビットのエネルギー変化を補う方法を示す。 出力スペクトルの3つのピーク構造の形成を説明し、観測可能な条件を提供する。

Measuring an observable which does not commute with the Hamiltonian of a quantum system usually modifies the mean energy of this system. In an autonomous measurement scheme, coupling the system to a quantum meter, the system's energy change must be compensated by the meter's energy change. Here, we theoretically study such an autonomous meter-system dynamics: a qubit interacting dispersively with a light pulse propagating in a one-dimensional waveguide. The phase of the light pulse is shifted, conditioned to the qubit's state along the $z$-direction, while the orientation of the qubit Hamiltonian is arbitrary. As the interaction is dispersive, photon number is conserved so that energy balance has to be attained by spectral deformations of the light pulse. Building on analytical and numerical solutions, we reveal the mechanism underlying this spectral deformation and display how it compensates for the qubit's energy change. We explain the formation of a three-peak structure of the output spectrum and we provide the conditions under which this is observable.
翻訳日:2024-07-04 20:23:32 公開日:2024-07-03
# スマートコントラクトの経時的検証

Gradual Verification for Smart Contracts ( http://arxiv.org/abs/2311.13351v2 )

ライセンス: Link先を確認
Haojia Sun, Kunal Singh, Jan-Paul Ramos-Dávila, Jonathan Aldrich, Jenna DiVincenzo, (参考訳) ブロックチェーンはスマートコントラクトを通じてセキュアなリソーストランザクションを促進するが、これらのデジタル契約は、特に外部契約と対話する場合、脆弱性を伴いがちであり、実質的な金銭的損失をもたらす。 従来の検証技術は、外部契約の実装が不可能なため、包括的なセキュリティ保証、特に再エンタシーアタックの提供に不足している。 本稿では,段階的検証という段階的なアプローチを紹介する。 静的および動的検証技術を組み合わせて、セキュリティを強化し、健全性と柔軟性を確保し、スマートコントラクトインタラクションにおけるリソース使用量を最適化します。 pyTEAL言語を介してAlgorandスマートコントラクトを段階的に検証するプロトタイプを実装することで、我々のアプローチの有効性を実証し、スマートコントラクトの安全かつ効率的な実行に寄与する。

Blockchains facilitate secure resource transactions through smart contracts, yet these digital agreements are prone to vulnerabilities, particularly when interacting with external contracts, leading to substantial monetary losses. Traditional verification techniques fall short in providing comprehensive security assurances, especially against re-entrancy attacks, due to the unavailable implementations of external contracts. This paper introduces an incremental approach: gradual verification. We combine static and dynamic verification techniques to enhance security, guarantee soundness and flexibility, and optimize resource usage in smart contract interactions. By implementing a prototype for gradually verifying Algorand smart contracts via the pyTEAL language, we demonstrate the effectiveness of our approach, contributing to the safe and efficient execution of smart contracts.
翻訳日:2024-07-04 20:23:32 公開日:2024-07-03
# 小型マルチモーダル推論モデルの高機能化と自己整合性トレーニングとの整合性

Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training ( http://arxiv.org/abs/2311.14109v2 )

ライセンス: Link先を確認
Cheng Tan, Jingxuan Wei, Zhangyang Gao, Linzhuang Sun, Siyuan Li, Ruifeng Guo, Bihui Yu, Stan Z. Li, (参考訳) マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。 既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで、解答推論から合理的生成を分離している。 しかし、これらのアプローチは、生成された有理数の品質が不十分なため、しばしば不足する。 この研究では、モデル推論における理性の重要性を掘り下げる。 有理数は完全に正確であれば、モデルの精度は大幅に向上し、高品質な有理数生成の必要性が浮き彫りになる。 MC-CoTは,複数の合理性と回答を生成する自己整合性学習戦略であり,投票プロセスを通じて最も正確なものを選択する。 このアプローチは、生成された合理性の品質を高めるだけでなく、より正確で堅牢な答えをもたらす。 広範な実験を通じて,本手法は様々なベンチマークにおけるモデル性能を著しく向上させることを示した。 注目すべきことに,提案手法を応用すれば,より小さなベースモデルであっても,より大規模なモデルに匹敵する結果が得られることが示され,マルチモーダル推論の改善に合理性のパワーを活用できる可能性が示唆された。 コードはhttps://github.com/chengtan9907/mc-cot.comで公開されている。

Multimodal reasoning is a challenging task that requires models to reason across multiple modalities to answer questions. Existing approaches have made progress by incorporating language and visual modalities into a two-stage reasoning framework, separating rationale generation from answer inference. However, these approaches often fall short due to the inadequate quality of the generated rationales. In this work, we delve into the importance of rationales in model reasoning. We observe that when rationales are completely accurate, the model's accuracy significantly improves, highlighting the need for high-quality rationale generation. Motivated by this, we propose MC-CoT, a self-consistency training strategy that generates multiple rationales and answers, subsequently selecting the most accurate through a voting process. This approach not only enhances the quality of generated rationales but also leads to more accurate and robust answers. Through extensive experiments, we demonstrate that our approach significantly improves model performance across various benchmarks. Remarkably, we show that even smaller base models, when equipped with our proposed approach, can achieve results comparable to those of larger models, illustrating the potential of our approach in harnessing the power of rationales for improved multimodal reasoning. The code is available at https://github.com/chengtan9907/mc-cot.
翻訳日:2024-07-04 20:23:32 公開日:2024-07-03
# 対話状態追跡のための言語知識をBERTに注入する

Injecting linguistic knowledge into BERT for Dialogue State Tracking ( http://arxiv.org/abs/2311.15623v3 )

ライセンス: Link先を確認
Xiaohan Feng, Xixin Wu, Helen Meng, (参考訳) 対話状態追跡(DST)モデルは、しばしば複雑なニューラルネットワークアーキテクチャを採用し、実質的なトレーニングデータを必要とし、推論プロセスには透明性がない。 本稿では、教師なしのフレームワークを介して言語知識を抽出し、その後、この知識を用いてDSTタスクにおけるBERTの性能と解釈性を向上させる手法を提案する。 知識抽出手順は、計算学的に経済的であり、アノテーションや追加のトレーニングデータを必要としない。 抽出した知識の注入は、単純なニューラルネットワークモジュールを追加することで実現できる。 本稿では,DSTタスクの特徴抽出ツールとしてConvex Polytopic Model (CPM) を用い,得られた特徴が対話における構文的・意味的パターンと相関していることを示す。 この相関は、DSTモデルの意思決定プロセスに影響を与える言語的特徴の包括的理解を促進する。 このフレームワークを様々なDSTタスクでベンチマークし、精度の顕著な改善を観察する。

Dialogue State Tracking (DST) models often employ intricate neural network architectures, necessitating substantial training data, and their inference process lacks transparency. This paper proposes a method that extracts linguistic knowledge via an unsupervised framework and subsequently utilizes this knowledge to augment BERT's performance and interpretability in DST tasks. The knowledge extraction procedure is computationally economical and does not require annotations or additional training data. The injection of the extracted knowledge can be achieved by the addition of simple neural modules. We employ the Convex Polytopic Model (CPM) as a feature extraction tool for DST tasks and illustrate that the acquired features correlate with syntactic and semantic patterns in the dialogues. This correlation facilitates a comprehensive understanding of the linguistic features influencing the DST model's decision-making process. We benchmark this framework on various DST tasks and observe a notable improvement in accuracy.
翻訳日:2024-07-04 20:23:32 公開日:2024-07-03
# 不純物プローブを用いた多パラメータ臨界量子メトロジー

Multiparameter critical quantum metrology with impurity probes ( http://arxiv.org/abs/2311.16931v2 )

ライセンス: Link先を確認
George Mihailescu, Abolfazl Bayat, Steve Campbell, Andrew K. Mitchell, (参考訳) 量子システムは、パラメータ推定の強化のために、メトロジーの文脈におけるプローブとして使用できる。 特に、臨界系の摂動へのデリケートさは、それらを理想的なセンサーにすることができる。 おそらく最も単純な現実的なプローブシステムはスピン1/2不純物であり、フェルミオン環境に埋め込まれた時にその場で操作し測定することができる。 単一不純物プローブと環境との絡み合いは、非自明な多体効果をもたらすが、検出には臨界性を利用することはできない。 ここでは、臨界量子量論の新しいパラダイムとして、2IKモデルを導入し、有限温度でのマルチパラメータ推定シナリオについて検討する。 本研究は, 実測位相図を数値的に探索し, 臨界付近の正確な解析結果を得る。 第二次相転移を駆動する不純物間カップリングに対する感度の向上は、量子フィッシャー情報(QFI)と量子信号対雑音比(QSNR)のばらつきによって証明される。 しかし、結合強度と温度の両面で不確実性があるため、推定されるパラメータは独立であるにもかかわらず、マルチパラメータQFI行列は特異となり、QSNRは消滅する。 既知の制御場を適用することにより,特異性を除去し,測定感度を回復できることを実証する。 一般的なシステムでは、他のパラメータの不確かさによるQSNRの劣化は未知パラメータ間の相関度によって制御される。

Quantum systems can be used as probes in the context of metrology for enhanced parameter estimation. In particular, the delicacy of critical systems to perturbations can make them ideal sensors. Arguably the simplest realistic probe system is a spin-1/2 impurity, which can be manipulated and measured in-situ when embedded in a fermionic environment. Although entanglement between a single impurity probe and its environment produces nontrivial many-body effects, criticality cannot be leveraged for sensing. Here we introduce instead the two-impurity Kondo (2IK) model as a novel paradigm for critical quantum metrology, and examine the multiparameter estimation scenario at finite temperature. We explore the full metrological phase diagram numerically and obtain exact analytic results near criticality. Enhanced sensitivity to the inter-impurity coupling driving a second-order phase transition is evidenced by diverging quantum Fisher information (QFI) and quantum signal-to-noise ratio (QSNR). However, with uncertainty in both coupling strength and temperature, the multiparameter QFI matrix becomes singular -- even though the parameters to be estimated are independent -- resulting in vanishing QSNRs. We demonstrate that by applying a known control field, the singularity can be removed and measurement sensitivity restored. For general systems, we show that the degradation in the QSNR due to uncertainties in another parameter is controlled by the degree of correlation between the unknown parameters.
翻訳日:2024-07-04 20:23:32 公開日:2024-07-03
# I-MedSAM: セグメンテーションによる医用画像セグメンテーション

I-MedSAM: Implicit Medical Image Segmentation with Segment Anything ( http://arxiv.org/abs/2311.17081v2 )

ライセンス: Link先を確認
Xiaobao Wei, Jiajun Cao, Yizhu Jin, Ming Lu, Guangyu Wang, Shanghang Zhang, (参考訳) ディープニューラルネットワーク(DNN)の開発により、医療画像のセグメンテーションに多くの取り組みがなされている。 nnUNetのような従来の手法では、個々のデータセット上で特定のセグメンテーションモデルをトレーニングしている。 基礎的なセグメンテーションモデル(SAM)を医用画像セグメンテーションに適用する手法が,近年提案されている。 しかし、彼らは依然として、空間的に非フレキシブルで高解像度ではスケールの悪いピクセルワイズ予測を生成するために、離散表現に焦点を当てている。 対照的に、暗黙的手法は、医用画像のセグメンテーションに欠かせないセグメンテーションの連続的な表現を学習する。 本稿では,連続表現とSAMの両方の利点を利用するI-MedSAMを提案する。 医用画像のセグメンテーションは,詳細なセグメンテーション境界を予測する必要があるため,パラメータ・エフェクト・ファイン・チューニング(PEFT)において,SAM特徴を高周波数情報で拡張する新しいアダプタを設計した。 Inlicit Neural Representation (INR) を用いて暗黙のセグメンテーションデコーダを学習する。 また、INRの効率的な学習のための不確実性誘導サンプリング戦略を提案する。 2次元医用画像セグメンテーションタスクの大規模評価により, トレーニング可能なパラメータが1.6Mに留まる提案手法は, 離散的, 暗黙的手法を含む既存の手法よりも優れていることが示された。 コードは、https://github.com/ucwxb/I-MedSAM.comで入手できる。

With the development of Deep Neural Networks (DNNs), many efforts have been made to handle medical image segmentation. Traditional methods such as nnUNet train specific segmentation models on the individual datasets. Plenty of recent methods have been proposed to adapt the foundational Segment Anything Model (SAM) to medical image segmentation. However, they still focus on discrete representations to generate pixel-wise predictions, which are spatially inflexible and scale poorly to higher resolution. In contrast, implicit methods learn continuous representations for segmentation, which is crucial for medical image segmentation. In this paper, we propose I-MedSAM, which leverages the benefits of both continuous representations and SAM, to obtain better cross-domain ability and accurate boundary delineation. Since medical image segmentation needs to predict detailed segmentation boundaries, we designed a novel adapter to enhance the SAM features with high-frequency information during Parameter-Efficient Fine-Tuning (PEFT). To convert the SAM features and coordinates into continuous segmentation output, we utilize Implicit Neural Representation (INR) to learn an implicit segmentation decoder. We also propose an uncertainty-guided sampling strategy for efficient learning of INR. Extensive evaluations on 2D medical image segmentation tasks have shown that our proposed method with only 1.6M trainable parameters outperforms existing methods including discrete and implicit methods. The code will be available at: https://github.com/ucwxb/I-MedSAM.
翻訳日:2024-07-04 20:23:32 公開日:2024-07-03
# Merlin:先見的なマルチモーダル LLM のパワーアップ

Merlin:Empowering Multimodal LLMs with Foresight Minds ( http://arxiv.org/abs/2312.00589v2 )

ライセンス: Link先を確認
En Yu, Liang Zhao, Yana Wei, Jinrong Yang, Dongming Wu, Lingyu Kong, Haoran Wei, Tiancai Wang, Zheng Ge, Xiangyu Zhang, Wenbing Tao, (参考訳) 人間は、現在の観察に基づいて未来をある程度予知する驚くべき能力を持っている。 しかし、この能力は、既存のMLLM(Multimodal Large Language Models)内で主に検討されており、物事の動作の基本的な原理と観察対象の背後にある意図を学ぶ能力を妨げる。 この問題に対処するため,我々はMLLMの既存の学習フレームワークに将来のモデリングの統合を導入する。 連続するフレーム列の高度に構造化された表現である対象軌跡を学習目的として利用することにより,過去と未来の間のギャップを埋めることを目指す。 本稿では,MLLMの学習パラダイムにインスパイアされた,フォレスト・プレトレーニング(FPT)とフォレスト・インストラクション・チューニング(FIT)の2つの革新的手法を提案する。 具体的には、FPTはトラジェクトリを中心とした様々なタスクを共同で訓練し、MLLMは与えられた初期観測からトラジェクトリ全体への参加と予測の仕方を学ぶことができる。 次に、FITはMLLMに対して、まず関連するオブジェクトの軌道を予測し、それに基づいて将来の事象を推論する。 FPT と FIT の支援を受けて,Merlin という新しい統合MLLM を構築した。 実験結果から,将来の推論と視覚的理解の両タスクにおいて,メルリンの力強い視力を示すことが示唆された。

Humans possess the remarkable ability to foresee the future to a certain extent based on present observations, a skill we term as foresight minds. However, this capability remains largely under explored within existing Multimodal Large Language Models (MLLMs), hindering their capacity to learn the fundamental principles of how things operate and the intentions behind the observed subjects. To address this issue, we introduce the integration of future modeling into the existing learning frameworks of MLLMs. By utilizing the subject trajectory, a highly structured representation of a consecutive frame sequence, as a learning objective, we aim to bridge the gap between the past and the future. We propose two innovative methods to empower MLLMs with foresight minds, Foresight Pre-Training (FPT) and Foresight Instruction-Tuning (FIT), which are inspired by the modern learning paradigm of LLMs. Specifically, FPT jointly training various tasks centered on trajectories, enabling MLLMs to learn how to attend and predict entire trajectories from a given initial observation. Then, FIT requires MLLMs to first predict trajectories of related objects and then reason about potential future events based on them. Aided by FPT and FIT, we build a novel and unified MLLM named Merlin that supports multi-images input and analysis about potential actions of multiple objects for the future reasoning. Experimental results show Merlin powerful foresight minds with impressive performance on both future reasoning and visual comprehension tasks.
翻訳日:2024-07-04 20:23:32 公開日:2024-07-03
# 弱い測定と環境支援測定による相関振幅減衰雑音の高次元テレポーテーション

Enhanced high-dimensional teleportation in correlated amplitude damping noise by weak measurement and environment-assisted measurement ( http://arxiv.org/abs/2312.03988v2 )

ライセンス: Link先を確認
Xing Xiao, Tian-Xiang Lu, Yan-Ling Li, (参考訳) 高次元テレポーテーションは量子ネットワークやリピータに様々な利点をもたらすが、これらの利点は全てノイズチャネル上の高次元の絡み合いの高品質な分布に依存している。 2つの絡み合ったクエットが同じチャネルを連続して移動する場合、相関効果を考慮することが不可欠である。 本稿では、弱い測定(WM)と環境支援測定(EAM)による相関振幅減衰(CAD)ノイズにおけるクォートテレポーテーションを強化するための2つの方法を提案する。 WM と EAM の確率的性質により,両手法の忠実度は劇的に向上した。 その結果,CADノイズの相関効果は成功の確率を増大させることがわかった。 比較の結果、EAM方式は忠実性に関して一貫してWM方式よりも優れていた。 我々の研究は、量子化技術としてのWMとEMAの量子化能力を拡張し、高次元システムにおける先進的な量子技術の発展を促進する。

High-dimensional teleportation provides various benefits in quantum networks and repeaters, but all these advantages rely on the high-quality distribution of high-dimensional entanglement over a noisy channel. It is essential to consider correlation effects when two entangled qutrits travel consecutively through the same channel. In this paper, we present two strategies for enhancing qutrit teleportation in correlated amplitude damping (CAD) noise by weak measurement (WM) and environment-assisted measurement (EAM). The fidelity of both approaches has been dramatically improved due to the probabilistic nature of WM and EAM. We have observed that the correlation effects of CAD noise result in an increase in the probability of success. A comparison has demonstrated that the EAM scheme consistently outperforms the WM scheme in regard to fidelity. Our research expands the capabilities of WM and EAM as quantum techniques to combat CAD noise in qutrit teleportation, facilitating the development of advanced quantum technologies in high-dimensional systems.
翻訳日:2024-07-04 20:23:32 公開日:2024-07-03
# マルチエージェント強化学習 : 総合的な調査

Multi-agent Reinforcement Learning: A Comprehensive Survey ( http://arxiv.org/abs/2312.10256v2 )

ライセンス: Link先を確認
Dom Huh, Prasant Mohapatra, (参考訳) マルチエージェントシステム(MAS)は、多くの実世界のアプリケーションにおいて広く普及し、重要な存在である。 汎用性にもかかわらず、MASにおける知的意思決定エージェントの開発は、その効果的な実装にいくつかのオープンな課題を提起している。 本研究は、ゲーム理論(GT)と機械学習(ML)から基礎概念の研究に重点を置いて、これらをマルチエージェント強化学習(MARL)における最近の進歩、すなわちMASにおけるデータ駆動意思決定の研究と結びつけて、これらの課題を考察する。 したがって、本調査の目的は、MARLの様々な側面に沿った総合的な視点を提供することであり、この可能性に伴う固有の課題を強調しながら、MARLアプリケーションで提示されるユニークな機会に光を当てることである。 したがって、我々の研究は、現在のMARLの状況を分析することによって、分野に貢献するだけでなく、GTとMLの関連ドメインから概念のより深い統合に関する洞察を得て、今後の方向性を動機付けることを願っている。 このことを念頭に置いて、この研究は、MARLとその関連分野の最近のおよび過去の取り組みを詳細に調査し、提案された先行ソリューションとその制限、およびそれらの応用について説明する。

Multi-agent systems (MAS) are widely prevalent and crucially important in numerous real-world applications, where multiple agents must make decisions to achieve their objectives in a shared environment. Despite their ubiquity, the development of intelligent decision-making agents in MAS poses several open challenges to their effective implementation. This survey examines these challenges, placing an emphasis on studying seminal concepts from game theory (GT) and machine learning (ML) and connecting them to recent advancements in multi-agent reinforcement learning (MARL), i.e. the research of data-driven decision-making within MAS. Therefore, the objective of this survey is to provide a comprehensive perspective along the various dimensions of MARL, shedding light on the unique opportunities that are presented in MARL applications while highlighting the inherent challenges that accompany this potential. Therefore, we hope that our work will not only contribute to the field by analyzing the current landscape of MARL but also motivate future directions with insights for deeper integration of concepts from related domains of GT and ML. With this in mind, this work delves into a detailed exploration of recent and past efforts of MARL and its related fields and describes prior solutions that were proposed and their limitations, as well as their applications.
翻訳日:2024-07-04 20:23:32 公開日:2024-07-03
# スケーラブルな合成データと対向領域の融合による注釈なし自動音楽転写

Annotation-free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion ( http://arxiv.org/abs/2312.10402v3 )

ライセンス: Link先を確認
Gakusei Sato, Taketo Akama, (参考訳) AMT(Automatic Music Transcription)は、音楽情報処理において重要な技術である。 機械学習技術による最近のパフォーマンス向上にもかかわらず、現在の手法は通常、豊富な注釈付きデータが利用できる領域で高い精度を達成している。 低あるいは無リソースのドメインに対処することは、未解決の課題である。 そこで本研究では,MIDIとオーディオのペアデータを必要としない書き起こしモデルを提案する。 実験では、トレーニングデータセットがターゲットデータ領域にMIDIアノテーションを含まない実世界のアプリケーションシナリオ下での手法を評価する。 提案手法は,組合わせMIDI-audioの実際のデータセットを利用せずに,確立されたベースライン手法と比較して競争性能が向上した。 さらに、アブレーション研究は、このアプローチのスケーラビリティと、ATT研究の分野における今後の課題に関する洞察を与えている。

Automatic Music Transcription (AMT) is a vital technology in the field of music information processing. Despite recent enhancements in performance due to machine learning techniques, current methods typically attain high accuracy in domains where abundant annotated data is available. Addressing domains with low or no resources continues to be an unresolved challenge. To tackle this issue, we propose a transcription model that does not require any MIDI-audio paired data through the utilization of scalable synthetic audio for pre-training and adversarial domain confusion using unannotated real audio. In experiments, we evaluate methods under the real-world application scenario where training datasets do not include the MIDI annotation of audio in the target data domain. Our proposed method achieved competitive performance relative to established baseline methods, despite not utilizing any real datasets of paired MIDI-audio. Additionally, ablation studies have provided insights into the scalability of this approach and the forthcoming challenges in the field of AMT research.
翻訳日:2024-07-04 20:23:32 公開日:2024-07-03
# 完全および部分入力依存対称性の自己教師付き検出

Self-Supervised Detection of Perfect and Partial Input-Dependent Symmetries ( http://arxiv.org/abs/2312.12223v4 )

ライセンス: Link先を確認
Alonso Urbano, David W. Romero, (参考訳) 群の同値性は、群の対称性がデータで観測されたものと異なる場合、過度にモデルを制約することができる。 一般的な手法では、データセットレベルで適切な対称性のレベルを決定することでこの問題に対処するが、同じデータセットに複数の対称性が共存するシナリオは、教師付き設定と無視に限られる。 本稿では,ラベルを使わずに各入力の対称性のレベルを検出する手法を提案する。 我々のフレームワークは、任意の単調分布、対称分布、離散群など、連続的および離散的対称性分布の異なる族に対応するのに十分である。 本研究は, クラスごとの対称性の異なる合成データセットに対するアプローチの有効性を検証し, アウト・オブ・ディストリビューション対称性の検出などの実践的応用を実証する。 私たちのコードはhttps://github.com/aurban0/ssl-sym.comで公開されています。

Group equivariance can overly constrain models if the symmetries in the group differ from those observed in data. While common methods address this by determining the appropriate level of symmetry at the dataset level, they are limited to supervised settings and ignore scenarios in which multiple levels of symmetry co-exist in the same dataset. In this paper, we propose a method able to detect the level of symmetry of each input without the need for labels. Our framework is general enough to accommodate different families of both continuous and discrete symmetry distributions, such as arbitrary unimodal, symmetric distributions and discrete groups. We validate the effectiveness of our approach on synthetic datasets with different per-class levels of symmetries, and demonstrate practical applications such as the detection of out-of-distribution symmetries. Our code is publicly available at https://github.com/aurban0/ssl-sym.
翻訳日:2024-07-04 20:23:32 公開日:2024-07-03
# オンライン変分系列モンテカルロ

Online Variational Sequential Monte Carlo ( http://arxiv.org/abs/2312.12616v3 )

ライセンス: Link先を確認
Alessandro Mastrototaro, Jimmy Olsson, (参考訳) シリアルデータのための最も古典的な生成モデルであるステートスペースモデル(SSM)は、AIと統計機械学習において基本的なものである。 SSMでは、パラメータ学習や潜在状態推論のあらゆる形態は、一般に複雑な潜在状態の後部の計算を伴う。 本研究では, 粒子法と変分推論を組み合わせることで, 計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する, 変分連続モンテカルロ法(VSMC)を構築した。 標準VSMCはオフラインモードで動作するが、与えられたデータの繰り返し処理により、確率的近似を用いて、VSMCシュロゲートELBOの勾配の近似を時間内に分散し、データのストリームの存在下でオンライン学習を可能にする。 これにより、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することが可能な、オンラインVSMCアルゴリズムが実現される。 さらに,データ数としてアルゴリズムの収束特性を記述する厳密な理論的結果と,その優れた収束特性とバッチ処理における有用性の数値図示を提供する。

Being the most classical generative model for serial data, state-space models (SSM) are fundamental in AI and statistical machine learning. In SSM, any form of parameter learning or latent state inference typically involves the computation of complex latent-state posteriors. In this work, we build upon the variational sequential Monte Carlo (VSMC) method, which provides computationally efficient and accurate model parameter estimation and Bayesian latent-state inference by combining particle methods and variational inference. While standard VSMC operates in the offline mode, by re-processing repeatedly a given batch of data, we distribute the approximation of the gradient of the VSMC surrogate ELBO in time using stochastic approximation, allowing for online learning in the presence of streams of data. This results in an algorithm, online VSMC, that is capable of performing efficiently, entirely on-the-fly, both parameter estimation and particle proposal adaptation. In addition, we provide rigorous theoretical results describing the algorithm's convergence properties as the number of data tends to infinity as well as numerical illustrations of its excellent convergence properties and usefulness also in batch-processing settings.
翻訳日:2024-07-04 20:13:45 公開日:2024-07-03
# 大規模言語モデルにおける安全でない事例の学習と予測

Learning and Forgetting Unsafe Examples in Large Language Models ( http://arxiv.org/abs/2312.12736v2 )

ライセンス: Link先を確認
Jiachen Zhao, Zhun Deng, David Madras, James Zou, Mengye Ren, (参考訳) 一般公開される大規模言語モデル(LLM)の数が増えるにつれて、サードパーティのカスタム微調整データから学習するこれらのモデルに関連する安全性への影響を理解する必要性が高まっている。 我々は、安全でないコンテンツを含むノイズの多いカスタムデータに基づいて、バイアス、毒性、有害性を含むデータセットで表現されたLLMの挙動を探索し、協調したLLMが、この安全でないコンテンツを簡単に学習できる一方で、その後、より安全なコンテンツに微調整された他の例よりも、それをはるかに忘れる傾向にあることを見出した。 忘れることの相違からインスピレーションを得た"ForgetFilter"アルゴリズムを導入します。 ForgetFilterアルゴリズムは、連続的な安全性の微調整とは異なり、下流のタスク性能を損なうことなく、カスタマイズされた微調整の安全性を保証する。 ForgetFilterは、カスタム微調整中にLLMが安全でないコンテンツを同化する能力を抑えるために、リプレイや道徳的自己補正のような代替戦略を上回り、例えば、安全対策を適用しない場合よりも75%低く、毒性スコアで自己補正を使用する場合よりも62%低い。

As the number of large language models (LLMs) released to the public grows, there is a pressing need to understand the safety implications associated with these models learning from third-party custom finetuning data. We explore the behavior of LLMs finetuned on noisy custom data containing unsafe content, represented by datasets that contain biases, toxicity, and harmfulness, finding that while aligned LLMs can readily learn this unsafe content, they also tend to forget it more significantly than other examples when subsequently finetuned on safer content. Drawing inspiration from the discrepancies in forgetting, we introduce the "ForgetFilter" algorithm, which filters unsafe data based on how strong the model's forgetting signal is for that data. We demonstrate that the ForgetFilter algorithm ensures safety in customized finetuning without compromising downstream task performance, unlike sequential safety finetuning. ForgetFilter outperforms alternative strategies like replay and moral self-correction in curbing LLMs' ability to assimilate unsafe content during custom finetuning, e.g. 75% lower than not applying any safety measures and 62% lower than using self-correction in toxicity score.
翻訳日:2024-07-04 20:13:45 公開日:2024-07-03
# 軌道サンプリングによる連系自動車のマルチエージェント確率アンサンブル

Multi-Agent Probabilistic Ensembles with Trajectory Sampling for Connected Autonomous Vehicles ( http://arxiv.org/abs/2312.13910v2 )

ライセンス: Link先を確認
Ruoqi Wen, Jiahao Huang, Rongpeng Li, Guoru Ding, Zhifeng Zhao, (参考訳) 近年、自律走行車(AV)が注目されており、強化学習(RL)は自動車の自律性向上に顕著な業績を示している。 その点において、広く採用されているMFRL(Model-Free RL)は、コネクテッドAV(CAV)における意思決定タスクの解決を約束している。 それでも、実際には実現不可能であり、おそらく不安定な学習につながるかもしれない。 対照的に、モデルベースRL(MBRL)は、サンプル効率のよい学習で現れているが、MBRLの漸近性能は最先端のMFRLアルゴリズムより遅れる可能性がある。 さらに、CAVのほとんどの研究は単一のAVのみの意思決定に限られており、通信の欠如により性能が低下している。 本研究では,複数のCAVを限られた通信で決定する問題に対処し,トラジェクティブサンプリングアルゴリズムMA-PETSを用いた分散マルチエージェント確率アンサンブルを提案する。 特に、未知の環境の不確実性をより正確に把握するために、MA-PETSは確率的アンサンブル(PE)ニューラルネットワークを活用して、近隣のCAV間の通信サンプルから学習する。 その後、MA-PETSは、意思決定のためのトラジェクトリサンプリング(TS)ベースのモデル予測制御を開発する。 本研究では,コミュニケーション範囲内のエージェント数に影響されたマルチエージェント群の後悔を導出し,エージェント間の効果的な情報交換を多エージェント学習方式に組み込むことが,最悪の場合におけるグループ後悔の軽減に寄与することを数学的に検証する。 最後に,MFBLに匹敵する試料効率でMA-PETSの優位性を実証的に示す。

Autonomous Vehicles (AVs) have attracted significant attention in recent years and Reinforcement Learning (RL) has shown remarkable performance in improving the autonomy of vehicles. In that regard, the widely adopted Model-Free RL (MFRL) promises to solve decision-making tasks in connected AVs (CAVs), contingent on the readiness of a significant amount of data samples for training. Nevertheless, it might be infeasible in practice and possibly lead to learning instability. In contrast, Model-Based RL (MBRL) manifests itself in sample-efficient learning, but the asymptotic performance of MBRL might lag behind the state-of-the-art MFRL algorithms. Furthermore, most studies for CAVs are limited to the decision-making of a single AV only, thus underscoring the performance due to the absence of communications. In this study, we try to address the decision-making problem of multiple CAVs with limited communications and propose a decentralized Multi-Agent Probabilistic Ensembles with Trajectory Sampling algorithm MA-PETS. In particular, in order to better capture the uncertainty of the unknown environment, MA-PETS leverages Probabilistic Ensemble (PE) neural networks to learn from communicated samples among neighboring CAVs. Afterwards, MA-PETS capably develops Trajectory Sampling (TS)-based model-predictive control for decision-making. On this basis, we derive the multi-agent group regret bound affected by the number of agents within the communication range and mathematically validate that incorporating effective information exchange among agents into the multi-agent learning scheme contributes to reducing the group regret bound in the worst case. Finally, we empirically demonstrate the superiority of MA-PETS in terms of the sample efficiency comparable to MFBL.
翻訳日:2024-07-04 20:13:45 公開日:2024-07-03
# 表現工学による人間の嗜好を考慮した大規模言語モデルの調整

Aligning Large Language Models with Human Preferences through Representation Engineering ( http://arxiv.org/abs/2312.15997v3 )

ライセンス: Link先を確認
Wenhao Liu, Xiaohua Wang, Muling Wu, Tianlong Li, Changze Lv, Zixuan Ling, Jianhao Zhu, Cenyuan Zhang, Xiaoqing Zheng, Xuanjing Huang, (参考訳) 人間の好みで大きな言語モデル(LLM)を調整することは、有用性、真理性、安全性、無害性、面白さの観点から、その実用性を高めるために不可欠である。 このアライメントを実現するための既存の方法は、モデル応答の相対的品質を評価する人間ラベルに基づいて、人間からのフィードバック(RLHF)から微調整LDMへの強化学習を用いる場合が多い。 それにもかかわらず、RLHFは微調整の不安定さに敏感であり、新しい表現工学(RepE)からインスピレーションを得て、LLM内の活動パターンに埋め込まれた高レベルの人間の嗜好の関連表現を特定し、その表現を変換してモデル行動の正確な制御を実現することを目的としている。 人間のフィードバックからの表現アライメント(Representation Alignment from Human Feedback, RAHF)と呼ばれるこの新しいアプローチは, RAHFの有効性, 計算効率, 実装が容易であることが証明されている。 RAHFの多様な人間の嗜好の調節における汎用性は、LLM性能を向上させる可能性を示している。

Aligning large language models (LLMs) with human preferences is crucial for enhancing their utility in terms of helpfulness, truthfulness, safety, harmlessness, and interestingness. Existing methods for achieving this alignment often involves employing reinforcement learning from human feedback (RLHF) to fine-tune LLMs based on human labels assessing the relative quality of model responses. Nevertheless, RLHF is susceptible to instability during fine-tuning and presents challenges in implementation.Drawing inspiration from the emerging field of representation engineering (RepE), this study aims to identify relevant representations for high-level human preferences embedded in patterns of activity within an LLM, and achieve precise control of model behavior by transforming its representations. This novel approach, denoted as Representation Alignment from Human Feedback (RAHF), proves to be effective, computationally efficient, and easy to implement.Extensive experiments demonstrate the efficacy of RAHF in not only capturing but also manipulating representations to align with a broad spectrum of human preferences or values, rather than being confined to a singular concept or function (e.g. honesty or bias). RAHF's versatility in accommodating diverse human preferences shows its potential for advancing LLM performance.
翻訳日:2024-07-04 20:13:45 公開日:2024-07-03
# 2ドルの双曲型PDEのためのバックステッピング型ニューラル演算子

Backstepping Neural Operators for $2\times 2$ Hyperbolic PDEs ( http://arxiv.org/abs/2312.16762v3 )

ライセンス: Link先を確認
Shanshan Wang, Mamadou Diagne, Miroslav Krstić, (参考訳) DeepONetと呼ばれる非線形演算子のディープニューラルネットワーク近似は、単一のGoursat形式のPDEが単一のフィードバックゲイン関数を管理するPDEバックステッピング設計を近似できることが証明されている。 結合されたPDEの境界制御では、結合されたGoursat形式のPDEが2つ以上のゲインカーネルを管理している。 本稿では,双曲型PDEプラントにおけるゲインカーネルPDEの近似システムの課題について,Goursat形式で2ドル2セントカーネルPDEを制御可能な単純な対流2ドル2ドル結合システムについて検討する。 工学的応用としては、油井掘削、浅瀬波のサン・ヴェナントモデル、渋滞流における停止・停止不安定のAw-Rascle-Zhangモデルなどがある。 我々は,5つのプラントPDE関数係数からカーネルPDE解への写像の連続性を確立し,カーネルPDEへの任意の近接なDeepONet近似の存在を証明し,DeepONet近似ゲインが正確なバックステッピングゲインカーネルを置き換える際に安定化を保証することを保証する。 L^2$-Globally-exponentially stabilizing (GES) almost gain kernel-based output feedback designは、制御器とオブザーバの両方の利得の深い学習を意味する。 さらに、出力フィードバック法則をDeepONetに符号化することで、半グローバルな実用的な指数的安定性(SG-PES)が保証される。 DeepONetオペレータは、コントローラのゲインの計算を桁違いに高速化する。 理論上証明された安定化能力はシミュレーションによって実証される。

Deep neural network approximation of nonlinear operators, commonly referred to as DeepONet, has proven capable of approximating PDE backstepping designs in which a single Goursat-form PDE governs a single feedback gain function. In boundary control of coupled PDEs, coupled Goursat-form PDEs govern two or more gain kernels-a PDE structure unaddressed thus far with DeepONet. In this paper, we explore the subject of approximating systems of gain kernel PDEs for hyperbolic PDE plants by considering a simple counter-convecting $2\times 2$ coupled system in whose control a $2\times 2$ kernel PDE system in Goursat form arises. Engineering applications include oil drilling, the Saint-Venant model of shallow water waves, and the Aw-Rascle-Zhang model of stop-and-go instability in congested traffic flow. We establish the continuity of the mapping from a total of five plant PDE functional coefficients to the kernel PDE solutions, prove the existence of an arbitrarily close DeepONet approximation to the kernel PDEs, and ensure that the DeepONet-approximated gains guarantee stabilization when replacing the exact backstepping gain kernels. Taking into account anti-collocated boundary actuation and sensing, our $L^2$-Globally-exponentially stabilizing (GES) approximate gain kernel-based output feedback design implies the deep learning of both the controller's and the observer's gains. Moreover, the encoding of the output-feedback law into DeepONet ensures semi-global practical exponential stability (SG-PES). The DeepONet operator speeds up the computation of the controller gains by multiple orders of magnitude. Its theoretically proven stabilizing capability is demonstrated through simulations.
翻訳日:2024-07-04 20:13:45 公開日:2024-07-03
# ColorizeDiffusion: 参照画像とテキストによる調整可能なスケッチカラー化

ColorizeDiffusion: Adjustable Sketch Colorization with Reference Image and Text ( http://arxiv.org/abs/2401.01456v3 )

ライセンス: Link先を確認
Dingkun Yan, Liang Yuan, Erwin Wu, Yuma Nishioka, Issei Fujishiro, Suguru Saito, (参考訳) 拡散モデルは最近、非常に高品質な画像を生成することの有効性を実証し、現在、スケッチの自動色付けを含む広範囲のアプリケーションで利用されている。 スケッチカラー化のための多くの方法が開発されているが、画像プロンプトとスケッチ入力の間の潜在的な衝突について限定的な調査が行われており、その結果が大幅に劣化する可能性がある。 そこで本研究では,参照カラー画像を用いたスケッチ画像のカラー化を目的とした,参照ベースのスケッチカラー化モデルについて,徹底的に検討する。 具体的には、テキストベースの拡散モデルにおける「分散問題」と、ゼロショットシーケンシャルなテキストベースの操作能力の2つの重要な側面について検討する。 事前学習したCLIP画像エンコーダの異なる画像トークンを用いた画像誘導潜時拡散モデルの2つのバリエーションを導入し、重み付きテキスト入力を用いて結果を調整するための対応する操作法を提案する。 我々は,定性的かつ定量的な実験とユーザスタディを通じて,モデルの総合的な評価を行う。

Diffusion models have recently demonstrated their effectiveness in generating extremely high-quality images and are now utilized in a wide range of applications, including automatic sketch colorization. Although many methods have been developed for guided sketch colorization, there has been limited exploration of the potential conflicts between image prompts and sketch inputs, which can lead to severe deterioration in the results. Therefore, this paper exhaustively investigates reference-based sketch colorization models that aim to colorize sketch images using reference color images. We specifically investigate two critical aspects of reference-based diffusion models: the "distribution problem", which is a major shortcoming compared to text-based counterparts, and the capability in zero-shot sequential text-based manipulation. We introduce two variations of an image-guided latent diffusion model utilizing different image tokens from the pre-trained CLIP image encoder and propose corresponding manipulation methods to adjust their results sequentially using weighted text inputs. We conduct comprehensive evaluations of our models through qualitative and quantitative experiments as well as a user study.
翻訳日:2024-07-04 20:13:45 公開日:2024-07-03
# 3次元アバターを用いた音声翻訳のための簡易ベースライン

A Simple Baseline for Spoken Language to Sign Language Translation with 3D Avatars ( http://arxiv.org/abs/2401.04730v2 )

ライセンス: Link先を確認
Ronglai Zuo, Fangyun Wei, Zenggui Chen, Brian Mak, Jiaolong Yang, Xin Tong, (参考訳) 本研究の目的は,音声言語を手話に翻訳する機能システムを開発することである。 Spoken2Signタスクは、従来の手話から音声言語への変換(Sign2Spoken)への直交的で補完的なタスクである。 Spoken2Sign変換を実現するために,3つのステップからなる単純なベースラインを示す。 1) 既存のSign2Spokenベンチマークを用いたグロスビデオ辞書の作成 2 辞書のサインビデオごとに3次元の符号を推定すること。 3) Text2Gloss トランスレータ, サインコネクタ, レンダリングモジュールで構成される Spoken2Sign モデルを, 得られた Gloss-3D 符号辞書の助けを借りて訓練する。 翻訳結果は、サインアバターを介して表示される。 私たちが知る限りでは、最初にSpken2Signタスクを3Dサインの出力フォーマットで提示します。 Spoken2Sign翻訳の能力に加えて、我々のアプローチ-3Dキーポイント拡張とマルチビュー理解の2つの副産物がキーポイントベースの手話理解を支援することを示した。 コードとモデルはhttps://github.com/FangyunWei/SLRT.comで公開されている。

The objective of this paper is to develop a functional system for translating spoken languages into sign languages, referred to as Spoken2Sign translation. The Spoken2Sign task is orthogonal and complementary to traditional sign language to spoken language (Sign2Spoken) translation. To enable Spoken2Sign translation, we present a simple baseline consisting of three steps: 1) creating a gloss-video dictionary using existing Sign2Spoken benchmarks; 2) estimating a 3D sign for each sign video in the dictionary; 3) training a Spoken2Sign model, which is composed of a Text2Gloss translator, a sign connector, and a rendering module, with the aid of the yielded gloss-3D sign dictionary. The translation results are then displayed through a sign avatar. As far as we know, we are the first to present the Spoken2Sign task in an output format of 3D signs. In addition to its capability of Spoken2Sign translation, we also demonstrate that two by-products of our approach-3D keypoint augmentation and multi-view understanding-can assist in keypoint-based sign language understanding. Code and models are available at https://github.com/FangyunWei/SLRT.
翻訳日:2024-07-04 20:13:45 公開日:2024-07-03
# 大規模言語モデルを用いた分散型自治組織の提案分類

Classifying Proposals of Decentralized Autonomous Organizations Using Large Language Models ( http://arxiv.org/abs/2401.07059v2 )

ライセンス: Link先を確認
Christian Ziegler, Marcos Miranda, Guangye Cao, Gustav Arentoft, Doo Wan Nam, (参考訳) 本研究では,複雑なデータセットの分類を自動化するために,Large Language Models (LLMs) が有効であることを示す。 分散自律組織(DAO)の提案を特に対象としており、このデータの粒度化にはコンテキストの理解が必要であり、そのため、人間の専門知識に依存するため、タスクに関連するコストが高くなる。 この研究は、カテゴリを特定し、それらをさらに再定義するための反復的なアプローチを適用し、各イテレーションにおいてプロンプトは95%の精度で100の提案を分類した。 そこで本研究では,テキスト・コンテクストに依存したデータラベリング作業を自動化するLLMの多元性を示す。

Our study demonstrates the effective use of Large Language Models (LLMs) for automating the classification of complex datasets. We specifically target proposals of Decentralized Autonomous Organizations (DAOs), as the clas-sification of this data requires the understanding of context and, therefore, depends on human expertise, leading to high costs associated with the task. The study applies an iterative approach to specify categories and further re-fine them and the prompt in each iteration, which led to an accuracy rate of 95% in classifying a set of 100 proposals. With this, we demonstrate the po-tential of LLMs to automate data labeling tasks that depend on textual con-text effectively.
翻訳日:2024-07-04 20:13:45 公開日:2024-07-03
# RIDGE:医療画像分割モデルの再現性、統合性、依存性、一般化性および効率評価

RIDGE: Reproducibility, Integrity, Dependability, Generalizability, and Efficiency Assessment of Medical Image Segmentation Models ( http://arxiv.org/abs/2401.08847v2 )

ライセンス: Link先を確認
Farhad Maleki, Linda Moy, Reza Forghani, Tapotosh Ghosh, Katie Ovens, Steve Langer, Pouria Rouzrokh, Bardia Khosravi, Ali Ganjizadeh, Daniel Warren, Roxana Daneshjou, Mana Moassefi, Atlas Haddadi Avval, Susan Sotardi, Neil Tenenholtz, Felipe Kitamura, Timothy Kline, (参考訳) 深層学習技術は、特に画像セグメンテーションのようなタスクにおいて、医用画像内の領域や関心のボリュームの正確なアノテーションが不可欠であるが、手動で努力し、サーバー間のバイアスやオブザーバ内のバイアスが生じる。 このように、ディープラーニングアプローチは、そのようなアプリケーションに自動化されたソリューションを提供することができる。 しかし、これらの技術の可能性はしばしば再現性と一般化性の課題によって損なわれ、それが臨床導入の鍵となる。 本稿では, 深層学習に基づく医用画像セグメンテーションモデルの再現性, 統合性, 依存性, 一般化性, 効率性を評価するための総合的なフレームワークであるRIDGEチェックリストを紹介する。 RIDGEチェックリストは単なる評価ツールではなく、研究の質と透明性の向上を目指す研究者のためのガイドラインでもある。 RIDGEチェックリストに概説された原則に従うことで、研究者は、開発したセグメンテーションモデルが堅牢で、科学的に有効であり、臨床環境で適用可能であることを保証できる。

Deep learning techniques hold immense promise for advancing medical image analysis, particularly in tasks like image segmentation, where precise annotation of regions or volumes of interest within medical images is crucial but manually laborious and prone to interobserver and intraobserver biases. As such, deep learning approaches could provide automated solutions for such applications. However, the potential of these techniques is often undermined by challenges in reproducibility and generalizability, which are key barriers to their clinical adoption. This paper introduces the RIDGE checklist, a comprehensive framework designed to assess the Reproducibility, Integrity, Dependability, Generalizability, and Efficiency of deep learning-based medical image segmentation models. The RIDGE checklist is not just a tool for evaluation but also a guideline for researchers striving to improve the quality and transparency of their work. By adhering to the principles outlined in the RIDGE checklist, researchers can ensure that their developed segmentation models are robust, scientifically valid, and applicable in a clinical setting.
翻訳日:2024-07-04 20:13:45 公開日:2024-07-03
# ログアクセス不要のブラックボックス大言語モデル強化のためのスケッチガイド付き制約付き復号法

Sketch-Guided Constrained Decoding for Boosting Blackbox Large Language Models without Logit Access ( http://arxiv.org/abs/2401.09967v3 )

ライセンス: Link先を確認
Saibo Geng, Berkay Döner, Chris Wendler, Martin Josifoski, Robert West, (参考訳) 制約付き復号化(Constrained decoding)は、言語モデル出力の制約を強制するテクニックで、再訓練やアーキテクチャの変更なしにテキスト生成を制御する手段を提供する。 しかしながら、そのアプリケーションは一般的に、ユーザーが次のトーケン分布(通常はソフトマックスロジットを介して)にアクセスできるモデルに限定されており、ブラックボックスの大規模言語モデル(LLM)で制限される。 本稿では,ブラックボックスLLMのロジットにアクセスせずに動作するブラックボックスLLMの制約付き復号法であるスケッチ誘導制約復号法(SGCD)を提案する。 SGCDは、ローカルにホストされた補助モデルを使用して、制約のないブラックボックスLSMの出力を洗練し、この初期出力を「スケッチ」として効果的に処理し、さらなる実験を行う。 このアプローチは、従来のロジットベースのテクニックを補完するものであり、完全なモデルの透明性が利用できない設定で制約付きデコードの適用を可能にする。 本研究では,複雑なNLPタスクに対するブラックボックスLLMの有用性と柔軟性をいかに向上させるかを示す。

Constrained decoding, a technique for enforcing constraints on language model outputs, offers a way to control text generation without retraining or architectural modifications. Its application is, however, typically restricted to models that give users access to next-token distributions (usually via softmax logits), which poses a limitation with blackbox large language models (LLMs). This paper introduces sketch-guided constrained decoding (SGCD), a novel approach to constrained decoding for blackbox LLMs, which operates without access to the logits of the blackbox LLM. SGCD utilizes a locally hosted auxiliary model to refine the output of an unconstrained blackbox LLM, effectively treating this initial output as a "sketch" for further elaboration. This approach is complementary to traditional logit-based techniques and enables the application of constrained decoding in settings where full model transparency is unavailable. We demonstrate the efficacy of SGCD through experiments in closed information extraction and constituency parsing, showing how it enhances the utility and flexibility of blackbox LLMs for complex NLP tasks.
翻訳日:2024-07-04 20:13:45 公開日:2024-07-03
# 変圧器と皮質波:時間とともにコンテキストをプルするエンコーダ

Transformers and Cortical Waves: Encoders for Pulling In Context Across Time ( http://arxiv.org/abs/2401.14267v2 )

ライセンス: Link先を確認
Lyle Muller, Patricia S. Churchland, Terrence J. Sejnowski, (参考訳) ChatGPTやLLM(Large Language Models)のようなトランスフォーマーネットワークの能力は、世界中の注目を集めている。 それらの性能の根底にある重要な計算メカニズムは、完全な入力シーケンス(例えば文中の全ての単語)を長い「符号化ベクトル」に変換することに依存しており、変換器は自然数列で長距離の時間的依存関係を学習することができる。 具体的には、この符号化ベクトルに適用された「自己注意」は、入力シーケンス中の単語のペア間の関連性を計算することにより、トランスフォーマにおける時間的文脈を強化する。 単一大脳皮質領域や複数の領域を横断する神経活動の波は、同様の符号化原理を実装できる可能性が示唆された。 最近の入力履歴を各瞬間に単一の空間パターンにカプセル化することにより、皮質波は、変換器で使用されるのと同じ計算原理である感覚入力のシーケンスから時間的コンテキストを抽出することができる。

The capabilities of transformer networks such as ChatGPT and other Large Language Models (LLMs) have captured the world's attention. The crucial computational mechanism underlying their performance relies on transforming a complete input sequence - for example, all the words in a sentence - into a long "encoding vector" that allows transformers to learn long-range temporal dependencies in naturalistic sequences. Specifically, "self-attention" applied to this encoding vector enhances temporal context in transformers by computing associations between pairs of words in the input sequence. We suggest that waves of neural activity traveling across single cortical areas or multiple regions at the whole-brain scale could implement a similar encoding principle. By encapsulating recent input history into a single spatial pattern at each moment in time, cortical waves may enable temporal context to be extracted from sequences of sensory inputs, the same computational principle used in transformers.
翻訳日:2024-07-04 20:13:45 公開日:2024-07-03
# MLEM:イベントシーケンスの個別モダリティとしての生成的・コントラスト学習

MLEM: Generative and Contrastive Learning as Distinct Modalities for Event Sequences ( http://arxiv.org/abs/2401.15935v4 )

ライセンス: Link先を確認
Viktor Moskvoretskii, Dmitry Osin, Egor Shvetsov, Igor Udovichenko, Maxim Zhelnin, Andrey Dukhovny, Anna Zhimerikina, Evgeny Burnaev, (参考訳) 本研究では,イベントシーケンスに対する自己教師付き学習手法の適用について検討する。 これは、銀行、eコマース、ヘルスケアといった様々なアプリケーションにおいて重要なモダリティである。 しかし、イベントシーケンスの自己教師型学習についての研究は限られており、画像、テキスト、音声などの他の領域からの手法は容易には伝達できない可能性がある。 最適手法を決定するために,これまで同定されたベストパフォーマンス手法の詳細な比較分析を行う。 コントラスト法もジェネレーティブ法も優れていないことが判明した。 我々の評価には、イベントシーケンスの分類、次のイベントの予測、埋め込み品質の評価が含まれる。 これらの結果は、両方の方法を組み合わせることの潜在的な利点をさらに浮き彫りにする。 このドメインにおけるハイブリッドモデルの研究の欠如を考えると、まずは別のドメインのベースラインモデルに適応します。 しかし,その過小評価を観察し,MLEM(Multimodal-Learning Event Model)と呼ばれる新しい手法を開発した。 MLEMは、対照的な学習と生成モデリングを異なるが相補的なモダリティとして扱い、それらの埋め込みを整列させる。 本研究は, コントラスト法と生成法を1つの手順に組み合わせることで, 複数の指標において優れた性能が得られることを示した。

This study explores the application of self-supervised learning techniques for event sequences. It is a key modality in various applications such as banking, e-commerce, and healthcare. However, there is limited research on self-supervised learning for event sequences, and methods from other domains like images, texts, and speech may not easily transfer. To determine the most suitable approach, we conduct a detailed comparative analysis of previously identified best-performing methods. We find that neither the contrastive nor generative method is superior. Our assessment includes classifying event sequences, predicting the next event, and evaluating embedding quality. These results further highlight the potential benefits of combining both methods. Given the lack of research on hybrid models in this domain, we initially adapt the baseline model from another domain. However, upon observing its underperformance, we develop a novel method called the Multimodal-Learning Event Model (MLEM). MLEM treats contrastive learning and generative modeling as distinct yet complementary modalities, aligning their embeddings. The results of our study demonstrate that combining contrastive and generative approaches into one procedure with MLEM achieves superior performance across multiple metrics.
翻訳日:2024-07-04 20:13:45 公開日:2024-07-03
# 合成健康データにおけるプライマー

A primer on synthetic health data ( http://arxiv.org/abs/2401.17653v2 )

ライセンス: Link先を確認
Jennifer A Bartell, Sander Boisen Valentin, Anders Krogh, Henning Langberg, Martin Bøgsted, (参考訳) 深層生成モデルの最近の進歩は、現実的な合成健康データセットを作成する可能性を大きく広げている。 これらの合成データセットは、患者のアイデンティティやセンシティブな情報を開示することなく、センシティブな健康データセットから得られる特徴、パターン、そして全体的な科学的結論を保存することを目的としている。 これにより、新しい予測モデルの開発、高度な健康ITプラットフォーム、一般的なプロジェクト構想と仮説開発など、さまざまなイニシアティブをサポートする安全なデータ共有が容易になります。 しかしながら、合成データセットの類似性と予測ユーティリティを、オリジナルの実際のデータセットと比較して継続的に評価する方法や、共有時のプライバシのリスクなど、多くの疑問や課題が残っている。 追加の規制とガバナンスの問題は、広くは解決されていない。 このプライマーでは、生成と評価方法やツール、既存の展開例、規制と倫理の展望、アクセスとガバナンスの選択肢、さらなる発展の機会を含む、合成健康データの現状をマップする。

Recent advances in deep generative models have greatly expanded the potential to create realistic synthetic health datasets. These synthetic datasets aim to preserve the characteristics, patterns, and overall scientific conclusions derived from sensitive health datasets without disclosing patient identity or sensitive information. Thus, synthetic data can facilitate safe data sharing that supports a range of initiatives including the development of new predictive models, advanced health IT platforms, and general project ideation and hypothesis development. However, many questions and challenges remain, including how to consistently evaluate a synthetic dataset's similarity and predictive utility in comparison to the original real dataset and risk to privacy when shared. Additional regulatory and governance issues have not been widely addressed. In this primer, we map the state of synthetic health data, including generation and evaluation methods and tools, existing examples of deployment, the regulatory and ethical landscape, access and governance options, and opportunities for further development.
翻訳日:2024-07-04 20:13:45 公開日:2024-07-03
# シーケンスモデリングのための変圧器の表現力と機構の理解

Understanding the Expressive Power and Mechanisms of Transformer for Sequence Modeling ( http://arxiv.org/abs/2402.00522v5 )

ライセンス: Link先を確認
Mingze Wang, Weinan E, (参考訳) 本研究では,長い,スパースな,複雑なメモリを持つシーケンスモデリングのためのTransformerの近似特性を体系的に研究する。 本研究では, ドット積自己注意, 位置符号化, フィードフォワード層などのトランスフォーマーの異なる成分が, その表現力に影響を及ぼすメカニズムについて検討し, 明示的な近似速度を確立することによってそれらの組み合わせの効果について検討する。 本研究では,トランスフォーマーにおける臨界パラメータの役割を明らかにする。 これらの理論的洞察は実験的に検証され、代替アーキテクチャに対する自然な提案を提供する。

We conduct a systematic study of the approximation properties of Transformer for sequence modeling with long, sparse and complicated memory. We investigate the mechanisms through which different components of Transformer, such as the dot-product self-attention, positional encoding and feed-forward layer, affect its expressive power, and we study their combined effects through establishing explicit approximation rates. Our study reveals the roles of critical parameters in the Transformer, such as the number of layers and the number of attention heads. These theoretical insights are validated experimentally and offer natural suggestions for alternative architectures.
翻訳日:2024-07-04 20:04:00 公開日:2024-07-03
# ベンチマークがターゲットになるとき - 大規模言語モデルリーダーボードの感度を明らかにする

When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards ( http://arxiv.org/abs/2402.01781v2 )

ライセンス: Link先を確認
Norah Alzahrani, Hisham Abdullah Alyahya, Yazeed Alnumay, Sultan Alrashed, Shaykhah Alsubaie, Yusef Almushaykeh, Faisal Mirza, Nouf Alotaibi, Nora Altwairesh, Areeb Alowisheq, M Saiful Bari, Haidar Khan, (参考訳) ベンチマークランキングに基づくLarge Language Model (LLM) のリーダーボードは、モデル選択の実践者をガイドするために定期的に使用される。 多くの場合、公表されたリーダーボードのランキングは、(潜在的にコストがかかる)間違いであることを示している。 既存のリーダボードの下では、LLMの相対的なパフォーマンスは(多くの場合、)詳細に対して非常に敏感です。 一般的なマルチチョイス質問ベンチマーク(例えばMMLU)では、選択の順序や回答の選択方法の変更など、ベンチマークに対する小さな摂動により、ランキングが最大8位まで変化することを示します。 ベンチマーク摂動の3つの幅広いカテゴリにわたる系統的な実験を行い、その挙動の源を同定することによって、この現象を説明する。 分析の結果,回答選択のためのハイブリッドスコアリング手法の利点など,いくつかのベストプラクティスの提言が得られた。 本研究は、単純なベンチマーク評価を頼りにすることの危険性を強調し、既存のベンチマークのより堅牢な評価手法の道筋を図示する。 この論文のコードはhttps://github.com/National-Center-for-AI-Saudi-Arabia/lm-evaluation-harnessで公開されている。

Large Language Model (LLM) leaderboards based on benchmark rankings are regularly used to guide practitioners in model selection. Often, the published leaderboard rankings are taken at face value - we show this is a (potentially costly) mistake. Under existing leaderboards, the relative performance of LLMs is highly sensitive to (often minute) details. We show that for popular multiple-choice question benchmarks (e.g., MMLU), minor perturbations to the benchmark, such as changing the order of choices or the method of answer selection, result in changes in rankings up to 8 positions. We explain this phenomenon by conducting systematic experiments over three broad categories of benchmark perturbations and identifying the sources of this behavior. Our analysis results in several best-practice recommendations, including the advantage of a hybrid scoring method for answer selection. Our study highlights the dangers of relying on simple benchmark evaluations and charts the path for more robust evaluation schemes on the existing benchmarks. The code for this paper is available at https://github.com/National-Center-for-AI-Saudi-Arabia/lm-evaluation-harness.
翻訳日:2024-07-04 20:04:00 公開日:2024-07-03
# DistiLLM:大規模言語モデルのための合理化蒸留を目指して

DistiLLM: Towards Streamlined Distillation for Large Language Models ( http://arxiv.org/abs/2402.03898v2 )

ライセンス: Link先を確認
Jongwoo Ko, Sungnyun Kim, Tianyi Chen, Se-Young Yun, (参考訳) 知識蒸留(KD)は、教師モデルをより小さな学生モデルに圧縮するために広く使われ、モデル能力を保ちながら、推論コストとメモリフットプリントを削減している。 しかし、現在の自動回帰シーケンスモデル(例えば、大きな言語モデル)のKD法は、標準化された目的関数を欠いている。 さらに、近年の学生生成出力によるトレーニングと推論のミスマッチへの対処は、計算コストを著しく高めている。 これらの問題に対処するために、自動回帰言語モデルのためのより効率的で効率的なKDフレームワークであるDistiLLMを紹介する。 DistiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。 命令追従タスクを含む大規模な実験は、最近のKD法と比較して4.3$\times$スピードアップを達成しつつ、高性能な学生モデルを構築する上でのDistiLLMの有効性を実証している。

Knowledge distillation (KD) is widely used for compressing a teacher model to a smaller student model, reducing its inference cost and memory footprint while preserving model capabilities. However, current KD methods for auto-regressive sequence models (e.g., large language models) suffer from missing a standardized objective function. Moreover, the recent use of student-generated outputs to address training-inference mismatches has significantly escalated computational costs. To tackle these issues, we introduce DistiLLM, a more effective and efficient KD framework for auto-regressive language models. DistiLLM comprises two components: (1) a novel skew Kullback-Leibler divergence loss, where we unveil and leverage its theoretical properties, and (2) an adaptive off-policy approach designed to enhance the efficiency in utilizing student-generated outputs. Extensive experiments, including instruction-following tasks, demonstrate the effectiveness of DistiLLM in building high-performing student models while achieving up to 4.3$\times$ speedup compared to recent KD methods.
翻訳日:2024-07-04 20:04:00 公開日:2024-07-03
# 階層的木構造知識グラフによる学術的洞察調査

Hierarchical Tree-structured Knowledge Graph For Academic Insight Survey ( http://arxiv.org/abs/2402.04854v4 )

ライセンス: Link先を確認
Jinghong Li, Huy Phan, Wen Gu, Koichi Ota, Shinobu Hasegawa, (参考訳) 調査は、研究トレーニングが不足している初心者研究者にとって、常に課題となっている。 これらの研究者は、研究トピックの方向性や、新しい研究結果の発見を短期間で理解するのに苦労しています。 初心者研究者に直感的な支援を提供する一つの方法は、関連する知識グラフ(KG)を提供し、関連する学術論文を推薦することである。 しかし、既存のナビゲーション知識グラフは主に研究分野のキーワードに依存しており、複数の関連論文の論理的階層をはっきりと示さないことが多い。 さらに、学術論文の推薦システムの多くは、単に高いテキスト類似性に依存しており、研究者は、ある記事が推奨されている理由について混乱させる可能性がある。 また, 「Issue Solution」 と 「Issue Find」 の間に得られる洞察の関連性について, 重要な情報が欠如している可能性がある。 これらの課題に対処するために,本研究では,研究トピックの継承洞察と学術論文の関連洞察を反映した階層的木構造知識グラフを確立することにより,初心者研究者を対象とした研究洞察調査を支援することを目的とする。

Research surveys have always posed a challenge for beginner researchers who lack of research training. These researchers struggle to understand the directions within their research topic, and the discovery of new research findings within a short time. One way to provide intuitive assistance to beginner researchers is by offering relevant knowledge graphs(KG) and recommending related academic papers. However, existing navigation knowledge graphs primarily rely on keywords in the research field and often fail to present the logical hierarchy among multiple related papers clearly. Moreover, most recommendation systems for academic papers simply rely on high text similarity, which can leave researchers confused as to why a particular article is being recommended. They may lack of grasp important information about the insight connection between "Issue resolved" and "Issue finding" that they hope to obtain. To address these issues, this study aims to support research insight surveys for beginner researchers by establishing a hierarchical tree-structured knowledge graph that reflects the inheritance insight of research topics and the relevance insight among the academic papers.
翻訳日:2024-07-04 20:04:00 公開日:2024-07-03
# 明示的後退を伴う言語モデルの雑音コントラストアライメント

Noise Contrastive Alignment of Language Models with Explicit Rewards ( http://arxiv.org/abs/2402.05369v2 )

ライセンス: Link先を確認
Huayu Chen, Guande He, Lifan Yuan, Ganqu Cui, Hang Su, Jun Zhu, (参考訳) ユーザ意図は一般的に、微調整言語モデル(LM)において最大化される評価報酬として形式化される。 直接選好最適化(DPO)のような既存のアライメント手法は主に、報酬が明示的に与えられるのではなく暗黙的に定義されるペアワイズ選好データに向いている。 本稿では、雑音コントラスト推定(NCE)を利用して、スカラー評価で明示的に注釈付けされた報酬データセットを扱う際のギャップを埋める、LMアライメントのための一般的なフレームワークを提案する。 我々のフレームワークは2つの並列アルゴリズム、NAAとInfoNCAで構成されており、どちらも報酬データと嗜好データからLMポリシーを直接抽出することができる。 特に、DPO損失はペアの選好条件下でのInfoNCA目標の特別な場合であり、現在のアライメント理論の統合と拡張であることを示す。 NCA と InfoNCA を比較することで,DPO/InfoNCA の減少傾向は,反応の相違による相対可能性の調整に焦点が当てられていることが示される。 対照的に、NAAは各応答に対して絶対確率を最適化し、選択された可能性の低下を効果的に防止する。 提案手法をMistral-8*7Bモデルと7Bモデルで評価した。 実験により、InfoNCA/NCAは報酬データセットが利用可能であれば、様々な好みのベースラインを超えることが示唆されている。 NCAは、数学やコーディングといった複雑な推論タスクにおいて、DPOを著しく上回ります。

User intentions are typically formalized as evaluation rewards to be maximized when fine-tuning language models (LMs). Existing alignment methods, such as Direct Preference Optimization (DPO), are mainly tailored for pairwise preference data where rewards are implicitly defined rather than explicitly given. In this paper, we introduce a general framework for LM alignment, leveraging Noise Contrastive Estimation (NCE) to bridge the gap in handling reward datasets explicitly annotated with scalar evaluations. Our framework comprises two parallel algorithms, NCA and InfoNCA, both enabling the direct extraction of an LM policy from reward data as well as preference data. Notably, we show that the DPO loss is a special case of our proposed InfoNCA objective under pairwise preference settings, thereby integrating and extending current alignment theories. By comparing NCA and InfoNCA, we demonstrate that the well-observed decreasing-likelihood trend of DPO/InfoNCA is caused by their focus on adjusting relative likelihood across different responses. In contrast, NCA optimizes the absolute likelihood for each response, thereby effectively preventing the chosen likelihood from decreasing. We evaluate our methods in both reward and preference settings with Mistral-8*7B and 7B models. Experiments suggest that InfoNCA/NCA surpasses various preference baselines when reward datasets are available. We also find NCA significantly outperforms DPO in complex reasoning tasks like math and coding.
翻訳日:2024-07-04 20:04:00 公開日:2024-07-03
# 安全で信頼できる自動運転のための説明可能なAI:システムレビュー

Explainable AI for Safe and Trustworthy Autonomous Driving: A Systematic Review ( http://arxiv.org/abs/2402.10086v2 )

ライセンス: Link先を確認
Anton Kuznietsov, Balint Gyevnar, Cheng Wang, Steven Peters, Stefano V. Albrecht, (参考訳) 人工知能(AI)は、従来の手法に比べて優れた性能のため、自律運転(AD)における知覚と計画タスクに有望な応用を示す。 しかし、調査不能なAIシステムは、ADの安全性を保証するという既存の課題をさらに悪化させる。 この課題を軽減するひとつの方法は、説明可能なAI(XAI)技術を使用することだ。 この目的のために,安全かつ信頼性の高いADのための説明可能な手法の総合的な文献レビューを行った。 まず、AIの要件をADの文脈で分析し、データ、モデル、エージェンシーの3つの重要な側面に注目します。 これらの要件を満たすのにXAIが基本であることに気付きました。 そこで我々は,AIにおける説明の源泉を説明し,XAIの分類について述べる。 次に、ADにおける安全で信頼性の高いAIのためのXAIの5つの重要なコントリビューションを特定し、それらは解釈可能な設計、解釈可能なサロゲートモデル、解釈可能な監視、補助的な説明、解釈可能な検証である。 最後に、これらのコントリビューションを統合するためにSafeXと呼ばれるモジュラーフレームワークを提案し、同時にAIモデルの安全性を確保しながら、ユーザへの説明配信を可能にする。

Artificial Intelligence (AI) shows promising applications for the perception and planning tasks in autonomous driving (AD) due to its superior performance compared to conventional methods. However, inscrutable AI systems exacerbate the existing challenge of safety assurance of AD. One way to mitigate this challenge is to utilize explainable AI (XAI) techniques. To this end, we present the first comprehensive systematic literature review of explainable methods for safe and trustworthy AD. We begin by analyzing the requirements for AI in the context of AD, focusing on three key aspects: data, model, and agency. We find that XAI is fundamental to meeting these requirements. Based on this, we explain the sources of explanations in AI and describe a taxonomy of XAI. We then identify five key contributions of XAI for safe and trustworthy AI in AD, which are interpretable design, interpretable surrogate models, interpretable monitoring, auxiliary explanations, and interpretable validation. Finally, we propose a modular framework called SafeX to integrate these contributions, enabling explanation delivery to users while simultaneously ensuring the safety of AI models.
翻訳日:2024-07-04 20:04:00 公開日:2024-07-03
# 注意喚起のための分解:ワークフローパラダイムによるLLMベースのテキスト-SQLの改善

Decomposition for Enhancing Attention: Improving LLM-based Text-to-SQL through Workflow Paradigm ( http://arxiv.org/abs/2402.10671v3 )

ライセンス: Link先を確認
Yuanzhen Xie, Xinzhou Jin, Tao Xie, MingXiong Lin, Liang Chen, Chenyun Yu, Lei Cheng, ChengXiang Zhuo, Bo Hu, Zang Li, (参考訳) 大規模言語モデル(LLM)のインコンテキスト学習は、自然言語処理の分野で顕著な成功を収めた一方、広範にわたるケーススタディでは、テキストからSQLのような複雑なタスクにおいて、注意の拡散や不適切なパフォーマンスといった課題に直面している。 テキスト・トゥ・SQLにおけるLLMの文脈学習能力を改善するために,分解によるLLMの注目度と問題解決範囲の向上を目的としたワークフローパラダイム手法を提案する。 具体的には、冗長な情報を排除するための情報決定モジュールと、問題分類に基づく新しいプロンプト構造により、モデルの注意を著しく高める。 さらに、自己補正とアクティブラーニングモジュールの導入により、LLMの問題解決範囲が大幅に拡大し、LLMベースのアプローチの上限が向上する。 3つのデータセットで行った大規模な実験は、我々のアプローチが他の手法よりも有意なマージンで優れていることを示した。 Spider Dev、Spider-Realistic、Bird Devデータセットの既存のベースラインと比較して約2~3ポイント改善され、Spider Testデータセットの新たなSOTA結果が達成された。 私たちのコードはGitHubで入手可能です。

In-context learning of large-language models (LLMs) has achieved remarkable success in the field of natural language processing, while extensive case studies reveal that the single-step chain-of-thought prompting approach faces challenges such as attention diffusion and inadequate performance in complex tasks like text-to-SQL. To improve the contextual learning capabilities of LLMs in text-to-SQL, a workflow paradigm method is proposed, aiming to enhance the attention and problem-solving scope of LLMs through decomposition. Specifically, the information determination module for eliminating redundant information and the brand-new prompt structure based on problem classification greatly enhance the model's attention. Additionally, the inclusion of self-correction and active learning modules greatly expands the problem-solving scope of LLMs, hence improving the upper limit of LLM-based approaches. Extensive experiments conducted on three datasets demonstrate that our approach outperforms other methods by a significant margin. About 2-3 percentage point improvements compared to the existing baseline on the Spider Dev, Spider-Realistic, and Bird Dev datasets and new SOTA results on the Spider Test dataset are achieved. Our code is available on GitHub: \url{https://github.com/FlyingFeather/DEA-SQL}.
翻訳日:2024-07-04 20:04:00 公開日:2024-07-03
# LLMの連続マルチホップ推論能力の評価

Evaluating LLMs' Inherent Multi-hop Reasoning Ability ( http://arxiv.org/abs/2402.11924v3 )

ライセンス: Link先を確認
Jian Wu, Linyi Yang, Zhen Wang, Manabu Okumura, Yue Zhang, (参考訳) 大言語モデル(LLM)は質問応答(QA)タスクに優れるが、マルチホップQAタスクに複数のエビデンスを組み込んだ多段階推論能力は未定である。 LLMは、与えられたコンテキストを推論するのではなく、内部記憶に依存する回答を生成することがあるため、実際の推論能力の評価品質に関する懸念が生じる。 対実的QAタスクは、内部記憶を推論能力から切り離すことができるが、多段階推論プロセスを評価することなく最終QAのパフォーマンスのみにフォーカスすることは、LCMの真の推論能力の報告には不十分である。 現在のマルチホップQA(MHQA)ベンチマークは、ウィキペディアのようなオープンソースのコーポラで実際に注釈付けされているが、多段階の推論評価には有用であり、LLMの事前学習段階における潜在的なデータ汚染による制限を示している。 この問題に対処するため,本研究では,元となるウィキペディアの文節を編集し,データの汚染リスクを低減することを含む,最初の知識を駆使したマルチホップQAデータに基づいて,LLMの連鎖解析性能を共同評価する新しい評価手法であるIRE手法を提案する。 IREは、サブQAおよびファイナルQA評価を通じて、推論チェーンを包括的に評価する。 比較の結果,ウィキペディアベースのベンチマークとIREを比較した結果,既存のベンチマークにおけるデータ汚染の問題を推定する上で,いくつかのLCMに対して大きな性能差がみられた。 IREベンチマークは信頼性の高いLCM評価を強化し、促進すると考えています。

While Large Language Models (LLMs) excel in question-answering (QA) tasks, their multi-step reasoning abilities on multiple evidence integration on Multi-hop QA tasks remain underexplored. LLMs sometimes generate answers that rely on internal memory rather than reasoning given context, which brings concerns about the evaluation quality of real reasoning abilities. The counterfactual QA task can separate internal memory from reasoning abilities, but focusing solely on final-QA performance without evaluating the multi-step reasoning process is insufficient for reporting LLMs' real reasoning abilities. Current Multi-hop QA (MHQA) benchmarks are factual and annotated on open-source corpora such as Wikipedia, although useful for multi-step reasoning evaluation, showing limitations due to potential data contamination in LLMs pre-training stage. To address this issue, we introduce the Inherent Reasoning Evaluation (IRE) method, a novel evaluation way that jointly evaluates the LLMs' chain-of-reasoning performance based on the first knowledge-edited counterfactual multi-hop QA data which involves editing the original Wikipedia passages, reducing data contamination risks. The IRE comprehensively assesses reasoning chains through sub-QA and final-QA evaluations. Our comparisons reveal significant performance gaps for several LLMs between Wikipedia-based benchmarks and IRE, deeming data contamination issues in existing benchmarks. We believe that the IRE benchmark will enhance and facilitate trustworthy LLM evaluations.
翻訳日:2024-07-04 20:04:00 公開日:2024-07-03
# LLMアライメントのベイズ回帰モデル

Bayesian Reward Models for LLM Alignment ( http://arxiv.org/abs/2402.13210v2 )

ライセンス: Link先を確認
Adam X. Yang, Maxime Robeyns, Thomas Coste, Zhengyan Shi, Jun Wang, Haitham Bou-Ammar, Laurence Aitchison, (参考訳) 大規模言語モデル(LLM)応答が有用で有害であることを保証するため、人間の嗜好データに基づいてトレーニングされた報酬モデルが一般的に使用される。 高い報酬を持つLLM応答は、ベスト・オブ・n$(BoN)サンプリングによって選択されるか、あるいは人間のフィードバック(RLHF)からの強化学習によって高い報酬を持つ応答を生成するよう、LLMはさらに最適化される。 しかし、これらのプロセスは、特にトレーニングデータから逸脱したプロンプトや応答として、真の嗜好よりも報酬モデルに欠陥があるため、報酬の過度な最適化や「ハック」を受けやすい。 これらの課題に対処するために、トレーニングデータ分布からより高い不確実性を示すベイズ報酬モデルをトレーニングすることを提案する。 我々は,LoRA重みに対するLaplace近似を用いてベイズ報酬モデルを訓練し,結果の不確実性推定により,BoNサンプリングにおける報酬過小評価を効果的に軽減できることを示した。

To ensure that large language model (LLM) responses are helpful and non-toxic, a reward model trained on human preference data is usually used. LLM responses with high rewards are then selected through best-of-$n$ (BoN) sampling or the LLM is further optimized to produce responses with high rewards through reinforcement learning from human feedback (RLHF). However, these processes are susceptible to reward overoptimization or `hacking', where responses receive high rewards due to imperfections in the reward model rather than true preference, particularly as prompts or responses deviate from the training data. To address these challenges, we propose to train a Bayesian reward model, which signals higher uncertainty further from the training data distribution. We trained Bayesian reward models using Laplace approximation on LoRA weights, and found that the resulting uncertainty estimates can effectively mitigate reward overoptimization in BoN sampling.
翻訳日:2024-07-04 20:04:00 公開日:2024-07-03
# Smaug: DPO-Positiveによる予測最適化の障害モードの修正

Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive ( http://arxiv.org/abs/2402.13228v2 )

ライセンス: Link先を確認
Arka Pal, Deep Karkhanis, Samuel Dooley, Manley Roberts, Siddartha Naidu, Colin White, (参考訳) 直接選好最適化(DPO)は、推論、要約、アライメントといった下流タスクにおける大きな言語モデル(LLM)の性能を著しく向上させるのに有効である。 好ましくないデータと好ましくないデータのペアを用いて、DPOは1つのレスポンスを別のレスポンスに選択する相対確率をモデル化する。 本稿では、まず、標準DPO損失は、好ましくないクラスと好ましくないクラスの間の相対確率が増加する限り、モデルが好む例の確率を減少させる可能性があることを理論的に示す。 次に、この現象は、一般的なデータセット上の微調整LDM、特に、補完のペア間の編集距離が低いデータセットにおいて起こることを実証的に示す。 これらの知見を用いて、この障害モードを回避する新しい損失関数とトレーニング手順であるDPO-Positive (DPOP) を設計する。 意外なことに、DPOPはDPOやその他の細調整手順を、様々なデータセットや下流タスクで上回り、その間に高い編集距離を持つデータセットを含む。 さらに、DPOP調整モデルでは、MT-Benchのような微調整データに依存しないベンチマークにおいて、DPO調整モデルよりも優れていることが判明した。 最後に,DPOP を用いて Smaug-34B と Smaug-72B をオープンソース化し,HuggingFace Open LLM Leaderboard 上で平均80%の精度を突破した最初のオープンソース LLM となる。

Direct Preference Optimisation (DPO) is effective at significantly improving the performance of large language models (LLMs) on downstream tasks such as reasoning, summarisation, and alignment. Using pairs of preferred and dispreferred data, DPO models the relative probability of picking one response over another. In this work, first we show theoretically that the standard DPO loss can lead to a reduction of the model's likelihood of the preferred examples, as long as the relative probability between the preferred and dispreferred classes increases. We then show empirically that this phenomenon occurs when fine-tuning LLMs on common datasets, especially datasets in which the edit distance between pairs of completions is low. Using these insights, we design DPO-Positive (DPOP), a new loss function and training procedure which avoids this failure mode. Surprisingly, we find that DPOP outperforms DPO and other fine-tuning procedures across a wide variety of datasets and downstream tasks, including datasets with high edit distances between completions. Furthermore, we find that the DPOP-tuned model outperforms the DPO-tuned model (all else equal) on benchmarks independent of the fine-tuning data, such as MT-Bench. Finally, using DPOP, we create and open-source Smaug-34B and Smaug-72B, with the latter becoming the first open-source LLM to surpass an average accuracy of 80% on the HuggingFace Open LLM Leaderboard.
翻訳日:2024-07-04 20:04:00 公開日:2024-07-03
# ProSparse: 大規模言語モデルにおける本質的なアクティベーションスパシティの導入と改善

ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models ( http://arxiv.org/abs/2402.13516v4 )

ライセンス: Link先を確認
Chenyang Song, Xu Han, Zhengyan Zhang, Shengding Hu, Xiyu Shi, Kuai Li, Chen Chen, Zhiyuan Liu, Guangli Li, Tao Yang, Maosong Sun, (参考訳) 活性化スパーシリティ(Activation sparsity)とは、活性化出力の間にかなり弱い結合要素が存在することを指す。 ReLUアクティベーション関数を用いたモデルの一般的な特性として、アクティベーション空間がモデル推論効率を高めるための有望なパラダイムであることが証明されている。 それにもかかわらず、ほとんどの大きな言語モデル(LLM)は、固有のアクティベーション間隔のないアクティベーション機能(例えば、GELU、Swish)を採用している。 最近の研究では、LLMが活性化空間と推論加速度を達成するのに役立つ代替活性化関数としてReLUやその変種を導入することを検討しているが、高い間隔と同等のモデル性能を同時に得られるものはほとんどない。 本稿では,LLMを高いアクティベーション空間にプッシュする上で,同等の性能を維持しつつ,シンプルかつ効果的なスペース化手法であるProSparseを提案する。 具体的には、LLMの活性化関数をReLUで置換した後、ProSparseは多段正弦曲線に沿って円滑に増大する因子を持つ進行時空間正則化を採用する。 これにより、活性化分布の急激なシフトを回避して、活性化間隔を高め、性能劣化を軽減することができる。 ProSparseでは、LLaMA2-7Bが89.32%、LLaMA2-13Bが88.80%、エンドサイズMiniCPM-1Bが87.89%の高間隔を実現し、元のSwish-activatedバージョンに匹敵する性能を実現した。 これらはオープンソースのLLaMAバージョンと競合するエンドサイズモデルの中で最も緩やかに活性化されたモデルであり、ReluLLaMA-7B (66.98%) とReluLLaMA-13B (71.56%) を大きく上回っている。 我々の推論加速実験は、より高い活性化間隔を持つLLMの有意な実用的な加速ポテンシャルを示し、最大4.52$\times$推論スピードアップを得る。

Activation sparsity refers to the existence of considerable weakly-contributed elements among activation outputs. As a prevalent property of the models using the ReLU activation function, activation sparsity has been proven a promising paradigm to boost model inference efficiency. Nevertheless, most large language models (LLMs) adopt activation functions without intrinsic activation sparsity (e.g., GELU and Swish). Some recent efforts have explored introducing ReLU or its variants as the substitutive activation function to help LLMs achieve activation sparsity and inference acceleration, but few can simultaneously obtain high sparsity and comparable model performance. This paper introduces a simple and effective sparsification method named "ProSparse" to push LLMs for higher activation sparsity while maintaining comparable performance. Specifically, after substituting the activation function of LLMs with ReLU, ProSparse adopts progressive sparsity regularization with a factor smoothly increasing along the multi-stage sine curves. This can enhance activation sparsity and mitigate performance degradation by avoiding radical shifts in activation distributions. With ProSparse, we obtain high sparsity of 89.32% for LLaMA2-7B, 88.80% for LLaMA2-13B, and 87.89% for end-size MiniCPM-1B, respectively, achieving comparable performance to their original Swish-activated versions. These present the most sparsely activated models among open-source LLaMA versions and competitive end-size models, considerably surpassing ReluLLaMA-7B (66.98%) and ReluLLaMA-13B (71.56%). Our inference acceleration experiments further demonstrate the significant practical acceleration potential of LLMs with higher activation sparsity, obtaining up to 4.52$\times$ inference speedup.
翻訳日:2024-07-04 20:04:00 公開日:2024-07-03
# 弾性時間ステップによる強化学習

Reinforcement Learning with Elastic Time Steps ( http://arxiv.org/abs/2402.14961v3 )

ライセンス: Link先を確認
Dong Wang, Giovanni Beltrame, (参考訳) 従来の強化学習(RL)のポリシーは、しばしば制御率の選択の影響を無視して、固定的な制御率で実装される。 最適な制御速度がタスク要求によって異なるため、これは非効率につながる可能性がある。 本稿では, 動的制御周波数を動的に調整するために, 弾力的な時間ステップを用いた非政治アクター批判アルゴリズムであるMulti-Objective Soft Elastic Actor-Critic (MOSEAC)を提案する。 このアプローチは、最小の実効周波数を選択することで、計算資源を最小化する。 我々は,MOSEACが理論レベルで収束し,安定なポリシーを生成できることを示し,実時間3Dレースゲームにおける結果を検証する。 MOSEACはエネルギー効率とタスク効率の点で他の可変時間ステップのアプローチよりも大幅に優れていた。 さらに、MOSEACはより速くより安定したトレーニングを行い、ロボット工学における実世界のRL応用の可能性を示した。

Traditional Reinforcement Learning (RL) policies are typically implemented with fixed control rates, often disregarding the impact of control rate selection. This can lead to inefficiencies as the optimal control rate varies with task requirements. We propose the Multi-Objective Soft Elastic Actor-Critic (MOSEAC), an off-policy actor-critic algorithm that uses elastic time steps to dynamically adjust the control frequency. This approach minimizes computational resources by selecting the lowest viable frequency. We show that MOSEAC converges and produces stable policies at the theoretical level, and validate our findings in a real-time 3D racing game. MOSEAC significantly outperformed other variable time step approaches in terms of energy efficiency and task effectiveness. Additionally, MOSEAC demonstrated faster and more stable training, showcasing its potential for real-world RL applications in robotics.
翻訳日:2024-07-04 20:04:00 公開日:2024-07-03
# 組合せ半帯域に対する効率的かつ最適共分散適応アルゴリズムの実現に向けて

Towards Efficient and Optimal Covariance-Adaptive Algorithms for Combinatorial Semi-Bandits ( http://arxiv.org/abs/2402.15171v2 )

ライセンス: Link先を確認
Julien Zhou, Pierre Gaillard, Thibaud Rahier, Houssam Zenati, Julyan Arbel, (参考訳) プレイヤーが$d$のベースアイテムを含むセットのパワーセットから$P$アクションの中から選択する確率的組合せ半帯域の問題に対処する。 最適の後悔の上界を得るためには、問題の構造への適応性が不可欠である。 共分散行列の係数を推定することは、実際は管理可能であるので、それらを活用することで、後悔を改善することができる。 我々は、OLSUCBCとCOSV(後者の分散のみ)と呼ばれる共分散構造のオンライン推定に依存する「最適」共分散適応アルゴリズムを設計する。 両者とも、ギャップのない後悔を改善する。 COSVは少し最適化できるが、トンプソンサンプリングのアプローチからインスピレーションを得て計算複雑性を改善する。 これは$\sqrt{T}$ gap-free regret(ポリログまで)を満たす最初のサンプリングベースアルゴリズムである。 また,提案手法は半帯域フィードバックを効果的に活用し,既存の分析ではカバーされない指数的レジームだけでなく,$P\gg d$の場合にも有効であることを示す。

We address the problem of stochastic combinatorial semi-bandits, where a player selects among $P$ actions from the power set of a set containing $d$ base items. Adaptivity to the problem's structure is essential in order to obtain optimal regret upper bounds. As estimating the coefficients of a covariance matrix can be manageable in practice, leveraging them should improve the regret. We design ``optimistic'' covariance-adaptive algorithms relying on online estimations of the covariance structure, called OLSUCBC and COSV (only the variances for the latter). They both yields improved gap-free regret. Although COSV can be slightly suboptimal, it improves on computational complexity by taking inspiration from Thompson Sampling approaches. It is the first sampling-based algorithm satisfying a $\sqrt{T}$ gap-free regret (up to poly-logs). We also show that in some cases, our approach efficiently leverages the semi-bandit feedback and outperforms bandit feedback approaches, not only in exponential regimes where $P\gg d$ but also when $P\leq d$, which is not covered by existing analyses.
翻訳日:2024-07-04 19:54:16 公開日:2024-07-03
# GraphWiz: グラフ問題に対する命令追従型言語モデル

GraphWiz: An Instruction-Following Language Model for Graph Problems ( http://arxiv.org/abs/2402.16029v5 )

ライセンス: Link先を確認
Nuo Chen, Yuhan Li, Jianheng Tang, Jia Li, (参考訳) 大規模言語モデル(LLM)は、いくつかの分野において顕著な成功を収めてきたが、複雑なグラフ問題を理解し、解決する能力は明らかにされていない。 このギャップを埋めるために、言語モデルに明示的な推論パスを用いて幅広いグラフ問題に取り組む能力を持たせるために設計された、新しく包括的な命令チューニングデータセットであるGraphInstructを導入する。 GraphInstructを利用することで、明確な推論プロセスを生成しながら、さまざまなグラフ問題タイプを解決可能な、オープンソースの言語モデルであるGraphWizを構築します。 モデルの性能と信頼性を高めるため、グラフ問題解決コンテキストにダイレクト・プライス・オプティマイズ(DPO)フレームワークを組み込む。 拡張モデルであるGraphWiz-DPOは、9つのタスクで平均65%の精度を達成し、GPT-4を平均43.8%上回っている。 さらに、トレーニングデータ量とモデル性能の微妙なバランスについて検討し、データ量の増加による過度な適合の可能性を強調した。 また、異なるグラフタスク間でのモデルの推論能力の伝達可能性についても検討し、モデルの適応性と実用的なアプリケーションの可能性を示す。 我々の調査は、グラフ推論と問題解決に特化したLSMを開発する上で、新しい青写真と貴重な洞察を提供する。

Large language models (LLMs) have achieved impressive success across several fields, but their proficiency in understanding and resolving complex graph problems is less explored. To bridge this gap, we introduce GraphInstruct, a novel and comprehensive instruction-tuning dataset designed to equip language models with the ability to tackle a broad spectrum of graph problems using explicit reasoning paths. Utilizing GraphInstruct, we build GraphWiz, an open-source language model capable of resolving various graph problem types while generating clear reasoning processes. To enhance the model's capability and reliability, we incorporate the Direct Preference Optimization (DPO) framework into the graph problem-solving context. The enhanced model, GraphWiz-DPO, achieves an average accuracy of 65% across nine tasks with different complexity levels, surpassing GPT-4 which has an average accuracy of 43.8%. Moreover, our research delves into the delicate balance between training data volume and model performance, highlighting the potential for overfitting with increased data. We also explore the transferability of the model's reasoning ability across different graph tasks, indicating the model's adaptability and practical application potential. Our investigation offers a new blueprint and valuable insights for developing LLMs specialized in graph reasoning and problem-solving.
翻訳日:2024-07-04 19:54:16 公開日:2024-07-03
# 最適時間ステップによる拡散サンプリングの高速化

Accelerating Diffusion Sampling with Optimized Time Steps ( http://arxiv.org/abs/2402.17376v3 )

ライセンス: Link先を確認
Shuchen Xue, Zhaoqiang Liu, Fei Chen, Shifeng Zhang, Tianyang Hu, Enze Xie, Zhenguo Li, (参考訳) 拡散確率モデル (DPM) は高分解能画像合成において顕著な性能を示したが、サンプリング効率は典型的には多くのサンプリングステップのために依然として望まれている。 DPM用高次数値ODEソルバの最近の進歩により、サンプリングステップがはるかに少ない高品質な画像の生成が可能になった。 これは重要な開発であるが、ほとんどのサンプリング手法は依然として一様時間ステップを採用しており、少数のステップを使用する場合に最適ではない。 この問題に対処するために, DPMの特定の数値ODEソルバに対して, より適切な時間ステップを求める最適化問題を設計するための一般的なフレームワークを提案する。 この最適化問題は,ODEと数値解法に対応する近似解との距離を最小化することを目的としている。 制約付き信頼領域法を用いて効率よく解き、秒間15ドル以下で解決できる。 CIFAR-10 や ImageNet などのデータセットの FID スコアの点から,UniPC と組み合わせることで画像生成性能が向上することを示す。

Diffusion probabilistic models (DPMs) have shown remarkable performance in high-resolution image synthesis, but their sampling efficiency is still to be desired due to the typically large number of sampling steps. Recent advancements in high-order numerical ODE solvers for DPMs have enabled the generation of high-quality images with much fewer sampling steps. While this is a significant development, most sampling methods still employ uniform time steps, which is not optimal when using a small number of steps. To address this issue, we propose a general framework for designing an optimization problem that seeks more appropriate time steps for a specific numerical ODE solver for DPMs. This optimization problem aims to minimize the distance between the ground-truth solution to the ODE and an approximate solution corresponding to the numerical solver. It can be efficiently solved using the constrained trust region method, taking less than $15$ seconds. Our extensive experiments on both unconditional and conditional sampling using pixel- and latent-space DPMs demonstrate that, when combined with the state-of-the-art sampling method UniPC, our optimized time steps significantly improve image generation performance in terms of FID scores for datasets such as CIFAR-10 and ImageNet, compared to using uniform time steps.
翻訳日:2024-07-04 19:54:15 公開日:2024-07-03
# 熱力学インフォームド・スーパーレゾリューションによる不足時間力学データの可視化

Thermodynamics-informed super-resolution of scarce temporal dynamics data ( http://arxiv.org/abs/2402.17506v2 )

ライセンス: Link先を確認
Carlos Bermejo-Barbanoj, Beatriz Moya, Alberto Badías, Francisco Chinesta, Elías Cueto, (参考訳) 本稿では,物理系の測定値の分解能を高め,熱力学を意識したニューラルネットワークを用いて時間進化を予測する手法を提案する。 本手法では,正則分布など,先行値に一致するように強制される潜在変数の集合に全順序モデルの次元性を還元する逆自己エンコーダを用いる。 対向オートエンコーダは生成モデルと見なされ、低反発入力から高分解能サンプルを生成するように訓練することができる。 次に、第2のニューラルネットワークがトレーニングされ、潜伏変数の物理的構造を学び、その時間的進化を予測する。 このニューラルネットワークは構造保存ニューラルネットワークとして知られている。 系の緯度構造を学習し、熱力学の第一原理と第二原理が満たされることを保証するために物理的バイアスを適用する。 積分軌道は元の次元にデコードされ、対向自己エンコーダによって生成される高次元空間にデコードされ、基底真理解と比較される。 この手法はシリンダー上の流れの2つの例で試験され、それぞれの例で流体特性が変化する。

We present a method to increase the resolution of measurements of a physical system and subsequently predict its time evolution using thermodynamics-aware neural networks. Our method uses adversarial autoencoders, which reduce the dimensionality of the full order model to a set of latent variables that are enforced to match a prior, for example a normal distribution. Adversarial autoencoders are seen as generative models, and they can be trained to generate high-resolution samples from low-resoution inputs, meaning they can address the so-called super-resolution problem. Then, a second neural network is trained to learn the physical structure of the latent variables and predict their temporal evolution. This neural network is known as an structure-preserving neural network. It learns the metriplectic-structure of the system and applies a physical bias to ensure that the first and second principles of thermodynamics are fulfilled. The integrated trajectories are decoded to their original dimensionality, as well as to the higher dimensionality space produced by the adversarial autoencoder and they are compared to the ground truth solution. The method is tested with two examples of flow over a cylinder, where the fluid properties are varied between both examples.
翻訳日:2024-07-04 19:54:15 公開日:2024-07-03
# 3次元ポーズ推定とメッシュ回復のための深層学習:サーベイ

Deep learning for 3D human pose estimation and mesh recovery: A survey ( http://arxiv.org/abs/2402.18844v2 )

ライセンス: Link先を確認
Yang Liu, Changzhen Qiu, Zhiyong Zhang, (参考訳) 3Dの人間のポーズ推定とメッシュの回復は、コンピュータビジョン、自律運転、ロボット工学など、多くの分野で研究の関心を集めている。 人間の3次元ポーズ推定とメッシュ回復の深層学習が最近発展し、この分野のさまざまな問題に対処する多くの方法が提案されている。 本稿では,今後の研究を奨励するために,200以上の参考文献を掘り下げることで,過去5年間の深層学習手法の進歩を包括的に概観する。 我々の知る限り、この調査は、一人称と複数人称の両方のアプローチと、明示的なモデルと暗黙的な表現に基づく手法を含む人間のメッシュ回復を含む、人間のポーズ推定のためのディープラーニング手法を包括的にカバーした最初のものである。 また、いくつかの公開データセットで比較結果を提示し、洞察に富んだ観察と将来の研究の方向性を示唆する。 定期的に更新されたプロジェクトページはhttps://github.com/liuyangme/SOTA-3DHPE-HMRで見ることができる。

3D human pose estimation and mesh recovery have attracted widespread research interest in many areas, such as computer vision, autonomous driving, and robotics. Deep learning on 3D human pose estimation and mesh recovery has recently thrived, with numerous methods proposed to address different problems in this area. In this paper, to stimulate future research, we present a comprehensive review of recent progress over the past five years in deep learning methods for this area by delving into over 200 references. To the best of our knowledge, this survey is arguably the first to comprehensively cover deep learning methods for 3D human pose estimation, including both single-person and multi-person approaches, as well as human mesh recovery, encompassing methods based on explicit models and implicit representations. We also present comparative results on several publicly available datasets, together with insightful observations and inspiring future research directions. A regularly updated project page can be found at https://github.com/liuyangme/SOTA-3DHPE-HMR.
翻訳日:2024-07-04 19:54:15 公開日:2024-07-03
# 視覚言語モデルのためのマルチモーダル属性プロンプト

Multi-modal Attribute Prompting for Vision-Language Models ( http://arxiv.org/abs/2403.00219v2 )

ライセンス: Link先を確認
Xin Liu, Jiamin Wu, Tianzhu Zhang, (参考訳) CLIPのように、トレーニング済みの大規模なビジョンランゲージモデル(VLM)は、ダウンストリームタスクに対する強力な一般化能力を示すが、数ショットのシナリオでは苦労する。 既存のプロンプト技術は主にグローバルテキストと画像表現に重点を置いているが、マルチモーダル属性の特徴を見落としている。 この制限は、モデルがきめ細かな視覚的詳細を知覚する能力を妨げ、その一般化能力をより広範囲の未確認クラスに制限する。 この問題を解決するために,テキスト属性プロンプト,視覚属性プロンプト,属性レベルのアライメントを共同で探索し,マルチモーダル属性プロンプト法(MAP)を提案する。 提案されたMAPにはいくつかのメリットがある。 まず、テキスト属性セマンティクスによって強化された学習可能な視覚属性プロンプトを導入し、未知のカテゴリから画像の視覚属性を適応的にキャプチャし、CLIPのきめ細かい視覚知覚能力を高める。 第二に、提案した属性レベルのアライメントはグローバルアライメントを補完し、オープンボキャブラリオブジェクトに対するクロスモーダルアライメントのロバスト性を高める。 私たちの知る限り、これはCLIPベースの少数ショット適応のためのクロスモーダル属性レベルのアライメントを確立する最初の作業です。 11個のデータセットに対する大規模な実験結果から,本手法は最先端のアプローチに対して良好に動作することが示された。

Large pre-trained Vision-Language Models (VLMs), like CLIP, exhibit strong generalization ability to downstream tasks but struggle in few-shot scenarios. Existing prompting techniques primarily focus on global text and image representations, yet overlooking multi-modal attribute characteristics. This limitation hinders the model's ability to perceive fine-grained visual details and restricts its generalization ability to a broader range of unseen classes. To address this issue, we propose a Multi-modal Attribute Prompting method (MAP) by jointly exploring textual attribute prompting, visual attribute prompting, and attribute-level alignment. The proposed MAP enjoys several merits. First, we introduce learnable visual attribute prompts enhanced by textual attribute semantics to adaptively capture visual attributes for images from unknown categories, boosting fine-grained visual perception capabilities for CLIP. Second, the proposed attribute-level alignment complements the global alignment to enhance the robustness of cross-modal alignment for open-vocabulary objects. To our knowledge, this is the first work to establish cross-modal attribute-level alignment for CLIP-based few-shot adaptation. Extensive experimental results on 11 datasets demonstrate that our method performs favorably against state-of-the-art approaches.
翻訳日:2024-07-04 19:54:15 公開日:2024-07-03
# NeuraLUT:ブール合成機能におけるニューラルネットワーク密度の維持

NeuraLUT: Hiding Neural Network Density in Boolean Synthesizable Functions ( http://arxiv.org/abs/2403.00849v2 )

ライセンス: Link先を確認
Marta Andronic, George A. Constantinides, (参考訳) Field-Programmable Gate Array (FPGA)アクセラレータは、レイテンシとリソースクリティカルなDeep Neural Network (DNN)推論タスクの処理に成功している。 ニューラルネットワーク(NN)における最も計算集約的な操作の1つは、特徴ベクトルと重みベクトルの間のドット積である。 このように、従来のFPGAアクセラレーションでは、ハードウェア実装のために量子化された入力と出力を直接ルックアップテーブル(LUT)にマッピングするニューロンが提案されていた。 これらの研究において、ニューロンの境界はLUTの境界と一致する。 本稿では、これらの境界を緩和し、サブネットワーク全体を単一のLUTにマッピングすることを提案する。 サブネットワークがLUTに吸収されるため、パーティション内のNNトポロジと精度は、生成されたルックアップテーブルのサイズに影響を与えない。 そこで我々は,各パーティション内に浮動小数点精度を持つ完全連結層を利用する。これは普遍関数近似器の恩恵を受けるが,回路トポロジにNNトポロジが露出するパーティション間に厳密な間隔と量子化を施す。 実装コストは安いが、このアプローチは非常に深いNNにつながる可能性があるため、グラデーションの廃止などの課題に対処するため、パーティション内のスキップ接続も導入する。 結果として得られた方法論は、特定のFPGAハードウェアにインスパイアされたスパーシティパターンでDNNをトレーニングし、より浅い回路レベルのネットワークにマップできるようにし、それによってレイテンシを大幅に改善する、と見なすことができる。 提案手法は,既知の遅延クリティカルタスク,ジェットサブストラクチャタグ,古典的コンピュータビジョンタスク,MNISTを用いた桁分類で検証する。 我々のアプローチでは、既存の作業と比較して、LUT内での関数表現性が向上し、同じ精度で最大4.3\times$低レイテンシNNが得られる。

Field-Programmable Gate Array (FPGA) accelerators have proven successful in handling latency- and resource-critical deep neural network (DNN) inference tasks. Among the most computationally intensive operations in a neural network (NN) is the dot product between the feature and weight vectors. Thus, some previous FPGA acceleration works have proposed mapping neurons with quantized inputs and outputs directly to lookup tables (LUTs) for hardware implementation. In these works, the boundaries of the neurons coincide with the boundaries of the LUTs. We propose relaxing these boundaries and mapping entire sub-networks to a single LUT. As the sub-networks are absorbed within the LUT, the NN topology and precision within a partition do not affect the size of the lookup tables generated. Therefore, we utilize fully connected layers with floating-point precision inside each partition, which benefit from being universal function approximators, but with rigid sparsity and quantization enforced between partitions, where the NN topology becomes exposed to the circuit topology. Although cheap to implement, this approach can lead to very deep NNs, and so to tackle challenges like vanishing gradients, we also introduce skip connections inside the partitions. The resulting methodology can be seen as training DNNs with a specific FPGA hardware-inspired sparsity pattern that allows them to be mapped to much shallower circuit-level networks, thereby significantly improving latency. We validate our proposed method on a known latency-critical task, jet substructure tagging, and on the classical computer vision task, digit classification using MNIST. Our approach allows for greater function expressivity within the LUTs compared to existing work, leading to up to $4.3\times$ lower latency NNs for the same accuracy.
翻訳日:2024-07-04 19:54:15 公開日:2024-07-03
# ENOT:ニューラル・オプティカル・トランスポートの高速かつ高精度トレーニングのための予備正則化

ENOT: Expectile Regularization for Fast and Accurate Training of Neural Optimal Transport ( http://arxiv.org/abs/2403.03777v3 )

ライセンス: Link先を確認
Nazar Buzun, Maksim Bobrin, Dmitry V. Dylov, (参考訳) 本稿では,2つのカントロビッチポテンシャルの特定正規化による最適輸送計画の正確かつ効率的に推定が可能なニューラル最適輸送(NOT)訓練手法を提案する。 既存のNOTソルバの主なボトルネックは、共役作用素(すなわちc-変換)の近似を、非凸最大値の目的を最適化するか、あるいは初期近似予測を計算的に集中的に微調整することによって行う手順に関連付けられている。 両問題を、二重ポテンシャルの学習過程における結合条件を強制する期待正規化という形で、理論上正当化された新たな損失を提案することによって解決する。 このような正規化は、可能な共役ポテンシャルの分布に関する上限推定を提供し、学習を安定にし、追加の広範囲な微調整の必要性を完全に排除する。 expectedile-Regularized Neural Optimal Transport (ENOT)と呼ばれる提案された手法は、確立されたWasserstein-2ベンチマークタスクにおける従来の最先端のアプローチを、大きなマージン(最大3倍の品質改善と最大10倍のランタイム改善)で上回っている。 さらに、画像生成などの様々なタスクにおけるコスト関数の変動に対するENOTの性能を示すとともに、提案アルゴリズムの堅牢性を示す。 OTT-JAXライブラリにはENOTアルゴリズム https://ott-jax.readthedocs.io/en/latest/tutorials/ENOTの実装が含まれています。

We present a new approach for Neural Optimal Transport (NOT) training procedure, capable of accurately and efficiently estimating optimal transportation plan via specific regularization on dual Kantorovich potentials. The main bottleneck of existing NOT solvers is associated with the procedure of finding a near-exact approximation of the conjugate operator (i.e., the c-transform), which is done either by optimizing over non-convex max-min objectives or by the computationally intensive fine-tuning of the initial approximated prediction. We resolve both issues by proposing a new, theoretically justified loss in the form of expectile regularisation which enforces binding conditions on the learning process of dual potentials. Such a regularization provides the upper bound estimation over the distribution of possible conjugate potentials and makes the learning stable, completely eliminating the need for additional extensive fine-tuning. Proposed method, called Expectile-Regularised Neural Optimal Transport (ENOT), outperforms previous state-of-the-art approaches on the established Wasserstein-2 benchmark tasks by a large margin (up to a 3-fold improvement in quality and up to a 10-fold improvement in runtime). Moreover, we showcase performance of ENOT for varying cost functions on different tasks such as image generation, showing robustness of proposed algorithm. OTT-JAX library includes our implementation of ENOT algorithm https://ott-jax.readthedocs.io/en/latest/tutorials/ENOT.html
翻訳日:2024-07-04 19:54:15 公開日:2024-07-03
# 空間エンタングルメントの効率的な評価のための励起放射トモグラフィー

Stimulated emission tomography for efficient characterization of spatial entanglement ( http://arxiv.org/abs/2403.05036v3 )

ライセンス: Link先を確認
Yang Xu, Saumya Choudhary, Robert W. Boyd, (参考訳) SET(Stimulated emission tomography)は、自然パラメトリックダウンコンバージョン(SPDC)の過程を特徴づける優れたツールである。 励起放出を用いると、自然発生過程と比較して、検出された光子の平均数は桁違いに増加する。 SET測定では、自発的なプロセスの場合と同様に、パラメトリックダウンコンバージョンはブロードバンドマルチモーダル真空揺らぎよりも特定のモード特性を持つ強信号場によってシードされる。 SETプロセスは、信号モードへの複素共役であるモードで強イドラー場を生成する。 本研究ではSETを用いて、束縛された光子対の2つの光子のラゲール・ガウスアン(LG)基底における関節空間モード分布(JSMD)を推定する。 このペアは、405nmの波長で励起されたタイプII位相のβバリウムホウ酸塩(BBO)結晶と、様々なLGモードで調製された780nmのシード信号ビームとをパラメトリックダウンコンバージョンして、空間モード分布を測定する842nmのアイドラービームを生成する。 我々は,強いアイドラー生成と空間モード分布の理論的予測との良好な一致を観察する。 低輝度SPDC源による光子対波動関数の効率的な決定と高次元光子対のキャラクタリゼーションを可能にする。

Stimulated emission tomography (SET) is an excellent tool for characterizing the process of spontaneous parametric down-conversion (SPDC), which is commonly used to create pairs of entangled photons for use in quantum information protocols. The use of stimulated emission increases the average number of detected photons by several orders of magnitude compared to the spontaneous process. In a SET measurement, the parametric down-conversion is seeded by an intense signal field prepared with specified mode properties rather than by broadband multi-modal vacuum fluctuations, as is the case for the spontaneous process. The SET process generates an intense idler field in a mode that is the complex conjugate to the signal mode. In this work we use SET to estimate the joint spatial mode distribution (JSMD) in the Laguerre-Gaussian (LG) basis of the two photons of an entangled photon pair. The pair is produced by parametric down-conversion in a beta barium borate (BBO) crystal with type-II phase matching pumped at a wavelength of 405 nm along with a 780-nm seed signal beam prepared in a variety of LG modes to generate an 842-nm idler beam of which the spatial mode distribution is measured. We observe strong idler production and good agreement with the theoretical prediction of its spatial mode distribution. Our experimental procedure should enable the efficient determination of the photon-pair wavefunctions produced by low-brightness SPDC sources and the characterization of high-dimensional entangled-photon pairs.
翻訳日:2024-07-04 19:54:15 公開日:2024-07-03
# 逐次命令を用いた微調整大規模言語モデル

Fine-tuning Large Language Models with Sequential Instructions ( http://arxiv.org/abs/2403.07794v3 )

ライセンス: Link先を確認
Hanxu Hu, Simon Yu, Pinzhen Chen, Edoardo M. Ponti, (参考訳) 既存の命令チューニングモデルの成功にもかかわらず、彼らは通常、複数の命令でクエリに応答するのに苦労している。 これにより、複数の中間タスクからなる解が存在する複雑な問題において、それらの性能を損なう。 したがって、微調整データの一部が逐次的に関連するタスクの連鎖を含むべきである、と我々は主張する。 まず、タスク駆動の観点から逐次的命令チューニングを行い、多言語および視覚的質問応答のための解釈可能な中間タスクを手動で作成する。 次に,既存のデータセット(Alpaca,FlanCoTなど)の命令を多様かつ複雑な命令に変換することで,このプロセスを自動化する。 逐次指導チューニングを行ったモデルでは、符号化、数学、オープンエンド生成の結果が改善された。 さらに、SeqEvalという新しいベンチマークを提案し、モデルがシーケンス内のすべての命令を追従する能力を評価し、さらに微調整法の利点を裏付ける。 我々は,複雑なタスクのチューニングに関する新たな研究の道を開くことを願っている。

Despite the success of existing instruction-tuned models, we find that they usually struggle to respond to queries with multiple instructions. This impairs their performance in complex problems whose solution consists of multiple intermediate tasks. Thus, we contend that part of the fine-tuning data mixture should be sequential--containing a chain of interrelated tasks. We first approach sequential instruction tuning from a task-driven perspective, manually creating interpretable intermediate tasks for multilingual and visual question answering: namely "translate then predict" and "caption then answer". Next, we automate this process by turning instructions in existing datasets (e.g., Alpaca and FlanCoT) into diverse and complex sequential instructions, making our method general-purpose. Models that underwent our sequential instruction tuning show improved results in coding, maths, and open-ended generation. Moreover, we put forward a new benchmark named SeqEval to evaluate a model's ability to follow all the instructions in a sequence, which further corroborates the benefits of our fine-tuning method. We hope that our endeavours will open new research avenues on instruction tuning for complex tasks.
翻訳日:2024-07-04 19:54:15 公開日:2024-07-03
# 非凹凸ゲームにおけるトラクタブル$$-平衡について

On Tractable $Φ$-Equilibria in Non-Concave Games ( http://arxiv.org/abs/2403.08171v2 )

ライセンス: Link先を確認
Yang Cai, Constantinos Daskalakis, Haipeng Luo, Chen-Yu Wei, Weiqiang Zheng, (参考訳) Online Gradient Descentや他の非回帰学習手順は、各エージェントのユーティリティが自身の戦略で凹凸であるゲームにおいて、粗い相関均衡に効率的に収束することが知られているが、ユーティリティが非凹凸である場合(これは、ディープニューラルネットワークによってパラメータ化された戦略を含む機械学習アプリケーションで一般的なシナリオである)、エージェントのユーティリティがニューラルネットワークによって計算された場合、あるいはその両方で、そうではない。 非凹面ゲームは、重要なゲーム理論と最適化の課題をもたらす。 一 ナッシュ均衡が存在しないこと。 (ii)局所的なナッシュ均衡は存在するが、難解である。 3) 混合ナッシュ, 相関, 粗相関平衡は一般に無限に支持され, 難解である。 これらの課題を克服するために、Greenwald と Jafari [2003] が導入した $\Phi$-equilibria という古典的な解の概念を再考する。 しかし、そのようなゲームにおける$\Phi$-equilibriaのトラクタビリティは、いまだ解明されていない。 本稿では,非コンケーブゲームにおける抽出可能な$\Phi$-equilibriaの研究を開始し,戦略修正の自然ファミリーについて検討する。 我々は、$\Phi$が有限であるとき、対応する$\Phi$-equilibriaに収束する効率的な非結合学習アルゴリズムが存在することを示した。 さらに、$\Phi$が無限だが局所的な修正から構成される場合についても検討し、非自明なレジームにおいてオンライングラディエント Descent が$\Phi$-equilibria を効率的に近似できることを示した。

While Online Gradient Descent and other no-regret learning procedures are known to efficiently converge to a coarse correlated equilibrium in games where each agent's utility is concave in their own strategy, this is not the case when utilities are non-concave -- a common scenario in machine learning applications involving strategies parameterized by deep neural networks, or when agents' utilities are computed by neural networks, or both. Non-concave games introduce significant game-theoretic and optimization challenges: (i) Nash equilibria may not exist; (ii) local Nash equilibria, though existing, are intractable; and (iii) mixed Nash, correlated, and coarse correlated equilibria generally have infinite support and are intractable. To sidestep these challenges, we revisit the classical solution concept of $\Phi$-equilibria introduced by Greenwald and Jafari [2003], which is guaranteed to exist for an arbitrary set of strategy modifications $\Phi$ even in non-concave games [Stoltz and Lugosi, 2007]. However, the tractability of $\Phi$-equilibria in such games remains elusive. In this paper, we initiate the study of tractable $\Phi$-equilibria in non-concave games and examine several natural families of strategy modifications. We show that when $\Phi$ is finite, there exists an efficient uncoupled learning algorithm that converges to the corresponding $\Phi$-equilibria. Additionally, we explore cases where $\Phi$ is infinite but consists of local modifications, showing that Online Gradient Descent can efficiently approximate $\Phi$-equilibria in non-trivial regimes.
翻訳日:2024-07-04 19:54:15 公開日:2024-07-03
# 必要なら電話する:LLMは構造的環境に対して効率的かつ忠実に理性を持つことができる

Call Me When Necessary: LLMs can Efficiently and Faithfully Reason over Structured Environments ( http://arxiv.org/abs/2403.08593v2 )

ライセンス: Link先を確認
Sitao Cheng, Ziyuan Zhuang, Yong Xu, Fangkai Yang, Chaoyun Zhang, Xiaoting Qin, Xiang Huang, Ling Chen, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang, (参考訳) 大規模言語モデル(LLM)は、構造化された環境、例えば知識グラフ、テーブルを推論する可能性を示している。 このようなタスクは通常、マルチホップ推論、すなわち自然言語の発話と環境のインスタンスとのマッチングを必要とする。 従来の手法では、LSMを利用して推論パスを段階的に構築し、LSMはツールを呼び出すか、環境と段階的に対話してスキーマをピックアップする。 本稿では,LLMが構造化環境に対して効率的にかつ忠実に推論できる新しいフレームワークであるReasoning-Path-Editing (Readi)を提案する。 Readiでは、LLMはクエリが与えられた推論パスを生成し、必要なときにのみそのパスを編集する。 構造化された環境のパスをインスタンス化し、何か問題が発生した場合、パスを編集するためのフィードバックを提供します。 3つのKGQAデータセットと2つのTableQAデータセットによる実験結果は、従来のLCMベースの手法(WebQSPで9.1% Hit@1、MQA-3Hで12.4%、WTQで9.5%)をはるかに上回り、最先端の微調整手法(CWQで67%、WebQSPで74.7%)に匹敵し、バニラLCM(CWQで14.9%)を大幅に上回った。 私たちのコードはhttps://aka.ms/readi.comで公開されます。

Large Language Models (LLMs) have shown potential in reasoning over structured environments, e.g., knowledge graph and table. Such tasks typically require multi-hop reasoning, i.e., match natural language utterance with instances in the environment. Previous methods leverage LLMs to incrementally build a reasoning path, where the LLMs either invoke tools or pick up schemas by step-by-step interacting with the environment. We propose Reasoning-Path-Editing (Readi), a novel framework where LLMs can efficiently and faithfully reason over structured environments. In Readi, LLMs initially generate a reasoning path given a query, and edit the path only when necessary. We instantiate the path on structured environments and provide feedback to edit the path if anything goes wrong. Experimental results on three KGQA and two TableQA datasets show the effectiveness of Readi, significantly surpassing previous LLM-based methods (by 9.1% Hit@1 on WebQSP, 12.4% on MQA-3H and 9.5% on WTQ), comparable with state-of-the-art fine-tuned methods (67% on CWQ and 74.7% on WebQSP) and substantially boosting the vanilla LLMs (by 14.9% on CWQ). Our code will be available on https://aka.ms/readi.
翻訳日:2024-07-04 19:54:15 公開日:2024-07-03
# DialogGen:マルチターンテキスト・画像生成のためのマルチモーダル対話システム

DialogGen: Multi-modal Interactive Dialogue System for Multi-turn Text-to-Image Generation ( http://arxiv.org/abs/2403.08857v2 )

ライセンス: Link先を確認
Minbin Huang, Yanxin Long, Xinchi Deng, Ruihang Chu, Jiangfeng Xiong, Xiaodan Liang, Hong Cheng, Qinglin Lu, Wei Liu, (参考訳) テキスト・ツー・イメージ(T2I)生成モデルは近年大きく進歩している。 しかし、これらのモデルとの効果的なインタラクションは、エンジニアリングの専門知識が必要であり、マルチターン画像生成ができないため、動的かつ反復的な生成プロセスを妨げているため、平均的なユーザにとって困難である。 近年,マルチモーダル大規模言語モデル (MLLM) をT2Iモデルと組み合わせて,ユーザの自然言語命令を現実化しようとする試みが試みられている。 したがって、MLLMの出力モダリティが拡張され、MLLMの強いマルチモーダル理解能力により、T2Iモデルのマルチターン生成品質が向上する。 しかし、これらの研究の多くは、正確な出力モダリティを識別し、出力モダリティの数が増え、会話が深まるにつれて、コヒーレントな画像を生成するという課題に直面している。 そこで本研究では,マルチターンテキスト・トゥ・イメージ生成のための多モード対話システム(MIDS)を構築するために,市販のMLLMとT2Iモデルを連携させる効果的なパイプラインであるDialogGenを提案する。 描画プロンプトアライメント、注意深いトレーニングデータキュレーション、エラー修正で構成されている。 さらに、MIDSの分野が繁栄するにつれて、MIDSの出力モダリティの正しさとマルチモーダル出力のコヒーレンスの観点から、MIDSを公平に評価するためには、包括的なベンチマークが緊急に必要となる。 この問題に対処するために,MLLMが画像編集をサポートする正確で一貫性のあるマルチモーダルコンテンツを生成する能力を評価するための総合的バイリンガルベンチマークであるMulti-modal Dialogue Benchmark(DialogBen)を導入する。 モデルがモダリティと出力画像のコヒーレンスを切り替える能力を測定するための2つの評価指標を含んでいる。 DialogBenとユーザスタディに関する広範な実験は、他のState-of-the-Artモデルと比較してダイアログGenの有効性を実証している。

Text-to-image (T2I) generation models have significantly advanced in recent years. However, effective interaction with these models is challenging for average users due to the need for specialized prompt engineering knowledge and the inability to perform multi-turn image generation, hindering a dynamic and iterative creation process. Recent attempts have tried to equip Multi-modal Large Language Models (MLLMs) with T2I models to bring the user's natural language instructions into reality. Hence, the output modality of MLLMs is extended, and the multi-turn generation quality of T2I models is enhanced thanks to the strong multi-modal comprehension ability of MLLMs. However, many of these works face challenges in identifying correct output modalities and generating coherent images accordingly as the number of output modalities increases and the conversations go deeper. Therefore, we propose DialogGen, an effective pipeline to align off-the-shelf MLLMs and T2I models to build a Multi-modal Interactive Dialogue System (MIDS) for multi-turn Text-to-Image generation. It is composed of drawing prompt alignment, careful training data curation, and error correction. Moreover, as the field of MIDS flourishes, comprehensive benchmarks are urgently needed to evaluate MIDS fairly in terms of output modality correctness and multi-modal output coherence. To address this issue, we introduce the Multi-modal Dialogue Benchmark (DialogBen), a comprehensive bilingual benchmark designed to assess the ability of MLLMs to generate accurate and coherent multi-modal content that supports image editing. It contains two evaluation metrics to measure the model's ability to switch modalities and the coherence of the output images. Our extensive experiments on DialogBen and user study demonstrate the effectiveness of DialogGen compared with other State-of-the-Art models.
翻訳日:2024-07-04 19:54:15 公開日:2024-07-03
# 複数スケールにおける特徴対応による自己教師付き協調物体検出

Self-supervised co-salient object detection via feature correspondence at multiple scales ( http://arxiv.org/abs/2403.11107v3 )

ライセンス: Link先を確認
Souradeep Chakraborty, Dimitris Samaras, (参考訳) そこで本稿では,画像群における2段階の自己教師型アプローチを用いて,セグメンテーションアノテーションを必要とせず,共起サラリアンオブジェクト(CoSOD)を検出する手法を提案する。 パッチレベルの情報(例えばクラスタリングパッチ記述子)やCoSODの重いオフザシェルフコンポーネントにのみ依存する既存の教師なし手法とは異なり、我々の軽量モデルはパッチレベルとリージョンレベルの特徴対応を活用し、予測性能を大幅に向上させる。 第1段階では、画像間の局所パッチレベルの特徴対応を計算し、コサレント領域を検出する自己教師ネットワークを訓練する。 信頼度に基づくアダプティブしきい値を用いたセグメンテーション予測を行う。 次の段階では、各画像から検出された領域(各画像を含む)を排除し、これらの中間区分けを洗練し、平均された特徴表現は、すべての横断的地図(前段から)で平均化された前景の特徴表現と相違する。 3つのCoSODベンチマークデータセットに対する大規模な実験により、我々の自己教師型モデルは、対応する最先端モデルよりも大きなマージンで優れていることが示されている(例えば、CoCAデータセットでは、私たちのモデルはSOTA非教師型CoSODモデルよりも13.7%のF測定得ている)。 特に、我々の自己監督モデルは、3つのテストデータセット(例えば、CoCAデータセットでは、我々のモデルは、最近の教師付きCoSODモデルよりも4.6%のF測定ゲインを持つ)で、最近完全に教師付きCoSODモデルよりも優れています。

Our paper introduces a novel two-stage self-supervised approach for detecting co-occurring salient objects (CoSOD) in image groups without requiring segmentation annotations. Unlike existing unsupervised methods that rely solely on patch-level information (e.g. clustering patch descriptors) or on computation heavy off-the-shelf components for CoSOD, our lightweight model leverages feature correspondences at both patch and region levels, significantly improving prediction performance. In the first stage, we train a self-supervised network that detects co-salient regions by computing local patch-level feature correspondences across images. We obtain the segmentation predictions using confidence-based adaptive thresholding. In the next stage, we refine these intermediate segmentations by eliminating the detected regions (within each image) whose averaged feature representations are dissimilar to the foreground feature representation averaged across all the cross-attention maps (from the previous stage). Extensive experiments on three CoSOD benchmark datasets show that our self-supervised model outperforms the corresponding state-of-the-art models by a huge margin (e.g. on the CoCA dataset, our model has a 13.7% F-measure gain over the SOTA unsupervised CoSOD model). Notably, our self-supervised model also outperforms several recent fully supervised CoSOD models on the three test datasets (e.g., on the CoCA dataset, our model has a 4.6% F-measure gain over a recent supervised CoSOD model).
翻訳日:2024-07-04 19:44:31 公開日:2024-07-03
# 散逸的量子力学から構築された動的に制約されたモデル

Kinetically constrained models constructed from dissipative quantum dynamics ( http://arxiv.org/abs/2403.12548v2 )

ライセンス: Link先を確認
Somnath Maity, Ryusuke Hamazaki, (参考訳) 強散逸下でのマルコフ量子力学を用いた速度論的拘束モデルの構築を提案する。 ゴリーニ-コサコフスキー-スダルシャン-リンドブラッド方程式(GKSL)の古典的ノイズによる工学は、強い散逸が、量子多体ユニタリダイナミクスが制約されるような創発的非コヒーレンスな部分空間に繋がることを示す。 我々は、GKSL のダイナミクスによって構成されるユニタリダイナミクスは、相互作用が GKSL のジャンプ作用素と同一の形式を持つ強い相互作用を持つハミルトニアンによって構成されるものよりも、より厳密に制約されていると論じる。 一例として、二点散逸を持つ一次元スピン系が、凍結ブロック構造を付加した自由磁壁運動を示す運動的に制約された「PXQ」モデルに導かれることを示した。 均一磁場下では、PXQモデルはワニエ・スタークの局在と同様、磁壁の局在を示す。 次に、2つのPXQ鎖と磁場をチェーン間相互作用で結合する。 典型的なパラメータ状態の相互作用にもかかわらず、領域壁の局所化は継続するが、あるパラメータ線に対して非自明な部分的非局在化が現れる。

We propose a construction of kinetically constrained models using the Markovian quantum dynamics under strong dissipation. Engineering the Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) equation through classical noise, we show that strong dissipation leads to the emergent decoherence-free subspaces, within which constrained quantum many-body unitary dynamics can take place. We argue that the unitary dynamics constructed by the GKSL dynamics is more tightly constrained than that constructed by the strongly interacting Hamiltonian, where the interactions have the same form with the GKSL jump operators. As an example, we demonstrate that a one-dimensional spin system with two-site dissipation leads to the kinetically constrained "PXQ" model, which exhibits the free domain-wall motion with an additional frozen-block structure. Under a uniform magnetic field, the PXQ model shows the domain-wall localization, similar to the Wannier-Stark localization. We then couple two PXQ chains with the magnetic field by an inter-chain interaction. We discover that, while localization of the domain walls persists despite the interactions for typical parameter regimes, a non-trivial partial delocalization appears for a certain parameter line.
翻訳日:2024-07-04 19:44:31 公開日:2024-07-03
# 3次元視覚言語モデルは自然言語を真に理解できるか?

Can 3D Vision-Language Models Truly Understand Natural Language? ( http://arxiv.org/abs/2403.14760v3 )

ライセンス: Link先を確認
Weipeng Deng, Jihan Yang, Runyu Ding, Jiahui Liu, Yijiang Li, Xiaojuan Qi, Edith Ngai, (参考訳) 3次元視覚言語(3D-VL)タスクの急速な進歩は、人間が自然言語を使ってエンボディエージェントやロボットと対話するための新たな道を開いた。 既存の3D-VLモデルは、言語入力のスタイルに敏感であり、同じ意味を持つ文を理解するのに苦労するが、異なる変種で書かれる。 3Dビジョン言語モデルは、自然言語を本当に理解できますか? 3D-VLモデルの言語理解性をテストするために,まず,様々なタスクにまたがって3D-VLモデルを体系的に評価する言語頑健性タスクを提案する。 重要なことに、これらの変種は、人間の言語の多様性と予測不可能さを考慮して、人間との直接の相互作用を必要とするアプリケーションでよく見られる。 本研究では,ロバストネスの体系的な研究を容易にするために,人間の言語の特徴に基づく3次元言語ロバストネスデータセットを提案する。 包括的評価により,様々な3D-VLタスクにまたがる既存モデルの性能低下が明らかとなった。 最先端の3D-LLMでさえ、同じ文の変種を理解することができない。 さらに詳細な分析では、既存のモデルには、既存のデータセットの多様性が低いことから生じる、脆弱でバイアスの多い融合モジュールがあることが示唆されている。 最後に,LLMにより駆動される学習自由モジュールを提案する。 データセットとコードはgithub.comで入手できる。

Rapid advancements in 3D vision-language (3D-VL) tasks have opened up new avenues for human interaction with embodied agents or robots using natural language. Despite this progress, we find a notable limitation: existing 3D-VL models exhibit sensitivity to the styles of language input, struggling to understand sentences with the same semantic meaning but written in different variants. This observation raises a critical question: Can 3D vision-language models truly understand natural language? To test the language understandability of 3D-VL models, we first propose a language robustness task for systematically assessing 3D-VL models across various tasks, benchmarking their performance when presented with different language style variants. Importantly, these variants are commonly encountered in applications requiring direct interaction with humans, such as embodied robotics, given the diversity and unpredictability of human language. We propose a 3D Language Robustness Dataset, designed based on the characteristics of human language, to facilitate the systematic study of robustness. Our comprehensive evaluation uncovers a significant drop in the performance of all existing models across various 3D-VL tasks. Even the state-of-the-art 3D-LLM fails to understand some variants of the same sentences. Further in-depth analysis suggests that the existing models have a fragile and biased fusion module, which stems from the low diversity of the existing dataset. Finally, we propose a training-free module driven by LLM, which improves language robustness. Datasets and code will be available at github.
翻訳日:2024-07-04 19:44:31 公開日:2024-07-03
# PaPr: 高速推論のための軽量ConvNetによるトレーニングフリーワンステップパッチ実行

PaPr: Training-Free One-Step Patch Pruning with Lightweight ConvNets for Faster Inference ( http://arxiv.org/abs/2403.16020v2 )

ライセンス: Link先を確認
Tanvir Mahmud, Burhaneddin Yaman, Chun-Hao Liu, Diana Marculescu, (参考訳) 深層ニューラルネットワークが畳み込みニューラルネットワーク(ConvNets)から高度なビジョントランスフォーマー(ViTs)へと進化するにつれて、精度を損なうことなく高速な処理のために冗長なデータを除去する必要性が高まっている。 従来のメソッドはアーキテクチャ固有のものや再トレーニングが必要なものが多く、頻繁なモデル更新によって適用性を制限する。 そこで我々はまず,モデルの最終精度やサイズに関わらず,画像中の重要な識別パッチ領域を識別する機能である,軽量なConvNetの新たな特性を紹介する。 完全連結層がConvNetsの性能の第一のボトルネックであることを示し、単純な重み補正による抑制により、識別パッチのローカライゼーション性能が著しく向上することを示した。 この知見を用いて,ViT,ConvNet,ハイブリッドトランスフォーマーなど,さまざまなディープラーニングアーキテクチャを対象とした軽量なConvNetを用いて,最小限の精度で冗長なパッチを実質的に刈り取る手法PaPrを紹介した。 さらに,PaPrを用いたワンステップパッチプルーニングにより,既存のパッチリダクション手法が強化された。 多様なアーキテクチャの広範なテストを通じて、PaPrは、FLOPカウントの削減に類似した、最先端のパッチ削減手法よりもはるかに高い精度を実現している。 より具体的には、PaPrは0.8%未満の精度でビデオの冗長なパッチの約70%を削減し、3.7倍のFLOPを削減し、精度は2.5%向上した。 コードはhttps://github.com/tanvir-utexas/PaPr.orgで公開されている。

As deep neural networks evolve from convolutional neural networks (ConvNets) to advanced vision transformers (ViTs), there is an increased need to eliminate redundant data for faster processing without compromising accuracy. Previous methods are often architecture-specific or necessitate re-training, restricting their applicability with frequent model updates. To solve this, we first introduce a novel property of lightweight ConvNets: their ability to identify key discriminative patch regions in images, irrespective of model's final accuracy or size. We demonstrate that fully-connected layers are the primary bottleneck for ConvNets performance, and their suppression with simple weight recalibration markedly enhances discriminative patch localization performance. Using this insight, we introduce PaPr, a method for substantially pruning redundant patches with minimal accuracy loss using lightweight ConvNets across a variety of deep learning architectures, including ViTs, ConvNets, and hybrid transformers, without any re-training. Moreover, the simple early-stage one-step patch pruning with PaPr enhances existing patch reduction methods. Through extensive testing on diverse architectures, PaPr achieves significantly higher accuracy over state-of-the-art patch reduction methods with similar FLOP count reduction. More specifically, PaPr reduces about 70% of redundant patches in videos with less than 0.8% drop in accuracy, and up to 3.7x FLOPs reduction, which is a 15% more reduction with 2.5% higher accuracy. Code is released at https://github.com/tanvir-utexas/PaPr.
翻訳日:2024-07-04 19:44:31 公開日:2024-07-03
# LLMを用いたプログラムの実行時動作の推論: どれくらいの時間か?

Reasoning Runtime Behavior of a Program with LLM: How Far Are We? ( http://arxiv.org/abs/2403.16437v2 )

ライセンス: Link先を確認
Junkai Chen, Zhiyuan Pan, Xing Hu, Zhenhao Li, Ge Li, Xin Xia, (参考訳) コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。 コードLLMの性能を様々な面で評価するために、多くのベンチマーク(HumanEvalやClassEvalなど)が提案されている。 コード推論は、コードLLMの最も重要な能力の1つであるが、コード推論のための既存のベンチマークでは不十分である。 通常、プログラムの実行中の中間動作の評価を無視して、プログラムの入力と出力を予測することに重点を置いており、論理的一貫性(例えば、実行経路の予測が間違っている場合は、モデルが正しい出力を与えるべきではない)を推論する。 本稿では,コード推論能力とプログラム実行によるLLMの整合性を評価するためのフレームワークであるRevalを提案する。 既存のコードベンチマークを利用して、フレームワーク内の新しいベンチマークに適応しています。 大規模な実証実験を行い、ほとんどのLCMは実行時行動推論(平均精度44.4%)とインクリメンタル一貫性評価(平均ICスコア10.3)の両方で満足できない性能を示す。 現在のコードLLMの評価結果は、コードLLMのコード推論能力を強化するために、コミュニティが緊急に必要なことを反映している。 私たちのコード、データ、および新しい名前のリーダーボードはhttps://r-eval.github.io.comで入手できる。

Large language models for code (i.e., code LLMs) have shown strong code understanding and generation capabilities. To evaluate the capabilities of code LLMs in various aspects, many benchmarks have been proposed (e.g., HumanEval and ClassEval). Code reasoning is one of the most essential abilities of code LLMs, but existing benchmarks for code reasoning are not sufficient. Typically, they focus on predicting the input and output of a program, ignoring the evaluation of the intermediate behavior during program execution, as well as the logical consistency (e.g., the model should not give the correct output if the prediction of execution path is wrong) when performing the reasoning. To address these problems, in this paper, we propose a framework, namely REval, for evaluating code reasoning abilities and consistency of code LLMs with program execution. We utilize existing code benchmarks and adapt them to new benchmarks within our framework. A large-scale empirical study is conducted and most LLMs show unsatisfactory performance on both Runtime Behavior Reasoning (i.e., an average accuracy of 44.4%) and Incremental Consistency Evaluation (i.e., an average IC score of 10.3). Evaluation results of current code LLMs reflect the urgent need for the community to strengthen the code reasoning capability of code LLMs. Our code, data, and \newname leaderboard are available at https://r-eval.github.io.
翻訳日:2024-07-04 19:44:31 公開日:2024-07-03
# アルツハイマー病および関連認知症における超高分解能7テスラMRIの表面解析と頂点解析

Surface-based parcellation and vertex-wise analysis of ultra high-resolution ex vivo 7 tesla MRI in Alzheimer's disease and related dementias ( http://arxiv.org/abs/2403.19497v2 )

ライセンス: Link先を確認
Pulkit Khandelwal, Michael Tran Duong, Lisa Levorse, Constanza Fuentes, Amanda Denning, Winifred Trotman, Ranjit Ittyerah, Alejandra Bahena, Theresa Schuck, Marianna Gabrielyan, Karthik Prabhakaran, Daniel Ohm, Gabor Mizsei, John Robinson, Monica Munoz, John Detre, Edward Lee, David Irwin, Corey McMillan, M. Dylan Tisdall, Sandhitsu Das, David Wolk, Paul A. Yushkevich, (参考訳) 磁気共鳴イメージング(MRI)は、ヒトの脳の構造と機能を理解するための標準のモダリティである。 人間の神経イメージングの研究は、脳機能を特定の解剖学的領域に局在させるのに役立つ、自動ボリュームベースのセグメンテーションと表面ベースのパーセレーションを提供する方法やツールの広範な開発に繋がった。 最近、脳の生体外イメージングが始まり、脳の構造を超高解像度で研究し、生体内MRIでは観察できない詳細を明らかにしている。 残念なことに、生体外MRIの方法論的発達は、主にデータセットの欠如と、そのような画像リソースを持つ限られた中心が不足しているため、限られている。 そこで本研究では,アルツハイマー病およびそれに関連する認知症にまたがる0.3mm等方分解能のMRIで,82個の外生T2w全脳半球の1-of-kindデータセットを提示する。 Desikan-Killiany-Tourville (DKT) 脳のアトラスを用いて,超高分解能の生体外脳組織を母体空間分解能で解析するために,高速で使いやすく自動表面ベースパイプラインを開発した。 これにより、テンプレート空間で頂点ワイズ解析を行い、組織学から得られた病理学的測定とモルフォメトリー測度を関連付けることができる。 当社は、データセットドッカーコンテナ、Jupyterノートブックをオープンソースとして公開し、プロジェクトのWebページでMRI臨床脳画像研究を進めるためのツールセットとコマンドラインオプションを用意します。

Magnetic resonance imaging (MRI) is the standard modality to understand human brain structure and function in vivo (antemortem). Decades of research in human neuroimaging has led to the widespread development of methods and tools to provide automated volume-based segmentations and surface-based parcellations which help localize brain functions to specialized anatomical regions. Recently ex vivo (postmortem) imaging of the brain has opened-up avenues to study brain structure at sub-millimeter ultra high-resolution revealing details not possible to observe with in vivo MRI. Unfortunately, there has been limited methodological development in ex vivo MRI primarily due to lack of datasets and limited centers with such imaging resources. Therefore, in this work, we present one-of-its-kind dataset of 82 ex vivo T2w whole brain hemispheres MRI at 0.3 mm isotropic resolution spanning Alzheimer's disease and related dementias. We adapted and developed a fast and easy-to-use automated surface-based pipeline to parcellate, for the first time, ultra high-resolution ex vivo brain tissue at the native subject space resolution using the Desikan-Killiany-Tourville (DKT) brain atlas. This allows us to perform vertex-wise analysis in the template space and thereby link morphometry measures with pathology measurements derived from histology. We will open-source our dataset docker container, Jupyter notebooks for ready-to-use out-of-the-box set of tools and command line options to advance ex vivo MRI clinical brain imaging research on the project webpage.
翻訳日:2024-07-04 19:44:31 公開日:2024-07-03
# Jamba: ハイブリッドトランスフォーマー-マンバ言語モデル

Jamba: A Hybrid Transformer-Mamba Language Model ( http://arxiv.org/abs/2403.19887v2 )

ライセンス: Link先を確認
Opher Lieber, Barak Lenz, Hofit Bata, Gal Cohen, Jhonathan Osin, Itay Dalmedigos, Erez Safahi, Shaked Meirom, Yonatan Belinkov, Shai Shalev-Shwartz, Omri Abend, Raz Alon, Tomer Asida, Amir Bergman, Roman Glozman, Michael Gokhman, Avashalom Manevich, Nir Ratner, Noam Rozen, Erez Shwartz, Mor Zusman, Yoav Shoham, (参考訳) 本稿では,新しいハイブリッドなTransformer-Mambamix-of-experts (MoE)アーキテクチャに基づく,新しいベースとなる大規模言語モデルであるJambaを紹介する。 具体的には、JambaはTransformer層とMamba層のブロックをインターリーブし、モデルファミリの両方の利点を享受する。 MoEはこれらのレイヤの一部に追加され、アクティブなパラメータ使用量を管理しながらモデルキャパシティが向上する。 この柔軟なアーキテクチャは、リソースや客観的な設定を可能にする。 実装した特定の構成では、単一の80GBのGPUに適合する強力なモデルが出来上がります。 大規模に構築されたJambaは、バニラトランスフォーマーに比べてスループットが高く、メモリフットプリントも小さい。 注目すべきは、このモデルが最大256Kトークンのコンテキスト長に対して強い結果をもたらすことだ。 本稿では,Transformer層とMamba層を組み合わせる方法,専門家を混在させる方法など,さまざまなアーキテクチャ上の決定について検討し,その一部が大規模モデリングにおいて重要であることを示す。 また、Jambaのトレーニングと評価が明らかにしたこれらのアーキテクチャのいくつかの興味深い特性について述べるとともに、この新しいアーキテクチャのさらなる探求を促進するために、様々なアブレーションランからのチェックポイントをリリースする計画について述べる。 私たちは、Jambaの実装の重みをパーミッシブライセンスの下で公開しています。

We present Jamba, a new base large language model based on a novel hybrid Transformer-Mamba mixture-of-experts (MoE) architecture. Specifically, Jamba interleaves blocks of Transformer and Mamba layers, enjoying the benefits of both model families. MoE is added in some of these layers to increase model capacity while keeping active parameter usage manageable. This flexible architecture allows resource- and objective-specific configurations. In the particular configuration we have implemented, we end up with a powerful model that fits in a single 80GB GPU. Built at large scale, Jamba provides high throughput and small memory footprint compared to vanilla Transformers, and at the same time state-of-the-art performance on standard language model benchmarks and long-context evaluations. Remarkably, the model presents strong results for up to 256K tokens context length. We study various architectural decisions, such as how to combine Transformer and Mamba layers, and how to mix experts, and show that some of them are crucial in large scale modeling. We also describe several interesting properties of these architectures which the training and evaluation of Jamba have revealed, and plan to release checkpoints from various ablation runs, to encourage further exploration of this novel architecture. We make the weights of our implementation of Jamba publicly available under a permissive license.
翻訳日:2024-07-04 19:44:31 公開日:2024-07-03
# アフィン半正則多項式列のグレーブナー基底を計算する解次数

The solving degrees for computing Gröbner bases of affine semi-regular polynomial sequences ( http://arxiv.org/abs/2404.03530v2 )

ライセンス: Link先を確認
Momonari Kudo, Kazuhiro Yokoyama, (参考訳) Gr\"{o}bner 基底の計算の複雑さを決定することは、理論と実際の両方において重要な問題であり、解度が重要な役割を果たす。 本稿では,アフィン半規則配列とその同種配列の解度について検討する。 いくつかの結果は、アフィン半正則列によって生成されるイデアルのGr\"{o}bner基底を計算する方法の正しさの数学的に厳密な証明を与えると考えられる。 本論文は,著者の過去の研究の続編であり,Gr\の解度と重要な挙動に関する追加的な結果を与える。 また、同次多項式列に対する一般化された正則性の次数も定義する。 アフィン半正則列の均質化については、その一般化された正則性の次数と最大 Gr\"{o}bner 基底次数(すなわち、同質化列の解度)を関連付ける。 一般化された(暗号的な)半規則シーケンスの定義も与えられ、暗号システムとシグネチャスキームのセキュリティを見積もる新たな暗号仮定が導かれる。 実験的な観察から、この一般化された半正則性に関する予想といくつかの疑問を提起する。 これらの新たな定義とその結果は、これまで暗号コミュニティで行われてきた(幾らかヒューリスティックな)議論を理論的に定式化したものです。

Determining the complexity of computing Gr\"{o}bner bases is an important problem both in theory and in practice, and for that the solving degree plays a key role. In this paper, we study the solving degrees of affine semi-regular sequences and their homogenized sequences. Some of our results are considered to give mathematically rigorous proofs of the correctness of methods for computing Gr\"{o}bner bases of the ideal generated by an affine semi-regular sequence. This paper is a sequel of the authors' previous work and gives additional results on the solving degrees and important behaviors of Gr\"obner basis computation. We also define the generalized degree of regularity for a sequence of homogeneous polynomials. For the homogenization of an affine semi-regular sequence, we relate its generalized degree of regularity with its maximal Gr\"{o}bner basis degree (i.e., the solving degree of the homogenized sequence). The definition of a generalized (cryptographic) semi-regular sequence is also given, and it derives a new cryptographic assumption to estimate the security of cryptosystems and signature schemes. From our experimental observation, we raise a conjecture and some questions related to this generalized semi-regularity. These new definitions and our results provide a theoretical formulation of (somehow heuristic) discussions done so far in the cryptographic community.
翻訳日:2024-07-04 19:44:31 公開日:2024-07-03
# Eraser: 未学習の有害知識による大規模言語モデルにおけるジェイルブレイク防御

Eraser: Jailbreaking Defense in Large Language Models via Unlearning Harmful Knowledge ( http://arxiv.org/abs/2404.05880v2 )

ライセンス: Link先を確認
Weikai Lu, Ziqian Zeng, Jianwei Wang, Zhengdong Lu, Zelin Chen, Huiping Zhuang, Cen Chen, (参考訳) 脱獄攻撃により、Large Language Models (LLM) は保護をバイパスし、有害なコンテンツを生成することができる。 既存のジェイルブレイク防御手法は、有害な知識がモデル内に存在するという根本的な問題に対処できず、LCMにとって潜在的にジェイルブレイクのリスクをもたらす。 本稿では,有害な知識の学習,一般知識の保持,安全性の維持という3つの目標を主目的として,エラザーと呼ばれる新しい防衛手法を提案する。 直感的には、LLMが有害な質問に答えるために必要な特定の知識を忘れてしまうと、有害な質問に答える能力はなくなる。 Eraseのトレーニングは、モデル自身の有害な知識を実際に必要とせず、有害なクエリに関連する非学習的な一般的な回答の恩恵を受ける可能性がある。 実験結果から, 各種攻撃における脱獄成功率を, モデル全体の性能を損なうことなく著しく低減できることが示された。 私たちのコードはhttps://github.com/ZeroNLP/Eraser.comで公開されています。

Jailbreaking attacks can enable Large Language Models (LLMs) to bypass the safeguard and generate harmful content. Existing jailbreaking defense methods have failed to address the fundamental issue that harmful knowledge resides within the model, leading to potential jailbreak risks for LLMs. In this paper, we propose a novel defense method called Eraser, which mainly includes three goals: unlearning harmful knowledge, retaining general knowledge, and maintaining safety alignment. The intuition is that if an LLM forgets the specific knowledge required to answer a harmful question, it will no longer have the ability to answer harmful questions. The training of Erase does not actually require the model's own harmful knowledge, and it can benefit from unlearning general answers related to harmful queries, which means it does not need assistance from the red team. The experimental results show that Eraser can significantly reduce the jailbreaking success rate for various attacks without compromising the general capabilities of the model. Our codes are available at https://github.com/ZeroNLP/Eraser.
翻訳日:2024-07-04 19:44:31 公開日:2024-07-03
# シンボリック機械学習から核モデルを発見する

Discovering Nuclear Models from Symbolic Machine Learning ( http://arxiv.org/abs/2404.11477v3 )

ライセンス: Link先を確認
Jose M. Munoz, Silviu M. Udrescu, Ronald F. Garcia Ruiz, (参考訳) 多くの現象学的核モデルが提案され、核チャートの異なる領域で特定の観測可能物を記述することが提案されている。 しかしながら、全ての核の複雑な振る舞いを記述する統一モデルの開発は、依然として未解決の課題である。 ここでは,新しいシンボリック機械学習(ML)が,従来の物理モデルを再発見するか,あるいは簡易性,忠実性,予測力を向上した代替品を識別できるかを検討する。 この課題に対処するために,多目的反復型シンボル回帰手法を開発し,複数の観測対象に対するシンボル回帰を処理し,実験的不確実性を考慮し,高次元問題に対して頑健である。 原理の証明として,光・中質量核の核結合エネルギーと電荷半径を記述するために本手法を適用した。 提案手法では, 陽子数と中性子数に基づいて単純な解析関係を同定し, 最先端の原子核モデルに匹敵する精度で解釈可能なモデルを提供する。 さらに、このML発見モデルと既存の補完モデルを統合し、核安定性の限界を推定した。 これらの結果は、正確な核モデルを開発し、複雑な多体問題の記述をガイドするシンボリックMLの可能性を強調している。

Numerous phenomenological nuclear models have been proposed to describe specific observables within different regions of the nuclear chart. However, developing a unified model that describes the complex behavior of all nuclei remains an open challenge. Here, we explore whether novel symbolic Machine Learning (ML) can rediscover traditional nuclear physics models or identify alternatives with improved simplicity, fidelity, and predictive power. To address this challenge, we developed a Multi-objective Iterated Symbolic Regression approach that handles symbolic regressions over multiple target observables, accounts for experimental uncertainties and is robust against high-dimensional problems. As a proof of principle, we applied this method to describe the nuclear binding energies and charge radii of light and medium mass nuclei. Our approach identified simple analytical relationships based on the number of protons and neutrons, providing interpretable models with precision comparable to state-of-the-art nuclear models. Additionally, we integrated this ML-discovered model with an existing complementary model to estimate the limits of nuclear stability. These results highlight the potential of symbolic ML to develop accurate nuclear models and guide our description of complex many-body problems.
翻訳日:2024-07-04 19:44:31 公開日:2024-07-03
# BLINK: マルチモーダルな大規模言語モデルは理解できるが知覚できない

BLINK: Multimodal Large Language Models Can See but Not Perceive ( http://arxiv.org/abs/2404.12390v4 )

ライセンス: Link先を確認
Xingyu Fu, Yushi Hu, Bangzheng Li, Yu Feng, Haoyu Wang, Xudong Lin, Dan Roth, Noah A. Smith, Wei-Chiu Ma, Ranjay Krishna, (参考訳) Blinkはマルチモーダル言語モデル(LLM)のための新しいベンチマークであり、他の評価では見つからないコア視覚知覚能力に焦点を当てている。 ほとんどのBlinkタスクは、人間によって「瞬き」で解決できる(例えば、相対的な深さ推定、視覚的対応、法医学的検出、多視点推論)。 しかし、これらの認識要求タスクは、自然言語による調停に抵抗するため、現在のマルチモーダル LLM にとって大きな課題となった。 Blinkは14の古典的なコンピュータビジョンタスクを3,807の複数の質問に修正し、単一の画像や複数の画像と組み合わせて視覚的にプロンプトする。 ヒトは平均で95.70%の精度を持つが、Blinkは既存のマルチモーダルLLMでは驚くほど困難であり、GPT-4Vとジェミニでも51.26%と45.72%の精度で、ランダムな推測よりも13.17%と7.63%高い。 我々の分析は、専門的なCVモデルがこれらの問題をはるかに改善し、将来の改善の道筋を示唆していることも強調している。 われわれはBlinkがコミュニティを刺激し、マルチモーダルLLMが人間レベルの視覚的知覚に追いつくのに役立つと信じている。

We introduce Blink, a new benchmark for multimodal language models (LLMs) that focuses on core visual perception abilities not found in other evaluations. Most of the Blink tasks can be solved by humans "within a blink" (e.g., relative depth estimation, visual correspondence, forensics detection, and multi-view reasoning). However, we find these perception-demanding tasks cast significant challenges for current multimodal LLMs because they resist mediation through natural language. Blink reformats 14 classic computer vision tasks into 3,807 multiple-choice questions, paired with single or multiple images and visual prompting. While humans get 95.70% accuracy on average, Blink is surprisingly challenging for existing multimodal LLMs: even the best-performing GPT-4V and Gemini achieve accuracies of 51.26% and 45.72%, only 13.17% and 7.63% higher than random guessing, indicating that such perception abilities have not "emerged" yet in recent multimodal LLMs. Our analysis also highlights that specialist CV models could solve these problems much better, suggesting potential pathways for future improvements. We believe Blink will stimulate the community to help multimodal LLMs catch up with human-level visual perception.
翻訳日:2024-07-04 19:44:31 公開日:2024-07-03
# 量子ネットワークのための連続冷却イオンの高速光子による絡み合い

Fast photon-mediated entanglement of continuously-cooled trapped ions for quantum networking ( http://arxiv.org/abs/2404.16167v3 )

ライセンス: Link先を確認
Jameson O'Reilly, George Toh, Isabella Goetting, Sagnik Saha, Mikhail Shalaev, Allison Carter, Andrew Risinger, Ashish Kalakuntla, Tingguang Li, Ashrit Verma, Christopher Monroe, (参考訳) 我々は2つのコトラップされた原子バリウムイオンの量子ビットを、各イオンから真空0.8NAの目的物を通して1つの可視光子を集め、それらを集積ファイバービームスプリッターを介して干渉し、偶然に検出することで絡み合わせる。 これにより、クォービットは、観測された忠実度が F > 94% 以下の絡み合ったベル状態に投影される。 また, 同調冷却用イッテルビウムイオンを導入し, 中断除去の必要性を除去し, 連続的絡み合い速度2501/sを実現した。

We entangle two co-trapped atomic barium ion qubits by collecting single visible photons from each ion through in-vacuo 0.8 NA objectives, interfering them through an integrated fiber-beamsplitter and detecting them in coincidence. This projects the qubits into an entangled Bell state with an observed fidelity lower bound of F > 94%. We also introduce an ytterbium ion for sympathetic cooling to remove the need for recooling interruptions and achieve a continuous entanglement rate of 250 1/s.
翻訳日:2024-07-04 19:44:31 公開日:2024-07-03
# 医用画像解析におけるアウト・オブ・ディストリビューション検出

Out-of-distribution Detection in Medical Image Analysis: A survey ( http://arxiv.org/abs/2404.18279v2 )

ライセンス: Link先を確認
Zesheng Hong, Yubiao Yue, Yubin Chen, Lele Cong, Huanjie Lin, Yuanmei Luo, Mini Han Wang, Weidong Wang, Jialong Xu, Xiaoqi Yang, Hechang Chen, Zhenzhang Li, Sihong Xie, (参考訳) コンピュータ支援診断は、近年のディープラーニングベースのコンピュータビジョン技術の発展の恩恵を受けている。 従来の教師付きディープラーニング手法は、テストサンプルがトレーニングデータと同じ分布から引き出されることを前提としている。 しかし、実際の臨床シナリオでは分布外サンプルに遭遇し、深層学習に基づく医用画像解析タスクにおいてサイレント障害を引き起こす可能性がある。 近年、信頼できる医療AIシステムを実現するために、様々なアウト・オブ・ディストリビューション(OOD)検出状況と技術について調査している。 本調査では, 医用画像解析におけるOOD検出の最近の進歩を体系的に検討した。 まず,臨床現場で深層学習モデルを用いた場合の分布シフトの原因となるいくつかの要因について検討し,その上に3種類の分布シフトが明確に定義されている。 次に、既存のソリューションを分類し、特徴付けるためのフレームワークを提案し、従来の研究は方法論の分類に基づいてレビューする。 我々の議論には、評価プロトコルやメトリクス、課題、調査の方向性の欠如も含まれている。

Computer-aided diagnostics has benefited from the development of deep learning-based computer vision techniques in these years. Traditional supervised deep learning methods assume that the test sample is drawn from the identical distribution as the training data. However, it is possible to encounter out-of-distribution samples in real-world clinical scenarios, which may cause silent failure in deep learning-based medical image analysis tasks. Recently, research has explored various out-of-distribution (OOD) detection situations and techniques to enable a trustworthy medical AI system. In this survey, we systematically review the recent advances in OOD detection in medical image analysis. We first explore several factors that may cause a distributional shift when using a deep-learning-based model in clinic scenarios, with three different types of distributional shift well defined on top of these factors. Then a framework is suggested to categorize and feature existing solutions, while the previous studies are reviewed based on the methodology taxonomy. Our discussion also includes evaluation protocols and metrics, as well as the challenge and a research direction lack of exploration.
翻訳日:2024-07-04 19:44:31 公開日:2024-07-03
# ライドベルク原子の基底状態多様体におけるフロケット幾何学的絡み合うゲート

Floquet geometric entangling gates in ground-state manifolds of Rydberg atoms ( http://arxiv.org/abs/2405.00471v2 )

ライセンス: Link先を確認
Hao-Wen Sun, Jin-Lei Wu, Shi-Lei Su, (参考訳) 我々は、リドベルク原子におけるフロケ理論の新しい応用として、原子基底状態多様体における量子エンタングゲートの構築を提案する。 原子の基底状態とリドベルク状態の間の遷移のラビ周波数を動的に周期的に調節することにより、リドベルク封鎖の体制においてエラー耐性の2量子エンタングゲートを実装できる。 フロケ理論の利用度の違いにより、制御ゲートの忠実度は元の基準の忠実度を超え、2つの量子ビットにおけるラビ誤差に対して高い堅牢性を示し、制御量子ビットにおけるデチューニング誤差を示す。 提案手法は基底状態の符号化のみを用いており,Rydberg状態を用いた符号化方式と比較すると,環境干渉の影響を受けにくく,実装が容易である。 したがって、我々の手法は、中性原子による幾何量子計算をさらに拡張するための、より広い応用または可能性を持つかもしれない。

We propose new applications of Floquet theory in Rydberg atoms for constructing quantum entangling gates in atomic ground-state manifolds. By dynamically periodically modulating the Rabi frequencies of transitions between ground and Rydberg states of atoms, error-resilient two-qubit entangling gates can be implemented in the regime of Rydberg blockade. According to different degrees of Floquet theory utilization, the fidelity of the resulting controlled gates surpasses that of the original reference, and it exhibits high robustness against Rabi error in two qubits and detuning error in the control qubit. Our method only uses encoding in the ground states, and compared to the original scheme using Rydberg state for encoding, it is less susceptible to environmental interference, making it more practical to implement. Therefore, our approach may have broader applications or potential for further expansion of geometric quantum computation with neutral atoms.
翻訳日:2024-07-04 19:44:31 公開日:2024-07-03
# ULLER: 学習と推論のための統一言語

ULLER: A Unified Language for Learning and Reasoning ( http://arxiv.org/abs/2405.00532v3 )

ライセンス: Link先を確認
Emile van Krieken, Samy Badreddine, Robin Manhaeve, Eleonora Giunchiglia, (参考訳) 学習と推論を組み合わせたニューロシンボリック人工知能(NeSy)の分野は、最近大きな成長を遂げている。 現在、さまざまなNeSyフレームワークがあり、それぞれがバックグラウンド知識を表現するための独自の言語を持ち、それをニューラルネットワークに関連付ける方法がある。 この異種性は新参者へのアクセシビリティを妨げ、異なるNeSyフレームワークの比較を困難にしている。 我々はNeSyのための統一言語を提案し、それをULLER(Unified Language for LEarning and Reasoning)と呼ぶ。 ULLERは様々な設定を包含し、その知識が既存のNeSyシステムで利用できることを保証している。 ULLERは、古典論理、ファジィ論理、確率論理などの例を提示する、ニューロシンボリックな一階述語構文を持つ。 ULLERはNeSyリサーチをよりアクセシビリティと同等にするための第一歩であり、さまざまなセマンティクス、ナレッジベース、NeSyシステムにわたるトレーニングと評価を合理化するライブラリの道を開くものだと考えています。

The field of neuro-symbolic artificial intelligence (NeSy), which combines learning and reasoning, has recently experienced significant growth. There now are a wide variety of NeSy frameworks, each with its own specific language for expressing background knowledge and how to relate it to neural networks. This heterogeneity hinders accessibility for newcomers and makes comparing different NeSy frameworks challenging. We propose a unified language for NeSy, which we call ULLER, a Unified Language for LEarning and Reasoning. ULLER encompasses a wide variety of settings, while ensuring that knowledge described in it can be used in existing NeSy systems. ULLER has a neuro-symbolic first-order syntax for which we provide example semantics including classical, fuzzy, and probabilistic logics. We believe ULLER is a first step towards making NeSy research more accessible and comparable, paving the way for libraries that streamline training and evaluation across a multitude of semantics, knowledge bases, and NeSy systems.
翻訳日:2024-07-04 19:34:44 公開日:2024-07-03
# 不適切な専門家(MoTE)の混在 : 自己アライメントにおける思考の連鎖とエキスパート混在の相乗効果

Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment ( http://arxiv.org/abs/2405.00557v2 )

ライセンス: Link先を確認
Zhili Liu, Yunhao Gou, Kai Chen, Lanqing Hong, Jiahui Gao, Fei Mi, Yu Zhang, Zhenguo Li, Xin Jiang, Qun Liu, James T. Kwok, (参考訳) 大規模言語モデル(LLM)の能力が劇的に拡大するにつれて、これらのモデルと人間の価値を一致させることが大きな課題となっている。 従来のアライメント戦略は人間の介入に大きく依存しており、例えばスーパーバイザード・ファイン・チューニング(SFT)や人間からのフィードバックからの強化学習(RLHF)、あるいはLLMの自己調整能力に大きく依存している。 これらの課題に対処するため,AlignCoT と呼ばれる Chain of Thought (CoT) アプローチを利用した新たな自己アライメント手法を提案する。 本手法は,質問分析,回答指導,安全回答作成の段階を含む。 LLMは、開発の各段階で高品質で安全な応答を生成するように設計されている。 さらに,AlignCoTプロセスの各コンポーネントの強化に専門家の混在を適用し,アライメント効率を著しく向上させるMixture of InsighTful Experts (MoTE)アーキテクチャを導入する。 MoTEアプローチは、LLMを人間の価値と整合させる既存の手法よりも優れているだけでなく、自己生成データを使用することの利点を強調し、アライメントの改善とトレーニング効率の2つの利点を明らかにしている。

As the capabilities of large language models (LLMs) have expanded dramatically, aligning these models with human values presents a significant challenge. Traditional alignment strategies rely heavily on human intervention, such as Supervised Fine-Tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF), or on the self-alignment capacities of LLMs, which usually require a strong LLM's emergent ability to improve its original bad answer. To address these challenges, we propose a novel self-alignment method that utilizes a Chain of Thought (CoT) approach, termed AlignCoT. This method encompasses stages of Question Analysis, Answer Guidance, and Safe Answer production. It is designed to enable LLMs to generate high-quality, safe responses throughout various stages of their development. Furthermore, we introduce the Mixture of insighTful Experts (MoTE) architecture, which applies mixture of experts to enhance each component of the AlignCoT process, markedly increasing alignment efficiency. The MoTE approach not only outperforms existing methods in aligning LLMs with human values but also highlights the benefits of using self-generated data, revealing the dual benefits of improved alignment and training efficiency.
翻訳日:2024-07-04 19:34:44 公開日:2024-07-03
# 神経放射場除去における深さ先行

Depth Priors in Removal Neural Radiance Fields ( http://arxiv.org/abs/2405.00630v3 )

ライセンス: Link先を確認
Zhihao Guo, Peng Wang, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は3次元再構成と新しいビュー生成において顕著な成果を上げている。 NeRFにおける重要な課題は、複数のビューの一貫性と高品質な視点の合成を要求するオブジェクト除去のような再構成された3Dシーンの編集である。 これまでの研究では、通常LiDARやCOLMAPのスパース深さ推定から得られる深度を統合して、物体除去におけるNeRFの性能を高めてきた。 しかし、これらの手法は高価か時間を要する。 本稿では、SpinNeRFとZoeDepthのような単眼深度推定モデルを利用して、複雑な物体除去におけるNeRFの性能を向上し、効率を向上するパイプラインを提案する。 KITTIデータセット上でのCOLMAPの深い深度再構成の徹底的な評価を行い、LiDARのような従来の手法と比較して、COLMAPはコスト効率が高くスケーラブルな真理を得るための代替手段とみなすことができることを示した。 これは、SpinNeRFの奥行き先を生成するのに最適なものを決定するために、単眼深度推定モデルの性能を評価する基礎となる。 新しいパイプラインは3次元再構成とオブジェクト除去を含む様々なシナリオでテストされ、その結果、我々のパイプラインはオブジェクト除去のための深度事前取得に必要な時間を著しく削減し、合成されたビューの忠実度を高め、将来、高忠実度デジタルツインシステムを構築するための大きな可能性を示唆している。

Neural Radiance Fields (NeRF) have achieved impressive results in 3D reconstruction and novel view generation. A significant challenge within NeRF involves editing reconstructed 3D scenes, such as object removal, which demands consistency across multiple views and the synthesis of high-quality perspectives. Previous studies have integrated depth priors, typically sourced from LiDAR or sparse depth estimates from COLMAP, to enhance NeRF's performance in object removal. However, these methods are either expensive or time-consuming. This paper proposes a new pipeline that leverages SpinNeRF and monocular depth estimation models like ZoeDepth to enhance NeRF's performance in complex object removal with improved efficiency. A thorough evaluation of COLMAP's dense depth reconstruction on the KITTI dataset is conducted to demonstrate that COLMAP can be viewed as a cost-effective and scalable alternative for acquiring depth ground truth compared to traditional methods like LiDAR. This serves as the basis for evaluating the performance of monocular depth estimation models to determine the best one for generating depth priors for SpinNeRF. The new pipeline is tested in various scenarios involving 3D reconstruction and object removal, and the results indicate that our pipeline significantly reduces the time required for the acquisition of depth priors for object removal and enhances the fidelity of the synthesized views, suggesting substantial potential for building high-fidelity digital twin systems with increased efficiency in the future.
翻訳日:2024-07-04 19:34:44 公開日:2024-07-03
# EarthMatch: 宇宙飛行士の写真の微粒化のための反復的整合

EarthMatch: Iterative Coregistration for Fine-grained Localization of Astronaut Photography ( http://arxiv.org/abs/2405.05422v2 )

ライセンス: Link先を確認
Gabriele Berton, Gabriele Goletto, Gabriele Trivigno, Alex Stoken, Barbara Caputo, Carlo Masone, (参考訳) 宇宙飛行士の写真の精密でピクセル単位のジオローカライズは、この種のリモートセンシングされた地球データの可能性、特に災害管理や気候変動研究に利用するために重要である。 近年の研究では、宇宙飛行士撮影局のローカライゼーションタスクが確立されているが、大量展開にはコストがかかりすぎるか、大きすぎるローカライゼーションが発生するかのどちらかが証明されている。 そこで,我々は,宇宙飛行士の写真の微粒な位置化を高速さに重点を置いて,反復的ホモグラフィー推定法であるEarthMatchを提案する。 我々は、宇宙飛行士の撮影ベンチマークであるAIMSをジオローカライゼーションタスク自体に焦点を合わせ、このデータセットで我々の方法の有効性を証明した。 さらに、画像マーカ比較のための新しい公正な方法と、ローカライゼーションパイプライン内の異なるマッチングモデルの広範囲な評価を提供する。 われわれの方法では、45万枚の地球の写真の高速かつ正確なローカライズが可能になります。 webpage with code and data at https://earthloc-and-earthmatch.github.io

Precise, pixel-wise geolocalization of astronaut photography is critical to unlocking the potential of this unique type of remotely sensed Earth data, particularly for its use in disaster management and climate change research. Recent works have established the Astronaut Photography Localization task, but have either proved too costly for mass deployment or generated too coarse a localization. Thus, we present EarthMatch, an iterative homography estimation method that produces fine-grained localization of astronaut photographs while maintaining an emphasis on speed. We refocus the astronaut photography benchmark, AIMS, on the geolocalization task itself, and prove our method's efficacy on this dataset. In addition, we offer a new, fair method for image matcher comparison, and an extensive evaluation of different matching models within our localization pipeline. Our method will enable fast and accurate localization of the 4.5 million and growing collection of astronaut photography of Earth. Webpage with code and data at https://earthloc-and-earthmatch.github.io
翻訳日:2024-07-04 19:34:44 公開日:2024-07-03
# イベントカメラ分類と回帰のための効率的かつ効果的なポイントベースネットワークの再考:EventMamba

Rethinking Efficient and Effective Point-based Networks for Event Camera Classification and Regression: EventMamba ( http://arxiv.org/abs/2405.06116v3 )

ライセンス: Link先を確認
Hongwei Ren, Yue Zhou, Jiadong Zhu, Haotian Fu, Yulong Huang, Xiaopeng Lin, Yuetong Fang, Fei Ma, Hao Yu, Bojun Cheng, (参考訳) 生物学的システムからインスピレーションを得たイベントカメラは、低レイテンシと高ダイナミックレンジで環境光の変化を効率よく検出し、最小限の電力を消費する。 イベントデータを処理する最も最近のアプローチは、しばしばそれをフレームベースの表現に変換することである。 しかし、この手法はイベントデータの空間性を無視し、変換過程における微粒な時間情報をなくし、計算負担を増大させ、イベントカメラ特性のキャラクタリゼーションに有効でない。 対照的に、Point Cloudは3D処理の一般的な表現であり、イベントカメラのスパースと非同期性に適合するのに適している。 それにもかかわらず、ポイントベース法とイベントカメラとの理論的互換性にもかかわらず、この結果はフレームベース法と比較してまだ不十分な性能差を示している。 性能ギャップを埋めるために,我々は,最先端(SOTA)のフレームベース手法と比較しても,効率よく,かつ効果的に競合的な結果が得られるEventMambaを提案する。 この顕著な成果は、Event CloudとPoint Cloudの区別を再考することで促進され、最適化されたネットワーク構造による効果的な時間情報抽出を強調します。 具体的には、EventMambaは時間的アグリゲーションとステートスペースモデル(SSM)ベースのMambaを利用して、時間的情報抽出機能を強化している。 階層構造を通じて、EventMambaは局所的・グローバルな空間的特徴と暗黙的・明示的な時間的特徴を抽象化する能力を持っている。 EventMambaは軽量な設計原則に固執することにより、計算リソースの利用を最小限に抑え、その効率性と有効性を示す印象的な結果を提供する。

Event cameras, drawing inspiration from biological systems, efficiently detect changes in ambient light with low latency and high dynamic range while consuming minimal power. The most current approach to processing event data often involves converting it into frame-based representations, which is well-established in traditional vision. However, this approach neglects the sparsity of event data, loses fine-grained temporal information during the transformation process, and increases the computational burden, making it ineffective for characterizing event camera properties. In contrast, Point Cloud is a popular representation for 3D processing and is better suited to match the sparse and asynchronous nature of the event camera. Nevertheless, despite the theoretical compatibility of point-based methods with event cameras, the results show a performance gap that is not yet satisfactory compared to frame-based methods. In order to bridge the performance gap, we propose EventMamba, an efficient and effective Point Cloud framework that achieves competitive results even compared to the state-of-the-art (SOTA) frame-based method in both classification and regression tasks. This notable accomplishment is facilitated by our rethinking of the distinction between Event Cloud and Point Cloud, emphasizing effective temporal information extraction through optimized network structures. Specifically, EventMamba leverages temporal aggregation and State Space Model (SSM) based Mamba boasting enhanced temporal information extraction capabilities. Through a hierarchical structure, EventMamba is adept at abstracting local and global spatial features and implicit and explicit temporal features. By adhering to the lightweight design principle, EventMamba delivers impressive results with minimal computational resource utilization, demonstrating its efficiency and effectiveness.
翻訳日:2024-07-04 19:34:44 公開日:2024-07-03
# 検索機能強化ジェネレーションの評価:サーベイ

Evaluation of Retrieval-Augmented Generation: A Survey ( http://arxiv.org/abs/2405.07437v2 )

ライセンス: Link先を確認
Hao Yu, Aoran Gan, Kai Zhang, Shiwei Tong, Qi Liu, Zhaofeng Liu, (参考訳) Retrieval-Augmented Generation (RAG)は、最近自然言語処理において注目を集めている。 多くの研究と実世界の応用が、外部情報検索を通じて生成モデルを強化する能力を活用している。 しかしながら、これらのRAGシステムを評価することは、そのハイブリッド構造と動的知識源に依存しているため、ユニークな課題を生んでいる。 これらの課題をより深く理解するために、RAG(Auepora)の統一評価プロセスを実施し、RAGシステムの評価とベンチマークの総合的な概要を提供する。 具体的には、現在のRAGベンチマークにおいて、関係性、正確性、忠実性など、検索と生成の要素の定量化指標を、出力と基底の真理対を包含して検討、比較する。 次に、様々なデータセットとメトリクスを分析し、現在のベンチマークの限界について議論し、RAGベンチマークの分野を前進させる潜在的な方向性を提案する。

Retrieval-Augmented Generation (RAG) has recently gained traction in natural language processing. Numerous studies and real-world applications are leveraging its ability to enhance generative models through external information retrieval. Evaluating these RAG systems, however, poses unique challenges due to their hybrid structure and reliance on dynamic knowledge sources. To better understand these challenges, we conduct A Unified Evaluation Process of RAG (Auepora) and aim to provide a comprehensive overview of the evaluation and benchmarks of RAG systems. Specifically, we examine and compare several quantifiable metrics of the Retrieval and Generation components, such as relevance, accuracy, and faithfulness, within the current RAG benchmarks, encompassing the possible output and ground truth pairs. We then analyze the various datasets and metrics, discuss the limitations of current benchmarks, and suggest potential directions to advance the field of RAG benchmarks.
翻訳日:2024-07-04 19:34:44 公開日:2024-07-03
# 潜在拡散モデルによる脳波データからの自然音楽復号

Naturalistic Music Decoding from EEG Data via Latent Diffusion Models ( http://arxiv.org/abs/2405.09062v4 )

ライセンス: Link先を確認
Emilian Postolache, Natalia Polouliakh, Hiroaki Kitano, Akima Connelly, Emanuele Rodolà, Luca Cosmo, Taketo Akama, (参考訳) 本稿では,脳波(EEG)記録から自然音楽の再構成を行うために,強力な生成モデル群である潜時拡散モデルを用いることの可能性について検討する。 MIDI生成曲やモノフォニック曲のような限られた音色を持つ単純な音楽とは異なり、ここでの焦点は様々な楽器、声、エフェクトを備えた複雑な音楽であり、ハーモニックや音色に富んでいる。 本研究は,非侵襲的な脳波データを用いて高品質な音楽再生を実現するための最初の試みであり,手作業による事前処理やチャネル選択を必要とせず,生データに直接エンドツーエンドのトレーニング手法を適用する。 我々は、パブリックなNMED-Tデータセットでモデルをトレーニングし、ニューラルネットワークベースのメトリクスを提案する定量的評価を行う。 また、生成されたトラックに基づいて楽曲分類を行う。 本研究は,脳波データを用いた複雑な聴覚情報再構成の実現可能性に関する知見を提供する,ニューラルデコーディングと脳-コンピュータインタフェースの継続的な研究に寄与する。

In this article, we explore the potential of using latent diffusion models, a family of powerful generative models, for the task of reconstructing naturalistic music from electroencephalogram (EEG) recordings. Unlike simpler music with limited timbres, such as MIDI-generated tunes or monophonic pieces, the focus here is on intricate music featuring a diverse array of instruments, voices, and effects, rich in harmonics and timbre. This study represents an initial foray into achieving general music reconstruction of high-quality using non-invasive EEG data, employing an end-to-end training approach directly on raw data without the need for manual pre-processing and channel selection. We train our models on the public NMED-T dataset and perform quantitative evaluation proposing neural embedding-based metrics. We additionally perform song classification based on the generated tracks. Our work contributes to the ongoing research in neural decoding and brain-computer interfaces, offering insights into the feasibility of using EEG data for complex auditory information reconstruction.
翻訳日:2024-07-04 19:34:44 公開日:2024-07-03
# アスファルト舗装の機能性能に対する保守政策の長期的影響評価のための因果推論手法

Causal inference approach to appraise long-term effects of maintenance policy on functional performance of asphalt pavements ( http://arxiv.org/abs/2405.10329v3 )

ライセンス: Link先を確認
Lingyun You, Nanning Guo, Zhengwu Long, Fusong Wang, Chundi Si, Aboelkasim Diab, (参考訳) 最も一般的な交通インフラであるアスファルト舗装は、繰り返しの交通負荷や連続的な気候周期によるストレスやひずみによる機能的または構造的損傷による交通安全上の深刻な問題を引き起こす傾向がある。 インフラネットワークの品質や高いサービス性は、国家の都市化と産業発展に不可欠である。 アスファルト舗装の優れた機能舗装性能を維持し, 寿命を延ばすためには, 維持方針の下での舗装の長期性能を評価し, 舗装条件に基づいて好適な選択肢を選択する必要がある。 保守政策を評価する上での大きな課題は、車両負荷の不確実性の制御と、気候環境における凍結ソーサイクルの障害による結果評価の有効な治療を行うことである。 本研究では,従来の因果構造モデルと潜在的結果モデルフレームワークを組み合わせた新たな因果推論手法を提案する。 3つの根本的な問題に注意が向けられた。 1)環境負荷下における変数前の因果関係の検出(因果構造同定) 2 共変量以外の結果に対する治療の直接的な因果効果(因果効果の特定)及び 3)因果関係の感度解析 その結果, 本手法は, 予防的維持治療の効果を正確に評価し, 異なる予防的維持アプローチの機能を十分に発揮するための維持時間を評価できることが示唆された。 この枠組みは、政策立案者が舗装の適切な保守戦略を開発するのに役立つ。

Asphalt pavements as the most prevalent transportation infrastructure, are prone to serious traffic safety problems due to functional or structural damage caused by stresses or strains imposed through repeated traffic loads and continuous climatic cycles. The good quality or high serviceability of infrastructure networks is vital to the urbanization and industrial development of nations. In order to maintain good functional pavement performance and extend the service life of asphalt pavements, the long-term performance of pavements under maintenance policies needs to be evaluated and favorable options selected based on the condition of the pavement. A major challenge in evaluating maintenance policies is to produce valid treatments for the outcome assessment under the control of uncertainty of vehicle loads and the disturbance of freeze-thaw cycles in the climatic environment. In this study, a novel causal inference approach combining a classical causal structural model and a potential outcome model framework is proposed to appraise the long-term effects of four preventive maintenance treatments for longitudinal cracking over a 5-year period of upkeep. Three fundamental issues were brought to our attention: 1) detection of causal relationships prior to variables under environmental loading (identification of causal structure); 2) obtaining direct causal effects of treatment on outcomes excluding covariates (identification of causal effects); and 3) sensitivity analysis of causal relationships. The results show that the method can accurately evaluate the effect of preventive maintenance treatments and assess the maintenance time to cater well for the functional performance of different preventive maintenance approaches. This framework could help policymakers to develop appropriate maintenance strategies for pavements.
翻訳日:2024-07-04 19:34:44 公開日:2024-07-03
# LLMは反復的自己回帰によって自己拘束を学習できる

LLMs can learn self-restraint through iterative self-reflection ( http://arxiv.org/abs/2405.13022v2 )

ライセンス: Link先を確認
Alexandre Piché, Aristides Milios, Dzmitry Bahdanau, Chris Pal, (参考訳) 安全にデプロイするためには、LLM(Large Language Models)は、特定のトピックに関連する知識と不確実性レベルに基づいて、その振る舞いを動的に適応できなければならない。 この適応的行動は、我々が自己制約と呼ぶもので、LLMの内部知識に依存しているため、教えるのは簡単ではない。 デフォルトでは、LCMは次のトークン可能性の最大化のために訓練される。 自己制約を学習するために,モデルが自信を持つ場合にのみ応答を生成できるようにするユーティリティ関数を考案する。 このユーティリティ関数は、異なる長さと禁忌の生成をスコアするために使用することができる。 この機能を最適化するために、反復的な自己宣伝と自己評価からなる「自己回帰」プロセスであるReSearchを紹介する。 ReSearchアルゴリズムを使用して、モデルを微調整する合成データを生成する。 元のバージョンと比較すると、モデルが自分自身を選択的に抑制することを学ぶため、我々の生成したモデルは、既知のトピックと未知のトピックの両方に対して、追加の推論コストを伴わず、全体としてより少ない \emph{hallucinations} を生成する。 さらに,提案手法では,探索手順中にモデルが生成したサンプルを,棄権を表す回答で拡張することで,棄権する能力をエレガントに組み込む。

In order to be deployed safely, Large Language Models (LLMs) must be capable of dynamically adapting their behavior based on their level of knowledge and uncertainty associated with specific topics. This adaptive behavior, which we refer to as self-restraint, is non-trivial to teach since it depends on the internal knowledge of an LLM. By default, LLMs are trained to maximize the next token likelihood, which does not teach the model to modulate its answer based on its level of uncertainty. In order to learn self-restraint, we devise a utility function that can encourage the model to produce responses only when it is confident in them. This utility function can be used to score generation of different length and abstention. To optimize this function, we introduce ReSearch, a process of "self-reflection" consisting of iterative self-prompting and self-evaluation. We use the ReSearch algorithm to generate synthetic data on which we finetune our models. Compared to their original versions, our resulting models generate fewer \emph{hallucinations} overall at no additional inference cost, for both known and unknown topics, as the model learns to selectively restrain itself. In addition, our method elegantly incorporates the ability to abstain by augmenting the samples generated by the model during the search procedure with an answer expressing abstention.
翻訳日:2024-07-04 19:34:44 公開日:2024-07-03
# 連続パラメータ効率的なチューニングのための勾配投影

Gradient Projection For Continual Parameter-Efficient Tuning ( http://arxiv.org/abs/2405.13383v2 )

ライセンス: Link先を確認
Jingyang Qiao, Zhizhong Zhang, Xin Tan, Yanyun Qu, Wensheng Zhang, Zhi Han, Yuan Xie, (参考訳) パラメータ係数チューニング(PET)は、大きなモデルのトレーニングにおいて、目覚ましいパフォーマンスと有望な視点を示す一方で、新しいコンテンツを学ぶことと古い知識を保護することのトレードオフ、例えば、ゼロショットの一般化能力、モーダルの幻覚といった共通の問題に直面している。 本稿では、勾配投影の観点からAdapter、LoRA、Prefix-tuning、Prompt-tuningを再構成し、まずパラメータ有効勾配投影(PEGP)と呼ばれる統一されたフレームワークを提案する。 異なるPETパラダイムに直交勾配投影を導入し,大規模モデルにおいても,勾配の直交条件が効果的に無視に抵抗できることを理論的に証明した。 したがって、古い特徴空間への影響の少ない方向への勾配を調整し、余分なメモリスペースとトレーニング時間を減らします。 我々は,VTやCLIPなどさまざまなバックボーンを多種多様なデータセットで評価し,クラス,オンラインクラス,ドメイン,タスク,マルチモダリティの連続的な設定を忘れることの効率性を総合的に実証した。 プロジェクトページはhttps://dmcv-ecnu-pegp.github.io/で公開されている。

Parameter-efficient tunings (PETs) have demonstrated impressive performance and promising perspectives in training large models, while they are still confronted with a common problem: the trade-off between learning new content and protecting old knowledge, e.g., zero-shot generalization ability, and cross-modal hallucination. In this paper, we reformulate Adapter, LoRA, Prefix-tuning, and Prompt-tuning from the perspective of gradient projection, and firstly propose a unified framework called Parameter Efficient Gradient Projection (PEGP). We introduce orthogonal gradient projection into different PET paradigms and theoretically demonstrate that the orthogonal condition for the gradient can effectively resist forgetting even for large-scale models. It therefore modifies the gradient towards the direction that has less impact on the old feature space, with less extra memory space and training time. We extensively evaluate our method with different backbones, including ViT and CLIP, on diverse datasets, and experiments comprehensively demonstrate its efficiency in reducing forgetting in class, online class, domain, task, and multi-modality continual settings. The project page is available at https://dmcv-ecnu-pegp.github.io/.
翻訳日:2024-07-04 19:34:44 公開日:2024-07-03
# DyGPrompt: 動的グラフの学習機能と時間プロンプト

DyGPrompt: Learning Feature and Time Prompts on Dynamic Graphs ( http://arxiv.org/abs/2405.13937v5 )

ライセンス: Link先を確認
Xingtong Yu, Zhenghao Liu, Yuan Fang, Xinming Zhang, (参考訳) 動的グラフは実世界で広く普及し、様々な分野にわたるオブジェクト間の動的関係をモデル化する。 動的グラフモデリングでは、動的グラフニューラルネットワーク(DGNN)が主流の手法として登場し、一般的にリンク予測タスクで事前訓練され、ノード分類などの下流タスクの目的との大きなギャップを残している。 ギャップを埋めるために、グラフ上では、プロンプトベースの学習が注目を集めている。 しかし、既存の取り組みは静的グラフに重点を置いており、動的グラフの進化を無視している。 本稿では,動的グラフモデリングのための新しい事前学習および促進フレームワークであるDyGPromptを提案する。 まず,タスクの目的と,事前学習タスクと下流タスクの動的変動のギャップに対処する2つのプロンプトを設計する。 第2に,ノードと時間の特徴が相互に特徴付けされていることを認識し,下流タスクにおけるノード時間パターンの進化をモデル化するための2つの条件ネットを提案する。 最後に、DyGPromptを3つの公開データセットに関する広範な実験により徹底的に評価、分析する。

Dynamic graphs are pervasive in the real world, modeling dynamic relations between objects across various fields. For dynamic graph modeling, dynamic graph neural networks (DGNNs) have emerged as a mainstream technique, which are generally pre-trained on the link prediction task, leaving a significant gap from the objectives of downstream tasks such as node classification. To bridge the gap, prompt-based learning has gained traction on graphs. However, existing efforts focus on static graphs, neglecting the evolution of dynamic graphs. In this paper, we propose DyGPrompt, a novel pre-training and prompting framework for dynamic graph modeling. First, we design dual prompts to address the gap in both task objectives and dynamic variations across pre-training and downstream tasks. Second, we recognize that node and time features mutually characterize each other, and propose dual condition-nets to model the evolving node-time patterns in downstream tasks. Finally, we thoroughly evaluate and analyze DyGPrompt through extensive experiments on three public datasets.
翻訳日:2024-07-04 19:34:44 公開日:2024-07-03
# ArchesWeather: 1.5°解像度の効率的なAI天気予報モデル

ArchesWeather: An efficient AI weather forecasting model at 1.5° resolution ( http://arxiv.org/abs/2405.14527v2 )

ライセンス: Link先を確認
Guillaume Couairon, Christian Lessig, Anastase Charantonis, Claire Monteleoni, (参考訳) AIベースの天気予報システムを設計する上での指針の1つは、ニューラルネットワークアーキテクチャにインダクティブプリエントとして物理的な制約を埋め込むことである。 3D畳み込みやPangu-Weatherのような3Dローカルアテンションウィンドウのように、大気データは局所的なニューラルな相互作用で処理される。 一方で、この局所性原理を使わずに天気予報に大きな成功を収めた研究もある。 本稿では,Pangu-Weatherにおける3次元局所処理が計算的に準最適であることを示す。 本稿では,2次元アテンションとカラム単位のアテンションに基づく特徴相互作用モジュールを組み合わせたトランスフォーマーモデルArchesWeatherを設計し,この設計が予測能力の向上を実証する。 ArchesWeatherは1.5{\deg}の解像度と24時間リードタイムでトレーニングされている。 IFS HRESよりもRMSEスコアが優れており、1.4{\deg} 50メンバーのNeuralGCMアンサンブルと1~3日間の事前予測で競合している。 私たちのコードとモデルはhttps://github.com/gcouairon/ArchesWeather.comで公開されています。

One of the guiding principles for designing AI-based weather forecasting systems is to embed physical constraints as inductive priors in the neural network architecture. A popular prior is locality, where the atmospheric data is processed with local neural interactions, like 3D convolutions or 3D local attention windows as in Pangu-Weather. On the other hand, some works have shown great success in weather forecasting without this locality principle, at the cost of a much higher parameter count. In this paper, we show that the 3D local processing in Pangu-Weather is computationally sub-optimal. We design ArchesWeather, a transformer model that combines 2D attention with a column-wise attention-based feature interaction module, and demonstrate that this design improves forecasting skill. ArchesWeather is trained at 1.5{\deg} resolution and 24h lead time, with a training budget of a few GPU-days and a lower inference cost than competing methods. An ensemble of four of our models shows better RMSE scores than the IFS HRES and is competitive with the 1.4{\deg} 50-members NeuralGCM ensemble for one to three days ahead forecasting. Our code and models are publicly available at https://github.com/gcouairon/ArchesWeather.
翻訳日:2024-07-04 19:34:44 公開日:2024-07-03
# DEEM:画像知覚のための大規模言語モデルとしての拡散モデル

DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception ( http://arxiv.org/abs/2405.15232v2 )

ライセンス: Link先を確認
Run Luo, Yunshui Li, Longze Chen, Wanwei He, Ting-En Lin, Ziqiang Liu, Lei Zhang, Zikai Song, Xiaobo Xia, Tongliang Liu, Min Yang, Binyuan Hui, (参考訳) 大規模言語モデル(LLM)の開発は、大規模マルチモーダルモデル(LMM)の出現を著しく前進させた。 LMMはマルチモーダル理解と創造の相乗効果を促進することで大きな成功を収めてきたが、アウト・オブ・ディストリビューションデータに直面すると、しばしば課題に直面している。 これは主に、タスク関連機能に画像をエンコードするように訓練されたイメージエンコーダに依存しているためであり、それらが無関係な詳細を無視する可能性がある。 拡散モデルは、画像知覚のための大きな言語モデルの目として機能するのか? 本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルで効果的なアプローチであるDEEMを提案する。 これにより、ViTのような画像エンコーダにのみ依存する従来の手法の欠点に対処し、配布外サンプルに対するモデルのレジリエンスを高め、視覚幻覚を減らすことができる。 重要なのは、追加のトレーニングモジュールを必要とせず、トレーニングパラメータが少なくなることだ。 我々は、新たに構築したRobostVQAベンチマークと、オブジェクト幻覚のための他のよく知られたベンチマークPOPEの両方において、DeEMを広範囲に評価した。 最先端のインターリーブドコンテンツ生成モデルと比較して、DEMは、トレーニング可能なパラメータを少なくし、事前学習データ(10%)を少なくし、ベースモデルサイズを小さくしながら、モデル幻覚を緩和する、堅牢性と優れた能力を示す。

The development of large language models (LLMs) has significantly advanced the emergence of large multimodal models (LMMs). While LMMs have achieved tremendous success by promoting the synergy between multimodal comprehension and creation, they often face challenges when confronted with out-of-distribution data. This is primarily due to their reliance on image encoders trained to encode images into task-relevant features, which may lead them to disregard irrelevant details. Delving into the modeling capabilities of diffusion models for images naturally prompts the question: Can diffusion models serve as the eyes of large language models for image perception? In this paper, we propose DEEM, a simple and effective approach that utilizes the generative feedback of diffusion models to align the semantic distributions of the image encoder. This addresses the drawbacks of previous methods that solely relied on image encoders like ViT, thereby enhancing the model's resilience against out-of-distribution samples and reducing visual hallucinations. Importantly, this is achieved without requiring additional training modules and with fewer training parameters. We extensively evaluated DEEM on both our newly constructed RobustVQA benchmark and another well-known benchmark, POPE, for object hallucination. Compared to the state-of-the-art interleaved content generation models, DEEM exhibits enhanced robustness and a superior capacity to alleviate model hallucinations while utilizing fewer trainable parameters, less pre-training data (10%), and a smaller base model size.
翻訳日:2024-07-04 19:34:44 公開日:2024-07-03
# ChatGPTコード検出:コードのソースを明らかにする技術

ChatGPT Code Detection: Techniques for Uncovering the Source of Code ( http://arxiv.org/abs/2405.15512v2 )

ライセンス: Link先を確認
Marc Oedingen, Raphael C. Engelhardt, Robin Denz, Maximilian Hammer, Wolfgang Konen, (参考訳) 近年,大規模言語モデル (LLM) は,人間の生成するコードと人工知能(AI)が生成するコードとの間の線を曖昧にしながら,コンピュータコード生成において大きな進歩を遂げている。 これらの技術が急速に進化するにつれて、特に高等教育などの分野での誤用のリスクを考えると、コード生成にどのように影響するかを検討することが不可欠である。 本稿では,人間によって書かれたコードと,LLMの一種であるChatGPTによって生成されたコードとを区別するために,高度な分類手法を用いてこの問題を考察する。 私たちは、強力な埋め込み機能(ブラックボックス)と教師付き学習アルゴリズム(Deep Neural Networks、Random Forests、Extreme Gradient Boostingなど)を組み合わせた新しいアプローチを採用して、この区別を98%の精度で達成しています。 また, モデルキャリブレーションの結果, モデルキャリブレーションが極めて良好であることが確認された。 さらに、ホワイトボックス機能と解釈可能なベイズ分類器を導入し、コードソース間の重要な違いを解明し、我々のアプローチの説明可能性と透明性を高める。 どちらのアプローチもうまく機能するが、少なくとも85-88%の精度を提供する。 また、トレーニングされていない人間は、ランダムな推測よりも、同じタスクを解くことが示される。 この研究は、コード生成におけるAIの使用に伴う潜在的なリスク、特に高等教育、ソフトウェア開発、競争プログラミングの文脈における理解と軽減に不可欠である。

In recent times, large language models (LLMs) have made significant strides in generating computer code, blurring the lines between code created by humans and code produced by artificial intelligence (AI). As these technologies evolve rapidly, it is crucial to explore how they influence code generation, especially given the risk of misuse in areas like higher education. This paper explores this issue by using advanced classification techniques to differentiate between code written by humans and that generated by ChatGPT, a type of LLM. We employ a new approach that combines powerful embedding features (black-box) with supervised learning algorithms - including Deep Neural Networks, Random Forests, and Extreme Gradient Boosting - to achieve this differentiation with an impressive accuracy of 98%. For the successful combinations, we also examine their model calibration, showing that some of the models are extremely well calibrated. Additionally, we present white-box features and an interpretable Bayes classifier to elucidate critical differences between the code sources, enhancing the explainability and transparency of our approach. Both approaches work well but provide at most 85-88% accuracy. We also show that untrained humans solve the same task not better than random guessing. This study is crucial in understanding and mitigating the potential risks associated with using AI in code generation, particularly in the context of higher education, software development, and competitive programming.
翻訳日:2024-07-04 19:24:59 公開日:2024-07-03
# エンド・ツー・エンドタスク指向対話システムのためのHintを用いたコンテキスト内学習のシンセサイザー化

Synergizing In-context Learning with Hints for End-to-end Task-oriented Dialog Systems ( http://arxiv.org/abs/2405.15585v2 )

ライセンス: Link先を確認
Vishal Vivek Saley, Rocktim Jyoti Das, Dinesh Raghu, Mausam, (参考訳) エンドツーエンドのタスク指向ダイアログ(TOD)システムは通常、正常に機能するために広範なトレーニングデータセットを必要とします。 対照的に、大規模言語モデル(LLM)ベースのTODシステムでは、コンテキスト内例を通してタスクを学習する能力があるため、限られたデータでも優れている。 しかし、これらのモデルはトレーニングデータにおける応答のスタイルと一致せず、しばしば包括的な応答を生成するため、ユーザが素早く情報を把握することは困難である。 そこで本研究では,低データ設定におけるアライメントを改善するために,LLMとタスク固有のヒントを相乗化するSyncTODを提案する。 SyncTODは小さな補助モデルを使用してヒントを提供し、コンテキスト内プロンプトの例を選択できる。 ChatGPTでは、SyncTODはLLMベースのベースラインやSoTAモデルに比べて低データ設定で優れたパフォーマンスを実現し、フルデータ設定では競合性能を維持している。

End-to-end Task-Oriented Dialog (TOD) systems typically require extensive training datasets to perform well. In contrast, large language model (LLM) based TOD systems can excel even with limited data due to their ability to learn tasks through in-context exemplars. However, these models lack alignment with the style of responses in training data and often generate comprehensive responses, making it difficult for users to grasp the information quickly. In response, we propose SyncTOD that synergizes LLMs with task-specific hints to improve alignment in low-data settings. SyncTOD employs small auxiliary models to provide hints and select exemplars for in-context prompts. With ChatGPT, SyncTOD achieves superior performance compared to LLM-based baselines and SoTA models in low-data settings, while retaining competitive performance in full-data settings.
翻訳日:2024-07-04 19:24:59 公開日:2024-07-03
# 直接雑音最適化を用いた拡散モデルの調整自由配向

Tuning-Free Alignment of Diffusion Models with Direct Noise Optimization ( http://arxiv.org/abs/2405.18881v2 )

ライセンス: Link先を確認
Zhiwei Tang, Jiangweizhi Peng, Jiasheng Tang, Mingyi Hong, Fan Wang, Tsung-Hui Chang, (参考訳) 本研究では,人間の嗜好改善など,下流タスクの具体的目的を表す連続報酬関数を用いた拡散モデルのアライメント問題に焦点をあてる。 アライメント問題の主目的は、生成したサンプルが目標報酬関数を最大化するように拡散モデルで学習した分布を調整することである。 拡散モデルのサンプリング過程において, 直接雑音最適化 (DNO) と呼ばれる新しいアライメント手法を提案する。 設計上、DNOはチューニング不要で、生成中にオンライン形式でアライメントが発生するため、プロンプトに依存しない。 我々は、DNOの理論的性質を厳密に研究し、また、微分不可能な報酬関数を扱う変種を提案する。 さらに,DNO の素直な実装は,最適化されたサンプルが高い報酬を得られるが,事前学習された分布をサポートできない,不当な分配報酬ハック問題に悩まされることも見いだした。 この問題を解決するために,古典的高次元統計理論を活用し,確率正規化によるDNO損失の増大を提案する。 我々は、人間のフィードバックデータに基づいて訓練された複数の人気報酬関数について広範な実験を行い、提案したDNOアプローチが、最先端の報酬スコアと高画質を、すべて生成に適切な時間予算で達成できることを実証した。

In this work, we focus on the alignment problem of diffusion models with a continuous reward function, which represents specific objectives for downstream tasks, such as improving human preference. The central goal of the alignment problem is to adjust the distribution learned by diffusion models such that the generated samples maximize the target reward function. We propose a novel alignment approach, named Direct Noise Optimization (DNO), that optimizes the injected noise during the sampling process of diffusion models. By design, DNO is tuning-free and prompt-agnostic, as the alignment occurs in an online fashion during generation. We rigorously study the theoretical properties of DNO and also propose variants to deal with non-differentiable reward functions. Furthermore, we identify that naive implementation of DNO occasionally suffers from the out-of-distribution reward hacking problem, where optimized samples have high rewards but are no longer in the support of the pretrained distribution. To remedy this issue, we leverage classical high-dimensional statistics theory and propose to augment the DNO loss with certain probability regularization. We conduct extensive experiments on several popular reward functions trained on human feedback data and demonstrate that the proposed DNO approach achieves state-of-the-art reward scores as well as high image quality, all within a reasonable time budget for generation.
翻訳日:2024-07-04 19:24:59 公開日:2024-07-03
# Federated Continual Learningがオンラインに: モダリティ非依存のクラスインクリメンタルラーニングのための不確実性を活用する

Federated Continual Learning Goes Online: Leveraging Uncertainty for Modality-Agnostic Class-Incremental Learning ( http://arxiv.org/abs/2405.18925v2 )

ライセンス: Link先を確認
Giuseppe Serra, Florian Buettner, (参考訳) より現実的でダイナミックな問題をモデル化する能力を考えると、FCL(Federated Continual Learning)は近年ますます研究されている。 この設定でよく見られる問題は、いわゆる破滅的な忘れことであり、学習モデルは、以前に学んだ知識を忘れながら、より最近のタスクに集中する傾向にある。 FCLの現在のアプローチの大半は、そのような問題を解決するための生成的ソリューションを提案している。 しかし、この設定では複数のトレーニングエポックを必要とするため、データセットをローカルに保存し、時間とともに変更するオフライン設定を暗示する。 さらに,提案手法は視覚タスクのみに特化している。 これらの制限を克服するため、我々は、新しいデータが1回しか処理できないミニバッチのストリームに到着するオンラインシナリオに対処する、新しいモダリティに依存しないアプローチを提案する。 破滅的な記憶を解決するために,不確実性を考慮したメモリベースアプローチを提案する。 特に,Bregman Information (BI) に基づく推定器を用いて,サンプルレベルでのモデルの分散を計算することを提案する。 予測の不確実性の尺度を用いて, 特定の特徴を持つサンプルを抽出し, モデルの再学習により, 現実的な環境下での忘れ込み効果を低減させる手法の可能性を示す。

Given the ability to model more realistic and dynamic problems, Federated Continual Learning (FCL) has been increasingly investigated recently. A well-known problem encountered in this setting is the so-called catastrophic forgetting, for which the learning model is inclined to focus on more recent tasks while forgetting the previously learned knowledge. The majority of the current approaches in FCL propose generative-based solutions to solve said problem. However, this setting requires multiple training epochs over the data, implying an offline setting where datasets are stored locally and remain unchanged over time. Furthermore, the proposed solutions are tailored for vision tasks solely. To overcome these limitations, we propose a new modality-agnostic approach to deal with the online scenario where new data arrive in streams of mini-batches that can only be processed once. To solve catastrophic forgetting, we propose an uncertainty-aware memory-based approach. In particular, we suggest using an estimator based on the Bregman Information (BI) to compute the model's variance at the sample level. Through measures of predictive uncertainty, we retrieve samples with specific characteristics, and - by retraining the model on such samples - we demonstrate the potential of this approach to reduce the forgetting effect in realistic settings.
翻訳日:2024-07-04 19:24:59 公開日:2024-07-03
# LACIE:大規模言語モデルにおける信頼度校正のためのリスナー認識ファインタニング

LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models ( http://arxiv.org/abs/2405.21028v2 )

ライセンス: Link先を確認
Elias Stengel-Eskin, Peter Hase, Mohit Bansal, (参考訳) 質問に答えるとき、LLMは答えだけでなく、答えが正しいという自信のレベルを伝えることができる。 これには、明示的な信頼マーカー(例えば、数値スコアを与える)や、権威的なトーンや追加の知識による実験のような暗黙のマーカーが含まれる。 LLMが信頼できる知識ソースであるためには、彼らが伝える自信は実際の専門知識と一致すべきである。 暗黙的および明示的な信頼マーカーを校正するために,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考慮し,リスナーをモデル化する実用的で聞き手対応の微調整手法(LACIE)を導入する。 我々は、キャリブレーションを好みの最適化としてキャストし、2エージェントゲームを通してデータを生成し、そこでは、話者モデルの出力を模擬リスナによって判断する。 次に、LCM(Mistral-7B, Llama3-8B, Llama3-70B)をLACIEで微調整し、シミュレーションリスナの校正精度が向上したことを示す。 重要なことに、これらの傾向は人間のリスナーに伝達され、モデル正当性を正確に予測するのに役立つ:我々は、注釈者がLCMの回答を受け入れたり拒否したりする人間の評価を行う。 さらに、LACIEは別のデータセットに一般化し、TriviaQAでトレーニングされたときに、TrathfulQAの真偽が大幅に増加する。 我々の分析は、LACIEが正しい例と間違った例とをより良い信頼性で分離することを示唆している。 定性的には、LACIEで訓練されたモデルが、権威音を用いて、あるいは詳細を含むことによって、それが正しいときに、より暗黙的に確実性を示すことが分かる。 最後に、LACIEの微調整は、おそらく間違っている答えに対するモデル棄権(例:"I don't know")の急激な増加につながる。

When answering questions, LLMs can convey not only an answer, but a level of confidence about the answer being correct. This includes explicit confidence markers (e.g. giving a numeric score) as well as implicit markers, like an authoritative tone or elaborating with additional knowledge. For LLMs to be trustworthy knowledge sources, the confidence they convey should match their actual expertise; however, most current models tend towards overconfidence. To calibrate both implicit and explicit confidence markers, we introduce a pragmatic, listener-aware finetuning method (LACIE) that models the listener, considering not only whether an answer is right, but whether it will be accepted by a listener. We cast calibration as preference optimization, creating data via a two-agent game, where a speaker model's outputs are judged by a simulated listener. We then finetune three LLMs (Mistral-7B, Llama3-8B, Llama3-70B) with LACIE, and show that the resulting models are better calibrated w.r.t. a simulated listener. Crucially, these trends transfer to human listeners, helping them correctly predict model correctness: we conduct a human evaluation where annotators accept or reject an LLM's answers, finding that training with LACIE results in 47% fewer incorrect answers being accepted while maintaining the same level of acceptance for correct answers. Furthermore, LACIE generalizes to another dataset, resulting in a large increase in truthfulness on TruthfulQA when trained on TriviaQA. Our analysis indicates that LACIE leads to a better confidence separation between correct and incorrect examples. Qualitatively, we find that a LACIE-trained model hedges more and implicitly signals certainty when it is correct by using an authoritative tone or including details. Finally, LACIE finetuning leads to an emergent increase in model abstention (e.g. saying "I don't know") for answers that are likely wrong.
翻訳日:2024-07-04 19:24:59 公開日:2024-07-03
# GLADformer:グラフレベルの異常検出のための混合視点

GLADformer: A Mixed Perspective for Graph-level Anomaly Detection ( http://arxiv.org/abs/2406.00734v2 )

ライセンス: Link先を確認
Fan Xu, Nan Wang, Hao Wu, Xuezhi Wen, Dalin Zhang, Siyang Lu, Binyong Li, Wei Gong, Hai Wan, Xibin Zhao, (参考訳) Graph-Level Anomaly Detection (GLAD)は、グラフデータセット内の異常グラフを識別することを目的としている。 しかし、現在の手法は受容場によって制約されており、グラフ内のグローバルな特徴を学習するのに苦労している。 さらに、現代のほとんどの手法は空間領域に基づいており、スペクトル特性の探索が欠如している。 本稿では,2つの鍵モジュールからなる複数パースペクティブなグラフレベルの異常検出器であるGLADformerを提案する。 具体的には,大域的特徴とスペクトル分布特性を融合させることにより,パラメータ分布のバランスと弾力性を確保するグラフ変換器モジュールを設計する。 さらに,局所的な異常特性を明らかにするため,帯域通過スペクトルGNNメッセージパッシングモジュールをカスタマイズし,モデルの一般化機能をさらに強化する。 複数のドメインからの10の実世界のデータセットに関する総合的な実験を通じて、GLADformerの有効性と堅牢性を検証する。 このことは、GLADformerがグラフレベルの異常検出において、特にグローバルな異常表現とスペクトル特性を効果的に捉える際に、現在の最先端モデルよりも優れていることを示している。

Graph-Level Anomaly Detection (GLAD) aims to distinguish anomalous graphs within a graph dataset. However, current methods are constrained by their receptive fields, struggling to learn global features within the graphs. Moreover, most contemporary methods are based on spatial domain and lack exploration of spectral characteristics. In this paper, we propose a multi-perspective hybrid graph-level anomaly detector namely GLADformer, consisting of two key modules. Specifically, we first design a Graph Transformer module with global spectrum enhancement, which ensures balanced and resilient parameter distributions by fusing global features and spectral distribution characteristics. Furthermore, to uncover local anomalous attributes, we customize a band-pass spectral GNN message passing module that further enhances the model's generalization capability. Through comprehensive experiments on ten real-world datasets from multiple domains, we validate the effectiveness and robustness of GLADformer. This demonstrates that GLADformer outperforms current state-of-the-art models in graph-level anomaly detection, particularly in effectively capturing global anomaly representations and spectral characteristics.
翻訳日:2024-07-04 19:24:59 公開日:2024-07-03
# ShadowRefiner:Fast Fourier Transformerでマスクなしのシャドウ除去を目指す

ShadowRefiner: Towards Mask-free Shadow Removal via Fast Fourier Transformer ( http://arxiv.org/abs/2406.02559v2 )

ライセンス: Link先を確認
Wei Dong, Han Zhou, Yuqiong Tian, Jingke Sun, Xiaohong Liu, Guangtao Zhai, Jun Chen, (参考訳) 影に影響された画像は、しばしば色と照明の空間的な違いが顕著に示され、その結果、オブジェクト検出やセグメンテーションシステムを含む様々な視覚的応用が劣化する。 複雑な詳細を保存し、視覚的に説得力のある結果を生み出すことで、現実画像の影を効果的に除去するために、Fast Fourier Transformerを介してマスクフリーのシャドー除去・リファインメントネットワーク(ShadowRefiner)を導入する。 具体的には、空間的および周波数的表現学習により、影の影響を受けない画像と影のない画像との効果的なマッピングを確立することを目的としている。 画素の不整合を緩和し、画像品質をさらに向上させるため、新しいFast-Fourier Attention Based Transformer(FFAT)アーキテクチャを提案する。 本手法は,NTIRE 2024画像シャドウ除去チャレンジのフィデリティトラックにおいて,第2位を達成し,パーセプチュアルトラックのタイトルを獲得した。 さらに,本手法の有効性を示す総合実験を行った。 コードは、https://github.com/movingforward100/Shadow_R.comで公開されている。

Shadow-affected images often exhibit pronounced spatial discrepancies in color and illumination, consequently degrading various vision applications including object detection and segmentation systems. To effectively eliminate shadows in real-world images while preserving intricate details and producing visually compelling outcomes, we introduce a mask-free Shadow Removal and Refinement network (ShadowRefiner) via Fast Fourier Transformer. Specifically, the Shadow Removal module in our method aims to establish effective mappings between shadow-affected and shadow-free images via spatial and frequency representation learning. To mitigate the pixel misalignment and further improve the image quality, we propose a novel Fast-Fourier Attention based Transformer (FFAT) architecture, where an innovative attention mechanism is designed for meticulous refinement. Our method wins the championship in the Perceptual Track and achieves the second best performance in the Fidelity Track of NTIRE 2024 Image Shadow Removal Challenge. Besides, comprehensive experiment result also demonstrate the compelling effectiveness of our proposed method. The code is publicly available: https://github.com/movingforward100/Shadow_R.
翻訳日:2024-07-04 19:24:59 公開日:2024-07-03
# 平衡外固有状態熱化仮説

Out-of-equilibrium Eigenstate Thermalization Hypothesis ( http://arxiv.org/abs/2406.04684v2 )

ライセンス: Link先を確認
Laura Foini, Anatoly Dymarsky, Silvia Pappalardi, (参考訳) 量子ユニタリ力学の下での非平衡状態の温暖化の理解は、多体物理学において重要な問題である。 本研究では,エネルギー固有基底における非平衡初期状態の行列要素に対する統計的アンサッツを提案する。 このアプローチは固有状態熱化仮説(ETH)にインスパイアされているが、提案されたアンザッツは異なるスケーリングを示す。 重要なことに、観測可能要素と初期状態行列要素の間の指数関数的に小さな相互相関は、平衡に向かって緩和ダイナミクスを決定する。 我々は,スケーリングと相互相関を数値的に検証し,高周波挙動の創発的普遍性を指摘し,一般化の可能性について概説する。

Understanding how out-of-equilibrium states thermalize under quantum unitary dynamics is an important problem in many-body physics. In this work, we propose a statistical ansatz for the matrix elements of non-equilibrium initial states in the energy eigenbasis. The approach is inspired by the Eigenstate Thermalisation Hypothesis (ETH) but the proposed ansatz exhibits different scaling. Importantly, exponentially small cross-correlations between the observable and the initial state matrix elements determine relaxation dynamics toward equilibrium. We numerically verify scaling and cross-correlation, point out the emergent universality of the high-frequency behavior, and outline possible generalizations.
翻訳日:2024-07-04 19:24:59 公開日:2024-07-03
# 合成訓練画像の無意味な約束 - リアル画像の検索によるパフォーマンス向上

The Unmet Promise of Synthetic Training Images: Using Retrieved Real Images Performs Better ( http://arxiv.org/abs/2406.05184v2 )

ライセンス: Link先を確認
Scott Geng, Cheng-Yu Hsieh, Vivek Ramanujan, Matthew Wallingford, Chun-Liang Li, Pang Wei Koh, Ranjay Krishna, (参考訳) 生成されたテキスト・画像モデルにより、無制限の画像を制御可能な方法で合成することが可能となり、近年では視覚モデルを合成データで訓練する試みが盛んに行われている。 しかしながら、すべての合成画像は、最終的にジェネレータを訓練するために使用される上流データに由来する。 中間ジェネレータは、上流データの関連部分を直接トレーニングする上で、どのような付加価値を提供しますか? この問題は、画像分類の設定において、LAION-2BデータセットでトレーニングされたStable Diffusionによって生成されたタスク関連でターゲットとなる合成データの微調整と、LAION-2Bから直接取得されたターゲットとなる実画像の微調整とを比較した。 合成データは下流タスクの恩恵を受けることができるが、単純な検索ベースラインから得られる実際のデータに普遍的にマッチするか、性能に優れることを示す。 解析の結果,このアンダーパフォーマンスは生成物と,合成画像中のタスク関連視覚的詳細が不正確なためであることが示唆された。 全体として、検索は、現在のメソッドがまだ上回っていないベースラインである合成データによるトレーニングを検討する上で、重要なベースラインである、と私たちは主張する。 コード、データ、モデルをhttps://github.com/scottgeng00/unmet-promise.comでリリースします。

Generative text-to-image models enable us to synthesize unlimited amounts of images in a controllable manner, spurring many recent efforts to train vision models with synthetic data. However, every synthetic image ultimately originates from the upstream data used to train the generator. What additional value does the intermediate generator provide over directly training on relevant parts of the upstream data? Grounding this question in the setting of image classification,a we compare finetuning on task-relevant, targeted synthetic data generated by Stable Diffusion -- a generative model trained on the LAION-2B dataset -- against finetuning on targeted real images retrieved directly from LAION-2B. We show that while synthetic data can benefit some downstream tasks, it is universally matched or outperformed by real data from our simple retrieval baseline. Our analysis suggests that this underperformance is partially due to generator artifacts and inaccurate task-relevant visual details in the synthetic images. Overall, we argue that retrieval is a critical baseline to consider when training with synthetic data -- a baseline that current methods do not yet surpass. We release code, data, and models at https://github.com/scottgeng00/unmet-promise.
翻訳日:2024-07-04 19:24:59 公開日:2024-07-03
# GPT-4oの安全性の確保--ジェイルブレイク攻撃を用いた実証的研究

Unveiling the Safety of GPT-4o: An Empirical Study using Jailbreak Attacks ( http://arxiv.org/abs/2406.06302v2 )

ライセンス: Link先を確認
Zonghao Ying, Aishan Liu, Xianglong Liu, Dacheng Tao, (参考訳) GPT-4oの最近のリリースは、その強力な汎用能力のために広く注目を集めている。 その印象的な性能は広く認められているが、その安全性の側面は十分に調査されていない。 GPT-4oのような高度な生成AIが生み出すリスクのあるコンテンツの潜在的社会的影響を考えると、その安全性を厳格に評価することが重要である。 そこで本研究では,初めてGPT-4oのジェイルブレイク攻撃に対する厳密な評価を行った。 具体的には、4000以上の初期テキストクエリの最適化とGPT-4oにおける8,000以上の応答の解析と統計的評価を含む3つのモダリティ(ie, text, speech, image)を含む4つの一般的なベンチマークに対して、一連のマルチモーダルおよびユニモーダル・ジェイルブレイク攻撃を採用する。 1) GPT-4oはテキスト・モダリティ・ジェイルブレイクの文脈で安全性を高め、(2) GPT-4oに対するジェイルブレイク攻撃の新たな攻撃ベクトルを開放し、(3) 既存のブラックボックス・マルチモーダル・ジェイルブレイク攻撃法はGPT-4oやGPT-4Vに対してほとんど効果がない。 これらの知見は, GPT-4oの安全性に関する重要な知見を与え, 大型モデルにおけるロバストアライメントガードレールの必要性を浮き彫りにした。 我々のコードは \url{https://github.com/NY1024/Jailbreak_GPT4o} で利用可能です。

The recent release of GPT-4o has garnered widespread attention due to its powerful general capabilities. While its impressive performance is widely acknowledged, its safety aspects have not been sufficiently explored. Given the potential societal impact of risky content generated by advanced generative AI such as GPT-4o, it is crucial to rigorously evaluate its safety. In response to this question, this paper for the first time conducts a rigorous evaluation of GPT-4o against jailbreak attacks. Specifically, this paper adopts a series of multi-modal and uni-modal jailbreak attacks on 4 commonly used benchmarks encompassing three modalities (ie, text, speech, and image), which involves the optimization of over 4,000 initial text queries and the analysis and statistical evaluation of nearly 8,000+ response on GPT-4o. Our extensive experiments reveal several novel observations: (1) In contrast to the previous version (such as GPT-4V), GPT-4o has enhanced safety in the context of text modality jailbreak; (2) The newly introduced audio modality opens up new attack vectors for jailbreak attacks on GPT-4o; (3) Existing black-box multimodal jailbreak attack methods are largely ineffective against GPT-4o and GPT-4V. These findings provide critical insights into the safety implications of GPT-4o and underscore the need for robust alignment guardrails in large models. Our code is available at \url{https://github.com/NY1024/Jailbreak_GPT4o}.
翻訳日:2024-07-04 19:24:59 公開日:2024-07-03
# MedExQA: 複数説明付きベンチマークで回答する医療質問

MedExQA: Medical Question Answering Benchmark with Multiple Explanations ( http://arxiv.org/abs/2406.06331v2 )

ライセンス: Link先を確認
Yunsoo Kim, Jinge Wu, Yusuf Abdulle, Honghan Wu, (参考訳) 本稿では,医学的質問応答の新たなベンチマークであるMedExQAを紹介し,説明を通じて医学的知識に対する大規模言語モデル(LLM)の理解を評価する。 現在の5つの専門分野にまたがるデータセットを構築し,各問合せペアに複数の説明を組み込むことで,LCMの詳細な診断能力が欠如している現状のQAベンチマークにおいて大きなギャップを解消する。 本研究は,医学 LLM における説明可能性の重要性を強調し,分類精度以上のモデルを評価する効果的な方法論を提案し,GPT4 を含む現在の LLM の理解が不十分な特定の領域である音声言語病理に光を当てる。 その結果,複数説明による生成評価は人的評価とよく一致し,LLMのより堅牢な自動理解評価の機会が浮かび上がった。 オープンソースの医療用LLM(現在はLlama2)を多角化するために、Phi-2 (2.7B) に基づいた新しい医療モデル MedPhi-2 を提案する。 このモデルはLlama2-70Bをベースとした医療用LLMよりも優れており,資源制約された医療領域での有効性が示された。 ベンチマークデータセットとトレーニングされたモデルを共有します。

This paper introduces MedExQA, a novel benchmark in medical question-answering, to evaluate large language models' (LLMs) understanding of medical knowledge through explanations. By constructing datasets across five distinct medical specialties that are underrepresented in current datasets and further incorporating multiple explanations for each question-answer pair, we address a major gap in current medical QA benchmarks which is the absence of comprehensive assessments of LLMs' ability to generate nuanced medical explanations. Our work highlights the importance of explainability in medical LLMs, proposes an effective methodology for evaluating models beyond classification accuracy, and sheds light on one specific domain, speech language pathology, where current LLMs including GPT4 lack good understanding. Our results show generation evaluation with multiple explanations aligns better with human assessment, highlighting an opportunity for a more robust automated comprehension assessment for LLMs. To diversify open-source medical LLMs (currently mostly based on Llama2), this work also proposes a new medical model, MedPhi-2, based on Phi-2 (2.7B). The model outperformed medical LLMs based on Llama2-70B in generating explanations, showing its effectiveness in the resource-constrained medical domain. We will share our benchmark datasets and the trained model.
翻訳日:2024-07-04 19:24:59 公開日:2024-07-03
# 過剰語彙による書字におけるChatGPTの活用

Delving into ChatGPT usage in academic writing through excess vocabulary ( http://arxiv.org/abs/2406.07016v2 )

ライセンス: Link先を確認
Dmitry Kobak, Rita González-Márquez, Emőke-Ágnes Horvát, Jan Lause, (参考訳) 最近の大規模言語モデル(LLM)は、人間レベルのパフォーマンスでテキストを生成・修正することができ、ChatGPTのようなシステムで広く商業化されている。 これらのモデルには明確な制限があり、不正確な情報を生成し、既存のバイアスを強化し、簡単に誤用できる。 しかし、多くの科学者が学術的な執筆を支援するためにそれを使ってきた。 学術文献におけるLLMの利用状況について この問いに答えるために、学術的なLLMの使用に関する仮定を含まない、偏見のない大規模アプローチを用いる。 2010年から2024年までの1400万のPubMed抽象語の語彙変化について検討し、LLMの出現がある種の単語の出現頻度の急激な増加につながったことを示す。 以上の結果から,2024の抽象語のうち少なくとも10%はLLMで処理されていたことが示唆された。 この下限は分野、国、雑誌によって異なり、PubMedサブコーポラの30%にも達した。 我々は,LLMをベースとした筆記助手の出現が,コビッドパンデミックなどの世界大イベントの影響を超越し,科学文献に前例のない影響を与えていることを示す。

Recent large language models (LLMs) can generate and revise text with human-level performance, and have been widely commercialized in systems like ChatGPT. These models come with clear limitations: they can produce inaccurate information, reinforce existing biases, and be easily misused. Yet, many scientists have been using them to assist their scholarly writing. How wide-spread is LLM usage in the academic literature currently? To answer this question, we use an unbiased, large-scale approach, free from any assumptions on academic LLM usage. We study vocabulary changes in 14 million PubMed abstracts from 2010-2024, and show how the appearance of LLMs led to an abrupt increase in the frequency of certain style words. Our analysis based on excess words usage suggests that at least 10% of 2024 abstracts were processed with LLMs. This lower bound differed across disciplines, countries, and journals, and was as high as 30% for some PubMed sub-corpora. We show that the appearance of LLM-based writing assistants has had an unprecedented impact in the scientific literature, surpassing the effect of major world events such as the Covid pandemic.
翻訳日:2024-07-04 19:24:59 公開日:2024-07-03
# ウェアラブルデバイスによる生理的信号のリアルタイムモニタリング:異なるタスク間の認知的負荷の評価

Wearable Device-Based Real-Time Monitoring of Physiological Signals: Evaluating Cognitive Load Across Different Tasks ( http://arxiv.org/abs/2406.07147v2 )

ライセンス: Link先を確認
Ling He, Yanxin Chen, Wenqi Wang, Shuting He, Xiaoqiang Hu, (参考訳) 本研究では,FP1チャネルからの脳波(EEG)データと二次職業学生の心拍変動(HRV)データに基づいて,最先端ウェアラブルモニタリング技術を用いて,高精度で高時間分解能(1秒間隔)の認知負荷評価を行う。 これら2つの重要な生理的指標を共同で分析することにより、中等教育学生の認知負荷の評価と様々なタスクにおける有用性について、その応用価値を考察する。 当初、N-BACKタスクを用いて開発されたランダム森林分類モデルにより、認知負荷の異なる中等教育学生の生理的信号特性の正確な復号化が可能となり、分類精度は97%に達した。 その後、この分類モデルは、国家コンピュータランク試験(Level-1)を含むクロスタスク実験に応用され、多様な学習文脈における方法の適用性とクロスタスク転送性を示す。 高可搬性で実施される本研究は、二次職業教育における資源配分の指導を最適化するための理論的・実践的意義と、認知的負荷評価方法とモニタリングのための意義を有している。 研究成果は、現在、同校で試行中である。

This study employs cutting-edge wearable monitoring technology to conduct high-precision, high-temporal-resolution (1-second interval) cognitive load assessment on electroencephalogram (EEG) data from the FP1 channel and heart rate variability (HRV) data of secondary vocational students. By jointly analyzing these two critical physiological indicators, the research delves into their application value in assessing cognitive load among secondary vocational students and their utility across various tasks. The study designed two experiments to validate the efficacy of the proposed approach: Initially, a random forest classification model, developed using the N-BACK task, enabled the precise decoding of physiological signal characteristics in secondary vocational students under different levels of cognitive load, achieving a classification accuracy of 97%. Subsequently, this classification model was applied in a cross-task experiment involving the National Computer Rank Examination (Level-1), demonstrating the method's significant applicability and cross-task transferability in diverse learning contexts. Conducted with high portability, this research holds substantial theoretical and practical significance for optimizing teaching resource allocation in secondary vocational education, as well as for cognitive load assessment methods and monitoring. Currently, the research findings are undergoing trial implementation in the school.
翻訳日:2024-07-04 19:13:15 公開日:2024-07-03
# 医療における人間とAIの連携に向けて--大規模言語モデルを用いたガイド付きデフェラルシステム

Towards Human-AI Collaboration in Healthcare: Guided Deferral Systems with Large Language Models ( http://arxiv.org/abs/2406.07212v2 )

ライセンス: Link先を確認
Joshua Strong, Qianhui Men, Alison Noble, (参考訳) 大規模言語モデル(LLM)は、医療における様々な応用に有用な技術を提供するが、その幻覚化傾向は、批判的な意思決定の状況において受け入れがたい不確実性をもたらす。 人間-AIコラボレーション(HAIC)は、より良い結果を得るために人間とAIの強みを組み合わせることで、この不確実性を緩和することができる。 本稿では,AIが人間の意思決定者に対してケースをデフェクトした場合にインテリジェントなガイダンスを提供する,新しいガイド付きデフェラルシステムを提案する。 我々はLLMの言語化能力と内部状態を利用してこのシステムを構築し、大規模LLMのデータによる微調整による小型LLMは、計算効率とデータのプライバシーを維持しながら、性能を大幅に向上させることを示した。 提案するdeferral systemの有効性について検討した。

Large language models (LLMs) present a valuable technology for various applications in healthcare, but their tendency to hallucinate introduces unacceptable uncertainty in critical decision-making situations. Human-AI collaboration (HAIC) can mitigate this uncertainty by combining human and AI strengths for better outcomes. This paper presents a novel guided deferral system that provides intelligent guidance when AI defers cases to human decision-makers. We leverage LLMs' verbalisation capabilities and internal states to create this system, demonstrating that fine-tuning small-scale LLMs with data from large-scale LLMs greatly enhances performance while maintaining computational efficiency and data privacy. A pilot study showcases the effectiveness of our proposed deferral system.
翻訳日:2024-07-04 19:13:15 公開日:2024-07-03
# バック・トゥ・ザ・カラー:教師なし深度推定のための特定の色変換への深度学習

Back to the Color: Learning Depth to Specific Color Transformation for Unsupervised Depth Estimation ( http://arxiv.org/abs/2406.07741v3 )

ライセンス: Link先を確認
Yufan Zhu, Chongzhi Ran, Mingtao Feng, Fangfang Wu, Le Dong, Weisheng Dong, Antonio M. López, Guangming Shi, (参考訳) 仮想エンジンは様々な合成シーンの深度マップを生成することができるため、深度推定モデルの訓練には有用である。 しかし、合成色と実世界の色の違いは、現実世界のシーン、特に教師なしの単分子深度推定タスクで発生する複雑で不確実な環境での深度推定に重大な課題をもたらす。 この問題に対処するために,実世界のデータに基づいてトレーニングされたモデルを用いて,現実的な色を奥行きから予測するフレームワークBack2Colorを提案する。 さらに,実世界の非教師付きおよび合成教師付き深度サンプルとの共同訓練のためのSyn-Real CutMix法を導入し,実世界のシーンにおける単眼深度推定性能を向上させる。 さらに,非厳密な動きが深度推定に与える影響を軽減するために,時間次元と空間次元の両方において教師なし学習の強みを利用する自動学習不確実時空間融合法(Auto-UTSF)を提案する。 また、VADepthは、変換器よりも計算量が少なく、精度も高いVision Attention Networkをベースとして設計した。 私たちのBack2Colorフレームワークは、パフォーマンス指標の改善と詳細な詳細生成によって証明された、Kittiデータセットの最先端のパフォーマンスを実現しています。 これは、教師なし深度推定のためのCityscapesのようなより困難なデータセットで特に顕著である。

Virtual engines can generate dense depth maps for various synthetic scenes, making them invaluable for training depth estimation models. However, discrepancies between synthetic and real-world colors pose significant challenges for depth estimation in real-world scenes, especially in complex and uncertain environments encountered in unsupervised monocular depth estimation tasks. To address this issue, we propose Back2Color, a framework that predicts realistic colors from depth using a model trained on real-world data, thus transforming synthetic colors into their real-world counterparts. Additionally, we introduce the Syn-Real CutMix method for joint training with both real-world unsupervised and synthetic supervised depth samples, enhancing monocular depth estimation performance in real-world scenes. Furthermore, to mitigate the impact of non-rigid motions on depth estimation, we present an auto-learning uncertainty temporal-spatial fusion method (Auto-UTSF), which leverages the strengths of unsupervised learning in both temporal and spatial dimensions. We also designed VADepth, based on the Vision Attention Network, which offers lower computational complexity and higher accuracy than transformers. Our Back2Color framework achieves state-of-the-art performance on the Kitti dataset, as evidenced by improvements in performance metrics and the production of fine-grained details. This is particularly evident on more challenging datasets such as Cityscapes for unsupervised depth estimation.
翻訳日:2024-07-04 19:13:15 公開日:2024-07-03
# Ents: コミュニケーション最適化による決定木のための効率的な3要素学習フレームワーク

Ents: An Efficient Three-party Training Framework for Decision Trees by Communication Optimization ( http://arxiv.org/abs/2406.07948v5 )

ライセンス: Link先を確認
Guopeng Lin, Weili Han, Wenqiang Ruan, Ruisheng Zhou, Lushan Song, Bingshuai Li, Yunfeng Shao, (参考訳) セキュアなマルチパーティ計算に基づく意思決定ツリーのためのマルチパーティトレーニングフレームワークにより、複数のパーティが、プライバシ保護を備えた分散プライベートデータ上で、高性能モデルをトレーニングすることができる。 トレーニングプロセスは基本的に、分割基準に従って頻繁にデータセット分割を行う(e g Gini impurity)。 しかし,決定木に対する既存のマルチパーティトレーニングフレームワークは,(1)連続的な属性を持つデータセットを安全に分割する際の通信オーバーヘッドの増大に悩まされている。 2) 分割基準に対するセキュアな計算に適合するため, 大規模リング上でほぼ全ての計算を行うため, 通信オーバーヘッドの増大に悩まされる。 本稿では,コミュニケーション最適化による意思決定木のための効率的な3要素学習フレームワークであるEntsを提案する。 最初の問題として、セキュアなradixソートプロトコルに基づく一連のトレーニングプロトコルを提示し、データセットを連続的な属性で効率的に安全に分割する。 2つ目の問題として,大規模リング上でほぼ全ての計算を行うことで発生する通信オーバーヘッドを低減するために,小リングと大リング間で共有を変換する効率的な共有変換プロトコルを提案する。 8つの広く使われているデータセットによる実験結果によると、Entsは最先端のフレームワークを5.5\times \sim 9.3\times$と3.9\times \sim 5.3\times$で上回っている。 トレーニング時間の面では、Ents は $3.5\times \sim 6.7\times$ である。 その実用性を示すために、Entsは、WAN設定で245,000以上のサンプルを使用して、広く使用されている実世界のデータセット(Skin Segmentation)上で、決定ツリーをセキュアにトレーニングするのに3時間もかからない。

Multi-party training frameworks for decision trees based on secure multi-party computation enable multiple parties to train high-performance models on distributed private data with privacy preservation. The training process essentially involves frequent dataset splitting according to the splitting criterion (e.g. Gini impurity). However, existing multi-party training frameworks for decision trees demonstrate communication inefficiency due to the following issues: (1) They suffer from huge communication overhead in securely splitting a dataset with continuous attributes. (2) They suffer from huge communication overhead due to performing almost all the computations on a large ring to accommodate the secure computations for the splitting criterion. In this paper, we are motivated to present an efficient three-party training framework, namely Ents, for decision trees by communication optimization. For the first issue, we present a series of training protocols based on the secure radix sort protocols to efficiently and securely split a dataset with continuous attributes. For the second issue, we propose an efficient share conversion protocol to convert shares between a small ring and a large ring to reduce the communication overhead incurred by performing almost all the computations on a large ring. Experimental results from eight widely used datasets show that Ents outperforms state-of-the-art frameworks by $5.5\times \sim 9.3\times$ in communication sizes and $3.9\times \sim 5.3\times$ in communication rounds. In terms of training time, Ents yields an improvement of $3.5\times \sim 6.7\times$. To demonstrate its practicality, Ents requires less than three hours to securely train a decision tree on a widely used real-world dataset (Skin Segmentation) with more than 245,000 samples in the WAN setting.
翻訳日:2024-07-04 19:13:15 公開日:2024-07-03
# 認識結果を説明できるAIアーキテクチャ

An AI Architecture with the Capability to Explain Recognition Results ( http://arxiv.org/abs/2406.08740v2 )

ライセンス: Link先を確認
Paul Whitten, Francis Wolff, Chris Papachristou, (参考訳) 機械学習結果の信頼性を確立するためには、説明可能性が必要である。 説明可能な方法は、マシンラーニングモデルの重みを説明するためにポストホックなアプローチを取るものもあれば、決定に寄与する入力の領域を強調するものもある。 これらの手法は、平易な言葉で決定を適切に説明しない。 説明可能なプロパティベースシステムは、平易な言葉で説明できることが示されているが、説明不能な機械学習手法をリードするほど実行されていない。 本研究は、説明可能性に対するメトリクスの重要性に焦点をあて、性能向上をもたらす2つの方法に貢献する。 第1の方法は説明不能なフローと説明不能なフローの組み合わせを導入し、意思決定の説明容易性を特徴づける指標を提案する。 第2の方法は、システム内のニューラルネットワークの有効性を推定するための古典的なメトリクスを比較し、新しいメトリックをリードパフォーマーとして振る舞う。 手書きデータセットの新たなメソッドとサンプルの結果が提示される。

Explainability is needed to establish confidence in machine learning results. Some explainable methods take a post hoc approach to explain the weights of machine learning models, others highlight areas of the input contributing to decisions. These methods do not adequately explain decisions, in plain terms. Explainable property-based systems have been shown to provide explanations in plain terms, however, they have not performed as well as leading unexplainable machine learning methods. This research focuses on the importance of metrics to explainability and contributes two methods yielding performance gains. The first method introduces a combination of explainable and unexplainable flows, proposing a metric to characterize explainability of a decision. The second method compares classic metrics for estimating the effectiveness of neural networks in the system, posing a new metric as the leading performer. Results from the new methods and examples from handwritten datasets are presented.
翻訳日:2024-07-04 19:13:15 公開日:2024-07-03
# Fredformer: 時系列予測のための周波数デバイアス変換器

Fredformer: Frequency Debiased Transformer for Time Series Forecasting ( http://arxiv.org/abs/2406.09009v4 )

ライセンス: Link先を確認
Xihao Piao, Zheng Chen, Taichi Murayama, Yasuko Matsubara, Yasushi Sakurai, (参考訳) Transformerモデルは時系列予測において主要なパフォーマンスを示している。 それでも複雑なシナリオでは、データ内の低周波の特徴を学習し、高周波の特徴を見落とし、周波数バイアスを示す傾向にある。 このバイアスは、モデルが重要な高周波データ特徴を正確にキャプチャすることを防ぐ。 本稿では,このバイアスを理解するための実験的な分析を行い,高エネルギーの周波数特性に着目したモデルによる周波数バイアスが不均等に発生することを発見した。 我々は,このバイアスを定式化し,周波数帯域の異なる特徴を均等に学習することで周波数バイアスを緩和するトランスフォーマーベースのフレームワークであるFredformerを提案する。 このアプローチは、モデルが正確な予測に重要な低振幅の特徴を見落としないようにする。 大規模な実験により,提案手法の有効性が示され,実世界の時系列データセットにおいて,他のベースラインよりも優れていることがわかった。 さらに,注目行列近似を用いたFredformerの軽量版を導入し,より少ないパラメータと少ない計算コストで同等の性能を実現する。 コードは、https://github.com/chenzRG/Fredformer.comで入手できる。

The Transformer model has shown leading performance in time series forecasting. Nevertheless, in some complex scenarios, it tends to learn low-frequency features in the data and overlook high-frequency features, showing a frequency bias. This bias prevents the model from accurately capturing important high-frequency data features. In this paper, we undertook empirical analyses to understand this bias and discovered that frequency bias results from the model disproportionately focusing on frequency features with higher energy. Based on our analysis, we formulate this bias and propose Fredformer, a Transformer-based framework designed to mitigate frequency bias by learning features equally across different frequency bands. This approach prevents the model from overlooking lower amplitude features important for accurate forecasting. Extensive experiments show the effectiveness of our proposed approach, which can outperform other baselines in different real-world time-series datasets. Furthermore, we introduce a lightweight variant of the Fredformer with an attention matrix approximation, which achieves comparable performance but with much fewer parameters and lower computation costs. The code is available at: https://github.com/chenzRG/Fredformer
翻訳日:2024-07-04 19:13:15 公開日:2024-07-03
# STAR:大容量衛星画像における1次データセットと大規模グラフ生成ベンチマーク

STAR: A First-Ever Dataset and A Large-Scale Benchmark for Scene Graph Generation in Large-Size Satellite Imagery ( http://arxiv.org/abs/2406.09410v3 )

ライセンス: Link先を確認
Yansheng Li, Linlin Wang, Tingzhu Wang, Xue Yang, Junwei Luo, Qi Wang, Youming Deng, Wenbin Wang, Xian Sun, Haifeng Li, Bo Dang, Yongjun Zhang, Yi Yu, Junchi Yan, (参考訳) 衛星画像(SAI)におけるシーングラフ生成(SGG)は、地理空間シナリオの認識から認識への理解を促進する。 SAIでは、物体はスケールとアスペクト比に大きな変化を示し、(空間的に不連続な物体の間であっても)物体の間にリッチな関係があり、大容量超高分解能(VHR)SAIにおいてSGGを水平に行うことが魅力的である。 しかし、そのようなSGGデータセットは存在しない。 大規模SAIの複雑さのため、鉱業三重項<subject, relationship, object>は長距離文脈推論に大きく依存している。 そのため、小型の自然画像用に設計されたSGGモデルは、大規模SAIには直接適用されない。 本稿では,512 x 768から27,860 x 31,096ピクセル,STAR (Scene graph generaTion in lArge-size satellite imageRy) と名付けられ,210K以上のオブジェクトと400K以上のトリプルを含む大規模VHR SAIにおけるSGGの大規模データセットを構築した。 大規模SAIにおいてSGGを実現するために,オブジェクト検出(OBD)やペアプルーニング,SGGの関係予測に関するSAIを理解するためのコンテキスト認識カスケード認知(CAC)フレームワークを提案する。 また、約30のOBDと10のSGGメソッドを備えたSAI指向のSGGツールキットもリリースしています。 データセットとツールキットは以下の通りである。

Scene graph generation (SGG) in satellite imagery (SAI) benefits promoting understanding of geospatial scenarios from perception to cognition. In SAI, objects exhibit great variations in scales and aspect ratios, and there exist rich relationships between objects (even between spatially disjoint objects), which makes it attractive to holistically conduct SGG in large-size very-high-resolution (VHR) SAI. However, there lack such SGG datasets. Due to the complexity of large-size SAI, mining triplets <subject, relationship, object> heavily relies on long-range contextual reasoning. Consequently, SGG models designed for small-size natural imagery are not directly applicable to large-size SAI. This paper constructs a large-scale dataset for SGG in large-size VHR SAI with image sizes ranging from 512 x 768 to 27,860 x 31,096 pixels, named STAR (Scene graph generaTion in lArge-size satellite imageRy), encompassing over 210K objects and over 400K triplets. To realize SGG in large-size SAI, we propose a context-aware cascade cognition (CAC) framework to understand SAI regarding object detection (OBD), pair pruning and relationship prediction for SGG. We also release a SAI-oriented SGG toolkit with about 30 OBD and 10 SGG methods which need further adaptation by our devised modules on our challenging STAR dataset. The dataset and toolkit are available at: https://linlin-dev.github.io/project/STAR.
翻訳日:2024-07-04 19:13:15 公開日:2024-07-03
# 侵入検知モデルの比較分析のための説明可能なAI

Explainable AI for Comparative Analysis of Intrusion Detection Models ( http://arxiv.org/abs/2406.09684v2 )

ライセンス: Link先を確認
Pap M. Corea, Yongxin Liu, Jian Wang, Shuteng Niu, Houbing Song, (参考訳) 説明可能な人工知能(XAI)は広く議論されているトピックであり、関連する技術はランダムフォレストやニューラルネットワークといった従来のブラックボックスモデルの理解を深めている。 しかし、XAIのドメイン固有の応用は依然として不十分である。 このギャップを埋めるために、オクルージョン感度を用いて、同一データセット上のネットワークトラフィックからの侵入検知のためのバイナリおよびマルチクラス分類のタスクに対して、さまざまな機械学習モデルを解析する。 評価されたモデルには、線形回帰、ロジスティック回帰、線形サポートベクトルマシン(SVM)、K-Nearest Neighbors(KNN)、ランダムフォレスト、決定木、マルチ層パーセプトロン(MLP)などがある。 私たちはすべてのモデルをUNSW-NB15データセットで90%の精度でトレーニングしました。 ほとんどの分類器は、そのような精度を達成するために、3つ以下の重要な特徴しか利用していないことが分かり、複雑なモデルを適用するよりも効果的な特徴工学が侵入検出に極めて重要であることが示唆された。 また、Random Forestは正確さ、時間効率、堅牢性という点で最高のパフォーマンスを提供します。 データとコードはhttps://github.com/pcwhy/XML-IntrusionDetection.gitで入手できる。

Explainable Artificial Intelligence (XAI) has become a widely discussed topic, the related technologies facilitate better understanding of conventional black-box models like Random Forest, Neural Networks and etc. However, domain-specific applications of XAI are still insufficient. To fill this gap, this research analyzes various machine learning models to the tasks of binary and multi-class classification for intrusion detection from network traffic on the same dataset using occlusion sensitivity. The models evaluated include Linear Regression, Logistic Regression, Linear Support Vector Machine (SVM), K-Nearest Neighbors (KNN), Random Forest, Decision Trees, and Multi-Layer Perceptrons (MLP). We trained all models to the accuracy of 90\% on the UNSW-NB15 Dataset. We found that most classifiers leverage only less than three critical features to achieve such accuracies, indicating that effective feature engineering could actually be far more important for intrusion detection than applying complicated models. We also discover that Random Forest provides the best performance in terms of accuracy, time efficiency and robustness. Data and code available at https://github.com/pcwhy/XML-IntrusionDetection.git
翻訳日:2024-07-04 19:13:15 公開日:2024-07-03
# LLMがコード補完に非推奨のAPIを使用する理由と理由 : 実証的研究

How and Why LLMs Use Deprecated APIs in Code Completion? An Empirical Study ( http://arxiv.org/abs/2406.09834v2 )

ライセンス: Link先を確認
Chong Wang, Kaifeng Huang, Jian Zhang, Yebo Feng, Lyuye Zhang, Yang Liu, Xin Peng, (参考訳) 大きな言語モデル(LLM)は、大規模なコードコーパスで事前訓練されたり、微調整されたりすることで、コード補完の生成に有効であることが示されている。 しかし、LLMベースのコード補完では、ライブラリの迅速かつ継続的な進化のために、LLMは正しい最新のアプリケーションプログラミングインタフェース(API)を使用するのに苦労する可能性がある。 既存の研究では、不正なAPIの予測に関する問題が強調されているが、LLMベースのコード補完における非推奨のAPI使用の具体的な問題は、十分に調査されていない。 このギャップに対処するため、LLMベースのコード補完において、非推奨のAPI使用率に関する最初の評価研究を行った。 この研究には、7つの高度なLLM、人気のあるPythonライブラリの145のAPIマッピング、28125の補完プロンプトが含まれていた。 LLMベースのコード補完では,<textit{status quo} と \textit{root cause} が, \textit{model} と \textit{prompt} と \textit{library} の両面から検討されている。 これらの知見に基づいて,LLMをベースとしたAPI使用の軽減のための基盤となる,軽量な2つのアプローチ, \textsc{ReplaceAPI} と \textsc{InsertPrompt} を提案する。 さらに,ライブラリの進化とLCM駆動ソフトウェア開発の統合に関する今後の研究の意義について述べる。

Large language models (LLMs), pre-trained or fine-tuned on large code corpora, have shown effectiveness in generating code completions. However, in LLM-based code completion, LLMs may struggle to use correct and up-to-date Application Programming Interfaces (APIs) due to the rapid and continuous evolution of libraries. While existing studies have highlighted issues with predicting incorrect APIs, the specific problem of deprecated API usage in LLM-based code completion has not been thoroughly investigated. To address this gap, we conducted the first evaluation study on deprecated API usage in LLM-based code completion. This study involved seven advanced LLMs, 145 API mappings from eight popular Python libraries, and 28,125 completion prompts. The study results reveal the \textit{status quo} and \textit{root causes} of deprecated API usage in LLM-based code completion from the perspectives of \textit{model}, \textit{prompt}, and \textit{library}. Based on these findings, we propose two lightweight fixing approaches, \textsc{ReplaceAPI} and \textsc{InsertPrompt}, which can serve as baseline approaches for future research on mitigating deprecated API usage in LLM-based completion. Additionally, we provide implications for future research on integrating library evolution with LLM-driven software development.
翻訳日:2024-07-04 19:13:15 公開日:2024-07-03
# 変分量子アルゴリズムの高エンタングル化能力:ポアソン方程式の場合

High-Entanglement Capabilities for Variational Quantum Algorithms: The Poisson Equation Case ( http://arxiv.org/abs/2406.10156v2 )

ライセンス: Link先を確認
Fouad Ayoub, James D. Baeder, (参考訳) 離散ポアソン方程式行列(DPEM)は計算流体力学(CFD)の分野において不可欠であり、量子コンピュータでそれを解くアルゴリズムは指数空間と時間複雑性のスピードアップを与える可能性がある。 しかし、1DのDPEMは、パウリ基底の分解として表されるのが困難であることが示されている。 さらに、線形系(DPEMなど)をヒューリスティックに解くのに使用される変分量子アルゴリズム(VQA)の従来のアンサッツは、多くのパラメータを持ち、訓練を困難にしている。 本研究は、量子ビットの完全接続性を誇ったIonQ Aria量子コンピュータ機能を利用することで、これらの問題を解決することを試みる。 本稿では,2ビットあるいは3ビットのエンタングルメントゲートをベースとしたDPEMの分解を行い,システムサイズに対して$O(1)$の項を持ち,一方の項が$O(n^2)$の回路深さを持ち,残りの項が$O(1)$の回路深さを持つ(ただし、$n$はシステムサイズを定義するキュービットの数である)。 これらの新しい改善をテストするために、VQAがシステムサイズでどれだけうまく機能するかを数値シミュレーションし、新しいセットアップが収束に必要なイテレーションの数を$O(n)$でスケーリングし、古典的な計算よりも指数関数的なスピードアップを提供することを示した。 このプロジェクトは、計算流体力学の将来において、量子コンピュータが重要な時間と空間の複雑さのスピードアップを提供する可能性があることを示している。

The discretized Poisson equation matrix (DPEM) is vital to the field of computational fluid dynamics (CFD), and an algorithm that solves it on a quantum computer could potentially grant exponential space and time complexity speedups. However, the DPEM in 1D has been shown to have trouble being represented as a decomposition in the Pauli basis. Additionally, traditional ansatz for Variational Quantum Algorithms (VQAs) that are used to heuristically solve linear systems (such as the DPEM) have large numbers of parameters, making them harder to train. This research attempts to resolve these problems by utilizing the IonQ Aria quantum computer capabilities that boast all-to-all connectivity of qubits. We propose a decomposition of the DPEM that is based on 2- or 3-qubit entanglement gates and is shown to have $O(1)$ terms with respect to system size, with one term having an $O(n^2)$ circuit depth and the rest having only an $O(1)$ circuit depth (where $n$ is the number of qubits defining the system size). To test these new improvements, we ran numerical simulations to examine how well the VQAs performed with varying system sizes, showing that the new setup offers an $O(n)$ scaling of the number of iterations required for convergence, providing an exponential speedup over their classical computing counterparts. This project shows that the future of computational fluid dynamics may involve quantum computers to provide significant time and space complexity speedups.
翻訳日:2024-07-04 19:13:15 公開日:2024-07-03
# 心電図の逆問題と心電図 : 心電図による検討

Solving the Inverse Problem of Electrocardiography for Cardiac Digital Twins: A Survey ( http://arxiv.org/abs/2406.11445v3 )

ライセンス: Link先を確認
Lei Li, Julia Camps, Blanca Rodriguez, Vicente Grau, (参考訳) 心臓デジタル双生児は、複雑な心臓機構を理解するために使用される、パーソナライズされた仮想表現である。 心電図逆問題(ECG inverse problem)の解決は、正確な仮想心臓モデリングに不可欠であり、記録された表面電位から内部電気活動情報の導出を可能にする。 心臓の複雑さ、ノイズの多い心電図データ、計算効率の課題にもかかわらず、近年の進歩は仮想心臓モデリングの強化に大きく貢献し、最終的には心臓医学における精密医療を進歩させる。 本稿では,心電図逆問題,検証戦略,臨床応用,今後の展望を概観する。 計算手法については,従来の手法と深層学習技術を含む決定論的手法と確率論的手法の2つのカテゴリに大別する。 物理法則をディープラーニングモデルと統合することは有望であるが、動的電気生理学を正確に捉え、正確なドメイン知識にアクセスし、予測の不確実性を定量化するといった課題は継続する。 医療専門家にとって、解釈可能性とユーザビリティを確保しながら、モデルを臨床ワークフローに統合することは不可欠である。 これらの課題を克服すれば、心臓のデジタル双生児の研究がさらに進むことになる。

Cardiac digital twins are personalized virtual representations used to understand complex heart mechanisms. Solving the ECG inverse problem is crucial for accurate virtual heart modelling, enabling the derivation of internal electrical activity information from recorded surface potentials. Despite challenges from cardiac complexity, noisy ECG data, and computational efficiency, recent advancements hold significant promise for enhancing virtual heart modelling, ultimately advancing precision medicine in cardiology. This paper aims to provide a comprehensive review of the methods of solving ECG inverse problem, the validation strategies, the clinical applications, and future perspectives. For the computing methodologies, we broadly classify state-of-the-art approaches into two categories: deterministic and probabilistic methods, including conventional and deep learning-based techniques. Integrating physics laws with deep learning models holds promise, but challenges such as capturing dynamic electrophysiology accurately, accessing accurate domain knowledge, and quantifying prediction uncertainty persist. Integrating models into clinical workflows while ensuring interpretability and usability for healthcare professionals is essential. Overcoming these challenges will drive further research in cardiac digital twins.
翻訳日:2024-07-04 19:13:15 公開日:2024-07-03
# DocCGen: ドキュメントベースの制御コード生成

DocCGen: Document-based Controlled Code Generation ( http://arxiv.org/abs/2406.11925v2 )

ライセンス: Link先を確認
Sameer Pimparkhede, Mehant Kammakomati, Srikanth Tamilselvam, Prince Kumar, Ashok Pon Kumar, Pushpak Bhattacharyya, (参考訳) 近年の進歩により、Large Language Models (LLM) は、C++、Java、Pythonといったリソースに富む汎用言語のためのコード生成に、自然言語(NL)で最先端のパフォーマンスをもたらすことが示されている。 しかし、YAMLやJSONのような構造化ドメイン固有言語(DSL)に対する実践的な利用は、事前トレーニング中に一般的にLLMによって見つからないドメイン固有スキーマ、文法、カスタマイズによって制限される。 この課題を、関連する例や微調整を通じて、コンテキスト内学習を通じて軽減する努力がなされている。 しかし、DSLサンプルの制限や迅速な感度といった問題に悩まされているが、企業はDSLの優れたドキュメントを維持している。 そこで我々は,構造化コード言語のためのNL-to-Code生成タスクを2段階のプロセスに分解することで,このような豊富な知識を活用できるフレームワークDocCGenを提案する。 まず、NLクエリに最もよくマッチするライブラリドキュメントを使用して、正しいライブラリを検出する。 次に、これらのライブラリのドキュメントから抽出したスキーマルールを使用して、デコードを制限する。 我々は、Ansible YAML と Bash という2つの複雑な構造化言語に対して、アウト・オブ・ドメイン(OOD)とイン・ドメイン(ID)の2つの設定からなるフレームワークを評価した。 我々の広範な実験により、DocCGenは6つの評価指標のすべてで異なるサイズの言語モデルを一貫して改善し、構造化コードにおける構文的および意味的誤りを低減します。 制約付きコード生成の研究を動機付けるために、データセットとコードをオープンソース化する予定です。

Recent developments show that Large Language Models (LLMs) produce state-of-the-art performance on natural language (NL) to code generation for resource-rich general-purpose languages like C++, Java, and Python. However, their practical usage for structured domain-specific languages (DSLs) such as YAML, JSON is limited due to domain-specific schema, grammar, and customizations generally unseen by LLMs during pre-training. Efforts have been made to mitigate this challenge via in-context learning through relevant examples or by fine-tuning. However, it suffers from problems, such as limited DSL samples and prompt sensitivity but enterprises maintain good documentation of the DSLs. Therefore, we propose DocCGen, a framework that can leverage such rich knowledge by breaking the NL-to-Code generation task for structured code languages into a two-step process. First, it detects the correct libraries using the library documentation that best matches the NL query. Then, it utilizes schema rules extracted from the documentation of these libraries to constrain the decoding. We evaluate our framework for two complex structured languages, Ansible YAML and Bash command, consisting of two settings: Out-of-domain (OOD) and In-domain (ID). Our extensive experiments show that DocCGen consistently improves different-sized language models across all six evaluation metrics, reducing syntactic and semantic errors in structured code. We plan to open-source the datasets and code to motivate research in constrained code generation.
翻訳日:2024-07-04 19:13:15 公開日:2024-07-03
# LLM-Oracle マシン

LLM-Oracle Machines ( http://arxiv.org/abs/2406.12213v3 )

ライセンス: Link先を確認
Jie Wang, (参考訳) 現代のAIアプリケーションは、大きな言語モデル(LLM)を利用して、自然言語処理タスクの知識と推論能力を活用している。 このアプローチは、オラクルチューリングマシン(OTM)の概念と類似している。 LLM-oracle Machine (LLM-OM) は, LLM のクラスタをオラクルとして利用することにより, OTM の拡張を提案する。 各LLMはブラックボックスとして機能し、その専門知識内でクエリに応答できるが、遅延がある。 LLM-OMの基本,拡張,障害回避,および$\epsilon$-faultの4つの変種を紹介する。 最初の2つは、既存のAIアプリケーションでよく見られる。 後者の2つは LLM の幻覚、偏見、矛盾に対処するために特別に設計されており、信頼性の高い結果を保証することを目的としている。

Contemporary AI applications leverage large language models (LLMs) to harness their knowledge and reasoning abilities for natural language processing tasks. This approach shares similarities with the concept of oracle Turing machines (OTMs). To capture the broader potential of these computations, including those not yet realized, we propose an extension to OTMs: the LLM-oracle machine (LLM-OM), by employing a cluster of LLMs as the oracle. Each LLM acts as a black box, capable of answering queries within its expertise, albeit with a delay. We introduce four variants of the LLM-OM: basic, augmented, fault-avoidance, and $\epsilon$-fault. The first two are commonly observed in existing AI applications. The latter two are specifically designed to address the challenges of LLM hallucinations, biases, and inconsistencies, aiming to ensure reliable outcomes.
翻訳日:2024-07-04 19:13:15 公開日:2024-07-03
# グラフニューラルネットワークを学習して、さまざまな属性を学習する

One Fits All: Learning Fair Graph Neural Networks for Various Sensitive Attributes ( http://arxiv.org/abs/2406.13544v2 )

ライセンス: Link先を確認
Yuchang Zhu, Jintang Li, Yatao Bian, Zibin Zheng, Liang Chen, (参考訳) 近年の研究では、グラフニューラルネットワーク(GNN)において、人種や年齢などのセンシティブな属性によって分類された特定の保護されたグループに対して差別的な予測を行う、公平性の問題が強調されている。 GNNの公平性を高めるための様々な取り組みは大きな進歩を遂げてきたが、これらのアプローチは特定の機密属性に合わせて調整されることが多い。 結果として、機密属性要求の変化に対応するために、スクラッチからモデルを再トレーニングする必要があるため、計算コストが高い。 この問題についてより深い知見を得るため、因果モデリングの観点からグラフフェアネス問題にアプローチし、センシティブな属性によって引き起こされる共起効果を根本原因とみなす。 この観察に動機づけられて、不変学習の観点からグラフの公正性問題を定式化し、環境間の不変表現を学習することを目的とした。 そこで本研究では,FairINVという不変学習に基づくグラフフェアネスフレームワークを提案する。 具体的には、FairINVはセンシティブな属性分割を取り入れ、ラベルと各種のセンシティブな属性の間の急激な相関を排除して、公正なGNNを訓練する。 いくつかの実世界のデータセットの実験結果から、FairINVは最先端のフェアネスアプローチを著しく上回り、その効果を裏付けることが示された。 私たちのコードは、https://github.com/ZzoomD/FairINV/.comから入手可能です。

Recent studies have highlighted fairness issues in Graph Neural Networks (GNNs), where they produce discriminatory predictions against specific protected groups categorized by sensitive attributes such as race and age. While various efforts to enhance GNN fairness have made significant progress, these approaches are often tailored to specific sensitive attributes. Consequently, they necessitate retraining the model from scratch to accommodate changes in the sensitive attribute requirement, resulting in high computational costs. To gain deeper insights into this issue, we approach the graph fairness problem from a causal modeling perspective, where we identify the confounding effect induced by the sensitive attribute as the underlying reason. Motivated by this observation, we formulate the fairness problem in graphs from an invariant learning perspective, which aims to learn invariant representations across environments. Accordingly, we propose a graph fairness framework based on invariant learning, namely FairINV, which enables the training of fair GNNs to accommodate various sensitive attributes within a single training session. Specifically, FairINV incorporates sensitive attribute partition and trains fair GNNs by eliminating spurious correlations between the label and various sensitive attributes. Experimental results on several real-world datasets demonstrate that FairINV significantly outperforms state-of-the-art fairness approaches, underscoring its effectiveness. Our code is available via: https://github.com/ZzoomD/FairINV/.
翻訳日:2024-07-04 19:13:15 公開日:2024-07-03
# 言語モデルファインチューニングのためのユーザレベル差分プライバシー

Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning ( http://arxiv.org/abs/2406.14322v2 )

ライセンス: Link先を確認
Lynn Chua, Badih Ghazi, Yangsibo Huang, Pritish Kamath, Ravi Kumar, Daogao Liu, Pasin Manurangsi, Amer Sinha, Chiyuan Zhang, (参考訳) 大規模言語モデル(LLM)は、さまざまなドメインにまたがる複雑なタスクに対処するための強力なツールとして登場したが、暗記の可能性によって機密データに微調整された場合、プライバシー上の懸念も生じている。 ディファレンシャル・プライバシ(DP)は、モデルが特定のプライバシ・ユニットと「ほとんど区別できない」ことを保証することで、有望な解決策を提供する一方で、LLMの現在の評価は、主に各例(テキスト・レコード)をプライバシ・ユニットとして扱う。 これにより、ユーザ毎のコントリビューションが変化すると、不均一なユーザのプライバシが保証される。 そこで本研究では,ユーザ間のプライバシー保護の統一に必要なアプリケーションによって動機付けられたユーザレベルのDPについて検討する。 自然言語生成タスクにおけるLLM微調整のためのユーザレベルDPの体系的評価について述べる。 ユーザレベルのDP保証を実現するための2つのメカニズム,グループプライバシとユーザワイドDP-SGDに着目し,データ選択戦略やパラメータチューニングなどの設計選択について検討する。

Large language models (LLMs) have emerged as powerful tools for tackling complex tasks across diverse domains, but they also raise privacy concerns when fine-tuned on sensitive data due to potential memorization. While differential privacy (DP) offers a promising solution by ensuring models are 'almost indistinguishable' with or without any particular privacy unit, current evaluations on LLMs mostly treat each example (text record) as the privacy unit. This leads to uneven user privacy guarantees when contributions per user vary. We therefore study user-level DP motivated by applications where it necessary to ensure uniform privacy protection across users. We present a systematic evaluation of user-level DP for LLM fine-tuning on natural language generation tasks. Focusing on two mechanisms for achieving user-level DP guarantees, Group Privacy and User-wise DP-SGD, we investigate design choices like data selection strategies and parameter tuning for the best privacy-utility tradeoff.
翻訳日:2024-07-04 19:13:14 公開日:2024-07-03
# Recommender Interferenceによる治療効果の推定:構造化ニューラルネットワークによるアプローチ

Estimating Treatment Effects under Recommender Interference: A Structured Neural Networks Approach ( http://arxiv.org/abs/2406.14380v2 )

ライセンス: Link先を確認
Ruohan Zhan, Shichao Han, Yuchen Hu, Zhenling Jiang, (参考訳) レコメンダシステムは、パーソナライズされたコンテンツをキュレートすることによって、コンテンツ共有プラットフォームに不可欠である。 コンテンツクリエーターをターゲットにしたレコメンデーターシステムの更新を評価するために、プラットフォームはクリエーター側のランダム化実験に頻繁に依存する。 処理効果は、ステータスクオに比べて新しいアルゴリズムが実装された場合の結果の変化を測定する。 標準差分推定器は, プロセッシング時に発生する推奨者干渉による偏りのある推定を導出し, クリエーターの露出を制御できることが示唆された。 本稿では,処理項目と制御項目の両方を含むプールからどのアイテムが露出するかを記述した「レコメンダ選択モデル」を提案する。 このフレームワークは、構造選択モデルとニューラルネットワークを組み合わせることで、リッチなビューアー・コンテントの不均一性を考慮しつつ、干渉経路を直接モデル化する。 治療効果の偏りのある推定器を構築し,それが$\sqrt n$-consistentで漸近的に正常であることを示す。 Weixin短ビデオプラットフォーム上でのフィールド実験により,推定器の実証性能を検証した。 標準クリエータ側実験に加えて、コストのかかる二面ランダム化設計を行い、干渉バイアスのないベンチマーク推定値を得る。 提案した推定器はベンチマークに匹敵する結果が得られるのに対し,標準差分推定器は有意なバイアスを示し,また逆の兆候も生み出すことを示す。

Recommender systems are essential for content-sharing platforms by curating personalized content. To evaluate updates to recommender systems targeting content creators, platforms frequently rely on creator-side randomized experiments. The treatment effect measures the change in outcomes when a new algorithm is implemented compared to the status quo. We show that the standard difference-in-means estimator can lead to biased estimates due to recommender interference that arises when treated and control creators compete for exposure. We propose a "recommender choice model" that describes which item gets exposed from a pool containing both treated and control items. By combining a structural choice model with neural networks, this framework directly models the interference pathway while accounting for rich viewer-content heterogeneity. We construct a debiased estimator of the treatment effect and prove it is $\sqrt n$-consistent and asymptotically normal with potentially correlated samples. We validate our estimator's empirical performance with a field experiment on Weixin short-video platform. In addition to the standard creator-side experiment, we conduct a costly double-sided randomization design to obtain a benchmark estimate free from interference bias. We show that the proposed estimator yields results comparable to the benchmark, whereas the standard difference-in-means estimator can exhibit significant bias and even produce reversed signs.
翻訳日:2024-07-04 19:03:22 公開日:2024-07-03
# 中期:長期的文脈利用を改善する位置注意バイアスの校正

Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization ( http://arxiv.org/abs/2406.16008v2 )

ライセンス: Link先を確認
Cheng-Yu Hsieh, Yung-Sung Chuang, Chun-Liang Li, Zifeng Wang, Long T. Le, Abhishek Kumar, James Glass, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister, (参考訳) 大規模な言語モデル(LLM)は、長い入力コンテキストを処理するために特別に訓練されたとしても、入力の中央に位置する関連する情報を捉えるのに苦労する。 この現象はミドル・イン・ザ・ミドル問題として知られている。 この作業では、3つのコントリビューションを行います。 まず、この現象を引き起こす要因を理解することにしました。 LLMはU字型の注意バイアスを示し, 入力開始時のトークンと終了時のトークンは, 関連性に関係なく高い注意を受ける。 第二に、この位置バイアスをキャリブレーション機構によって緩和し、中途半端のときであっても、モデルが関連性に応じて忠実にコンテキストに出席できるようにします。 第3に,提案手法では,適切な情報の位置決め性能の向上だけでなく,様々なタスクにまたがる検索強化生成(RAG)性能の向上も達成し,既存の手法を最大15ポイント上回る結果となった。 これらの知見は、LCMの注意バイアスとその潜在的な影響を理解するための将来の方向性を開く。

Large language models (LLMs), even when specifically trained to process long input contexts, struggle to capture relevant information located in the middle of their input. This phenomenon has been known as the lost-in-the-middle problem. In this work, we make three contributions. First, we set out to understand the factors that cause this phenomenon. In doing so, we establish a connection between lost-in-the-middle to LLMs' intrinsic attention bias: LLMs exhibit a U-shaped attention bias where the tokens at the beginning and at the end of its input receive higher attention, regardless of their relevance. Second, we mitigate this positional bias through a calibration mechanism, found-in-the-middle, that allows the model to attend to contexts faithfully according to their relevance, even though when they are in the middle. Third, we show found-in-the-middle not only achieves better performance in locating relevant information within a long context, but also eventually leads to improved retrieval-augmented generation (RAG) performance across various tasks, outperforming existing methods by up to 15 percentage points. These findings open up future directions in understanding LLM attention bias and its potential consequences.
翻訳日:2024-07-04 19:03:22 公開日:2024-07-03
# LLMの分類性能は誇張されている

LLMs' Classification Performance is Overclaimed ( http://arxiv.org/abs/2406.16203v3 )

ライセンス: Link先を確認
Hanzi Xu, Renze Lou, Jiangshu Du, Vahid Mahzoon, Elmira Talebianaraki, Zhuoan Zhou, Elizabeth Garrison, Slobodan Vucetic, Wenpeng Yin, (参考訳) AIや人間のために設計された多くの分類タスクでは、金のラベルはデフォルトでラベル空間に含まれており、しばしば「次のどれが正しいか」と表される。 この標準設定は伝統的に、日常的な分類タスクにおいて高度なAI、特に最高パフォーマンスのLarge Language Model(LLM)の強いパフォーマンスを強調してきた。 しかし、ゴールドラベルが意図的にラベル空間から除外された場合、LLMがまだ使用可能なラベル候補から選び出そうとしていることが明らかになる。 LLMは、分類タスクの本質を理解する上で、その知性を真に示しているか? そこで本研究では,LLMの認識性能が過大評価されていることを論じ,オープンソースLLMとオープンソースLLMの両方を代表的分類タスクで評価した。 この論文は3倍の貢献をする。 一 私たちの知る限り、金のラベルが存在しないときの分類作業における LLM の限界を特定するのは、これが初めてです。 我々は、このタスクをClassify-w/o-Goldと定義し、LLMの新しいテストベッドとして提案する。 ii)既存の2つの分類タスクと1つの新しいタスクからなるベンチマーク「ノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウ 三 この研究は、金ラベルの有無にかかわらず、分類作業におけるLCMのパフォーマンスを評価する新たな評価指標であるOmniAccuracyを定義し、提唱するものである。

In many classification tasks designed for AI or human to solve, gold labels are typically included within the label space by default, often posed as "which of the following is correct?" This standard setup has traditionally highlighted the strong performance of advanced AI, particularly top-performing Large Language Models (LLMs), in routine classification tasks. However, when the gold label is intentionally excluded from the label space, it becomes evident that LLMs still attempt to select from the available label candidates, even when none are correct. This raises a pivotal question: Do LLMs truly demonstrate their intelligence in understanding the essence of classification tasks? In this study, we evaluate both closed-source and open-source LLMs across representative classification tasks, arguing that the perceived performance of LLMs is overstated due to their inability to exhibit the expected comprehension of the task. This paper makes a threefold contribution: i) To our knowledge, this is the first work to identify the limitations of LLMs in classification tasks when gold labels are absent. We define this task as Classify-w/o-Gold and propose it as a new testbed for LLMs. ii) We introduce a benchmark, Know-No, comprising two existing classification tasks and one new task, to evaluate Classify-w/o-Gold. iii) This work defines and advocates for a new evaluation metric, OmniAccuracy, which assesses LLMs' performance in classification tasks both when gold labels are present and absent.
翻訳日:2024-07-04 19:03:22 公開日:2024-07-03
# LVLMにおける関係幻覚の評価と解析

Evaluating and Analyzing Relationship Hallucinations in LVLMs ( http://arxiv.org/abs/2406.16449v2 )

ライセンス: Link先を確認
Mingrui Wu, Jiayi Ji, Oucheng Huang, Jiale Li, Yuhang Wu, Xiaoshuai Sun, Rongrong Ji, (参考訳) 幻覚の問題は、既存のLVLM(Large Vision-Language Models)の関心事である。 これまでは主に、物体検出装置を導入することで容易に緩和できる物体幻覚の研究に重点を置いてきた。 しかし、これらの努力は、視覚的理解に欠かせない対象間の関係における幻覚を無視している。 本稿では,視覚関係の幻覚を評価するための新しいベンチマークであるR-Benchを紹介する。 R-Benchは、関係の存在に焦点を当てたイメージレベルの質問と、局所的な視覚的理解を評価するインスタンスレベルの質問を特徴としている。 我々は,関係関連性,主観関連性,関係対象性という,幻覚につながる3つの関係共起関係を同定する。 ビジュアルインストラクションチューニングデータセットのロングテール分布は、LVLMの視覚的関係に対する理解に大きな影響を及ぼす。 さらに,現在のLVLMは視覚的内容を無視し,大言語モデルの常識知識を過度に依存する傾向にあることを明らかにした。 また、文脈情報に基づく空間関係の推論にも苦労している。

The issue of hallucinations is a prevalent concern in existing Large Vision-Language Models (LVLMs). Previous efforts have primarily focused on investigating object hallucinations, which can be easily alleviated by introducing object detectors. However, these efforts neglect hallucinations in inter-object relationships, which is essential for visual comprehension. In this work, we introduce R-Bench, a novel benchmark for evaluating Vision Relationship Hallucination. R-Bench features image-level questions that focus on the existence of relationships and instance-level questions that assess local visual comprehension. We identify three types of relationship co-occurrences that lead to hallucinations: relationship-relationship, subject-relationship, and relationship-object. The visual instruction tuning dataset's long-tail distribution significantly impacts LVLMs' understanding of visual relationships. Furthermore, our analysis reveals that current LVLMs tend to disregard visual content and overly rely on the common sense knowledge of Large Language Models. They also struggle with reasoning about spatial relationships based on contextual information.
翻訳日:2024-07-04 19:03:22 公開日:2024-07-03
# 文字適応器:高忠実度文字カスタマイズのためのプロンプトガイド型領域制御

Character-Adapter: Prompt-Guided Region Control for High-Fidelity Character Customization ( http://arxiv.org/abs/2406.16537v3 )

ライセンス: Link先を確認
Yuhang Ma, Wenting Xu, Jiji Tang, Qinfeng Jin, Rongsheng Zhang, Zeng Zhao, Changjie Fan, Zhipeng Hu, (参考訳) イメージを一貫した文字で合成しようとするカスタマイズ画像生成は、ストーリーテリング、ポートレート生成、文字設計などの応用に大きく関連している。 しかし、従来の手法では、不適切な特徴抽出と参照文字の概念的混乱により、高忠実度な文字の保存が困難であった。 そこで本稿では,参照文字の詳細を保存し,高忠実性を確保した画像を生成するためのプラグイン・アンド・プレイ・フレームワークである character-Adapter を提案する。 Character-Adapterは、参照文字と動的領域レベルのアダプタのきめ細かい地域特性を保証し、概念の混乱を軽減するために、プロンプト誘導セグメンテーションを採用している。 文字適応器の有効性を検証するため, 広範囲な実験を行った。 定量的および定性的な結果は、キャラクタアダプタが一貫したキャラクタ生成の最先端性能を実現し、他の手法と比較して24.8%改善したことを示している。 私たちのコードはhttps://github.com/Character-Adapter/Character-Adapterでリリースされます。

Customized image generation, which seeks to synthesize images with consistent characters, holds significant relevance for applications such as storytelling, portrait generation, and character design. However, previous approaches have encountered challenges in preserving characters with high-fidelity consistency due to inadequate feature extraction and concept confusion of reference characters. Therefore, we propose Character-Adapter, a plug-and-play framework designed to generate images that preserve the details of reference characters, ensuring high-fidelity consistency. Character-Adapter employs prompt-guided segmentation to ensure fine-grained regional features of reference characters and dynamic region-level adapters to mitigate concept confusion. Extensive experiments are conducted to validate the effectiveness of Character-Adapter. Both quantitative and qualitative results demonstrate that Character-Adapter achieves the state-of-the-art performance of consistent character generation, with an improvement of 24.8% compared with other methods. Our code will be released at https://github.com/Character-Adapter/Character-Adapter
翻訳日:2024-07-04 19:03:22 公開日:2024-07-03
# Adam-mini: より少ない学習率でより多くのものを得る

Adam-mini: Use Fewer Learning Rates To Gain More ( http://arxiv.org/abs/2406.16793v5 )

ライセンス: Link先を確認
Yushun Zhang, Congliang Chen, Ziniu Li, Tian Ding, Chenwei Wu, Yinyu Ye, Zhi-Quan Luo, Ruoyu Sun, (参考訳) 我々は、メモリフットプリントを45%から50%削減したAdamWよりも、オンパーまたは優れたパフォーマンスを実現する最適化器Adam-miniを提案する。 Adam-miniは、Adamの学習率リソースを削減してメモリを削減する(つまり、1/\sqrt{v}$)。 これらの学習率の90%を$v$で$\geq$とすると、(1)ヘッセン構造に関する提案した原理に従って、パラメータをブロックに慎重に分割し、(2)各パラメータブロックに1つのよい学習率を割り当てれば、無害に除去できることがわかった。 さらに、これらのパラメータブロックのそれぞれに対して、Adamより優れた1つの高品質の学習率が存在し、検索に十分なリソースが確保できることが分かりました。 次に、優れた学習率を見つけるためのコスト効率のよい方法を提供し、Adam-miniを提案する。 実験により,Adam-mini が 125M から 7B までの大きさの様々な言語モデルにおいて,事前学習,教師付き微調整,RLHF に対して,Adam-mini がAdamW よりも同等以上の性能を示すことを確認した。 Adam-miniのメモリフットプリントの削減により、GPUとCPU間の通信オーバーヘッドが軽減され、スループットが向上する。 例えば、Adam-miniは、Llama2-7Bを2\times$ A800-80GBで事前トレーニングする際にAdamWよりも49.6%高いスループットを達成した。

We propose Adam-mini, an optimizer that achieves on-par or better performance than AdamW with 45% to 50% less memory footprint. Adam-mini reduces memory by cutting down the learning rate resources in Adam (i.e., $1/\sqrt{v}$). We find that $\geq$ 90% of these learning rates in $v$ could be harmlessly removed if we (1) carefully partition the parameters into blocks following our proposed principle on Hessian structure; (2) assign a single but good learning rate to each parameter block. We further find that, for each of these parameter blocks, there exists a single high-quality learning rate that can outperform Adam, provided that sufficient resources are available to search it out. We then provide one cost-effective way to find good learning rates and propose Adam-mini. Empirically, we verify that Adam-mini performs on par or better than AdamW on various language models sized from 125M to 7B for pre-training, supervised fine-tuning, and RLHF. The reduced memory footprint of Adam-mini also alleviates communication overheads among GPUs and CPUs, thereby increasing throughput. For instance, Adam-mini achieves 49.6% higher throughput than AdamW when pre-training Llama2-7B on $2\times$ A800-80GB GPUs, which saves 33% wall-clock time for pre-training.
翻訳日:2024-07-04 19:03:22 公開日:2024-07-03
# 画像ヘイスタックにおける視覚的ニーズの喪失: 視覚言語モデルは、短所と長所で容易に抽出される

Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts ( http://arxiv.org/abs/2406.16851v2 )

ライセンス: Link先を確認
Aditya Sharma, Michael Saxon, William Yang Wang, (参考訳) 本稿では,視覚言語モデル(VLM)における長文抽出推論を動的に評価するためのベンチマーク・ジェネレータであるLoCoVQAを提案する。 LoCoVQAは、数理推論、VQA、および文字認識タスクのテスト例を拡張し、分布内および分布外の両方の画像からなる、ますます長い視覚的コンテキストを持つ。 これらのタスク全体では、視覚的コンテキストの長さが大きくなるにつれて、多様なVLMが急速に性能を低下させ、しばしば対数減衰傾向が顕著に現れる。 このテストは、VLMがクエリ(テキストドメインの言語モデル(LM)にとって非常に容易なタスク)に応答する際に、関係のない情報を無視できるかどうかを評価する。

We present LoCoVQA, a dynamic benchmark generator for evaluating long-context extractive reasoning in vision language models (VLMs). LoCoVQA augments test examples for mathematical reasoning, VQA, and character recognition tasks with increasingly long visual contexts composed of both in-distribution and out-of-distribution distractor images. Across these tasks, a diverse set of VLMs rapidly lose performance as the visual context length grows, often exhibiting a striking logarithmic decay trend. This test assesses how well VLMs can ignore irrelevant information when answering queries -- a task that is quite easy for language models (LMs) in the text domain -- demonstrating that current state-of-the-art VLMs lack this essential capability for many long-context applications.
翻訳日:2024-07-04 19:03:22 公開日:2024-07-03
# CaLMQA:23言語にまたがる文化的に特定の長文質問の探索

CaLMQA: Exploring culturally specific long-form question answering across 23 languages ( http://arxiv.org/abs/2406.17761v2 )

ライセンス: Link先を確認
Shane Arora, Marzena Karpinska, Hung-Ting Chen, Ipsita Bhattacharjee, Mohit Iyyer, Eunsol Choi, (参考訳) 大きな言語モデル(LLM)は、長い形式の質問応答(LFQA)に使われ、複雑な質問に対する段落長の回答を生成する必要がある。 LFQAは英語でよく研究されているが、この研究は他の言語にも拡張されていない。 このギャップを埋めるために、我々は、23の言語にまたがる1.5Kの複雑な文化的特異な質問と、51の文化的無知な質問を英語から22の言語に翻訳したCaLMQAを紹介します。 我々は、文化的に特定の質問を、質問の言語に関連する文化の人々から、独自に、あるいはより多く尋ねられるものとして定義する。 コミュニティのWebフォーラムから自然に発生する質問を収集し、ネイティブスピーカーを雇い、FijianやKirndiといった未公開で稀に研究される言語をカバーする質問を書きます。 私たちのデータセットには、文化的トピック(伝統、法律、ニュースなど)とネイティブ話者の言語使用を反映した、多種多様な複雑な質問が含まれています。 誤答やトークンの繰り返しを検出することで,CaLMQA上のオープンソースモデルとクローズドソースモデルを自動的に評価し,低リソース言語ではLLM生成の回答の品質が著しく低下するのを観察する。 最後に、モデルと言語のサブセット上で人間による評価を行う。 手動による評価は、文化的に無知な質問よりも、文化的に特定の質問に対して、モデルのパフォーマンスが著しく悪化していることを明らかにする。 本研究は,非英語LFQAのさらなる研究の必要性を強調し,評価フレームワークを提供する。

Large language models (LLMs) are used for long-form question answering (LFQA), which requires them to generate paragraph-length answers to complex questions. While LFQA has been well-studied in English, this research has not been extended to other languages. To bridge this gap, we introduce CaLMQA, a collection of 1.5K complex culturally specific questions spanning 23 languages and 51 culturally agnostic questions translated from English into 22 other languages. We define culturally specific questions as those uniquely or more likely to be asked by people from cultures associated with the question's language. We collect naturally-occurring questions from community web forums and hire native speakers to write questions to cover under-resourced, rarely-studied languages such as Fijian and Kirundi. Our dataset contains diverse, complex questions that reflect cultural topics (e.g. traditions, laws, news) and the language usage of native speakers. We automatically evaluate a suite of open- and closed-source models on CaLMQA by detecting incorrect language and token repetitions in answers, and observe that the quality of LLM-generated answers degrades significantly for some low-resource languages. Lastly, we perform human evaluation on a subset of models and languages. Manual evaluation reveals that model performance is significantly worse for culturally specific questions than for culturally agnostic questions. Our findings highlight the need for further research in non-English LFQA and provide an evaluation framework.
翻訳日:2024-07-04 19:03:22 公開日:2024-07-03
# PharmaGPT:生物薬理化学のためのドメイン特有な大規模言語モデル

PharmaGPT: Domain-Specific Large Language Models for Bio-Pharmaceutical and Chemistry ( http://arxiv.org/abs/2406.18045v2 )

ライセンス: Link先を確認
Linqing Chen, Weilei Wang, Zilong Bai, Peng Xu, Yan Fang, Jie Fang, Wentao Wu, Lizhi Zhou, Ruiji Zhang, Yubin Xia, Chaobo Xu, Ran Hu, Licong Xu, Qijun Cai, Haoran Hua, Jing Sun, Jin Liu, Tian Qiu, Haowen Liu, Meng Hu, Xiuwen Li, Fei Gao, Yufu Wang, Lin Tie, Chaochao Wang, Jianping Lu, Cheng Sun, Yixin Wang, Shengjie Yang, Yuancheng Li, Lu Jin, Lisha Zhang, Fu Bian, Zhongkai Ye, Lidong Pei, Changyang Tu, (参考訳) 大規模言語モデル(LLM)は、複雑な機能工学の必要性を最小限に抑えて、自然言語処理(NLP)に革命をもたらした。 しかし、生物医薬品や化学といった専門分野へのLLMの応用は、まだほとんど解明されていない。 これらの分野の特徴は、複雑な用語、専門知識、そして汎用LLMがしばしば不足する精度の高い領域に対する高い需要である。 本研究では,13億~70億のパラメータを持つ多言語LLMのスイートであるPharmGPTについて紹介する。 評価の結果、PharmGPTはNAPLEXなどの主要なベンチマークで既存の一般的なモデルと一致し、ドメイン固有のタスクにおいて例外的な能力を示す。 この進歩は、バイオ医薬品・化学分野におけるLSMの新しいベンチマークを確立し、特殊言語モデリングにおける既存のギャップに対処する。 さらに、これらの専門分野における研究・開発を向上し、専門分野におけるNLPをより正確かつ効果的に活用する道を開くことを示唆している。

Large language models (LLMs) have revolutionized Natural Language Processing (NLP) by by minimizing the need for complex feature engineering. However, the application of LLMs in specialized domains like biopharmaceuticals and chemistry remains largely unexplored. These fields are characterized by intricate terminologies, specialized knowledge, and a high demand for precision areas where general purpose LLMs often fall short. In this study, we introduce PharmGPT, a suite of multilingual LLMs with 13 billion and 70 billion parameters, specifically trained on a comprehensive corpus of hundreds of billions of tokens tailored to the Bio-Pharmaceutical and Chemical sectors. Our evaluation shows that PharmGPT matches or surpasses existing general models on key benchmarks, such as NAPLEX, demonstrating its exceptional capability in domain-specific tasks. This advancement establishes a new benchmark for LLMs in the Bio-Pharmaceutical and Chemical fields, addressing the existing gap in specialized language modeling. Furthermore, this suggests a promising path for enhanced research and development in these specialized areas, paving the way for more precise and effective applications of NLP in specialized domains.
翻訳日:2024-07-04 19:03:22 公開日:2024-07-03
# オープンソースAIモデルにおける倫理的考察の文書化

Documenting Ethical Considerations in Open Source AI Models ( http://arxiv.org/abs/2406.18071v2 )

ライセンス: Link先を確認
Haoyu Gao, Mansooreh Zahedi, Christoph Treude, Sarita Rosenstock, Marc Cheong, (参考訳) 背景: AI対応ソフトウェアの開発は、ソフトウェアエンジニアとモデル開発者の間で異なるドメインの専門知識があるため、モデルカードのようなAIモデルドキュメンテーションに大きく依存しています。 倫理的観点から、AIモデルドキュメンテーションは、倫理的に準拠したソフトウェアの提供を保証するために、下流開発者の緩和戦略とともに、倫理的考察に関する重要な情報を伝達する。 しかし、そのような文書の実践に関する知識は乏しい。 Aims: 私たちの研究の目的は、開発者がオープンソースAIモデルの倫理的側面を実際にどのように文書化しているかを調査することにあります。 方法:GitHubとHugging Faceで3つの資料ソースを選択し,倫理関連の文書を体系的に識別するキーワードセットを開発した。 2,347件の文書をフィルタリングした後、265件の関連文書を同定し、倫理的考察のテーマを導出するテーマ分析を行った。 結果: モデル行動リスク,モデルユースケース,モデルリスク軽減という,6つのテーマが浮かび上がっています。 結論: オープンソースAIモデルドキュメンテーションは、倫理的問題ステートメントとユースケース制限の明確化に重点を置いています。 さらに、倫理的考察に関する文書化の実践を改善するために、様々な利害関係者に提案する。

Background: The development of AI-enabled software heavily depends on AI model documentation, such as model cards, due to different domain expertise between software engineers and model developers. From an ethical standpoint, AI model documentation conveys critical information on ethical considerations along with mitigation strategies for downstream developers to ensure the delivery of ethically compliant software. However, knowledge on such documentation practice remains scarce. Aims: The objective of our study is to investigate how developers document ethical aspects of open source AI models in practice, aiming at providing recommendations for future documentation endeavours. Method: We selected three sources of documentation on GitHub and Hugging Face, and developed a keyword set to identify ethics-related documents systematically. After filtering an initial set of 2,347 documents, we identified 265 relevant ones and performed thematic analysis to derive the themes of ethical considerations. Results: Six themes emerge, with the three largest ones being model behavioural risks, model use cases, and model risk mitigation. Conclusions: Our findings reveal that open source AI model documentation focuses on articulating ethical problem statements and use case restrictions. We further provide suggestions to various stakeholders for improving documentation practice regarding ethical considerations.
翻訳日:2024-07-04 19:03:22 公開日:2024-07-03
# UFRec: シーケンスレコメンデーションの統一と周波数統合

UFRec: Integrating Uniformity and Frequency to Enhance Sequential Recommendations ( http://arxiv.org/abs/2406.18470v2 )

ライセンス: Link先を確認
Yang Liu, Yitong Wang, Chenyue Feng, (参考訳) シーケンシャルレコメンデーションシステムにおける効果的な表現学習は、ユーザのインタラクションパターンを正確に把握し、レコメンデーションの精度を高めるために重要である。 それにもかかわらず、現在の方法論は、行動パターンのシフトを理解するのに不可欠な相互作用間の時間間隔をしばしば見渡す、アイテム・ツー・イテムの遷移に主に焦点を当てている。 さらに、アイテム周波数のような重要な相互作用属性は無視されることが多い。 本研究は,より一貫した時間間隔を持つシーケンスと,高い相互作用周波数を持つアイテムがより優れた予測性能をもたらすことを示す。 対照的に、非一様間隔のシーケンスはユーザの関心のドリフトに寄与し、頻繁に相互作用するアイテムはスパースデータによってモデル化が困難であり、既存のメソッドが適切に対処できないというユニークな課題を提起する。 本研究では、逐次レコメンデーションのための革新的な双方向拡張手法であるUFRecを紹介する。 UFRecは、シーケンスの均一性とアイテム頻度を利用してパフォーマンスを向上し、特に一様でないシーケンスと低い頻度のアイテムの表現を改善している。 これら2つのコンポーネントは相乗的に互いに強化し、複雑なシーケンシャルなレコメンデーションシナリオにおける全体的なパフォーマンス最適化を推進します。 さらに,適応性を高めるため,多次元時間モジュールを導入する。 我々の知る限り、UFRecは特徴増強のための均一性と周波数の性質を利用する先駆的な手法である。 4つのデータセットにわたる11の最先端モデルとの比較を通じて、UFRecが現在の先行モデルを大幅に上回っていることを示す。

Effective representation learning in sequential recommendation systems is pivotal for precisely capturing user interaction patterns and enhancing recommendation accuracy. Nonetheless, current methodologies largely focus on item-to-item transitions, frequently overlooking the time intervals between interactions, which are integral to understanding behavior pattern shifts. Moreover, critical interaction attributes like item frequency are often neglected. Our research indicates that sequences with more consistent time intervals and items with higher interaction frequency result in superior predictive performance. In contrast, sequences with non-uniform intervals contribute to user interest drift, and infrequently interacted items are challenging to model due to sparse data, posing unique challenges that existing methods fail to adequately address. In this study, we introduce UFRec, an innovative bidirectional enhancement method for sequential recommendations. UFRec harnesses sequence uniformity and item frequency to boost performance, particularly improving the representation of non-uniform sequences and less-frequent items. These two components synergistically enhance each other, driving holistic performance optimization in intricate sequential recommendation scenarios. Additionally, we introduce a multidimensional time module to further augment adaptability. To the best of our knowledge, UFRec is the pioneering method to exploit the properties of uniformity and frequency for feature augmentation. Through comparisons with eleven state-of-the-art models across four datasets, we demonstrate that UFRec significantly surpasses current leading models.
翻訳日:2024-07-04 19:03:22 公開日:2024-07-03
# コンピュータ病理学における教師なし遅延ステン適応

Unsupervised Latent Stain Adaptation for Computational Pathology ( http://arxiv.org/abs/2406.19081v2 )

ライセンス: Link先を確認
Daniel Reisenbüchler, Lucas Luttner, Nadine S. Schaadt, Friedrich Feuerhake, Dorit Merhof, (参考訳) 計算病理学では、セグメント化や組織分類などのタスクのためのディープラーニング(DL)モデルは、異なる染色技術によるドメインシフトに悩まされていることが知られている。 スタン適応は、ターゲットの染色を一般化するソース染色のモデルをトレーニングすることで、異なる染色間の一般化誤差を低減することを目的としている。 ターゲットのステンドデータが豊富にあるにも関わらず、重要な課題はアノテーションの欠如である。 そこで本研究では,Unsupervised Latent Stain Adaptation (ULSA) と呼ばれるステンド画像を含む,人工ラベル付きデータと未ラベルデータの共同トレーニングを提案する。 本手法では, 教師付き信号の増大のために, ラベル付きソース画像に合成対象画像を付加するために, ステンドトランスフォーメーションを用いる。 さらに,染色不変な特徴整合性学習を用いて,ラベル付対象の染色画像を活用する。 ULSAでは,アノテートされたターゲット染色データにアクセスせずに,効率的な染色適応のための半教師付き戦略を提案する。 注目すべきは、ULSAは全スライド画像(WSI)のパッチレベル解析においてタスク非依存である。 外部データセットの広範囲な評価を通じて, ULSAは腎組織分節化および乳がん分類における最先端(SOTA)のパフォーマンスを, 染色変動のスペクトルにわたって達成することを示した。 以上の結果から,ULSAは計算病理学における染色適応の重要な枠組みであることが示唆された。

In computational pathology, deep learning (DL) models for tasks such as segmentation or tissue classification are known to suffer from domain shifts due to different staining techniques. Stain adaptation aims to reduce the generalization error between different stains by training a model on source stains that generalizes to target stains. Despite the abundance of target stain data, a key challenge is the lack of annotations. To address this, we propose a joint training between artificially labeled and unlabeled data including all available stained images called Unsupervised Latent Stain Adaptation (ULSA). Our method uses stain translation to enrich labeled source images with synthetic target images in order to increase the supervised signals. Moreover, we leverage unlabeled target stain images using stain-invariant feature consistency learning. With ULSA we present a semi-supervised strategy for efficient stain adaptation without access to annotated target stain data. Remarkably, ULSA is task agnostic in patch-level analysis for whole slide images (WSIs). Through extensive evaluation on external datasets, we demonstrate that ULSA achieves state-of-the-art (SOTA) performance in kidney tissue segmentation and breast cancer classification across a spectrum of staining variations. Our findings suggest that ULSA is an important framework for stain adaptation in computational pathology.
翻訳日:2024-07-04 19:03:22 公開日:2024-07-03
# YZS-model: Graph Convolutional NetworksとTransformer-Attentionに基づく有機医薬品溶解度予測モデル

YZS-model: A Predictive Model for Organic Drug Solubility Based on Graph Convolutional Networks and Transformer-Attention ( http://arxiv.org/abs/2406.19136v2 )

ライセンス: Link先を確認
Chenxu Wang, Haowei Ming, Jian He, Yao Lu, (参考訳) 薬物分子溶解性の正確な予測は、薬のADMEプロセスに影響を与える治療効果と安全性を決定するために不可欠である。 従来の溶解度予測技術は、しばしば分子トラクチャーの複雑な性質を捉えるのに失敗し、予測と実際の結果の間に顕著な違いをもたらす。 例えば、先進的な薬物様化合物構造に関する議論である。 ルシは環構造を持つ分子において重要な循環構造情報を取得する際の問題を強調した。 そこで本研究では,注目に基づくトランスフォーマー,Long Short-Term Memory (LSTM) ネットワーク,および可溶性予測の精度向上を目的としたGraph Convolutional Networks (GCN) を組み合わせた新しいディープラーニングフレームワークを提案する。 9,943個の化合物のトレーニングセットと抗がん化合物データセットを用いた試験により, 相関係数(R^2$)が0.55, 根平均角誤差(RMSE)が0.59, ベンチマークモデルのスコアが0.52(R^2$)と0.61(RMSE)を上回り, 相関係数(R^2$)が得られた。 追加の独立試験では, RMSEが1.05, RMSEが1.28, 相対精度が45.9%であった。 本研究は, 溶解度予測精度を向上させるためのディープラーニングの可能性を示すだけでなく, 薬物の設計と選択に関する新たな知見を提供する。 継続的な取り組みは、モデルアーキテクチャの最適化と、薬物開発プロセスのより良いサポートのためにそのアプリケーションの拡張に向けられ、薬物発見における深層学習の重要な役割を浮き彫りにする。

The accurate prediction of drug molecule solubility is essential for determining their therapeutic effectiveness and safety, influencing the drug's ADME processes. Traditional solubility prediction techniques often fail to capture the complex nature of molecular tructures, leading to notable deviations between predictions and actual results. For example, the Discussion on Advanced Drug-Like Compound Structures. Lusci highlighted issues in capturing crucial cyclic structural information in molecules with ring structures. To overcome this issue, our research introduces a novel deep learning framework combining attention-based transformers, Long Short-Term Memory (LSTM) networks, and Graph Convolutional Networks (GCN), aimed at enhancing the precision of solubility predictions. Utilizing a training set of 9,943 compounds and testing on an anticancer compound dataset, our method achieved a correlation coefficient ($R^2$) of 0.55 and a Root Mean Square Error (RMSE) of 0.59, which outperforms the benchmark models' scores of 0.52 ($R^2$) and 0.61 (RMSE). Importantly, in an additional independent test, our model significantly outperformed the baseline with an RMSE of 1.05 compared to 1.28, a relative accuracy improvement of 45.9%. This research not only demonstrates the vast potential of deep learning for improving solubility prediction accuracy but also offers novel insights for drug design and selection in the future. Continued efforts will be directed towards optimizing the model architecture and extending its application to better support the drug development process, underscoring the pivotal role of deep learning in drug discovery.
翻訳日:2024-07-04 19:03:22 公開日:2024-07-03
# スピンによるトラップ原子の光冷却に関する一般化理論

A Generalized Theory for Optical Cooling of a Trapped Atom with Spin ( http://arxiv.org/abs/2406.19153v2 )

ライセンス: Link先を確認
Saumitra S. Phatak, Karl N. Blodgett, David Peana, Meng Raymond Chen, Jonathan D. Hood, (参考訳) 光ツイーザの基底状態に原子を冷却することは、高忠実度イメージング、冷却、分子組立においてますます重要になっている。 自由空間における冷却に関する広範な理論的研究は行われているが、境界状態における冷却に焦点を当てた研究は少ない。 本研究では,中性原子対向体における光冷却機構の統一的な形式として,トラップ電位の異なる分解・未解決サイドバンド冷却,偏光勾配冷却,グレー・モーラセス冷却,$\Lambda$-enhanced gray molasses冷却,ラマン・サイドバンド冷却などを提案する。 シミュレーションを行い、単純化されたスピンモデルとよく一致したことを示す。 我々は, 各冷却機構の基本的限界を導出し, 光学式ツイーザにおける地中冷却を実現するための新しい方法を提案する。 光学式ツイーザにおける中性原子の冷却方法の最適化, ライドベルクと分子ゲートの熱デコヒーレンス最小化, 分子組立の効率向上への道を開いた。

Cooling atoms to the ground-state of optical tweezers is becoming increasingly important for high-fidelity imaging, cooling, and molecular assembly. While extensive theoretical work has been conducted on cooling in free space, fewer studies have focused on cooling in bound states. In this work, we present a unified formalism for optical cooling mechanisms in neutral atom tweezers, including resolved and unresolved sideband cooling with different trapping potentials, polarization gradient cooling, gray molasses cooling, $\Lambda$-enhanced gray molasses cooling, and Raman sideband cooling. We perform simulations and demonstrate good agreement with a simplified spin model. We derive and discuss the fundamental limits of each cooling mechanism and propose new strategies for achieving ground-state cooling in optical tweezers. Our findings provide valuable insights into optimizing cooling schemes for neutral atoms in optical tweezers, paving the way for minimizing thermal decoherence in Rydberg and molecular gates and improving efficiencies of molecular assembly.
翻訳日:2024-07-04 18:53:35 公開日:2024-07-03
# コンピュータのコモディフィケーション

Commodification of Compute ( http://arxiv.org/abs/2406.19261v2 )

ライセンス: Link先を確認
Jesper Kristensen, David Wender, Carl Anthony, (参考訳) 人工知能、ビッグデータ分析、クラウドコンピューティングの急速な進歩は、計算資源に対する前例のない需要を呼んだ。 しかし、現在の計算資源割り当ての状況は、未利用や価格変動など、大きな非効率性によって特徴づけられている。 本稿では,GCX (Global Compute Exchange) (Patent Pending) と呼ばれる,計算時間のコモディフィケーションのための新しいグローバルプラットフォームを導入することで,これらの課題に対処する。 GCXはブロックチェーン技術とスマートコントラクトを活用して、計算パワーの売買のためのセキュアで透明で効率的なマーケットプレースを構築する。 GCXは、Market, App, Clearing, Risk Management, Exchange (Offchain) と Blockchain (Onchain) レイヤで構成され、それぞれが堅牢で効率的な運用を保証する。 このプラットフォームは、分散化され、効率的で透明なエコシステムを育み、コンピューティングパワーへの公平なアクセスを確保し、イノベーションを刺激し、グローバルなスケールでの多様なユーザニーズをサポートすることによって、計算リソース市場を革新することを目指している。 計算時間をトラジブルなコモディティに変換することで、GCXはリソースの利用を最適化し、価格を安定させ、計算リソースへのアクセスを民主化しようとしている。 本稿では、GCXの技術的基盤、市場ポテンシャル、社会的影響について考察し、商品と計算における次のイノベーションの波を推し進める先駆的なソリューションとして位置づける。

The rapid advancements in artificial intelligence, big data analytics, and cloud computing have precipitated an unprecedented demand for computational resources. However, the current landscape of computational resource allocation is characterized by significant inefficiencies, including underutilization and price volatility. This paper addresses these challenges by introducing a novel global platform for the commodification of compute hours, termed the Global Compute Exchange (GCX) (Patent Pending). The GCX leverages blockchain technology and smart contracts to create a secure, transparent, and efficient marketplace for buying and selling computational power. The GCX is built in a layered fashion, comprising Market, App, Clearing, Risk Management, Exchange (Offchain), and Blockchain (Onchain) layers, each ensuring a robust and efficient operation. This platform aims to revolutionize the computational resource market by fostering a decentralized, efficient, and transparent ecosystem that ensures equitable access to computing power, stimulates innovation, and supports diverse user needs on a global scale. By transforming compute hours into a tradable commodity, the GCX seeks to optimize resource utilization, stabilize pricing, and democratize access to computational resources. This paper explores the technological infrastructure, market potential, and societal impact of the GCX, positioning it as a pioneering solution poised to drive the next wave of innovation in commodities and compute.
翻訳日:2024-07-04 18:53:35 公開日:2024-07-03
# EVF-SAM:テキストプロンプトセグメントモデルのための早期ビジョンランゲージ融合

EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model ( http://arxiv.org/abs/2406.20076v2 )

ライセンス: Link先を確認
Yuxuan Zhang, Tianheng Cheng, Rui Hu, Lei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang, (参考訳) Segment Anything Model (SAM) は、テキストプロンプトのさらなる探索を欠きながら、視覚的プロンプトを持つ優れた対話的セグメンテーション機能に対して、広く注目を集めている。 本稿では,テキストプロンプトエンコーダ(例えば,CLIP,LLM)が,表現セグメンテーションの参照にSAMを適用するのに有効かを実証的に検討し,Early Vision- Language Fusion-based SAM(EVF-SAM)を紹介する。 EVF-SAMは、マルチモーダルプロンプト(画像とテキスト)を利用して、参照プロンプトを生成するための事前学習された視覚言語モデルとセグメンテーションのためのSAMモデルを含む、シンプルで効果的な参照セグメンテーション手法である。 意外なことに、(1)マルチモーダルプロンプトと(2)早期融合(例えばBEIT-3)を持つ視覚言語モデルがSAMの正確な参照セグメンテーションに有用である。 実験の結果,BEIT-3に基づくEVF-SAMは,RefCOCO/+/gの表現セグメンテーションにおける最先端性能を得ることができ,早期視覚言語融合によるSAMの促進効果が示された。 さらに、1.32Bパラメータを持つEVF-SAMは、大規模なマルチモーダルモデルに基づく従来のSAM手法と比較して、パラメータの82%近くを削減し、非常に高い性能を達成する。

Segment Anything Model (SAM) has attracted widespread attention for its superior interactive segmentation capabilities with visual prompts while lacking further exploration of text prompts. In this paper, we empirically investigate what text prompt encoders (e.g., CLIP or LLM) are good for adapting SAM for referring expression segmentation and introduce the Early Vision-language Fusion-based SAM (EVF-SAM). EVF-SAM is a simple yet effective referring segmentation method which exploits multimodal prompts (i.e., image and text) and comprises a pre-trained vision-language model to generate referring prompts and a SAM model for segmentation. Surprisingly, we observe that: (1) multimodal prompts and (2) vision-language models with early fusion (e.g., BEIT-3) are beneficial for prompting SAM for accurate referring segmentation. Our experiments show that the proposed EVF-SAM based on BEIT-3 can obtain state-of-the-art performance on RefCOCO/+/g for referring expression segmentation and demonstrate the superiority of prompting SAM with early vision-language fusion. In addition, the proposed EVF-SAM with 1.32B parameters achieves remarkably higher performance while reducing nearly 82% of parameters compared to previous SAM methods based on large multimodal models.
翻訳日:2024-07-04 18:53:35 公開日:2024-07-03
# Pistis-RAG - コンテンツ中心検索拡張生成に向けたスケーラブルなカスケーディングフレームワーク

Pistis-RAG: A Scalable Cascading Framework Towards Content-Centric Retrieval-Augmented Generation ( http://arxiv.org/abs/2407.00072v2 )

ライセンス: Link先を確認
Yu Bai, Yukai Miao, Li Chen, Dan Li, Yanyu Ren, Hongtao Xie, Ce Yang, Xuhui Cai, (参考訳) ギリシア神話では、ピスティスは信仰、信頼、信頼性を象徴していた。 これらの原則から着想を得たPristis-RAGは、大規模検索拡張世代システム(RAG)の課題に対処するために設計されたスケーラブルなマルチステージフレームワークである。 このフレームワークは、マッチング、序列、ランク付け、推論、集約という、異なるステージで構成されている。 各ステージは、検索空間の狭化、意味のある文書の優先順位付け、大きな言語モデル(LLM)の好みの整合化、複雑なチェーン・オブ・シント(CoT)メソッドのサポート、複数のソースからの情報の統合に寄与する。 我々のランク付け段階は、セマンティックな関連性だけでは生成品質が向上しない可能性があることを認識して、重要なイノベーションをもたらす。 この重要な側面は、しばしば現在のRAGフレームワークで見過ごされる。 我々は、LLMと外部知識ランキング手法の整合性問題は、RAGシステムにおいて支配的なモデル中心のパラダイムと結びついていると論じる。 本稿では,LLMと外部情報ソースのシームレスな統合を重視し,特定のタスクに対するコンテンツ変換を最適化する,コンテンツ中心のアプローチを提案する。 LLMの嗜好やユーザフィードバックに反映されるユニークなビジネスシナリオを考慮しつつ,情報検索の原則を取り入れた新しいランキングステージを設計する。 MMLUベンチマークでフィードバック信号をシミュレートし,9.3%の性能向上を実現した。 私たちのモデルとコードはGitHubでオープンソース化される予定です。 さらに、実世界の大規模データに関する実験は、我々のフレームワークのスケーラビリティを検証する。

In Greek mythology, Pistis symbolized good faith, trust, and reliability. Drawing inspiration from these principles, Pistis-RAG is a scalable multi-stage framework designed to address the challenges of large-scale retrieval-augmented generation (RAG) systems. This framework consists of distinct stages: matching, pre-ranking, ranking, reasoning, and aggregating. Each stage contributes to narrowing the search space, prioritizing semantically relevant documents, aligning with the large language model's (LLM) preferences, supporting complex chain-of-thought (CoT) methods, and combining information from multiple sources. Our ranking stage introduces a significant innovation by recognizing that semantic relevance alone may not lead to improved generation quality, due to the sensitivity of the few-shot prompt order, as noted in previous research. This critical aspect is often overlooked in current RAG frameworks. We argue that the alignment issue between LLMs and external knowledge ranking methods is tied to the model-centric paradigm dominant in RAG systems. We propose a content-centric approach, emphasizing seamless integration between LLMs and external information sources to optimize content transformation for specific tasks. Our novel ranking stage is designed specifically for RAG systems, incorporating principles of information retrieval while considering the unique business scenarios reflected in LLM preferences and user feedback. We simulated feedback signals on the MMLU benchmark, resulting in a 9.3% performance improvement. Our model and code will be open-sourced on GitHub. Additionally, experiments on real-world, large-scale data validate the scalability of our framework.
翻訳日:2024-07-04 18:53:35 公開日:2024-07-03
# インスタンス温度知識蒸留

Instance Temperature Knowledge Distillation ( http://arxiv.org/abs/2407.00115v2 )

ライセンス: Link先を確認
Zhengbo Zhang, Yuxi Zhou, Jia Gong, Jun Liu, Zhigang Tu, (参考訳) 知識蒸留(KD)は,教師ネットワークから移行した知識を段階的に学習することで,学生ネットワークの性能を向上させる。 既存の学習方法は、KDの異なる学習段階において、学生ネットワークが様々な学習困難に適応できるように、動的に温度調整を行う。 KDは連続的なプロセスであるが、温度を調整する際、これらの手法は現在の学習段階における操作の即時的な利点のみを考慮し、将来の効果を考慮しない。 この問題に対処するため、温度調整を逐次意思決定タスクとして定式化し、RLKDと呼ばれる強化学習に基づく手法を提案する。 重要なことは、エージェントがより情報的な行動(例えば温度調整)を行えるように、新しい状態表現を設計することである。 KD設定による遅延報酬問題に対処するため,ケース報酬校正手法を提案する。 さらに,有効な探索戦略を考案し,有効なインスタンス温度調整ポリシーを学習できるようにする。 本フレームワークは,様々なKDメソッドに挿入可能なプラグイン・アンド・プレイ技術として機能し,画像分類とオブジェクト検出の両タスクにおいて,その有効性を検証する。 私たちのプロジェクトはhttps://www.zayx.me/ITKD.github.io/にあります。

Knowledge distillation (KD) enhances the performance of a student network by allowing it to learn the knowledge transferred from a teacher network incrementally. Existing methods dynamically adjust the temperature to enable the student network to adapt to the varying learning difficulties at different learning stages of KD. KD is a continuous process, but when adjusting the temperature, these methods consider only the immediate benefits of the operation in the current learning phase and fail to take into account its future returns. To address this issue, we formulate the adjustment of temperature as a sequential decision-making task and propose a method based on reinforcement learning, termed RLKD. Importantly, we design a novel state representation to enable the agent to make more informed action (i.e. instance temperature adjustment). To handle the problem of delayed rewards in our method due to the KD setting, we explore an instance reward calibration approach. In addition,we devise an efficient exploration strategy that enables the agent to learn valuable instance temperature adjustment policy more efficiently. Our framework can serve as a plug-and-play technique to be inserted into various KD methods easily, and we validate its effectiveness on both image classification and object detection tasks. Our project is at https://www.zayx.me/ITKD.github.io/.
翻訳日:2024-07-04 18:53:35 公開日:2024-07-03
# 複雑な神経ネットワークを解釈可能なタスク特異的コネクトームに分解する

Deconvolving Complex Neuronal Networks into Interpretable Task-Specific Connectomes ( http://arxiv.org/abs/2407.00201v2 )

ライセンス: Link先を確認
Yifan Wang, Vikram Ravindra, Ananth Grama, (参考訳) タスク特異的機能MRI(fMRI)画像は、認知過程の神経基盤を研究する上で優れたモダリティを提供する。 我々は、fMRIデータを用いて、タスク固有の集合神経ネットワークを標準的ネットワークと呼ばれる基本的なビルディングブロックの集合に分解し、これらのネットワークを機能的特徴付けに利用し、これらの応答の生理的基盤を脳の領域にマッピングすることで特徴づける。 本研究の結果は,少数のカノニカルネットワークを用いてタスクを正確に予測することができること,コホート間の一般化可能性,すなわちカノニカルネットワークは多様な集団,研究,獲得プロトコルにまたがって保存されていること,そして,カノニカルネットワークが解剖学的および生理的基盤が強いこと,など,カノニカルネットワークの優れたタスク特異性を示す。 手法の観点からは、これらの標準的ネットワークを特定する問題は、高次元性、小さなサンプルサイズ、取得変数、ノイズに根ざした課題を引き起こす。 我々のデコンボリューション手法は、正準ネットワークを好適に構築された行列の因子として識別する非負行列分解(NMF)に基づいている。 我々は,本手法が大規模データセットにスケールし,安定かつ高精度な要因が得られ,ノイズに強いことを実証した。

Task-specific functional MRI (fMRI) images provide excellent modalities for studying the neuronal basis of cognitive processes. We use fMRI data to formulate and solve the problem of deconvolving task-specific aggregate neuronal networks into a set of basic building blocks called canonical networks, to use these networks for functional characterization, and to characterize the physiological basis of these responses by mapping them to regions of the brain. Our results show excellent task-specificity of canonical networks, i.e., the expression of a small number of canonical networks can be used to accurately predict tasks; generalizability across cohorts, i.e., canonical networks are conserved across diverse populations, studies, and acquisition protocols; and that canonical networks have strong anatomical and physiological basis. From a methods perspective, the problem of identifying these canonical networks poses challenges rooted in the high dimensionality, small sample size, acquisition variability, and noise. Our deconvolution technique is based on non-negative matrix factorization (NMF) that identifies canonical networks as factors of a suitably constructed matrix. We demonstrate that our method scales to large datasets, yields stable and accurate factors, and is robust to noise.
翻訳日:2024-07-04 18:53:35 公開日:2024-07-03
# Parm: 定型スケジューリングによる大規模疎活性化モデルの効率的なトレーニング

Parm: Efficient Training of Large Sparsely-Activated Models with Dedicated Schedules ( http://arxiv.org/abs/2407.00599v2 )

ライセンス: Link先を確認
Xinglin Pan, Wenxiang Lin, Shaohuai Shi, Xiaowen Chu, Weinong Sun, Bo Li, (参考訳) 少量に活性化されたMixture-of-Expert(MoE)層は、大規模基盤モデルのモデルサイズを拡大する実践的な応用を見出した。 モデル並列性、エキスパート並列性、エキスパートシャーディング並列性(MP+EP+ESP)といったハイブリッド並列パラダイムが広く採用されているにもかかわらず、トレーニング効率はこれらの並列パラダイムによって導入された通信コストによって妨げられる。 そこで本稿では,MP+EP+ESP学習を高速化するParmを提案する。 提案したスケジュールは冗長な計算と通信を排除し、ノード内通信とノード間通信の重複を可能にする。 2つのスケジュールは相互に排他的ではないため、包括的な理論的分析を提供し、異なるシナリオにどのスケジュールを適用するべきかを決定するための自動的かつ正確な解決策を導出する。 8-GPUサーバと32-GPUクラスタの実験結果によると、Parmは最先端のMoEトレーニングシステムであるDeepSpeed-MoEより優れており、手動で設定された1296上の1.13$\times$と5.77$\times$のスピードアップ、BERTとGPT-2に基づく2つの現実世界のMoEモデルの約3$\times$の改善を実現している。

Sparsely-activated Mixture-of-Expert (MoE) layers have found practical applications in enlarging the model size of large-scale foundation models, with only a sub-linear increase in computation demands. Despite the wide adoption of hybrid parallel paradigms like model parallelism, expert parallelism, and expert-sharding parallelism (i.e., MP+EP+ESP) to support MoE model training on GPU clusters, the training efficiency is hindered by communication costs introduced by these parallel paradigms. To address this limitation, we propose Parm, a system that accelerates MP+EP+ESP training by designing two dedicated schedules for placing communication tasks. The proposed schedules eliminate redundant computations and communications and enable overlaps between intra-node and inter-node communications, ultimately reducing the overall training time. As the two schedules are not mutually exclusive, we provide comprehensive theoretical analyses and derive an automatic and accurate solution to determine which schedule should be applied in different scenarios. Experimental results on an 8-GPU server and a 32-GPU cluster demonstrate that Parm outperforms the state-of-the-art MoE training system, DeepSpeed-MoE, achieving 1.13$\times$ to 5.77$\times$ speedup on 1296 manually configured MoE layers and approximately 3$\times$ improvement on two real-world MoE models based on BERT and GPT-2.
翻訳日:2024-07-04 18:53:35 公開日:2024-07-03
# 変圧器の異常注意分布の解明と制御

Unveiling and Controlling Anomalous Attention Distribution in Transformers ( http://arxiv.org/abs/2407.01601v2 )

ライセンス: Link先を確認
Ruiqing Yan, Xingbo Du, Haoyu Deng, Linghan Zheng, Qiuzhuang Sun, Jifang Hu, Yuhang Shao, Penghao Jiang, Jinrong Jiang, Lian Zhao, (参考訳) トランスフォーマーアーキテクチャに基づく大規模モデルの出現により、研究者はアテンション機構における異常現象を観測した。 キーバリュー(KV)キャッシュ圧縮や無限外挿など,注目度分布に着目した手法の開発には,それを理解することが不可欠である。 本稿では,これらの現象をウェイバー現象の観点から解析し,シーケンス内の特定の要素の内部値の低減を伴い,情報への寄与を伴わずに過剰な注意を吸収できるようにする。 特定のモデルでは、位置エンコーディングと注意パターンの違いにより、モデルによるウェイバー要素の選択は、位置エンコーディングベースと特徴分布ウィイン要素ベースという2つの方法に分類できることがわかった。

With the advent of large models based on the Transformer architecture, researchers have observed an anomalous phenomenon in the Attention mechanism--there is a very high attention on the first element, which is prevalent across Transformer-based models. It is crucial to understand it for the development of techniques focusing on attention distribution, such as Key-Value (KV) Cache compression and infinite extrapolation; however, the latent cause leaves to be unknown. In this paper, we analyze such a phenomenon from the perspective of waiver phenomenon, which involves reducing the internal values of certain elements in the sequence, allowing them to absorb excess attention without affecting their contribution to information. In specific models, due to differences in positional encoding and attention patterns, we have found that the selection of waiver elements by the model can be categorized into two methods: positional-encoding-based and feature-distribution-within-elements-based.
翻訳日:2024-07-04 18:53:35 公開日:2024-07-03
# 規則に基づくデータ拡張による医療概念抽出の促進

Boosting Biomedical Concept Extraction by Rule-Based Data Augmentation ( http://arxiv.org/abs/2407.02719v1 )

ライセンス: Link先を確認
Qiwei Shao, Fengran Mo, Jian-Yun Nie, (参考訳) 文書レベルのバイオメディカル概念抽出は、ある文書で言及されているバイオメディカル概念を識別するタスクである。 近年,この課題に対する事前学習型言語モデルの導入が進んでいる。 しかし、ドメイン固有のデータの不足とそれらの標準名からの概念の逸脱は、しばしばこれらのモデルの有効性を妨げている。 この問題に対処するために,既存のルールベースの概念マッピングシステムであるMetaMapLiteを用いて,PubMed と PMC から疑似アノテーション付きデータを生成する。 アノテーション付きデータは、限られたトレーニングデータを増やすために使用される。 本研究では,より広範な実験を通じて,より優れた概念抽出モデルをトレーニングするための手作業による概念マッピングツールの有用性を実証する。

Document-level biomedical concept extraction is the task of identifying biomedical concepts mentioned in a given document. Recent advancements have adapted pre-trained language models for this task. However, the scarcity of domain-specific data and the deviation of concepts from their canonical names often hinder these models' effectiveness. To tackle this issue, we employ MetaMapLite, an existing rule-based concept mapping system, to generate additional pseudo-annotated data from PubMed and PMC. The annotated data are used to augment the limited training data. Through extensive experiments, this study demonstrates the utility of a manually crafted concept mapping tool for training a better concept extraction model.
翻訳日:2024-07-04 17:54:48 公開日:2024-07-03
# 相互学習におけるベイズニューラルネットワークのモデルと特徴多様性

Model and Feature Diversity for Bayesian Neural Networks in Mutual Learning ( http://arxiv.org/abs/2407.02721v1 )

ライセンス: Link先を確認
Cuong Pham, Cuong C. Nguyen, Trung Le, Dinh Phung, Gustavo Carneiro, Thanh-Toan Do, (参考訳) ベイズニューラルネットワーク(BNN)はモデルパラメータの確率分布を提供し、予測の不確実な定量化を可能にする。 しかし、決定論的ニューラルネットワークに比べて性能が劣ることが多い。 相互学習を利用することで、ピアBNNの性能を効果的に向上させることができる。 本稿では,深層学習によるBNNの性能向上のための新しい手法を提案する。 提案手法は,ネットワークパラメータ分布と特徴分布の多様性の向上を目標とし,相互学習の有効性を高めるために,異なる特徴を抽出するピアネットワークを促進させる。 実験の結果,BNNの従来の相互学習と比較して,分類精度,負の対数類似度,キャリブレーション誤差が有意に向上した。

Bayesian Neural Networks (BNNs) offer probability distributions for model parameters, enabling uncertainty quantification in predictions. However, they often underperform compared to deterministic neural networks. Utilizing mutual learning can effectively enhance the performance of peer BNNs. In this paper, we propose a novel approach to improve BNNs performance through deep mutual learning. The proposed approaches aim to increase diversity in both network parameter distributions and feature distributions, promoting peer networks to acquire distinct features that capture different characteristics of the input, which enhances the effectiveness of mutual learning. Experimental results demonstrate significant improvements in the classification accuracy, negative log-likelihood, and expected calibration error when compared to traditional mutual learning for BNNs.
翻訳日:2024-07-04 17:54:48 公開日:2024-07-03
# 超電導回路における断熱制御相ゲートのベースバンドフラックス制御のパルス設計

Pulse Design of Baseband Flux Control for Adiabatic Controlled-Phase Gates in Superconducting Circuits ( http://arxiv.org/abs/2407.02722v1 )

ライセンス: Link先を確認
Qi Ding, Alan V. Oppenheim, Petros T. Boufounos, Simon Gustavsson, Jeffrey A. Grover, Thomas A. Baran, William D. Oliver, (参考訳) 超伝導量子ビットによる低エラー率を達成するための進歩にもかかわらず、エラーを起こしやすい2量子ビットゲートは大規模量子コンピュータの実現のボトルネックのままである。 したがって、高忠実度ゲートを設計するための体系的な枠組みが必須となる。 超伝導量子ビットにおける2ビットゲートの1つのタイプは制御相(CPHASE)ゲートであり、量子ビットまたは可変カプラの1つでベースバンドフラックスパルスによって制御される量子ビットの高エネルギーレベル間の条件的相互作用を利用する。 本研究では,CPHASEゲートの断熱的実装について検討し,パルス設計問題としてゲート制御軌道の設計を定式化する。 また, チェビシェフをベースとした軌道は, スレピアンをベースとした軌道と比較して, リーク誤差の低いゲートを平均6%以下にできることを示す。

Despite progress towards achieving low error rates with superconducting qubits, error-prone two-qubit gates remain a bottleneck for realizing large-scale quantum computers. Therefore, a systematic framework to design high-fidelity gates becomes imperative. One type of two-qubit gate in superconducting qubits is the controlled-phase (CPHASE) gate, which utilizes a conditional interaction between higher energy levels of the qubits controlled by a baseband flux pulse on one of the qubits or a tunable coupler. In this work, we study an adiabatic implementation of CPHASE gates and formulate the design of the control trajectory for the gate as a pulse-design problem. We show in simulation that the Chebyshev-based trajectory can, in certain cases, enable gates with leakage error lower by an average of roughly 6% when compared to the widely used Slepian-based trajectory.
翻訳日:2024-07-04 17:54:48 公開日:2024-07-03
# e-Health CSIRO at "Discharge Me!

e-Health CSIRO at "Discharge Me!" 2024: Generating Discharge Summary Sections with Fine-tuned Language Models ( http://arxiv.org/abs/2407.02723v1 )

ライセンス: Link先を確認
Jinghui Liu, Aaron Nicolson, Jason Dowling, Bevan Koopman, Anthony Nguyen, (参考訳) 臨床文書は臨床医の日々の仕事の重要な側面であり、しばしばかなりの時間を要する。 BioNLP 2024 Shared Task on Streamlining Discharge Documentation (Discharge Me!) は、簡単な病院コースや退院指導を含む退院要領を自動生成し、手書きの合成や書き直しに時間がかかり、この文書の負担を軽減することを目的としている。 我々は,複数のオープンソース言語モデル(LM)を微調整し,デコーダのみとエンコーダとデコーダの両方を含む生成タスクにアプローチする。 また、復号アルゴリズム、モデルアンサンブル、マージ、モデル特殊化の異なる設定についても検討する。 その結果, 生成作業において, 目標区間に先行する放電概要の内容に対する条件付けが有効であることが示唆された。 さらに,より小型のエンコーダ・デコーダ LM は,LORA で微調整された大型のデコーダ LM よりも,さらに若干の精度で動作可能であることがわかった。 私たちのチーム(aehrc)のモデルチェックポイントは、公開されています。

Clinical documentation is an important aspect of clinicians' daily work and often demands a significant amount of time. The BioNLP 2024 Shared Task on Streamlining Discharge Documentation (Discharge Me!) aims to alleviate this documentation burden by automatically generating discharge summary sections, including brief hospital course and discharge instruction, which are often time-consuming to synthesize and write manually. We approach the generation task by fine-tuning multiple open-sourced language models (LMs), including both decoder-only and encoder-decoder LMs, with various configurations on input context. We also examine different setups for decoding algorithms, model ensembling or merging, and model specialization. Our results show that conditioning on the content of discharge summary prior to the target sections is effective for the generation task. Furthermore, we find that smaller encoder-decoder LMs can work as well or even slightly better than larger decoder based LMs fine-tuned through LoRA. The model checkpoints from our team (aehrc) are openly available.
翻訳日:2024-07-04 17:54:48 公開日:2024-07-03
# 量子スイッチによる汎用通信の高速化

General Communication Enhancement via the Quantum Switch ( http://arxiv.org/abs/2407.02726v1 )

ライセンス: Link先を確認
Zhen Wu, James Fullwood, Zhihao Ma, Siqi Zhou, Qi Zhao, Giulio Chiribella, (参考訳) 最近の研究では、量子情報は、量子 $\tt SWITCH$ と呼ばれる演算を通して、異なる順序のコヒーレントな重ね合わせにおいて、完全に非分極するチャネルの有限個の集合によって効果的に伝達されることが示されている。 このような結果は、完全に分離されたチャネルと一定の順序で分離されたチャネルが白色ノイズを出力できるため、非常に顕著である。 しかし、一般的なチャネルについては、量子$\tt SWITCH$によって提供される潜在的な通信拡張についてはほとんど知られていない。 このレターでは、量子 ${\tt SWITCH}$ of $n$ copy of a fixed channel に付随する計算容易量 $\mathcal{P}_n$ を定義し、$\mathcal{P}_n>0$ が量子 $\tt SWITCH$ による通信強化の必要十分条件であると予想する。 我々の予想を支持するために、量子 $\tt SWITCH$ of $n$ copy of a arbitrary Pauli channel in terms of the amount $\mathcal{P}_n$ という古典的なキャパシティの単純な解析式を導出する。 このような結果を利用して、BB84チャネルのプライベートキャパシティを高める量子$\tt SWITCH$を含む通信プロトコルを定式化する。

Recent studies have shown that quantum information may be effectively transmitted by a finite collection of completely depolarizing channels in a coherent superposition of different orders, via an operation known as the quantum $\tt SWITCH$. Such results are quite remarkable, as completely depolarizing channels taken in isolation and in a definite order can only output white noise. For general channels however, little is known about the potential communication enhancement provided by the quantum $\tt SWITCH$. In this Letter, we define an easily computable quantity $\mathcal{P}_n$ associated with the quantum ${\tt SWITCH}$ of $n$ copies of a fixed channel, and we conjecture that $\mathcal{P}_n>0$ is both a necessary and sufficient condition for communication enhancement via the quantum $\tt SWITCH$. In support of our conjecture, we derive a simple analytic expression for the classical capacity of the quantum $\tt SWITCH$ of $n$ copies of an arbitrary Pauli channel in terms of the quantity $\mathcal{P}_n$, which we then use to show that our conjecture indeed holds in the space of all Pauli channels. Utilizing such results, we then formulate a communication protocol involving the quantum $\tt SWITCH$ which enhances the private capacity of the BB84 channel.
翻訳日:2024-07-04 17:54:48 公開日:2024-07-03
# 代謝点に調整された原子スピン鎖における長寿命磁化

Long-lived magnetization in an atomic spin chain tuned to a diabolic point ( http://arxiv.org/abs/2407.02727v1 )

ライセンス: Link先を確認
R. J. G. Elbertse, D. Borodin, J. Oh, T. Ahn, J. Hwang, J. C. Rietveld, A. J. Heinrich, F. Delgado, S. Otte, Y. Bae, (参考訳) 量子サイズ効果が顕著になるところまで磁石をスケールダウンすると、磁化の量子トンネル(QTM)が引き起こされ、磁化のダイナミクスに大きな影響を及ぼす。 慎重に調整された横磁場下でのFe原子鎖の磁化スイッチングを測定することで、磁気化寿命の非単調な変化を観測する。 DPの近傍では、QTMを引き起こす局所環境効果が効果的に抑制され、3桁の寿命が延長される。 原子間相互作用の調整はさらに複数のDPを促進する。 我々の研究は、DP近傍の量子力学をより深く理解し、量子磁石を設計する能力を高める。

Scaling magnets down to where quantum size effects become prominent triggers quantum tunneling of magnetization (QTM), profoundly influencing magnetization dynamics. Measuring magnetization switching in an Fe atomic chain under a carefully tuned transverse magnetic field, we observe a non-monotonic variation of magnetization lifetimes around a level crossing, known as the diabolic point (DP). Near DPs, local environment effects causing QTM are efficiently suppressed, enhancing lifetimes by three orders of magnitude. Adjusting interatomic interactions further facilitates multiple DPs. Our study provides a deeper understanding of quantum dynamics near DPs and enhances our ability to engineer a quantum magnet.
翻訳日:2024-07-04 17:54:48 公開日:2024-07-03
# MedVH:医学的文脈における大規模視覚言語モデルのための幻覚の体系的評価に向けて

MedVH: Towards Systematic Evaluation of Hallucination for Large Vision Language Models in the Medical Context ( http://arxiv.org/abs/2407.02730v1 )

ライセンス: Link先を確認
Zishan Gu, Changchang Yin, Fenglin Liu, Ping Zhang, (参考訳) LVLM(Large Vision Language Models)は、最近、自然画像やテキストデータにおける様々なタスクにおいて優れたパフォーマンスを達成し、LVLMの微調整と訓練のための大量の研究を刺激している。 それらの進歩にもかかわらず、より小さなデータセットで微調整された場合、幻覚に対するこれらのモデルの堅牢性について研究が続けられている。 本研究では,領域固有のLVLMの幻覚を評価するために,新しいベンチマークデータセットであるMedVH(MedVH)を導入する。 MedVHは、医学的文脈におけるLVLMの幻覚を評価する5つのタスクから構成される。 一般用LVLMと医療用LVLMの双方による広範な実験により、医療用LVLMは標準的な医療作業において有望な性能を示すが、幻覚の影響を受けやすいことが判明した。 医療用LVLMが現実世界の応用において真に有用であるためには、医療知識を正確に統合するだけでなく、幻覚予防のための堅牢な推論能力も維持する必要がある。 我々の研究はこれらの研究の今後の評価の道を開く。

Large Vision Language Models (LVLMs) have recently achieved superior performance in various tasks on natural image and text data, which inspires a large amount of studies for LVLMs fine-tuning and training. Despite their advancements, there has been scant research on the robustness of these models against hallucination when fine-tuned on smaller datasets. In this study, we introduce a new benchmark dataset, the Medical Visual Hallucination Test (MedVH), to evaluate the hallucination of domain-specific LVLMs. MedVH comprises five tasks to evaluate hallucinations in LVLMs within the medical context, which includes tasks for comprehensive understanding of textual and visual input, as well as long textual response generation. Our extensive experiments with both general and medical LVLMs reveal that, although medical LVLMs demonstrate promising performance on standard medical tasks, they are particularly susceptible to hallucinations, often more so than the general models, raising significant concerns about the reliability of these domain-specific models. For medical LVLMs to be truly valuable in real-world applications, they must not only accurately integrate medical knowledge but also maintain robust reasoning abilities to prevent hallucination. Our work paves the way for future evaluations of these studies.
翻訳日:2024-07-04 17:54:48 公開日:2024-07-03
# TxGraffitiによる人工知能と機械学習の予測

Artificial intelligence and machine learning generated conjectures with TxGraffiti ( http://arxiv.org/abs/2407.02731v1 )

ライセンス: Link先を確認
Randy Davila, (参考訳) \emph{TxGraffiti}は、数学における推論のタスクを自動化するために設計された、機械学習とヒューリスティックに基づく人工知能である。 誕生以来、TxGraffitiは多くの驚くべき予想が生まれ、尊敬すべき数学雑誌に掲載されている。 本稿では,TxGraffitiによる機械学習とヒューリスティック手法について概説する。 我々はまた、数学文学への貢献を思い出し、グラフ理論の予想を探求したい人なら誰でも利用できる新しいオンライン版のプログラムを発表した。

\emph{TxGraffiti} is a machine learning and heuristic based artificial intelligence designed to automate the task of conjecturing in mathematics. Since its inception, TxGraffiti has generated many surprising conjectures leading to publication in respectable mathematical journals. In this paper we outline the machine learning and heuristic techniques implemented by TxGraffiti. We also recall its contributions to the mathematical literature and announce a new online version of the program available for anyone curious to explore conjectures in graph theory.
翻訳日:2024-07-04 17:54:48 公開日:2024-07-03
# 事前学習型言語モデルを用いたクロスランゲージ・プロジェクト・バグ・ローカライゼーション支援

Supporting Cross-language Cross-project Bug Localization Using Pre-trained Language Models ( http://arxiv.org/abs/2407.02732v1 )

ライセンス: Link先を確認
Mahinthan Chandramohan, Dai Quoc Nguyen, Padmanabhan Krishnan, Jovan Jancic, (参考訳) 大規模なコードベース内でバグを自動的に特定することは、開発者にとっても大きな課題である。 既存のテクニックは、アプリケーション固有のデータと大きなモデルサイズに依存するため、一般化性とデプロイメントに苦労することが多い。 本稿では,プロジェクトと言語の境界を超越したバグローカライゼーションのための,PLMに基づく新しい言語モデルを提案する。 当社のアプローチでは,コントラスト学習を活用して,バグレポートやソースコードの表現を強化する。 次に、コミットメッセージとコードセグメントを組み合わせた、新しいランキングアプローチを利用する。 さらに,本研究では,実運用において,性能を損なうことなく,モデルサイズを削減できる知識蒸留技術を導入する。 本稿では,いくつかの重要な利点を示す。 コードセグメントとコミットメッセージ分析を従来のファイルレベルの検査と組み合わせることで、より優れたバグローカライズ精度を実現する。 さらに、我々のモデルは汎用性に優れており、様々なプロジェクトや言語のコードに基づいて訓練され、目に見えないコードベースのバグを効果的に特定できます。 計算の限界に対処するため、我々はCPU互換のソリューションを提案する。 基本的に、提案手法は、実世界の展開の可能性のある、非常に効果的で、一般化可能で、効率的なバグローカライゼーション技術である。

Automatically locating a bug within a large codebase remains a significant challenge for developers. Existing techniques often struggle with generalizability and deployment due to their reliance on application-specific data and large model sizes. This paper proposes a novel pre-trained language model (PLM) based technique for bug localization that transcends project and language boundaries. Our approach leverages contrastive learning to enhance the representation of bug reports and source code. It then utilizes a novel ranking approach that combines commit messages and code segments. Additionally, we introduce a knowledge distillation technique that reduces model size for practical deployment without compromising performance. This paper presents several key benefits. By incorporating code segment and commit message analysis alongside traditional file-level examination, our technique achieves better bug localization accuracy. Furthermore, our model excels at generalizability - trained on code from various projects and languages, it can effectively identify bugs in unseen codebases. To address computational limitations, we propose a CPU-compatible solution. In essence, proposed work presents a highly effective, generalizable, and efficient bug localization technique with the potential to real-world deployment.
翻訳日:2024-07-04 17:54:48 公開日:2024-07-03
# STRIDE:decompiled Executablesにおける単純な型認識

STRIDE: Simple Type Recognition In Decompiled Executables ( http://arxiv.org/abs/2407.02733v1 )

ライセンス: Link先を確認
Harrison Green, Edward J. Schwartz, Claire Le Goues, Bogdan Vasilescu, (参考訳) デコンパイラは、セキュリティ研究者や開発者が実行可能コードをリバースエンジニアリングするために広く使用されている。 現代の逆コンパイラは命令、制御フロー、関数境界の回復に適しているが、変数型や名前などのソースコードからの有用な情報は、コンパイルプロセス中に失われる。 我々の研究は、残りの情報からこれらの変数の型と名前を予測することを目的としている。 本稿では,トレーニングデータに記述されたデコンパイラトークンのシーケンスを一致させることで,変数名や型を予測する軽量な手法STRIDEを提案する。 3つのベンチマークデータセットで評価した結果、STRIDEは可変リタイピングとリネームの両方において、最先端の機械学習モデルに匹敵するパフォーマンスを達成し、よりシンプルで高速であることがわかった。 我々は,最近の2つのSOTA変換器モデルとの詳細な比較を行い,本手法を効果的にするための具体的な要因を解明した。 STRIDEを1000行未満のPythonで実装し、https://github.com/hgarrereyn/STRIDEでパーミッシブライセンスでオープンソース化しました。

Decompilers are widely used by security researchers and developers to reverse engineer executable code. While modern decompilers are adept at recovering instructions, control flow, and function boundaries, some useful information from the original source code, such as variable types and names, is lost during the compilation process. Our work aims to predict these variable types and names from the remaining information. We propose STRIDE, a lightweight technique that predicts variable names and types by matching sequences of decompiler tokens to those found in training data. We evaluate it on three benchmark datasets and find that STRIDE achieves comparable performance to state-of-the-art machine learning models for both variable retyping and renaming while being much simpler and faster. We perform a detailed comparison with two recent SOTA transformer-based models in order to understand the specific factors that make our technique effective. We implemented STRIDE in fewer than 1000 lines of Python and have open-sourced it under a permissive license at https://github.com/hgarrereyn/STRIDE.
翻訳日:2024-07-04 17:54:48 公開日:2024-07-03
# 有限時間量子三サイクルの性能最適化

Performance optimization of a finite-time quantum tricycle ( http://arxiv.org/abs/2407.02735v1 )

ライセンス: Link先を確認
Jingyi Chen, Shihao Xia, Jincan Chen, Shanhe Su, (参考訳) 有限時間外界駆動型量子三サイクルモデルを確立する。 緩やかな駆動摂動の枠組みの中では、時間的な力による熱の摂動膨張は熱交換の過程で引き起こされる。 ラグランジュ乗算器を用いた三輪車の冷却性能の最適化は, 性能係数と冷却速度の係数の積である冷却速度と性能の図形を客観的関数として考慮して行う。 以上の結果から,三輪車の最適動作領域が,効率のよい性能に光を放つことが明らかとなった。

We establish a finite-time external field-driven quantum tricycle model. Within the framework of slow driving perturbation, the perturbation expansion of heat in powers of time can be derived during the heat exchange processes. Employing the method of Lagrange multiplier, we optimize the cooling performance of the tricycle by considering the cooling rate and the figure of merit, which is the product of the coefficient of performance and cooling rate, as objective functions. Our findings reveal the optimal operating region of the tricycle, shedding light on its efficient performance.
翻訳日:2024-07-04 15:54:34 公開日:2024-07-03
# メンタルアゴラ:マルチエージェント議論と属性制御によるメンタルヘルスの高度パーソナライズドケアへの入り口

MentalAgora: A Gateway to Advanced Personalized Care in Mental Health through Multi-Agent Debating and Attribute Control ( http://arxiv.org/abs/2407.02736v1 )

ライセンス: Link先を確認
Yeonji Lee, Sangjun Park, Kyunghyun Cho, JinYeong Bak, (参考訳) メンタルヘルスの問題が世界中でエスカレートするにつれ、先進的なデジタルサポートシステムが必要である。 メンタルヘルス支援のための複数のエージェント間の相互作用によって強化された大規模言語モデルを用いた新しいフレームワークであるMentalAgoraを紹介する。 このフレームワークは、戦略的な議論、カウンセラー作成の調整、反応生成の3段階を通じて機能し、個々のユーザの好みと治療ニーズに基づいた反応の動的カスタマイズを可能にする。 我々は、メンタルヘルスの専門家による高品質な評価データセットAthedseTalkを用いた実験を行い、MentalAgoraが専門家に適応し、ユーザの嗜好を高める反応を生んでいることを証明した。 実験とユーザスタディを含む評価では、MentalAgoraが専門的な基準に適合し、ユーザの嗜好を効果的に満たし、デジタルメンタルヘルス介入のための新たなベンチマークを設定した。

As mental health issues globally escalate, there is a tremendous need for advanced digital support systems. We introduce MentalAgora, a novel framework employing large language models enhanced by interaction between multiple agents for tailored mental health support. This framework operates through three stages: strategic debating, tailored counselor creation, and response generation, enabling the dynamic customization of responses based on individual user preferences and therapeutic needs. We conduct experiments utilizing a high-quality evaluation dataset TherapyTalk crafted with mental health professionals, shwoing that MentalAgora generates expert-aligned and user preference-enhanced responses. Our evaluations, including experiments and user studies, demonstrate that MentalAgora aligns with professional standards and effectively meets user preferences, setting a new benchmark for digital mental health interventions.
翻訳日:2024-07-04 15:54:34 公開日:2024-07-03
# 急性感染症・敗血症の血液診断・予後診断のための機械学習分類器の開発

Development of Machine Learning Classifiers for Blood-based Diagnosis and Prognosis of Suspected Acute Infections and Sepsis ( http://arxiv.org/abs/2407.02737v1 )

ライセンス: Link先を確認
Ljubomir Buturovic, Michael Mayhew, Roland Luethy, Kirindi Choi, Uros Midic, Nandita Damaraju, Yehudit Hasin-Brumshtein, Amitesh Pratap, Rhys M. Adams, Joao Fonseca, Ambika Srinath, Paul Fleming, Claudia Pereira, Oliver Liesenfeld, Purvesh Khatri, Timothy Sweeney, (参考訳) 緊急部における急性感染症・敗血症の迅速かつ正確な診断・予後の医学的ニーズに機械学習を適用した。 我々のソリューションは、Mirna (TM) Instrument と組込み TriVerity (TM) 分類器からなる。 この装置は患者の血液中の29個のメッセンジャーRNAを計測し、その後機械学習の特徴として使用される。 本発明の分類器は、(1)細菌感染(2)ウイルス感染、(3)重症度(集中治療単位レベルケア)の別個の可能性を含む直感的な検査レポートに入力特徴を変換する。 AUROC = 0.83(細菌性、ウイルス性、非感染性)、AUROC = 0.77(重篤性二元性予後)を達成した。 マーナ・トリバーティ・システムはアメリカ合衆国食品医薬品局(FDA)によって画期的な装置に指定された。 学術研究のコンセプトを患者ケア改善を目的とした臨床製品に翻訳するために使用される、標準および新しい機械学習方法を教え、学習した教訓について議論する。

We applied machine learning to the unmet medical need of rapid and accurate diagnosis and prognosis of acute infections and sepsis in emergency departments. Our solution consists of a Myrna (TM) Instrument and embedded TriVerity (TM) classifiers. The instrument measures abundances of 29 messenger RNAs in patient's blood, subsequently used as features for machine learning. The classifiers convert the input features to an intuitive test report comprising the separate likelihoods of (1) a bacterial infection (2) a viral infection, and (3) severity (need for Intensive Care Unit-level care). In internal validation, the system achieved AUROC = 0.83 on the three-class disease diagnosis (bacterial, viral, or non-infected) and AUROC = 0.77 on binary prognosis of disease severity. The Myrna, TriVerity system was granted breakthrough device designation by the United States Food and Drug Administration (FDA). This engineering manuscript teaches the standard and novel machine learning methods used to translate an academic research concept to a clinical product aimed at improving patient care, and discusses lessons learned.
翻訳日:2024-07-04 15:54:34 公開日:2024-07-03
# ZEAL:Unified Foundation Modelを用いたゼロショットツール推論による外科的スキル評価

ZEAL: Surgical Skill Assessment with Zero-shot Tool Inference Using Unified Foundation Model ( http://arxiv.org/abs/2407.02738v1 )

ライセンス: Link先を確認
Satoshi Kondo, (参考訳) 外科的スキルアセスメントは、患者の安全を確保し、外科的成果を高めるために最重要である。 本研究は,ZEAL(Zero-shot surgery tool segmentation with a unifiEd foundAtion modeL)を導入することにより,効率的かつ客観的な評価方法の必要性に対処するものである。 ZEALは、熟練度評価のための統一基盤モデルを通じて得られた手術器具のセグメンテーションマスクを使用する。 テキストプロンプトによるゼロショット推論を通じて、ZEALはセグメンテーションマスクを予測し、楽器と周辺の両方の本質的な特徴を捉える。 スパース畳み込みニューラルネットワークとセグメンテーションマスクを利用して、ZEALは前景(施設)と背景の特徴ベクトルを抽出する。 長期記憶(LSTM)ネットワークは、時間力学を符号化し、手術ビデオのシーケンシャルデータと依存関係をモデル化する。 LSTM符号化ベクターを組み合わせることで、ZEALは手術スキルスコアを生成し、熟練度を客観的に測定する。 オープンデータセットを用いた従来の手法との比較分析は、ZEALの優位性を示し、手術訓練の進行と評価の可能性を実証している。 外科的スキルアセスメントに対するこの革新的なアプローチは、従来の教師あり学習技術における課題に対処し、外科的ケアの質と患者の成果を高めるための道を開く。

Surgical skill assessment is paramount for ensuring patient safety and enhancing surgical outcomes. This study addresses the need for efficient and objective evaluation methods by introducing ZEAL (surgical skill assessment with Zero-shot surgical tool segmentation with a unifiEd foundAtion modeL). ZEAL uses segmentation masks of surgical instruments obtained through a unified foundation model for proficiency assessment. Through zero-shot inference with text prompts, ZEAL predicts segmentation masks, capturing essential features of both instruments and surroundings. Utilizing sparse convolutional neural networks and segmentation masks, ZEAL extracts feature vectors for foreground (instruments) and background. Long Short-Term Memory (LSTM) networks encode temporal dynamics, modeling sequential data and dependencies in surgical videos. Combining LSTM-encoded vectors, ZEAL produces a surgical skill score, offering an objective measure of proficiency. Comparative analysis with conventional methods using open datasets demonstrates ZEAL's superiority, affirming its potential in advancing surgical training and evaluation. This innovative approach to surgical skill assessment addresses challenges in traditional supervised learning techniques, paving the way for enhanced surgical care quality and patient outcomes.
翻訳日:2024-07-04 15:54:34 公開日:2024-07-03
# Vecchia近似のためのGPUアルゴリズムの実装と解析

Implementation and Analysis of GPU Algorithms for Vecchia Approximation ( http://arxiv.org/abs/2407.02740v1 )

ライセンス: Link先を確認
Zachary James, Joseph Guinness, (参考訳) ガウス過程は空間統計学者のツールボックスに欠かせない部分となっているが、関連するモデルを正確に適合させるために必要なかなりの時間とメモリのため、大規模なデータセットの分析には適していない。 Vecchia Approximationは計算の複雑さを減らすために広く使われており、恥ずかしい並列アルゴリズムで計算することができる。 GpGp RパッケージのようなVecchia Approximation用のマルチコアソフトウェアが開発されているが、GPU上で動作するように設計されたソフトウェアは、統計学や機械学習においてGPUが大きな成功を収めたにもかかわらず、不足している。 我々は、GPU上でVecchia近似を実装する3つの異なる方法を比較した。 メモリタイプが性能に与える影響を調査し,それに応じて最終手法を最適化する。 我々の新しい手法は他の2つより優れており、GpGpU Rパッケージに表示されます。 GpGpUと既存のマルチコアおよびGPUアクセラレーションソフトウェアを比較し、ガウスプロセスモデルを様々なデータセットに組み込むことで、地球観測衛星から収集した大規模な時空間データセットを10^6$とした。 その結果,GpGpUはより高速な実行と予測精度の向上を実現していることがわかった。

Gaussian Processes have become an indispensable part of the spatial statistician's toolbox but are unsuitable for analyzing large dataset because of the significant time and memory needed to fit the associated model exactly. Vecchia Approximation is widely used to reduce the computational complexity and can be calculated with embarrassingly parallel algorithms. While multi-core software has been developed for Vecchia Approximation, such as the GpGp R package, software designed to run on graphics processing units (GPU) is lacking, despite the tremendous success GPUs have had in statistics and machine learning. We compare three different ways to implement Vecchia Approximation on a GPU: two of which are similar to methods used for other Gaussian Process approximations and one that is new. The impact of memory type on performance is investigated and the final method is optimized accordingly. We show that our new method outperforms the other two and then present it in the GpGpU R package. We compare GpGpU to existing multi-core and GPU-accelerated software by fitting Gaussian Process models on various datasets, including a large spatial-temporal dataset of $n>10^6$ points collected from an earth-observing satellite. Our results show that GpGpU achieves faster runtimes and better predictive accuracy.
翻訳日:2024-07-04 15:54:34 公開日:2024-07-03
# DSLコード生成の比較研究:細調整と検索の最適化

A Comparative Study of DSL Code Generation: Fine-Tuning vs. Optimized Retrieval Augmentation ( http://arxiv.org/abs/2407.02742v1 )

ライセンス: Link先を確認
Nastaran Bassamzadeh, Chhaya Methani, (参考訳) 自然言語からコード生成へ 近年,Large Language Models (LLMs) の出現により,大きな進歩を遂げている。 C、C++、Pythonといった汎用言語の生成は大幅に改善されているが、LLMはドメイン特化言語やDSLのカスタム関数名に悩まされている。 これは、特に多数のカスタム関数名を持つDSLに対して、高い幻覚率と構文エラーをもたらす。 さらに、LLMが最新の状態を維持する必要があるため、関数名への定期的な更新が課題を増す。 本稿では,レトリーバル拡張生成(RAG)とLLMを用いたDSL生成のための最適化と,これらの戦略を比較するアブレーション研究について述べる。 私たちは、約700のパブリックドメインのAPIにわたる自動化タスクを表現するために、DSLを使用したテストデータセットだけでなく、トレインも生成しました。 私たちはトレーニングデータセットを使用して、このDSLのCodexモデルを微調整しました。 その結果, コード類似度測定では, 微調整モデルが最も優れていた。 RAGの最適化により、類似度測定値のパリティを達成しました。 しかし、コンパイル率を見ると、どちらのモデルも構文の誤りを何度も経験しており、RAGベースのメソッドの方が2 ptsの方が優れていることがわかった。 逆に、RAGモデルの幻覚率は、API名に1pt、APIパラメータキーに2ptでラベル付けされている。 我々は、最適化されたRAGモデルが微調整されたモデルの品質と一致し、新しい、目に見えないAPIに利点をもたらすと結論付けている。

Natural Language to Code Generation has made significant progress in recent years with the advent of Large Language Models(LLMs). While generation for general-purpose languages like C, C++, and Python has improved significantly, LLMs struggle with custom function names in Domain Specific Languages or DSLs. This leads to higher hallucination rates and syntax errors, specially for DSLs having a high number of custom function names. Additionally, constant updates to function names add to the challenge as LLMs need to stay up-to-date. In this paper, we present optimizations for using Retrieval Augmented Generation (or RAG) with LLMs for DSL generation along with an ablation study comparing these strategies. We generated a train as well as test dataset with a DSL to represent automation tasks across roughly 700 APIs in public domain. We used the training dataset to fine-tune a Codex model for this DSL. Our results showed that the fine-tuned model scored the best on code similarity metric. With our RAG optimizations, we achieved parity for similarity metric. The compilation rate, however, showed that both the models still got the syntax wrong many times, with RAG-based method being 2 pts better. Conversely, hallucination rate for RAG model lagged by 1 pt for API names and by 2 pts for API parameter keys. We conclude that an optimized RAG model can match the quality of fine-tuned models and offer advantages for new, unseen APIs.
翻訳日:2024-07-04 15:54:34 公開日:2024-07-03
# 拡散モデルの入射神経表現誘導後サンプリングによる高加速度MRI

Highly Accelerated MRI via Implicit Neural Representation Guided Posterior Sampling of Diffusion Models ( http://arxiv.org/abs/2407.02744v1 )

ライセンス: Link先を確認
Jiayue Chu, Chenhe Du, Xiyue Lin, Yuyao Zhang, Hongjiang Wei, (参考訳) アンダーサンプリングされたk空間から高密度磁気共鳴(MR)像を再構成することは、スキャン時間を短縮するための一般的な戦略である。 実測データに基づく拡散モデルの後方サンプリングは、再構成精度を向上する大きな可能性を秘めている。 しかし、従来の後方サンプリング手法はデータ一貫性の効果的なガイダンスを欠くことが多く、不正確で不安定な再構築につながった。 Inlicit Neural representation (INR) は、信号の属性を空間座標の連続関数としてモデル化することで、逆問題を解決するための強力なパラダイムとして登場した。 本研究では,INR(DiffINR)を用いた拡散モデルのための新しい後部サンプリング手法を提案する。 INRベースのコンポーネントは拡散先行分布とMRI物理モデルの両方を組み込んで、高いデータ忠実性を保証する。 DiffINRは、高い加速係数(シングルチャネル再構成ではR=12まで)の下でも、顕著な精度で実験データセット上で優れた性能を示す。 特に,本提案フレームワークは,他の医療画像タスクにおける逆問題を解決するための一般化可能なフレームワークである。

Reconstructing high-fidelity magnetic resonance (MR) images from under-sampled k-space is a commonly used strategy to reduce scan time. The posterior sampling of diffusion models based on the real measurement data holds significant promise of improved reconstruction accuracy. However, traditional posterior sampling methods often lack effective data consistency guidance, leading to inaccurate and unstable reconstructions. Implicit neural representation (INR) has emerged as a powerful paradigm for solving inverse problems by modeling a signal's attributes as a continuous function of spatial coordinates. In this study, we present a novel posterior sampler for diffusion models using INR, named DiffINR. The INR-based component incorporates both the diffusion prior distribution and the MRI physical model to ensure high data fidelity. DiffINR demonstrates superior performance on experimental datasets with remarkable accuracy, even under high acceleration factors (up to R=12 in single-channel reconstruction). Notably, our proposed framework can be a generalizable framework to solve inverse problems in other medical imaging tasks.
翻訳日:2024-07-04 15:54:34 公開日:2024-07-03
# Curvature Clues: 入力損失曲線によるディープラーニングプライバシのデコード

Curvature Clues: Decoding Deep Learning Privacy with Input Loss Curvature ( http://arxiv.org/abs/2407.02747v1 )

ライセンス: Link先を確認
Deepak Ravikumar, Efstathia Soufleri, Kaushik Roy, (参考訳) 本稿では,深層ニューラルネットワークにおける入力データに対する損失曲率の特性について検討する。 入力に対する損失の曲率(所定入力損失曲率)は、入力に関する損失のヘシアンのトレースである。 列車とテストセット間の入力損失曲率の変化について検討し,それが列車-テストの識別性に与える影響について検討した。 我々は,プライバシとトレーニングセットのサイズに基づいて,列車試験の識別可能性の上限を導出する理論的枠組みを開発する。 この新たな洞察は、入力損失曲率を利用した新しいブラックボックスメンバーシップ推論攻撃の開発を促進する。 我々は,コンピュータビジョンの分類タスクにおける実験を通じて理論的知見を検証し,入力損失曲線が既存の会員推定手法を上回っていることを示す。 本分析は,MIA法の性能がトレーニングセットのサイズとどのように異なるかに注目し,曲率に基づくMIA法が十分に大きなデータセット上で他の手法より優れていることを示す。 この条件は、CIFAR10、CIFAR100、ImageNetで示されているように、実際のデータセットによって満たされることが多い。 これらの発見は、ディープニューラルネットワークの振る舞いに対する理解を深めるだけでなく、機械学習におけるプライバシ保護技術をテストする能力も向上する。

In this paper, we explore the properties of loss curvature with respect to input data in deep neural networks. Curvature of loss with respect to input (termed input loss curvature) is the trace of the Hessian of the loss with respect to the input. We investigate how input loss curvature varies between train and test sets, and its implications for train-test distinguishability. We develop a theoretical framework that derives an upper bound on the train-test distinguishability based on privacy and the size of the training set. This novel insight fuels the development of a new black box membership inference attack utilizing input loss curvature. We validate our theoretical findings through experiments in computer vision classification tasks, demonstrating that input loss curvature surpasses existing methods in membership inference effectiveness. Our analysis highlights how the performance of membership inference attack (MIA) methods varies with the size of the training set, showing that curvature-based MIA outperforms other methods on sufficiently large datasets. This condition is often met by real datasets, as demonstrated by our results on CIFAR10, CIFAR100, and ImageNet. These findings not only advance our understanding of deep neural network behavior but also improve the ability to test privacy-preserving techniques in machine learning.
翻訳日:2024-07-04 15:54:34 公開日:2024-07-03
# 削減学習:構造化データにおける大規模言語モデルの性能向上に向けて

Learning to Reduce: Towards Improving Performance of Large Language Models on Structured Data ( http://arxiv.org/abs/2407.02750v1 )

ライセンス: Link先を確認
Younghun Lee, Sungchul Kim, Ryan A. Rossi, Tong Yu, Xiang Chen, (参考訳) 大規模言語モデル(LLM)は、幅広い下流タスクにおいて有能なパフォーマンスを実現してきたが、既存の研究は、構造化データに対する推論がLLMにとって難しいことを示している。 これは、LLMが長い構造化データを理解するか、推論の前に最も関係のある証拠を選択する必要があるためであり、どちらのアプローチも自明ではないからである。 本稿では、オン・ポリシー・ラーニングを用いて言語モデルを微調整し、入力された構造化データの縮小版を生成するフレームワークであるLearning to Reduceを提案する。 GPT-4のような最先端のLLMと比較すると、Learning to Reduceは入力の削減において優れたパフォーマンスを達成するだけでなく、異なるデータセットに対する一般化性を示す。 さらに、我々のフレームワークで微調整されたモデルは、特にコンテキストが長い場合、LLMがテーブルQAタスクでより良く機能することを示します。

Large Language Models (LLMs) have been achieving competent performance on a wide range of downstream tasks, yet existing work shows that inference on structured data is challenging for LLMs. This is because LLMs need to either understand long structured data or select the most relevant evidence before inference, and both approaches are not trivial. This paper proposes a framework, Learning to Reduce, that fine-tunes a language model with On-Policy Learning to generate a reduced version of an input structured data. When compared to state-of-the-art LLMs like GPT-4, Learning to Reduce not only achieves outstanding performance in reducing the input, but shows generalizability on different datasets. We further show that the model fine-tuned with our framework helps LLMs better perform on table QA tasks especially when the context is longer.
翻訳日:2024-07-04 15:54:34 公開日:2024-07-03
# マルチモーダル会話における感情と感情の合同理解:ベンチマークデータセット

Emotion and Intent Joint Understanding in Multimodal Conversation: A Benchmarking Dataset ( http://arxiv.org/abs/2407.02751v1 )

ライセンス: Link先を確認
Rui Liu, Haolin Zuo, Zheng Lian, Xiaofen Xing, Björn W. Schuller, Haizhou Li, (参考訳) Emotion and Intent Joint Understanding in Multimodal Conversation (MC-EIU) は、感情と意図を同時に推定しながら、マルチモーダルな会話履歴に現れる意味情報を復号することを目的としている。 MC-EIUは多くのヒューマン・コンピュータ・インタフェースのテクノロジーを実現している。 しかし、アノテーション、モダリティ、言語の多様性、アクセシビリティの観点からは、利用可能なデータセットがない。 本研究では,7つの感情カテゴリ,9つの意図カテゴリ,3つのモダリティ,すなわちテキスト,音響,視覚的内容,および2つの言語,すなわち英語とマンダリンを特徴とするMC-EIUデータセットを提案する。 さらに、フリーアクセスのために完全にオープンソースである。 我々の知る限り、MC-EIUはマルチモーダル会話のための包括的でリッチな感情と意図的共同理解データセットとしては初めてのものである。 データセットの公開とともに、マルチモーダル会話における感情と意図の深い相関をモデル化し、参照システムとして感情と意図の相互作用(EI$^2$)ネットワークを開発する。 比較実験とアブレーション実験により,提案したEI$^2$法のMC-EIUデータセットに対する有効性を示す。 データセットとコードは、https://github.com/MC-EIU/MC-EIUで利用可能になる。

Emotion and Intent Joint Understanding in Multimodal Conversation (MC-EIU) aims to decode the semantic information manifested in a multimodal conversational history, while inferring the emotions and intents simultaneously for the current utterance. MC-EIU is enabling technology for many human-computer interfaces. However, there is a lack of available datasets in terms of annotation, modality, language diversity, and accessibility. In this work, we propose an MC-EIU dataset, which features 7 emotion categories, 9 intent categories, 3 modalities, i.e., textual, acoustic, and visual content, and two languages, i.e., English and Mandarin. Furthermore, it is completely open-source for free access. To our knowledge, MC-EIU is the first comprehensive and rich emotion and intent joint understanding dataset for multimodal conversation. Together with the release of the dataset, we also develop an Emotion and Intent Interaction (EI$^2$) network as a reference system by modeling the deep correlation between emotion and intent in the multimodal conversation. With comparative experiments and ablation studies, we demonstrate the effectiveness of the proposed EI$^2$ method on the MC-EIU dataset. The dataset and codes will be made available at: https://github.com/MC-EIU/MC-EIU.
翻訳日:2024-07-04 15:54:34 公開日:2024-07-03
# グラフによる表現学習の改善のための微分符号化

Differential Encoding for Improved Representation Learning over Graphs ( http://arxiv.org/abs/2407.02758v1 )

ライセンス: Link先を確認
Haimin Zhang, Jiahao Xia, Min Xu, (参考訳) メッセージパッシングパラダイムとグローバルアテンションメカニズムを組み合わせることは、グラフを学習するための効果的なフレームワークとして現れています。 メッセージパッシングパラダイムとグローバルアテンションメカニズムは、ノードの局所的近傍やグラフ全体から集約された情報に基づいて、ノード埋め込みを基本的に生成する。 最も基本的で一般的に使用される集約アプローチは、ノードの局所的な近傍やグラフ全体からの情報の総和を取ることである。 しかし、支配的な情報がノード自身からなのか、あるいはノードの隣人(あるいはグラフノードの残りの部分)からなのかは不明である。 したがって、埋め込み生成の各層に失われる情報が存在し、この失われた情報は蓄積され、モデルでより多くの層が使用されるとより深刻になる可能性がある。 本稿では,失った情報の問題に対処する差分符号化手法を提案する。 提案手法の考え方は,ノードの隣人(あるいはグラフノードの他の部分)の情報とノード自体の情報との差分表現を符号化することである。 得られた差分符号化は、元の集約されたローカルまたはグローバル表現と組み合わせて、更新されたノード埋め込みを生成する。 差分符号化を統合することにより、生成されたノード埋め込みの表現性が向上する。 差分符号化法は、7つのベンチマークデータセット上で異なるグラフタスクに対して実験的に評価する。 その結果、これらのデータセット上でのグラフ表現学習の最先端性能を向上させるため、メッセージパッシング更新とグローバルアテンション更新を改善した汎用手法であることが示唆された。

Combining the message-passing paradigm with the global attention mechanism has emerged as an effective framework for learning over graphs. The message-passing paradigm and the global attention mechanism fundamentally generate node embeddings based on information aggregated from a node's local neighborhood or from the whole graph. The most basic and commonly used aggregation approach is to take the sum of information from a node's local neighbourhood or from the whole graph. However, it is unknown if the dominant information is from a node itself or from the node's neighbours (or the rest of the graph nodes). Therefore, there exists information lost at each layer of embedding generation, and this information lost could be accumulated and become more serious when more layers are used in the model. In this paper, we present a differential encoding method to address the issue of information lost. The idea of our method is to encode the differential representation between the information from a node's neighbours (or the rest of the graph nodes) and that from the node itself. The obtained differential encoding is then combined with the original aggregated local or global representation to generate the updated node embedding. By integrating differential encodings, the representational ability of generated node embeddings is improved. The differential encoding method is empirically evaluated on different graph tasks on seven benchmark datasets. The results show that it is a general method that improves the message-passing update and the global attention update, advancing the state-of-the-art performance for graph representation learning on these datasets.
翻訳日:2024-07-04 15:54:34 公開日:2024-07-03
# 広告推薦システム最適化のためのマルチエージェント強化学習に基づくマルチシナリオ統合

Multi-Scenario Combination Based on Multi-Agent Reinforcement Learning to Optimize the Advertising Recommendation System ( http://arxiv.org/abs/2407.02759v1 )

ライセンス: Link先を確認
Yang Zhao, Chang Zhou, Jin Cao, Yi Zhao, Shaobo Liu, Chiyu Cheng, Xingchen Li, (参考訳) 本稿では,マルチエージェント強化学習(MARL)を用いた大規模プラットフォーム上でのマルチシナリオ最適化について検討する。 検索,レコメンデーション,広告といったシナリオを協調的かつ部分的に観察可能なマルチエージェント決定問題として扱うことで,この問題に対処する。 マルチエージェント・リカレント・Deterministic Policy Gradient (MARDPG) アルゴリズムを導入し,異なるシナリオを共通の目的の下に整列させ,戦略コミュニケーションによる全体的な性能向上を実現する。 その結果,クリックスルー率 (CTR) , コンバージョン率, 総販売数などの指標が有意に向上し, 実運用環境での有効性が確認された。

This paper explores multi-scenario optimization on large platforms using multi-agent reinforcement learning (MARL). We address this by treating scenarios like search, recommendation, and advertising as a cooperative, partially observable multi-agent decision problem. We introduce the Multi-Agent Recurrent Deterministic Policy Gradient (MARDPG) algorithm, which aligns different scenarios under a shared objective and allows for strategy communication to boost overall performance. Our results show marked improvements in metrics such as click-through rate (CTR), conversion rate, and total sales, confirming our method's efficacy in practical settings.
翻訳日:2024-07-04 15:54:34 公開日:2024-07-03
# SF-GNN:ディープグラフニューラルネットワークにおけるメッセージロスレス伝播のためのセルフフィルタ

SF-GNN: Self Filter for Message Lossless Propagation in Deep Graph Neural Network ( http://arxiv.org/abs/2407.02762v1 )

ライセンス: Link先を確認
Yushan Zhu, Wen Zhang, Yajing Xu, Zhen Yao, Mingyang Chen, Huajun Chen, (参考訳) グラフニューラルネットワーク(GNN)は,グラフの伝播と集約によるグラフ構造情報の符号化を主目的とし,急速に発展してきた。 等質グラフ、異質グラフ、知識グラフのようなより複雑なグラフなど、複数の種類のグラフの表現学習において優れた性能を発揮した。 しかし、単にGNNレイヤを積み重ねるだけでは、モデルの性能が向上せず、有害である可能性さえある。 深部GNNの性能劣化現象に対して,新しい視点を提案する。 オーバー・スムーシングやオーバー・スカッシングの一般的な説明とは異なり、メッセージの伝搬中に低品質なノード表現が干渉されることで問題が発生すると考える。 この問題に対処するために, 単純で汎用的な SF-GNN を提案する。 SF-GNNでは,各ノードに対する2つの表現を定義し,その1つはノード自体の特徴を表すノード表現であり,もう1つは隣接するノードにメッセージを伝達するためのメッセージ表現である。 自己フィルタモジュールはノード表現の品質を評価し、この品質評価に基づいてメッセージ伝搬に統合するかどうかを決定する。 同種グラフと異種グラフのノード分類タスクおよび知識グラフのリンク予測タスクの実験により,本手法が様々なGNNモデルに適用可能であることを示し,GNNの深い劣化に対処する上で,最先端のベースライン法より優れていることを示す。

Graph Neural Network (GNN), with the main idea of encoding graph structure information of graphs by propagation and aggregation, has developed rapidly. It achieved excellent performance in representation learning of multiple types of graphs such as homogeneous graphs, heterogeneous graphs, and more complex graphs like knowledge graphs. However, merely stacking GNN layers may not improve the model's performance and can even be detrimental. For the phenomenon of performance degradation in deep GNNs, we propose a new perspective. Unlike the popular explanations of over-smoothing or over-squashing, we think the issue arises from the interference of low-quality node representations during message propagation. We introduce a simple and general method, SF-GNN, to address this problem. In SF-GNN, we define two representations for each node, one is the node representation that represents the feature of the node itself, and the other is the message representation specifically for propagating messages to neighbor nodes. A self-filter module evaluates the quality of the node representation and decides whether to integrate it into the message propagation based on this quality assessment. Experiments on node classification tasks for both homogeneous and heterogeneous graphs, as well as link prediction tasks on knowledge graphs, demonstrate that our method can be applied to various GNN models and outperforms state-of-the-art baseline methods in addressing deep GNN degradation.
翻訳日:2024-07-04 15:54:34 公開日:2024-07-03
# ADFQ-ViT:視覚変換器のアクティベーション・ディストリビューション・フレンドリな後処理量子化

ADFQ-ViT: Activation-Distribution-Friendly Post-Training Quantization for Vision Transformers ( http://arxiv.org/abs/2407.02763v1 )

ライセンス: Link先を確認
Yanfeng Jiang, Ning Sun, Xueshuo Xie, Fei Yang, Tao Li, (参考訳) ビジョントランスフォーマー(ViT)は様々なコンピュータビジョンタスクにおいて例外的な性能を示し、そのパラメータサイズはメモリと計算の要求を大幅に増加させ、リソース制約のあるデバイスに対する効果的な推論を妨げている。 量子化はこれらの課題を軽減するための有望な解決策として現れてきたが、既存の手法は依然として低ビットでかなりの精度の損失を被っている。 この問題は、特に低ビットシナリオにおいて、従来のハードウェアフレンドリーな量子化器を非効率にするため、LayerNorm後およびGELU後のViT内でのアクティベーションの独特な分布に起因する。 この問題に対処するために,視覚変換器のアクティベーション・ディストリビューション・フレンドリなポストトレーニング量子化(ADFQ-ViT)という新しいフレームワークを提案する。 具体的には,Pper-Patch Outlier-aware Quantizerを導入し,LayerNorm後のアクティベーションにおける不規則なoutlierに対処する。 この量子化器は、均一な量子化器の粒度をパッチごとのレベルに洗練し、完全精度で閾値を超える最小限の値のサブセットを保持する。 正および負の領域間でのGELU後の活性化の非一様分布を扱うために、すべての要素を正の領域にシフトさせ、log2量子化を適用するShift-Log2 Quantizerを設計する。 さらに、各量子化器のパラメータを再構成して量子化誤差を緩和するアテンションスコア拡張モジュールワイズ最適化を提案する。 ADFQ-ViTは、画像分類、オブジェクト検出、および4ビットでのインスタンス分割タスクにおいて、様々なベースラインを大幅に改善する。 具体的には、ViT-Bモデルを4ビットに量子化すると、ImageNetデータセットのTop-1精度が10.23%向上する。

Vision Transformers (ViTs) have exhibited exceptional performance across diverse computer vision tasks, while their substantial parameter size incurs significantly increased memory and computational demands, impeding effective inference on resource-constrained devices. Quantization has emerged as a promising solution to mitigate these challenges, yet existing methods still suffer from significant accuracy loss at low-bit. We attribute this issue to the distinctive distributions of post-LayerNorm and post-GELU activations within ViTs, rendering conventional hardware-friendly quantizers ineffective, particularly in low-bit scenarios. To address this issue, we propose a novel framework called Activation-Distribution-Friendly post-training Quantization for Vision Transformers, ADFQ-ViT. Concretely, we introduce the Per-Patch Outlier-aware Quantizer to tackle irregular outliers in post-LayerNorm activations. This quantizer refines the granularity of the uniform quantizer to a per-patch level while retaining a minimal subset of values exceeding a threshold at full-precision. To handle the non-uniform distributions of post-GELU activations between positive and negative regions, we design the Shift-Log2 Quantizer, which shifts all elements to the positive region and then applies log2 quantization. Moreover, we present the Attention-score enhanced Module-wise Optimization which adjusts the parameters of each quantizer by reconstructing errors to further mitigate quantization error. Extensive experiments demonstrate ADFQ-ViT provides significant improvements over various baselines in image classification, object detection, and instance segmentation tasks at 4-bit. Specifically, when quantizing the ViT-B model to 4-bit, we achieve a 10.23% improvement in Top-1 accuracy on the ImageNet dataset.
翻訳日:2024-07-04 15:54:34 公開日:2024-07-03
# Graphon Particle Systems, Part II: Distributed Stochastic Continuum Optimizationのダイナミクス

Graphon Particle Systems, Part II: Dynamics of Distributed Stochastic Continuum Optimization ( http://arxiv.org/abs/2407.02765v1 )

ライセンス: Link先を確認
Yan Chen, Tao Li, (参考訳) ノード数が無限になるにつれて、分散ネットワーク最適化の限界と見なされるノードの連続体を持つグラフオン上での分散最適化問題について検討する。 各ノードは、プライベートなローカルコスト関数を持つ。 すべてのノードが協力的に最小となるグローバルコスト関数は、ノードセット上の局所コスト関数の積分である。 グラフオン上での確率的勾配勾配勾配と勾配追跡アルゴリズムを提案する。 我々は、負の線形項を持つ時間変化微分不等式のクラスに関連する上限推定の一般補題を確立し、このクラスに基づいて、両方の種類のアルゴリズムに対して、ノードの状態の2番目のモーメントが一様有界であることを証明した。 特に、確率勾配追跡アルゴリズムでは、収束解析を時間変化係数と結合した非線形微分不等式の漸近特性に変換し、デカップリング法を開発する。 どちらのアルゴリズムに対しても、時間変化のアルゴリズムを適切に選択することで、すべてのノードの状態が連結グラフロンに対して$\mathcal{L}^{\infty}$-consensusが得られることを示す。 さらに、局所的なコスト関数が強凸であれば、全てのノードの状態は大域的なコスト関数の最小値に収束し、確率勾配追跡アルゴリズムの補助状態は小域的な平均平方における大域的なコスト関数の勾配値に収束する。

We study the distributed optimization problem over a graphon with a continuum of nodes, which is regarded as the limit of the distributed networked optimization as the number of nodes goes to infinity. Each node has a private local cost function. The global cost function, which all nodes cooperatively minimize, is the integral of the local cost functions on the node set. We propose stochastic gradient descent and gradient tracking algorithms over the graphon. We establish a general lemma for the upper bound estimation related to a class of time-varying differential inequalities with negative linear terms, based upon which, we prove that for both kinds of algorithms, the second moments of the nodes' states are uniformly bounded. Especially, for the stochastic gradient tracking algorithm, we transform the convergence analysis into the asymptotic property of coupled nonlinear differential inequalities with time-varying coefficients and develop a decoupling method. For both kinds of algorithms, we show that by choosing the time-varying algorithm gains properly, all nodes' states achieve $\mathcal{L}^{\infty}$-consensus for a connected graphon. Furthermore, if the local cost functions are strongly convex, then all nodes' states converge to the minimizer of the global cost function and the auxiliary states in the stochastic gradient tracking algorithm converge to the gradient value of the global cost function at the minimizer uniformly in mean square.
翻訳日:2024-07-04 15:54:34 公開日:2024-07-03
# 患者プライバシと健康データセキュリティのバランス:保護された健康情報(PHI)共有におけるコンプライアンスの役割

Balancing Patient Privacy and Health Data Security: The Role of Compliance in Protected Health Information (PHI) Sharing ( http://arxiv.org/abs/2407.02766v1 )

ライセンス: Link先を確認
Md Al Amin, Hemanth Tummala, Rushabh Shah, Indrajit Ray, (参考訳) 保護された健康情報(PHI)の共有は、患者のケアの質とコーディネーションを著しく向上させ、より正確な診断、効率的な治療計画、患者の歴史の包括的理解に寄与する。 HIPAAのような法律で要求されるような厳格なプライバシーとセキュリティポリシーへのコンプライアンスは、PHIを保護するために重要である。 分散型で曖昧な台帳システムを提供するブロックチェーン技術は、ポリシーコンプライアンスを約束する。 本システムは,患者の同意管理を促進しつつ,PHIの信頼性と整合性を確保する。 本研究では、スマートコントラクトを統合し、同意関連プロセスを部分的に自動化し、PHIへのアクセスと共有が患者の好みや法的要件に従っていることを保証するブロックチェーン技術を提案する。

Protected Health Information (PHI) sharing significantly enhances patient care quality and coordination, contributing to more accurate diagnoses, efficient treatment plans, and a comprehensive understanding of patient history. Compliance with strict privacy and security policies, such as those required by laws like HIPAA, is critical to protect PHI. Blockchain technology, which offers a decentralized and tamper-evident ledger system, hold promise in policy compliance. This system ensures the authenticity and integrity of PHI while facilitating patient consent management. In this work, we propose a blockchain technology that integrates smart contracts to partially automate consent-related processes and ensuring that PHI access and sharing follow patient preferences and legal requirements.
翻訳日:2024-07-04 15:44:50 公開日:2024-07-03
# 弱教師付きセマンティックセグメンテーションのためのシミュレーション画像間消去による知識伝達

Knowledge Transfer with Simulated Inter-Image Erasing for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2407.02768v1 )

ライセンス: Link先を確認
Tao Chen, XiRuo Jiang, Gensheng Pei, Zeren Sun, Yucheng Wang, Yazhou Yao, (参考訳) 敵の消去は、統合対象領域の活性化を支援するために弱教師付きセマンティックセグメンテーションにおいて普及しているが、既存のアプローチは、いつ消去を止めるかを決めるのが難しいため、不活性化と過膨張のジレンマに悩まされている。 本稿では、上記の問題を緩和するために、弱教師付きセマンティックセマンティックセマンティックセグメンテーション(英語版) (KTSE) を用いた \textbf{K}nowledge \textbf{T}ransfer with \textbf{S}imulated Inter- Image \textbf{E}rasing (KTSE) アプローチを提案する。 物体発見のための識別的部分を除去する既存の消去法とは対照的に,画像間消去を模擬し,余分な物体情報を導入して元の活性化を弱める手法を提案する。 そして、オブジェクト知識をアンカー画像から、その結果として活性化されていないローカライゼーションマップに転送して、ネットワークローカライゼーション能力を強化する。 適応された双方向アライメントは、適切な制約がない場合もアンカー画像のアクティベーションを弱めることを考慮し、識別領域における信頼性の高いアクティベーションを維持し、複数のカテゴリのオブジェクトを含む複雑な画像に対するクラス間オブジェクト境界認識を改善する自己教師付き正規化モジュールを提案する。 さらに,画像内消去を活用し,オブジェクトのアクティベーションを優しく拡大し,オブジェクトの知識伝達を促進する多粒性アライメントモジュールを提案する。 PASCAL VOC 2012とCOCOデータセットの大規模な実験とアブレーション研究により,提案手法の優位性を示した。 ソースコードとモデルはhttps://github.com/NUST-Machine-Intelligence-Laboratory/KTSEで入手できる。

Though adversarial erasing has prevailed in weakly supervised semantic segmentation to help activate integral object regions, existing approaches still suffer from the dilemma of under-activation and over-expansion due to the difficulty in determining when to stop erasing. In this paper, we propose a \textbf{K}nowledge \textbf{T}ransfer with \textbf{S}imulated Inter-Image \textbf{E}rasing (KTSE) approach for weakly supervised semantic segmentation to alleviate the above problem. In contrast to existing erasing-based methods that remove the discriminative part for more object discovery, we propose a simulated inter-image erasing scenario to weaken the original activation by introducing extra object information. Then, object knowledge is transferred from the anchor image to the consequent less activated localization map to strengthen network localization ability. Considering the adopted bidirectional alignment will also weaken the anchor image activation if appropriate constraints are missing, we propose a self-supervised regularization module to maintain the reliable activation in discriminative regions and improve the inter-class object boundary recognition for complex images with multiple categories of objects. In addition, we resort to intra-image erasing and propose a multi-granularity alignment module to gently enlarge the object activation to boost the object knowledge transfer. Extensive experiments and ablation studies on PASCAL VOC 2012 and COCO datasets demonstrate the superiority of our proposed approach. Source codes and models are available at https://github.com/NUST-Machine-Intelligence-Laboratory/KTSE.
翻訳日:2024-07-04 15:44:50 公開日:2024-07-03
# モダリティ非適応型ファイングラインドシーン画像分類

Fine-Grained Scene Image Classification with Modality-Agnostic Adapter ( http://arxiv.org/abs/2407.02769v1 )

ライセンス: Link先を確認
Yiqun Wang, Zhao Zhou, Xiangcheng Du, Xingjiao Wu, Yingbin Zheng, Cheng Jin, (参考訳) 微粒なシーン画像分類の課題に対処するにあたっては、これまでのほとんどの研究は、マルチモーダルな特徴融合を行う際に、グローバルな視覚的特徴に重点を置いていた。 言い換えれば、モデルは異なるモダリティの重要性に関する事前の直観に基づいて意図的に設計される。 本稿では,MAA(Modality-Agnostic Adapter)と呼ばれる新しいマルチモーダル特徴融合手法を提案する。 具体的には,分散のモーダル差を排除し,意味レベルの特徴融合のためにモダリティに依存しないトランスフォーマーエンコーダを使用する。 実験により,MAAは従来の手法と同一のモーダル性を適用することで,ベンチマーク上での最先端の結果が得られることを示した。 さらに、MAAを使用すると新しいモダリティが簡単に追加でき、パフォーマンスがさらに向上する点にも注意が必要だ。 コードはhttps://github.com/quniLcs/MAA.comで入手できる。

When dealing with the task of fine-grained scene image classification, most previous works lay much emphasis on global visual features when doing multi-modal feature fusion. In other words, models are deliberately designed based on prior intuitions about the importance of different modalities. In this paper, we present a new multi-modal feature fusion approach named MAA (Modality-Agnostic Adapter), trying to make the model learn the importance of different modalities in different cases adaptively, without giving a prior setting in the model architecture. More specifically, we eliminate the modal differences in distribution and then use a modality-agnostic Transformer encoder for a semantic-level feature fusion. Our experiments demonstrate that MAA achieves state-of-the-art results on benchmarks by applying the same modalities with previous methods. Besides, it is worth mentioning that new modalities can be easily added when using MAA and further boost the performance. Code is available at https://github.com/quniLcs/MAA.
翻訳日:2024-07-04 15:44:50 公開日:2024-07-03
# 大規模言語モデル,物理に基づくモデリング,実験計測--高分子物性のデータ・スカース学習のトリニティ

Large language models, physics-based modeling, experimental measurements: the trinity of data-scarce learning of polymer properties ( http://arxiv.org/abs/2407.02770v1 )

ライセンス: Link先を確認
Ning Liu, Siavash Jafarzadeh, Brian Y. Lattimer, Shuna Ni, Jim Lua, Yue Yu, (参考訳) 大規模言語モデル(LLM)は、評価、分析、設計のための高速で正確な物質モデリングパラダイムとして約束される。 その膨大な数のトレーニング可能なパラメータは、正確性を達成し、過度な適合を緩和するために、豊富なデータを必要とする。 しかし、実験的な測定はしばしば、微調整に十分な量のものを得るために制限されコストがかかる。 この目的のために,データ不足の病理に対処する物理ベースのトレーニングパイプラインを提案する。 コアイネーブラーは物理に基づくモデリングフレームワークであり、微調整前にLLMを物理的に一貫した初期状態に整合させるために、多数の合成データを生成する。 筆者らのフレームワークは,(1)大規模で精度の低い合成データを教師付きプレトレーニングに活用し,(2)限られた実験データでフェーズ1モデルを微調整する,という2段階の訓練戦略を特徴としている。 コーンカロリーデータが少ないポリマー可燃性測定値の学習レンズを用いて, 精密微調整LDMを得るためには, 教師付きプレトレーニングが不可欠であることを実証的に実証した。

Large language models (LLMs) bear promise as a fast and accurate material modeling paradigm for evaluation, analysis, and design. Their vast number of trainable parameters necessitates a wealth of data to achieve accuracy and mitigate overfitting. However, experimental measurements are often limited and costly to obtain in sufficient quantities for finetuning. To this end, we present a physics-based training pipeline that tackles the pathology of data scarcity. The core enabler is a physics-based modeling framework that generates a multitude of synthetic data to align the LLM to a physically consistent initial state before finetuning. Our framework features a two-phase training strategy: (1) utilizing the large-in-amount while less accurate synthetic data for supervised pretraining, and (2) finetuning the phase-1 model with limited experimental data. We empirically demonstrate that supervised pretraining is vital to obtaining accurate finetuned LLMs, via the lens of learning polymer flammability metrics where cone calorimeter data is sparse.
翻訳日:2024-07-04 15:44:50 公開日:2024-07-03
# 一般化ニュートン法による勾配自動降下

Automatic gradient descent with generalized Newton's method ( http://arxiv.org/abs/2407.02772v1 )

ライセンス: Link先を確認
Zhiqi Bu, Shiyun Xu, (参考訳) 一般化されたニュートン法(GeN)は、SGDやAdamのような任意の最適化手法に適用可能なヘシアンインフォームドアプローチであり、ニュートン・ラフソン法をサブケースとしてカバーする。 本手法は,学習率スケジューラを集中的に調整することなく,収束を加速する学習率を自動的に動的に選択する。 実際にoutメソッドは、多くのイテレーションでオーバーヘッドが償却される場合、(トレーニング時間とメモリコストの観点から)ほぼゼロの計算オーバーヘッドを持つ追加のフォワードパスしか必要としないため、容易に実装できる。 言語および視覚タスク(例えばGPTやResNet)に関する広範な実験を行い、GeN最適化が最先端のパフォーマンスと一致していることを示し、注意深く調整された学習率スケジューラを用いて達成した。 コードは \url{https://github.com/ShiyunXu/AutoGeN} でリリースされる。

We propose the generalized Newton's method (GeN) -- a Hessian-informed approach that applies to any optimizer such as SGD and Adam, and covers the Newton-Raphson method as a sub-case. Our method automatically and dynamically selects the learning rate that accelerates the convergence, without the intensive tuning of the learning rate scheduler. In practice, out method is easily implementable, since it only requires additional forward passes with almost zero computational overhead (in terms of training time and memory cost), if the overhead is amortized over many iterations. We present extensive experiments on language and vision tasks (e.g. GPT and ResNet) to showcase that GeN optimizers match the state-of-the-art performance, which was achieved with carefully tuned learning rate schedulers. Code to be released at \url{https://github.com/ShiyunXu/AutoGeN}.
翻訳日:2024-07-04 15:44:50 公開日:2024-07-03
# ポーラスフリーダイナミックレンジを有する量子マイクロ波フォトニックミキサー

Quantum microwave photonic mixer with a large spurious-free dynamic range ( http://arxiv.org/abs/2407.02774v1 )

ライセンス: Link先を確認
Xinghua Li, Yifan Guo, Xiao Xiang, Runai Quan, Mingtao Cao, Ruifang Dong, Tao Liu, Ming Li, Shougang Zhang, (参考訳) マイクロ波フォトニクスの最も基本的な機能の一つとして、現代のレーダーや無線通信システムにおいてマイクロ波の周波数混合が重要な役割を担っている。 しかし、システムで一般的に利用される強度変調は、多くの追従用途に不適切な無刺激ダイナミックレンジ(SFDR)をもたらすことが多い。 量子マイクロ波フォトニクス技術は、高次高調波歪みの観点からSFDRを改善するための有望なソリューションを提供する。 本稿では,量子マイクロ波フォトニックミキサーの2種類の強度変調器(カスケード型,並列型)について述べる。 非局所RF信号符号化機能を活用することで、両タイプの量子マイクロ波フォトニックミキサーは二重チャネル出力の利点を示すだけでなく、SFDRの大幅な改善を示す。 具体的には、並列型量子マイクロ波フォトニックミキサーは、カスケード型量子マイクロ波フォトニックミキサーよりも30dBの113.6dB.Hz1/2の顕著なSFDR値を達成する。 古典的なマイクロ波フォトニックミキサーと比較すると、8dB変換損失を犠牲にして53.6dBに達する。 これらの結果は、マイクロ波およびミリ波系の分野における量子マイクロ波フォトニックミキサーの優位性を強調した。 さらに、光キャリアとして多光子周波数の絡み合ったソースを適用することにより、量子マイクロ波フォトニックミキサーによって得られるデュアルチャネルマイクロ波周波数変換能力を拡張し、レーダネットシステムに不可欠なマルチパスマイクロ波ミキシングの性能を高めることができる。

As one of the most fundamental functionalities of microwave photonics, microwave frequency mixing plays an essential role in modern radars and wireless communication systems. However, the commonly utilized intensity modulation in the systems often leads to inadequate spurious-free dynamic range (SFDR) for many sought-after applications. Quantum microwave photonics technique offers a promising solution for improving SFDR in terms of higher-order harmonic distortion. In this paper, we demonstrate two types of quantum microwave photonic mixers based on the configuration of the intensity modulators: cascade-type and parallel-type. Leveraging the nonlocal RF signal encoding capability, both types of quantum microwave photonic mixers not only exhibit the advantage of dual-channel output but also present significant improvement in SFDR. Specifically, the parallel-type quantum microwave photonic mixer achieves a remarkable SFDR value of 113.6 dB.Hz1/2, which is 30 dB better than that of the cascade-type quantum microwave photonic mixer. When compared to the classical microwave photonic mixer, this enhancement reaches a notable 53.6 dB at the expense of 8 dB conversion loss. These results highlight the superiority of quantum microwave photonic mixers in the fields of microwave and millimeter-wave systems. Further applying multi-photon frequency entangled sources as optical carriers, the dual-channel microwave frequency conversion capability endowed by the quantum microwave photonic mixer can be extended to enhance the performance of multiple-paths microwave mixing which is essential for radar net systems.
翻訳日:2024-07-04 15:44:50 公開日:2024-07-03
# MLKD-BERT:事前学習言語モデルのための多段階知識蒸留

MLKD-BERT: Multi-level Knowledge Distillation for Pre-trained Language Models ( http://arxiv.org/abs/2407.02775v1 )

ライセンス: Link先を確認
Ying Zhang, Ziheng Yang, Shufan Ji, (参考訳) 知識蒸留は事前訓練された言語モデル圧縮に有効な手法である。 既存の知識蒸留法は,最も典型的なBERTでは良好に機能するが,関係レベルの知識はモデル性能を改善するためにさらに検討され,学生の注意数の設定は推論時間を短縮するために柔軟である。 そこで我々は,教師・学生の枠組みで多段階の知識を蒸留する新しい知識蒸留手法MLKD-BERTを提案する。 GLUEベンチマークと抽出質問応答タスクの大規模な実験により,本手法がBERTの最先端知識蒸留法より優れていることが示された。 さらに、MLKD-BERTは、生徒の注意番号を柔軟に設定でき、性能低下を少なく抑えることができる。

Knowledge distillation is an effective technique for pre-trained language model compression. Although existing knowledge distillation methods perform well for the most typical model BERT, they could be further improved in two aspects: the relation-level knowledge could be further explored to improve model performance; and the setting of student attention head number could be more flexible to decrease inference time. Therefore, we are motivated to propose a novel knowledge distillation method MLKD-BERT to distill multi-level knowledge in teacher-student framework. Extensive experiments on GLUE benchmark and extractive question answering tasks demonstrate that our method outperforms state-of-the-art knowledge distillation methods on BERT. In addition, MLKD-BERT can flexibly set student attention head number, allowing for substantial inference time decrease with little performance drop.
翻訳日:2024-07-04 15:44:50 公開日:2024-07-03
# 密度写像を用いた量子有限状態言語のためのフレームワーク

A Framework for Quantum Finite-State Languages with Density Mapping ( http://arxiv.org/abs/2407.02776v1 )

ライセンス: Link先を確認
SeungYeop Baik, Sicheol Sung, Yo-Sub Han, (参考訳) 量子有限状態オートマトン(Quantum finite-state Automaticon, QFA)は、連続的な入力文字列に対応する有限メモリを持つ量子系の進化をシミュレートする理論モデルである。 我々は、QFAの言語を、初期状態から処理されたときに、QFAを受け入れ状態に導く文字列の集合として定義する。 QFAは、量子コンピューティングが古典的コンピューティングよりも高い効率を達成することを実証している。 最も単純な量子モデルの一つではあるが、QFAは、オートマトン上のユニタリ制約を重畳するために必要な量子力学の予備知識のため、スクラッチから構築することが依然として困難である。 さらに、QFAが正しく組み立てられたとしても、現在の量子コンピュータの限界は、組み立てられたQFAが量子回路にどのように変換されるかによってシミュレーション結果の変動を引き起こす可能性がある。 本稿では,QFAを構築し,シミュレーション精度を最大化するための,シンプルで直感的な方法を提供するフレームワークを提案する。 まず、特別な言語MODとEQUを認識する基礎的なQFAの構成を提供する。 彼らはより複雑なQFAのための基本的なビルディングブロックの役割を担っている。 言い換えれば、これらの基礎的オートマトンから標準言語操作を用いてより複雑なQFAを得ることができる。 第2に、これらのQFAを量子回路に変換し、その結果の回路がノイズの多い量子コンピュータ上で良好に動作するようにすることで、シミュレーション精度を向上させる。 私たちのフレームワークはhttps://github.com/sybaik1/qfa-toolkit.comで利用可能です。

A quantum finite-state automaton (QFA) is a theoretical model designed to simulate the evolution of a quantum system with finite memory in response to sequential input strings. We define the language of a QFA as the set of strings that lead the QFA to an accepting state when processed from its initial state. QFAs exemplify how quantum computing can achieve greater efficiency compared to classical computing. While being one of the simplest quantum models, QFAs are still notably challenging to construct from scratch due to the preliminary knowledge of quantum mechanics required for superimposing unitary constraints on the automata. Furthermore, even when QFAs are correctly assembled, the limitations of a current quantum computer may cause fluctuations in the simulation results depending on how an assembled QFA is translated into a quantum circuit. We present a framework that provides a simple and intuitive way to build QFAs and maximize the simulation accuracy. Our framework relies on two methods: First, it offers a predefined construction for foundational types of QFAs that recognize special languages MOD and EQU. They play a role of basic building blocks for more complex QFAs. In other words, one can obtain more complex QFAs from these foundational automata using standard language operations. Second, we improve the simulation accuracy by converting these QFAs into quantum circuits such that the resulting circuits perform well on noisy quantum computers. Our framework is available at https://github.com/sybaik1/qfa-toolkit.
翻訳日:2024-07-04 15:44:50 公開日:2024-07-03
# 雑音ラベルを用いた学習におけるフォスター適応性とバランス

Foster Adaptivity and Balance in Learning with Noisy Labels ( http://arxiv.org/abs/2407.02778v1 )

ライセンス: Link先を確認
Mengmeng Sheng, Zeren Sun, Tao Chen, Shuchao Pang, Yucheng Wang, Yazhou Yao, (参考訳) ラベルノイズは現実世界のシナリオではユビキタスであり、ディープニューラルネットワークの一般化性能を損なう効果があるため、教師付きモデルに実践的な課題をもたらす。 既存の方法は、主にサンプル選択パラダイムを使用し、通常、ラベルノイズに対処するためにデータセットに依存した事前知識(定義済みのしきい値)に依存し、必然的に適応性を低下させる。 さらに、既存のメソッドは、サンプルを選択する際にクラスバランスを無視する傾向があり、モデルのパフォーマンスにバイアスがかかる。 そこで本研究では, ラベルノイズに対処する単純なアプローチである「textbf{SED}」を提案し, 「textbf{S}elf-adaptiv\textbf{E}」と「class- Balance\textbf{D}」の手法を提案する。 具体的には、まず、クリーンでノイズの多いデータを特定する際に、自己適応性とクラスバランスを高めるための新しいサンプル選択戦略を設計する。 平均教師モデルは、ノイズの多いサンプルのラベルを修正するために使用される。 そこで本研究では,検出した雑音に異なる重みを割り当てる自己適応型およびクラスバランスのサンプル再重み付け機構を提案する。 最後に、モデル一般化性能を向上させるために、選択したクリーンサンプルに対して整合正則化を適用する。 合成および実世界のデータセットに対する大規模な実験結果から,提案手法の有効性と優位性を実証した。 ソースコードはhttps://github.com/NUST-Machine-Intelligence-Laboratory/SEDで公開されている。

Label noise is ubiquitous in real-world scenarios, posing a practical challenge to supervised models due to its effect in hurting the generalization performance of deep neural networks. Existing methods primarily employ the sample selection paradigm and usually rely on dataset-dependent prior knowledge (\eg, a pre-defined threshold) to cope with label noise, inevitably degrading the adaptivity. Moreover, existing methods tend to neglect the class balance in selecting samples, leading to biased model performance. To this end, we propose a simple yet effective approach named \textbf{SED} to deal with label noise in a \textbf{S}elf-adaptiv\textbf{E} and class-balance\textbf{D} manner. Specifically, we first design a novel sample selection strategy to empower self-adaptivity and class balance when identifying clean and noisy data. A mean-teacher model is then employed to correct labels of noisy samples. Subsequently, we propose a self-adaptive and class-balanced sample re-weighting mechanism to assign different weights to detected noisy samples. Finally, we additionally employ consistency regularization on selected clean samples to improve model generalization performance. Extensive experimental results on synthetic and real-world datasets demonstrate the effectiveness and superiority of our proposed method. The source code has been made available at https://github.com/NUST-Machine-Intelligence-Laboratory/SED.
翻訳日:2024-07-04 15:44:50 公開日:2024-07-03
# Croppable Knowledge Graph Embedding

Croppable Knowledge Graph Embedding ( http://arxiv.org/abs/2407.02779v1 )

ライセンス: Link先を確認
Yushan Zhu, Wen Zhang, Zhiqiang Liu, Mingyang Chen, Lei Liang, Huajun Chen, (参考訳) 知識グラフ埋め込み(英: Knowledge Graph Embedding、略称:KGE)は、知識グラフ(英: Knowledge Graphs、略称:KG)の一般的な手法である。 埋め込みの適切な次元は、特定のアプリケーションシナリオのストレージと計算条件に依存する。 新しい次元が必要になったら、新しいKGEモデルをスクラッチからトレーニングする必要がある。 そこで本研究では,異なる次元条件の複数のシナリオに適用可能なKGEモデルを一度トレーニングすることで,必要な次元のサブモデルを抽出し,追加のトレーニングなしで直接使用することが可能な,新しいKGEトレーニングフレームワークMEDを提案する。 MEDでは,低次元サブモデルの性能を向上させるための相互学習機構を提案し,低次元サブモデルが持つ能力を維持するための高次元サブモデル,低次元サブモデルが学習できないという知識を習得するための高次元サブモデルを促進する進化的改善機構,複数の損失を適応的にバランスさせる動的損失重みを提案する。 4つの標準KGコンプリートデータセット上での3つのKGEモデルの実験、実世界の大規模KG上での3つの実アプリケーションシナリオの実験、および言語モデルBERTへのMEDの拡張実験は、MEDの有効性、高効率、柔軟な拡張性を示している。

Knowledge Graph Embedding (KGE) is a common method for Knowledge Graphs (KGs) to serve various artificial intelligence tasks. The suitable dimensions of the embeddings depend on the storage and computing conditions of the specific application scenarios. Once a new dimension is required, a new KGE model needs to be trained from scratch, which greatly increases the training cost and limits the efficiency and flexibility of KGE in serving various scenarios. In this work, we propose a novel KGE training framework MED, through which we could train once to get a croppable KGE model applicable to multiple scenarios with different dimensional requirements, sub-models of the required dimensions can be cropped out of it and used directly without any additional training. In MED, we propose a mutual learning mechanism to improve the low-dimensional sub-models performance and make the high-dimensional sub-models retain the capacity that low-dimensional sub-models have, an evolutionary improvement mechanism to promote the high-dimensional sub-models to master the knowledge that the low-dimensional sub-models can not learn, and a dynamic loss weight to balance the multiple losses adaptively. Experiments on 3 KGE models over 4 standard KG completion datasets, 3 real application scenarios over a real-world large-scale KG, and the experiments of extending MED to the language model BERT show the effectiveness, high efficiency, and flexible extensibility of MED.
翻訳日:2024-07-04 15:44:50 公開日:2024-07-03
# 52Bから1T:Tele-FLMシリーズで学んだ教訓

52B to 1T: Lessons Learned via Tele-FLM Series ( http://arxiv.org/abs/2407.02783v1 )

ライセンス: Link先を確認
Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Chao Wang, Xinzhang Liu, Zihan Wang, Yu Zhao, Xin Wang, Yuyao Huang, Shuangyong Song, Yongxiang Li, Zheng Zhang, Bo Zhao, Aixin Sun, Yequan Wang, Zhongjiang He, Zhongyuan Wang, Xuelong Li, Tiejun Huang, (参考訳) 大規模言語モデル(LLM)は、人工知能への重要な一歩である。 スケール法がモデルサイズを拡大する可能性を強調しているため、学術コミュニティは、500億以上のパラメータを持つLCMに関する調査を強化した。 この技術報告は、52ビリオンパラメーターモデルであるTele-FLM(FLM-2としても知られる)を使った以前の研究に基づいています。 我々はまず,SFTデータ構築における「不要な」アプローチをサポートするTele-FLM-52B上でのスーパーバイザードファインチューニング(SFT)の観察について検討する。 我々は、さらなるトレーニングと研究を進めるために、Tele-FLM-1Tと呼ばれる1Tモデルのチェックポイントをオープンソース化する。

Large Language Models (LLMs) represent a significant stride toward Artificial General Intelligence. As scaling laws underscore the potential of increasing model sizes, the academic community has intensified its investigations into LLMs with capacities exceeding 50 billion parameters. This technical report builds on our prior work with Tele-FLM (also known as FLM-2), a publicly available 52-billion-parameter model. We delve into two primary areas: we first discuss our observation of Supervised Fine-tuning (SFT) on Tele-FLM-52B, which supports the "less is more" approach for SFT data construction; second, we demonstrate our experiments and analyses on the best practices for progressively growing a model from 52 billion to 102 billion, and subsequently to 1 trillion parameters. We will open-source a 1T model checkpoint, namely Tele-FLM-1T, to advance further training and research.
翻訳日:2024-07-04 15:44:50 公開日:2024-07-03
# 結合導波路を用いた2匹のシュロディンガー子猫の交配による猫の育種

Breeding the Cat Through Superposition of Two Schrodinger Kittens Based on Coupled Waveguides ( http://arxiv.org/abs/2407.02784v1 )

ライセンス: Link先を確認
Nuo Wang, Xinchen Zhang, Qi Liu, Fengxiao Sun, Qiongyi He, Ying Gu, (参考訳) オプティカル・シュロディンガーの猫(SC)は、フォールトトレラント量子コンピューティングの実現の可能性から期待されているが、実効性は振幅が2より大きい場合にのみ示される。 しかし、そのような高振幅猫は、既存の方法に根ざした限界のために準備されていない。 ここでは、2つの近傍のコヒーレント状態が干渉し、拡大したコヒーレント状態に成長する2つの子猫の重ね合わせにより、大きなSC様状態が生成されることを実証する。 さらに,2つのSCの重畳を結合導波路内で実現し,猫を繁殖させる手法を提案する。 ここで実証された原理とスキームは、位相空間における量子重ね合わせを理解するための新しい視点と、チップ上の効率的なSCの生成のためのより良い解を提供する。

Optical Schrodinger's cat (SC) is highly anticipated because of the potential of realizing fault-tolerant quantum computing, but the practical merit is only shown when the amplitude is larger than 2. However, such high-amplitude cats have not been prepared due to the limitations rooted in the existing method. Here, we demonstrate a principle that a large SC-like state can be generated by the superposition of two kittens in which two nearby coherent states interfere and grow to an enlarged coherent-like state. Further, we propose a scheme to breed the cat beyond the limitation in the former works with a high probability by realizing the superposition of two SCs in coupled waveguides. The principle and scheme demonstrated here provide a new perspective on understanding quantum superposition in phase space and a better solution for the efficient generation of SCs on chips.
翻訳日:2024-07-04 15:44:50 公開日:2024-07-03
# 共振窓選択法に基づく多用途量子マイクロ波フォトニック信号処理プラットフォーム

A versatile quantum microwave photonic signal processing platform based on coincidence window selection technique ( http://arxiv.org/abs/2407.02787v1 )

ライセンス: Link先を確認
Xinghua Li, Yifan Guo, Xiao Xiang, Runai Quan, Mingtao Cao, Ruifang Dong, Tao Liu, Ming Li, Shougang Zhang, (参考訳) 量子マイクロ波フォトニクス(QMWP)は、エネルギー時間に絡み合った双光子源を光キャリアとして組み合わせた革新的なアプローチであり、高速RF信号回復のための時間関連単一光子検出である。 本手法は、非局所RF信号符号化や、分散誘起周波数減少に対する頑健な耐性など、独特な利点を提供する。 本稿では,両光子同時分布の共振窓選択を利用して,量子マイクロ波フォトニック信号処理の汎用性について検討する。 本発明のデモンストレーションは、QMWPの非局所RFマッピング特性を利用して、微調整可能なRF位相シフト、フレキシブルマルチタップトランスバーサルフィルタ(最大15タップ)、および光学的に実装されたRFミキシングを含む。 これらの成果は、超弱信号処理におけるマイクロ波フォトニックシステムの能力を大幅に向上させ、様々な用途に新たな可能性を開く。

Quantum microwave photonics (QMWP) is an innovative approach that combines energy-time entangled biphoton sources as the optical carrier with time-correlated single-photon detection for high-speed RF signal recovery. This groundbreaking method offers unique advantages such as nonlocal RF signal encoding and robust resistance to dispersion-induced frequency fading. This paper explores the versatility of processing the quantum microwave photonic signal by utilizing coincidence window selection on the biphoton coincidence distribution. The demonstration includes finely-tunable RF phase shifting, flexible multi-tap transversal filtering (with up to 15 taps), and photonically implemented RF mixing, leveraging the nonlocal RF mapping characteristic of QMWP. These accomplishments significantly enhance the capability of microwave photonic systems in processing ultra-weak signals, opening up new possibilities for various applications.
翻訳日:2024-07-04 15:44:50 公開日:2024-07-03
# 均一磁場中における電子渦ビームの一般化グーイ回転

Generalized Gouy Rotation of Electron Vortex beams in uniform magnetic fields ( http://arxiv.org/abs/2407.02788v1 )

ライセンス: Link先を確認
Qi Meng, Xuan Liu, Wei Ma, Zhen Yang, Liang Lu, Alexander J. Silenko, Pengming Zhang, Liping Zou, (参考訳) 電子渦ビーム(EVB)の回転は、磁場で観測された自由空間の挙動とランダウ状態またはラーモローテーションを特徴付けるグーイ相の複雑な相互作用を示す。 別々に研究されているにもかかわらず、これらの現象は磁場の伝播中に単一のビーム内で現れ、包括的記述が欠如している。 磁場中における相対論的同軸方程式の正確な解を「パラ軸ランダウモード」と呼ぶことによって、この問題に対処する。 ランダウモードは磁場中のEVBの量子状態を記述する。 回転角の研究は、実験データとの整合性を実証し、これらのモードの実用的存在を裏付けるものである。 一般化されたグーイ回転の下で異なる状態について統一的に記述し、グーイ位相をEVB回転角にリンクする。 この接続により、グーイ相の理解が深まり、一様でない磁場にまで拡張できる。 理論解析はチェビシェフ法を用いて数値シミュレーションにより検証した。 この研究は、磁場中のEVBのダイナミクスに関する新たな洞察を与え、渦粒子のビーム操作とビーム光学の実践的応用を示唆している。

The rotation of electron vortex beams (EVBs) presents a complex interplay of the Gouy phase characterizing free-space behavior and Landau states or Larmor rotation observed in magnetic fields. Despite being studied separately, these phenomena manifest within a single beam during its propagation in magnetic fields, lacking a comprehensive description. We address this by utilizing exact solutions of the relativistic paraxial equation in magnetic fields, termed "paraxial Landau modes". The paraxial Landau modes describe the quantum states of EVBs in magnetic fields. Our study of rotation angles demonstrates consistency with experimental data, supporting the practical presence of these modes. We provide a unified description of different regimes under generalized Gouy rotation, linking the Gouy phase to EVB rotation angles. This connection enhances our understanding of the Gouy phase and can be extended to nonuniform magnetic fields. Our theoretical analysis is validated through numerical simulations using the Chebyshev method. This work offers new insights into the dynamics of EVBs in magnetic fields and suggests practical applications in beam manipulation and beam optics of vortex particles.
翻訳日:2024-07-04 15:44:50 公開日:2024-07-03
# VPAアプリのモデル強化LDM駆動型VUIテスト

Model-Enhanced LLM-Driven VUI Testing of VPA Apps ( http://arxiv.org/abs/2407.02791v1 )

ライセンス: Link先を確認
Suwan Li, Lei Bu, Guangdong Bai, Fuman Xie, Kai Chen, Chang Yue, (参考訳) Amazon Alexaのような音声パーソナルアシスタント(VPA)を中心とした繁栄するエコシステムは、VPAアプリのブームにつながっている。 たとえば、Amazonのスキルストアで最大のアプリマーケットは、20万以上のアプリをホストしている。 その人気にもかかわらず、アプリの公開性やアクセシビリティの容易さは、セキュリティ、プライバシ、品質に関する重要な懸念を引き起こしている。 その結果、VPAアプリの動作を体系的に調査する様々なテスト手法が提案されている。 VPAアプリの可視ユーザインタフェースの欠如に対処するため、テスト中にチャットボットスタイルのテストとモデルベースのテストという2つの戦略が採用されている。 前者は検索スペースを拡大するための効果的なガイダンスを欠くことが多いが、後者は会話の意味論を解釈し、アプリの正確で包括的な行動モデルを構築するのに不足している。 本稿では,モデル強化型大規模言語モデル(LLM)駆動型VUIテストフレームワークであるElevateを紹介する。 ElevateはLLMの自然言語処理能力を活用し、モデルベースのVUIテスト中に意味情報の損失を補う。 LLMにVPAアプリの出力から状態を抽出させ、コンテキスト関連の入力を生成する。 アプリとの自動インタラクションの間、動作モデルが漸進的に構築され、新しい状態を発見する可能性が非常に高い入力を生成するのにLLMが役立ちます。 Elevateは、LCMと行動モデルに、行動モデルをプロンプトにエンコードしたり、文脈関連性に基づいてLSM生成した入力を選択するといった革新的な技術で橋渡しする。 Elevateは、最先端のテスタであるVitasに対して、4000の現実世界のAlexaスキルでベンチマークされている。 あらゆる種類のアプリでVitaよりも15%高いステートスペースカバレッジを実現しており、効率が大幅に向上している。

The flourishing ecosystem centered around voice personal assistants (VPA), such as Amazon Alexa, has led to the booming of VPA apps. The largest app market Amazon skills store, for example, hosts over 200,000 apps. Despite their popularity, the open nature of app release and the easy accessibility of apps also raise significant concerns regarding security, privacy and quality. Consequently, various testing approaches have been proposed to systematically examine VPA app behaviors. To tackle the inherent lack of a visible user interface in the VPA app, two strategies are employed during testing, i.e., chatbot-style testing and model-based testing. The former often lacks effective guidance for expanding its search space, while the latter falls short in interpreting the semantics of conversations to construct precise and comprehensive behavior models for apps. In this work, we introduce Elevate, a model-enhanced large language model (LLM)-driven VUI testing framework. Elevate leverages LLMs' strong capability in natural language processing to compensate for semantic information loss during model-based VUI testing. It operates by prompting LLMs to extract states from VPA apps' outputs and generate context-related inputs. During the automatic interactions with the app, it incrementally constructs the behavior model, which facilitates the LLM in generating inputs that are highly likely to discover new states. Elevate bridges the LLM and the behavior model with innovative techniques such as encoding behavior model into prompts and selecting LLM-generated inputs based on the context relevance. Elevate is benchmarked on 4,000 real-world Alexa skills, against the state-of-the-art tester Vitas. It achieves 15% higher state space coverage compared to Vitas on all types of apps, and exhibits significant advancement in efficiency.
翻訳日:2024-07-04 15:44:50 公開日:2024-07-03
# シークエンシャルレコメンデーションのための位置注意の学習

Learning Positional Attention for Sequential Recommendation ( http://arxiv.org/abs/2407.02793v1 )

ライセンス: Link先を確認
Fan Luo, Juan Zhang, Shenghui Xu, (参考訳) 自己注意型ネットワークは、シーケンシャルなレコメンデーションタスクにおいて顕著なパフォーマンスを達成した。 これらのモデルの重要な構成要素は位置符号化である。 本研究では,学習した位置埋め込みを探索し,トークン間の距離をよく捉えることを示した。 この知見に基づいて、位置関係を直接学習する新しい注意モデルを導入する。 大規模な実験により、提案されたモデルである \textbf{PARec} と \textbf{FPARec} が、従来の自己意図に基づくアプローチより優れていることが判明した。

Self-attention-based networks have achieved remarkable performance in sequential recommendation tasks. A crucial component of these models is positional encoding. In this study, we delve into the learned positional embedding, demonstrating that it often captures the distance between tokens. Building on this insight, we introduce novel attention models that directly learn positional relations. Extensive experiments reveal that our proposed models, \textbf{PARec} and \textbf{FPARec} outperform previous self-attention-based approaches.Our code is available at the link for anonymous review: https://anonymous.4open.science/ r/FPARec-2C55/
翻訳日:2024-07-04 15:35:05 公開日:2024-07-03
# Euler's Elastica based Cartoon-Smooth-Texture Image Decomposition

Euler's Elastica Based Cartoon-Smooth-Texture Image Decomposition ( http://arxiv.org/abs/2407.02794v1 )

ライセンス: Link先を確認
Roy Y. He, Hao Liu, (参考訳) そこで本研究では, 鮮明な光-暗黒遷移を示す構造部, 柔らかい影と影を捉えた滑らかな部分, テクスチャと雑音を特徴付ける振動部という, 3つの異なる構成成分にグレースケール画像を分解する新しいモデルを提案する。 等質構造を捉えるために、レベルライン上の$L^0$-gradientと曲率正規化の組み合わせを導入する。 この新たな正規化項は、望ましくない階段効果を減らしつつ、画像勾配に強い間隔を課し、輪郭の幾何学を保存する。 滑らかに変化する成分に対しては、ラプラシアンの$L^2$-ノルムを用いて等方的滑らかさを求める。 振動を捉えるために、逆ソボレフ半ノルムを用いる。 関連する最小化問題を解決するために,効率的な演算子分割アルゴリズムを設計する。 提案アルゴリズムは,非凸非滑らかな問題に対して,サブプロブレムに分割することで効果的に対処する。 各サブプロブレムは、クローズドフォームソリューションまたはFast Fourier Transform (FFT)を用いて、直接的に解決することができる。 アブレーションと比較研究を含む系統的な実験を行い、モデルの振る舞いを分析し、その効果と効率を実証する。

We propose a novel model for decomposing grayscale images into three distinct components: the structural part, representing sharp boundaries and regions with strong light-to-dark transitions; the smooth part, capturing soft shadows and shades; and the oscillatory part, characterizing textures and noise. To capture the homogeneous structures, we introduce a combination of $L^0$-gradient and curvature regularization on level lines. This new regularization term enforces strong sparsity on the image gradient while reducing the undesirable staircase effects as well as preserving the geometry of contours. For the smoothly varying component, we utilize the $L^2$-norm of the Laplacian that favors isotropic smoothness. To capture the oscillation, we use the inverse Sobolev seminorm. To solve the associated minimization problem, we design an efficient operator-splitting algorithm. Our algorithm effectively addresses the challenging non-convex non-smooth problem by separating it into sub-problems. Each sub-problem can be solved either directly using closed-form solutions or efficiently using the Fast Fourier Transform (FFT). We provide systematic experiments, including ablation and comparison studies, to analyze our model's behaviors and demonstrate its effectiveness as well as efficiency.
翻訳日:2024-07-04 15:35:05 公開日:2024-07-03
# 拡張エッジを持つ量子ホール系におけるホーキング放射-異常法の適用

Hawking radiation in quantum Hall system with an expanding edge: application of anomaly method ( http://arxiv.org/abs/2407.02796v1 )

ライセンス: Link先を確認
Riku Yoshimoto, Yasusada Nambu, (参考訳) 重力異常とブラックホールのホーキング放射の関係はウィルツェクとロビンソンによって明らかにされた。 本研究では,拡張エッジを持つ量子ホール系におけるジッター時空のアナログにそれらの手法を適用した。 この系はキラルであるため、元々の方法で仮定した地平線付近での進入モードの条件を課す必要はない。 さらに、この系は、ド・ジッター空間が2つの平坦空間の間に挟まれるように構成されており、この異常の影響はオーディナル・ド・ジッター時空には現れないが、ド・ジッターと平坦領域の境界条件として現れる。 これらの境界条件下での計算により、ド・ジッター地平線のギボンズ・ホーキング温度で外平領域におけるホーキング放射のフラックスを求める。

The relationship between gravitational anomalies and Hawking radiation of black holes was revealed by Wilczek and Robinson. In this study, we apply their method to an analogue de Sitter spacetime in the quantum Hall system with an expanding edge. Because this system is chiral, there is no need to impose the condition of ingoing modes near the horizon, which was assumed in the original method. Moreover, this system is structured so that the de Sitter space is sandwiched between two flat spaces, and although the effects of the anomaly would not appear in an ordinal de Sitter spacetime, they manifest themselves as boundary conditions between the de Sitter and the flat regions. By performing calculations under these boundary conditions, we obtain the flux of Hawking radiation in the outer flat region with the Gibbons-Hawking temperature of the de Sitter horizon.
翻訳日:2024-07-04 15:35:05 公開日:2024-07-03
# スケーラブルな生成モデルによる運動計画課題の解決

Solving Motion Planning Tasks with a Scalable Generative Model ( http://arxiv.org/abs/2407.02797v1 )

ライセンス: Link先を確認
Yihan Hu, Siqi Chai, Zhening Yang, Jingyu Qian, Kun Li, Wenxin Shao, Haichao Zhang, Wei Xu, Qiang Liu, (参考訳) 自律運転システムが数百万台の車両に配備されているため、システムのスケーラビリティ、安全性、エンジニアリングコストの削減が求められている。 現実的でスケーラブルで実用的な運転世界のシミュレータが望まれている。 本稿では,運転シーンのダイナミクスを学習する生成モデルに基づく効率的な解を提案する。 このモデルでは、与えられた駆動シナリオの多様な未来をシミュレートするだけでなく、様々なプロンプトで条件付けられた様々な駆動シナリオを生成することができる。 我々の革新的な設計は、モデルが完全自己回帰モードと部分自己回帰モードの両方で動作できるようにし、生成能力を犠牲にすることなく、推論とトレーニング速度を大幅に改善する。 この効率性は、強化学習のためのオンラインリアクティブ環境、計画ポリシーの評価ツール、テスト用の高忠実度シミュレータとして使われるのに理想的である。 我々は、WaymoモーションデータセットとnuPlanデータセットの2つの実世界のデータセットに対して、我々のモデルを評価した。 シミュレーションリアリズムとシーン生成ベンチマークにおいて,本モデルは最先端の性能を実現する。 計画ベンチマークでは、プランナーは先行技術よりも優れています。 提案した生成モデルは,データ生成,シミュレーション,計画,オンライントレーニングなど,さまざまな動作計画タスクの基盤となる可能性がある。 ソースコードはhttps://github.com/HorizonRobotics/GUMP/で公開されている。

As autonomous driving systems being deployed to millions of vehicles, there is a pressing need of improving the system's scalability, safety and reducing the engineering cost. A realistic, scalable, and practical simulator of the driving world is highly desired. In this paper, we present an efficient solution based on generative models which learns the dynamics of the driving scenes. With this model, we can not only simulate the diverse futures of a given driving scenario but also generate a variety of driving scenarios conditioned on various prompts. Our innovative design allows the model to operate in both full-Autoregressive and partial-Autoregressive modes, significantly improving inference and training speed without sacrificing generative capability. This efficiency makes it ideal for being used as an online reactive environment for reinforcement learning, an evaluator for planning policies, and a high-fidelity simulator for testing. We evaluated our model against two real-world datasets: the Waymo motion dataset and the nuPlan dataset. On the simulation realism and scene generation benchmark, our model achieves the state-of-the-art performance. And in the planning benchmarks, our planner outperforms the prior arts. We conclude that the proposed generative model may serve as a foundation for a variety of motion planning tasks, including data generation, simulation, planning, and online training. Source code is public at https://github.com/HorizonRobotics/GUMP/
翻訳日:2024-07-04 15:35:05 公開日:2024-07-03
# フェアスパースモデルを用いた効率的なDNN駆動ソフトウェア

Efficient DNN-Powered Software with Fair Sparse Models ( http://arxiv.org/abs/2407.02805v1 )

ライセンス: Link先を確認
Xuanqi Gao, Weipeng Jiang, Juan Zhai, Shiqing Ma, Xiaoyu Zhang, Chao Shen, (参考訳) Software 3.0時代が出現するにつれ、大きなモデルをソフトウェアシステムに圧縮して統合する傾向が高まり、社会的な意味合いも大きくなっています。 多くの事例において、モデル圧縮技術はこれらのモデルの公平性性能に影響を与え、したがってDNNベースのソフトウェアの倫理的挙動に影響を及ぼす。 最も有名な例として、LTH(Lottery Ticket hypothesis)がある。 本稿では,LTHをベースとしたプルーニングの公平性問題はサブネットワークの選択とトレーニング手順の両方から生じ,既存の治療法の不十分さを浮き彫りにする。 そこで本研究では,新しいプルーニングフレームワークであるBallotを提案し,コンフリクト検出に基づく新たなサブネット選択を用いて,高精度かつ公平なサブネット構築を実現する。 この手順により、Ballotは5つの一般的なデータセットと3つの広く使用されているモデルの評価に基づいて、最先端のベースラインであるMagnitude Pruning、Standard LTH、SafeCompress、FairScratchと比較して、プルーニングの公正性を38.00%、33.91%、17.96%、35.82%改善する。 私たちのコードはhttps://anonymous.4open.science/r/Ballot-506Eで利用可能です。

With the emergence of the Software 3.0 era, there is a growing trend of compressing and integrating large models into software systems, with significant societal implications. Regrettably, in numerous instances, model compression techniques impact the fairness performance of these models and thus the ethical behavior of DNN-powered software. One of the most notable example is the Lottery Ticket Hypothesis (LTH), a prevailing model pruning approach. This paper demonstrates that fairness issue of LTHbased pruning arises from both its subnetwork selection and training procedures, highlighting the inadequacy of existing remedies. To address this, we propose a novel pruning framework, Ballot, which employs a novel conflict-detection-based subnetwork selection to find accurate and fair subnetworks, coupled with a refined training process to attain a high-performance model, thereby improving the fairness of DNN-powered software. By means of this procedure, Ballot improves the fairness of pruning by 38.00%, 33.91%, 17.96%, and 35.82% compared to state-of-the-art baselines, namely Magnitude Pruning, Standard LTH, SafeCompress, and FairScratch respectively, based on our evaluation of five popular datasets and three widely used models. Our code is available at https://anonymous.4open.science/r/Ballot-506E.
翻訳日:2024-07-04 15:35:05 公開日:2024-07-03
# SPLITZ: スプリットリプシッツランダム化平滑化によるロバスト性証明

SPLITZ: Certifiable Robustness via Split Lipschitz Randomized Smoothing ( http://arxiv.org/abs/2407.02811v1 )

ライセンス: Link先を確認
Meiyu Zhong, Ravi Tandon, (参考訳) 証明可能な堅牢性は、分類器への入力に関する小さな摂動が予測を変えることはないことを保証している。 敵の例に対して証明可能な堅牢性を提供するための2つのアプローチがある。 a)小さなリプシッツ定数で明示的に分類器を訓練し、 b) ランダム化スムース化は、入力にランダムノイズを加えてスムーズな分類子を作成する。 本稿では,上記の2つのアイデアの相乗効果を一つのフレームワークに活用する,実用的で斬新なアプローチである「textit{SPLITZ}」を提案する。 主な考え方は、分類器を2つの半進に分割し、前半のリプシッツ定数を制約し、後半をランダム化して滑らかにすることである。 textit{SPLITZ} に対するモチベーションは、多くの標準ディープネットワークが層間のリプシッツ定数の不均一性を示すという観察から来ている。 \textit{SPLITZ} はこの不均一性を生かし、ランダムな平滑化のスケーラビリティを継承する。 提案手法は, 理論解析により, 推論中の堅牢性保証を導出するものである。 本稿では、ロバスト性-精度トレードオフを総合的に比較し、MNISTおよびCIFAR-10データセットに対する既存の最先端アプローチを一貫して改善することを示す。 例えば、$\ell_2$ norm perturbation budget of \textbf{$\epsilon=1$}, \textit{SPLITZ} achieves $\textbf{43.2\%}$ top-1 test accuracy on CIFAR-10 dataset than the state-of-art top-1 test accuracy $\textbf{39.8\%}

Certifiable robustness gives the guarantee that small perturbations around an input to a classifier will not change the prediction. There are two approaches to provide certifiable robustness to adversarial examples: a) explicitly training classifiers with small Lipschitz constants, and b) Randomized smoothing, which adds random noise to the input to create a smooth classifier. We propose \textit{SPLITZ}, a practical and novel approach which leverages the synergistic benefits of both the above ideas into a single framework. Our main idea is to \textit{split} a classifier into two halves, constrain the Lipschitz constant of the first half, and smooth the second half via randomization. Motivation for \textit{SPLITZ} comes from the observation that many standard deep networks exhibit heterogeneity in Lipschitz constants across layers. \textit{SPLITZ} can exploit this heterogeneity while inheriting the scalability of randomized smoothing. We present a principled approach to train \textit{SPLITZ} and provide theoretical analysis to derive certified robustness guarantees during inference. We present a comprehensive comparison of robustness-accuracy tradeoffs and show that \textit{SPLITZ} consistently improves upon existing state-of-the-art approaches on MNIST and CIFAR-10 datasets. For instance, with $\ell_2$ norm perturbation budget of \textbf{$\epsilon=1$}, \textit{SPLITZ} achieves $\textbf{43.2\%}$ top-1 test accuracy on CIFAR-10 dataset compared to state-of-art top-1 test accuracy $\textbf{39.8\%}
翻訳日:2024-07-04 15:35:05 公開日:2024-07-03
# 動的アルゴリズムとコンパイラ共設計によるオンデバイス超解法のためのデータオーバーフィッティング

Data Overfitting for On-Device Super-Resolution with Dynamic Algorithm and Compiler Co-Design ( http://arxiv.org/abs/2407.02813v1 )

ライセンス: Link先を確認
Gen Li, Zhihao Shu, Jie Ji, Minghai Qin, Fatemeh Afghah, Wei Niu, Xiaolong Ma, (参考訳) ディープニューラルネットワーク(DNN)は、様々なコンピュータビジョンアプリケーションで頻繁に使用される。 現在、ビデオ配信システムにおける新たなトレンドは、DNNの過度に適合したプロパティを活用して、ビデオ解像度のアップスケールを実現することである。 動画をチャンクに分割し、各チャンクに過度に適合させるために超高解像度(SR)モデルを適用することで、このSRモデルとビデオチャンクのスキームは、従来のビデオ伝送を置き換えることができ、ビデオ品質と伝送効率を向上させることができる。 しかし、高パフォーマンスを保証するために多くのモデルとチャンクが必要であるため、モデルの切り替えとユーザ側のメモリフットプリントが大幅にオーバヘッドされる。 このような問題を解決するために,Content-Awareデータ処理パイプラインが支援するダイナミックディープニューラルネットワークを提案する。 また,Dy-DCAの動的特徴(動的形状,サイズ,制御フローなど)を最適化し,融合コード生成や静的実行計画など,一連のコンパイル最適化を可能にするフレームワークを設計した。 このような手法を用いることで,市販携帯電話上でのPSNRとリアルタイム性能(33FPS)を向上する。 一方、コンパイルの最適化によって、1.7$\times$スピードアップを実現し、最大1.61$\times$メモリ消費を節約します。 コードはhttps://github.com/coulsonlee/Dy-DCA-ECCV2024で公開されている。

Deep neural networks (DNNs) are frequently employed in a variety of computer vision applications. Nowadays, an emerging trend in the current video distribution system is to take advantage of DNN's overfitting properties to perform video resolution upscaling. By splitting videos into chunks and applying a super-resolution (SR) model to overfit each chunk, this scheme of SR models plus video chunks is able to replace traditional video transmission to enhance video quality and transmission efficiency. However, many models and chunks are needed to guarantee high performance, which leads to tremendous overhead on model switching and memory footprints at the user end. To resolve such problems, we propose a Dynamic Deep neural network assisted by a Content-Aware data processing pipeline to reduce the model number down to one (Dy-DCA), which helps promote performance while conserving computational resources. Additionally, to achieve real acceleration on the user end, we designed a framework that optimizes dynamic features (e.g., dynamic shapes, sizes, and control flow) in Dy-DCA to enable a series of compilation optimizations, including fused code generation, static execution planning, etc. By employing such techniques, our method achieves better PSNR and real-time performance (33 FPS) on an off-the-shelf mobile phone. Meanwhile, assisted by our compilation optimization, we achieve a 1.7$\times$ speedup while saving up to 1.61$\times$ memory consumption. Code available in https://github.com/coulsonlee/Dy-DCA-ECCV2024.
翻訳日:2024-07-04 15:35:05 公開日:2024-07-03
# 視覚・言語モデルにおけるバイアスの理解と緩和 : 因果治療の視点から

Images Speak Louder than Words: Understanding and Mitigating Bias in Vision-Language Model from a Causal Mediation Perspective ( http://arxiv.org/abs/2407.02814v1 )

ライセンス: Link先を確認
Zhaotian Weng, Zijun Gao, Jerone Andrews, Jieyu Zhao, (参考訳) 広範囲なデータセットで事前訓練された視覚言語モデル(VLM)は、特定のオブジェクトやシナリオと性別情報を関連付けることによって、必然的にバイアスを学習することができる。 現在の手法は入力の変更やモデルの出力確率スコアの変化の監視に重点を置いており、しばしばモデルコンポーネントの観点からバイアスを包括的に理解するのに苦労する。 本稿では、因果媒介分析を取り入れた枠組みを提案し、VLM内のバイアス発生と伝播の経路を計測・マッピングする。 このアプローチにより、モデルバイアスに対する介入の直接効果と、異なるモデルコンポーネントを介して媒介されるバイアスに対する介入の間接効果を識別できる。 以上の結果から,MSCOCOデータセットとPASCAL-SENTENCEデータセットのバイアスの32.57%と12.63%は,画像特徴がテキスト特徴よりも有意に高い影響を持つことが示唆された。 特に、画像エンコーダのコントリビューションは、テキストエンコーダとディープフュージョンエンコーダのコントリビューションを上回っている。 さらなる実験により、言語と視覚の両方のモダリティからの貢献が一致し、矛盾しないことが確認される。 その結果、モデルバイアスに最も寄与する画像エンコーダ内の性別表現の曖昧化に焦点を当て、それぞれMSCOCOとPASCAL-SENTENCEデータセットのバイアスを22.03%、9.04%削減し、性能損失の最小化や計算要求の増大を図っている。

Vision-language models (VLMs) pre-trained on extensive datasets can inadvertently learn biases by correlating gender information with specific objects or scenarios. Current methods, which focus on modifying inputs and monitoring changes in the model's output probability scores, often struggle to comprehensively understand bias from the perspective of model components. We propose a framework that incorporates causal mediation analysis to measure and map the pathways of bias generation and propagation within VLMs. This approach allows us to identify the direct effects of interventions on model bias and the indirect effects of interventions on bias mediated through different model components. Our results show that image features are the primary contributors to bias, with significantly higher impacts than text features, specifically accounting for 32.57% and 12.63% of the bias in the MSCOCO and PASCAL-SENTENCE datasets, respectively. Notably, the image encoder's contribution surpasses that of the text encoder and the deep fusion encoder. Further experimentation confirms that contributions from both language and vision modalities are aligned and non-conflicting. Consequently, focusing on blurring gender representations within the image encoder, which contributes most to the model bias, reduces bias efficiently by 22.03% and 9.04% in the MSCOCO and PASCAL-SENTENCE datasets, respectively, with minimal performance loss or increased computational demands.
翻訳日:2024-07-04 15:35:05 公開日:2024-07-03
# WizardMerge:無防備な合併から救う

WizardMerge -- Save Us From Merging Without Any Clues ( http://arxiv.org/abs/2407.02818v1 )

ライセンス: Link先を確認
Qingyu Zhang, Junzhe Li, Jiayi Lin, Jie Ding, Lanteng Lin, Chenxiong Qian, (参考訳) 現代のソフトウェア開発は、開発者間の効率的なバージョン指向のコラボレーションを必要とします。 Gitは最も人気のあるバージョン管理システムであるが、テキストベースのワークフローによって、満足のいくバージョンマージ結果を生成するため、プロジェクトのマージバージョンでは予期せぬ結果になる可能性がある。 マージ結果を改善するために多くのマージツールが提案されているが、開発者はコンフリクトの解決に苦慮し、手掛かりなしに間違った修正済みのコードを修正している。 WizardMergeは、Gitのマージ結果を利用して、テキストとLLVM-IRレベルのコードブロック依存性を検索し、開発者がテキストマージによって導入されたエラーを解決するための提案を提供する補助ツールである。 評価を通じて、WizardMerge氏は5つの大規模プロジェクトの中で227のコンフリクトのテストを行ないました。 その結果、WizardMergeは競合の合併コストを減少させ、23.85%の削減を実現している。 競合に対処する以外に、WizardMergeは競合に影響を受ける可能性のあるコードブロックの70%以上をマージする提案を提供している。 特に、WizardMergeは、手作業による介入を必要とするが、マージ時にGitによって有害に適用される、コンフリクトとは無関係なコードブロックを識別する機能を示している。

Modern software development necessitates efficient version-oriented collaboration among developers. While Git is the most popular version control system, it generates unsatisfactory version merging results due to textual-based workflow, leading to potentially unexpected results in the merged version of the project. Although numerous merging tools have been proposed for improving merge results, developers remain struggling to resolve the conflicts and fix incorrectly modified code without clues. We present WizardMerge, an auxiliary tool that leverages merging results from Git to retrieve code block dependency on text and LLVM-IR level and provide suggestions for developers to resolve errors introduced by textual merging. Through the evaluation, we subjected WizardMerge to testing on 227 conflicts within five large-scale projects. The outcomes demonstrate that WizardMerge diminishes conflict merging time costs, achieving a 23.85% reduction. Beyond addressing conflicts, WizardMerge provides merging suggestions for over 70% of the code blocks potentially affected by the conflicts. Notably, WizardMerge exhibits the capability to identify conflict-unrelated code blocks that require manual intervention yet are harmfully applied by Git during the merging.
翻訳日:2024-07-04 15:35:05 公開日:2024-07-03
# コンパクトかつ一貫性のある次トークン分布を持つ言語モデルの効率的な学習

Efficient Training of Language Models with Compact and Consistent Next Token Distributions ( http://arxiv.org/abs/2407.02819v1 )

ライセンス: Link先を確認
Ashutosh Sathe, Sunita Sarawagi, (参考訳) 次のトークンの可能性の最大化は、事前訓練された言語モデルのための確立された統計的に健全な目標である。 本稿では, コーパスを崩壊した$n$-gramの分布で事前集約することで, より良いモデルをより高速に学習できることを示す。 従来の研究では、正規化子としてコーパスレベルの$n$-gram統計法を提案したが、そのような$n$-gramの構築とクエリは、仮に行われると、コストがかかり、トレーニング速度が著しく阻害されることが証明され、現代の大規模言語モデルの事前訓練における適用が制限される。 我々は,次のトークン分布の別のコンパクトな表現を導入する。これは期待通り,$n$-gramの分布と整合すると同時に,通常の次のトークン損失と比較して,ミニバッチ間の分散を著しく低減する。 経験的に、$n$-gram正規化モデルと近似の両方が、既存の手法と比較して、モデルの品質と収束率を大幅に改善することを示した。 さらに、我々の近似は、単純な$n$-gram正規化法と比較して、より大きなデータセットやモデルへのゲインのスケーラビリティを促進する。

Maximizing the likelihood of the next token is an established, statistically sound objective for pre-training language models. In this paper we show that we can train better models faster by pre-aggregating the corpus with a collapsed $n$-gram distribution. Previous studies have proposed corpus-level $n$-gram statistics as a regularizer; however, the construction and querying of such $n$-grams, if done naively, prove to be costly and significantly impede training speed, thereby limiting their application in modern large language model pre-training. We introduce an alternative compact representation of the next token distribution that, in expectation, aligns with the complete $n$-gram distribution while markedly reducing variance across mini-batches compared to the standard next-token loss. Empirically, we demonstrate that both the $n$-gram regularized model and our approximation yield substantial improvements in model quality and convergence rate compared to existing methods. Furthermore, our approximation facilitates scalability of gains to larger datasets and models compared to the straightforward $n$-gram regularization method.
翻訳日:2024-07-04 15:35:05 公開日:2024-07-03
# 文脈的・時間的意味変化に責任のある文脈的単語埋め込み次元の検討

Investigating the Contextualised Word Embedding Dimensions Responsible for Contextual and Temporal Semantic Changes ( http://arxiv.org/abs/2407.02820v1 )

ライセンス: Link先を確認
Taichi Aida, Danushka Bollegala, (参考訳) 言葉は時間とともに意味を変え、異なる文脈で意味を変える。 XL-LEXEME(英語版)が、Word-in-Context(英語版)(WiC)データ上で、微調整されたマスク付きランガモデル(英語版)(MLM)によって生成した単語の文脈的変化を文脈的単語埋め込み(英語版)(CWE)空間内にエンコードしようとするような文脈的単語埋め込み(SCWE)である。 文脈的・時間的意味変化検出(SCD)ベンチマークにおけるSCWEの優れた性能にもかかわらず、どのようにして変化が埋め込み空間にエンコードされるかは定かではない。 そこで本研究では,主成分分析(PCA)および独立成分分析(ICA)変換に基づく文脈的・時間的意味変化ベンチマークにおいて,事前学習したCWEとその微調整バージョンを比較した。 実験結果からいくつかの新たな知見が得られた。 (a)事前学習したCWE空間における単語の意味変化の原因となる軸は少ないが、微調整された場合、この情報は全次元にわたって分散される。 b) CWEの幾何に関する先行研究とは対照的に,PCAはICAよりも意味的変化をよりよく表現できることがわかった。 ソースコードはhttps://github.com/LivNLP/svp-dimsで入手できる。

Words change their meaning over time as well as in different contexts. The sense-aware contextualised word embeddings (SCWEs) such as the ones produced by XL-LEXEME by fine-tuning masked langauge models (MLMs) on Word-in-Context (WiC) data attempt to encode such semantic changes of words within the contextualised word embedding (CWE) spaces. Despite the superior performance of SCWEs in contextual/temporal semantic change detection (SCD) benchmarks, it remains unclear as to how the meaning changes are encoded in the embedding space. To study this, we compare pre-trained CWEs and their fine-tuned versions on contextual and temporal semantic change benchmarks under Principal Component Analysis (PCA) and Independent Component Analysis (ICA) transformations. Our experimental results reveal several novel insights such as (a) although there exist a smaller number of axes that are responsible for semantic changes of words in the pre-trained CWE space, this information gets distributed across all dimensions when fine-tuned, and (b) in contrast to prior work studying the geometry of CWEs, we find that PCA to better represent semantic changes than ICA. Source code is available at https://github.com/LivNLP/svp-dims .
翻訳日:2024-07-04 15:35:05 公開日:2024-07-03
# プロセスマイニングによる重度健康状態予測における前処理ステップの効果

Effect of a Process Mining based Pre-processing Step in Prediction of the Critical Health Outcomes ( http://arxiv.org/abs/2407.02821v1 )

ライセンス: Link先を確認
Negin Ashrafi, Armin Abdollahi, Greg Placencia, Maryam Pishgar, (参考訳) 生存可能性を高めるためには、患者の死亡率や入院許可などの重大な健康影響を予測することが不可欠である。 しかし、医療データセットには複雑さを生み出す多くのコンカレンスがあり、予測が不十分になる。 そのため、データの事前処理は品質向上に不可欠である。 本研究では、既存の前処理アルゴリズムである結合を用いて、データセットの複雑さを減らし、データ品質を改善する。 医療データセットは、MIMIC IIIとイリノイ大学病院の2つのデータベースから抽出され、イベントログに変換され、結合アルゴリズムに入力された。 プリプロセスされたイベントログは、プロセスモデルを生成するためにSplit Miner (SM)アルゴリズムに送信される。 プロセスモデルの品質は, 適合度, 精度, F-Measure, 複雑さといった指標を用いて, 結合前後で評価した。 事前処理されたイベントログは、決定的な結果を予測するために、Decay Replay Mining (DREAM)アルゴリズムの入力としても使用された。 本研究では,AUC(Area Under the Curve)とCI(Confidence Intervals)を用いた連結アルゴリズムの適用前後の予測結果を比較した。 その結果, 連結アルゴリズムはプロセスモデルの品質を向上し, 重要な健康結果の予測を行うことができた。

Predicting critical health outcomes such as patient mortality and hospital readmission is essential for improving survivability. However, healthcare datasets have many concurrences that create complexities, leading to poor predictions. Consequently, pre-processing the data is crucial to improve its quality. In this study, we use an existing pre-processing algorithm, concatenation, to improve data quality by decreasing the complexity of datasets. Sixteen healthcare datasets were extracted from two databases - MIMIC III and University of Illinois Hospital - converted to the event logs, they were then fed into the concatenation algorithm. The pre-processed event logs were then fed to the Split Miner (SM) algorithm to produce a process model. Process model quality was evaluated before and after concatenation using the following metrics: fitness, precision, F-Measure, and complexity. The pre-processed event logs were also used as inputs to the Decay Replay Mining (DREAM) algorithm to predict critical outcomes. We compared predicted results before and after applying the concatenation algorithm using Area Under the Curve (AUC) and Confidence Intervals (CI). Results indicated that the concatenation algorithm improved the quality of the process models and predictions of the critical health outcomes.
翻訳日:2024-07-04 15:35:05 公開日:2024-07-03
# コード変更関連タスクにおけるLLMの機能探索

Exploring the Capabilities of LLMs for Code Change Related Tasks ( http://arxiv.org/abs/2407.02824v1 )

ライセンス: Link先を確認
Lishui Fan, Jiakun Liu, Zhongxin Liu, David Lo, Xin Xia, Shanping Li, (参考訳) 開発者は日々のコード変更関連のタスク、例えばコードレビューを扱う。 事前訓練されたコードとコード変更指向のモデルは、開発者がそのようなタスクをこなすのに役立つように適応されている。 近年,大規模言語モデル (LLM) がコード関連タスクにおいて有効性を示している。 しかし、コードのための既存のLLMは、2つのコードバージョンの違いよりも、一般的なコード構文とセマンティクスに重点を置いている。 したがって、LLMがコード変更関連のタスクでどのように機能するかは、未解決の問題である。 そこで本研究では,コードレビュー生成,コミットメッセージ生成,ジャスト・イン・タイムのコメント更新など,コード変更に関連する3つのタスク,すなわちコードレビュー生成とコミットメッセージ生成とジャスト・イン・タイムのコメント更新に対して,テキスト内学習(ICL)とパラメータ効率の微調整(PEFT,LoRAやプレフィックスチューニングを含む)を併用した実験的検討を行った。 LLMのパフォーマンスは例がなく、一般的には例によって改善されているが、より多くの例が必ずしもより良いパフォーマンスをもたらすとは限らない。 LoRAでチューニングされたLLMは、最先端の小さな訓練済みモデルに匹敵する性能を持つ。 より大きなモデルは必ずしも優れているとは限らないが、 \textsc{Llama~2} と \textsc{Code~Llama} ファミリは常に最高である。 最高のLLMは、コメントだけを変更し、他のコード変更と互換性を持って実行するコード変更において、トレーニング済みの小さなモデルよりも優れています。 今後の作業は、コード変更関連のタスクに対するコメントよりも、コードに関連する変更に特有の知識を学ぶためのLLMの指導に重点を置くべきだと考えています。

Developers deal with code-change-related tasks daily, e.g., reviewing code. Pre-trained code and code-change-oriented models have been adapted to help developers with such tasks. Recently, large language models (LLMs) have shown their effectiveness in code-related tasks. However, existing LLMs for code focus on general code syntax and semantics rather than the differences between two code versions. Thus, it is an open question how LLMs perform on code-change-related tasks. To answer this question, we conduct an empirical study using \textgreater 1B parameters LLMs on three code-change-related tasks, i.e., code review generation, commit message generation, and just-in-time comment update, with in-context learning (ICL) and parameter-efficient fine-tuning (PEFT, including LoRA and prefix-tuning). We observe that the performance of LLMs is poor without examples and generally improves with examples, but more examples do not always lead to better performance. LLMs tuned with LoRA have comparable performance to the state-of-the-art small pre-trained models. Larger models are not always better, but \textsc{Llama~2} and \textsc{Code~Llama} families are always the best. The best LLMs outperform small pre-trained models on the code changes that only modify comments and perform comparably on other code changes. We suggest future work should focus more on guiding LLMs to learn the knowledge specific to the changes related to code rather than comments for code-change-related tasks.
翻訳日:2024-07-04 15:35:05 公開日:2024-07-03
# カジュアル推論のためのCGANを用いた表現学習

Representation learning with CGAN for casual inference ( http://arxiv.org/abs/2407.02825v1 )

ライセンス: Link先を確認
Zhaotian Weng, Jianbo Hong, Lan Wang, (参考訳) Conditional Generative Adversarial Nets (CGAN) は、条件付き画像生成性能を改善するためにしばしば使用される。 しかし,因果推論のためのCGANを用いた表現学習についてはほとんど研究されていない。 本稿では,敵対的アイデアを取り入れた表現学習関数の探索手法を提案する。 CGANのパターンを適用し、2つの分布のバランスが取れている状況において、適切な表現関数を見つける可能性について理論的に実証する。 理論的な結果は、2つの分布が平衡であるとき、理想表現関数が見出され、従ってさらなる研究に利用できることを示している。

Conditional Generative Adversarial Nets (CGAN) is often used to improve conditional image generation performance. However, there is little research on Representation learning with CGAN for causal inference. This paper proposes a new method for finding representation learning functions by adopting the adversarial idea. We apply the pattern of CGAN and theoretically emonstrate the feasibility of finding a suitable representation function in the context of two distributions being balanced. The theoretical result shows that when two distributions are balanced, the ideal representation function can be found and thus can be used to further research.
翻訳日:2024-07-04 15:35:05 公開日:2024-07-03
# 2層物理インフォームニューラルネットワークのトレーニングにおける入射勾配の収束性

Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks ( http://arxiv.org/abs/2407.02827v1 )

ライセンス: Link先を確認
Xianliang Xu, Zhongyi Huang, Ye Li, (参考訳) 最適化アルゴリズムは、物理インフォームドニューラルネットワーク(PINN)のトレーニングに不可欠であり、不適切な方法では、貧弱なソリューションにつながる可能性がある。 一般的な勾配降下アルゴリズムと比較して、暗黙の勾配降下(IGD)は、いくつかのマルチスケール問題に対処する上で、それより優れている。 本稿では、過度にパラメータ化された2層PINNのトレーニングのための暗黙の勾配降下に対する収束解析について述べる。 まず、Sigmoidal関数、Softplus関数、tanh関数などの一般的な滑らかな活性化関数に対するグラム行列の正の定性を示す。 そして、過パラメータ化により、ランダムに初期化されたIGDが線形収束速度で大域的最適解を収束させることを示す。 さらに、異なるトレーニングダイナミクスにより、サンプルサイズとグラム行列の最小固有値とは独立してIGDの学習率を選択することができる。

Optimization algorithms is crucial in training physics-informed neural networks (PINNs), unsuitable methods may lead to poor solutions. Compared to the common gradient descent algorithm, implicit gradient descent (IGD) outperforms it in handling some multi-scale problems. In this paper, we provide convergence analysis for the implicit gradient descent for training over-parametrized two-layer PINNs. We first demonstrate the positive definiteness of Gram matrices for general smooth activation functions, like sigmoidal function, softplus function, tanh function and so on. Then the over-parameterization allows us to show that the randomly initialized IGD converges a globally optimal solution at a linear convergence rate. Moreover, due to the different training dynamics, the learning rate of IGD can be chosen independent of the sample size and the least eigenvalue of the Gram matrix.
翻訳日:2024-07-04 15:35:05 公開日:2024-07-03
# QFaaSフレームワークを用いた量子サーバレスパラダイムとアプリケーション開発

Quantum Serverless Paradigm and Application Development using the QFaaS Framework ( http://arxiv.org/abs/2407.02828v1 )

ライセンス: Link先を確認
Hoa T. Nguyen, Bui Binh An Pham, Muhammad Usman, Rajkumar Buyya, (参考訳) 量子コンピューティングは、古典的なコンピュータの能力を超えた複雑な問題を解決する可能性がある。 しかし、初期量子ソフトウェア工学とノイズ中間スケール量子(NISQ)デバイスの制約により、その実用性は制限されている。 この問題に対処するため、この章では、実用的な量子関数・アズ・ア・サービスフレームワークであるQFaaSを使って、サーバレス量子コンピューティングの概念を紹介します。 このフレームワークは、サーバーレスコンピューティングモデルを使用して、量子ハードウェアの複雑さを抽象化し、さまざまな量子ソフトウェア開発キットと量子バックエンドにわたるアプリケーションのポータビリティを向上させることで、量子アプリケーション開発とデプロイメントを単純化する。 この章では、QFaaSのデプロイと使用に関する包括的なドキュメンテーションとガイドライン、セットアップ、コンポーネントのデプロイ、サービス指向量子アプリケーションの例が紹介されている。 このフレームワークは、現在の制限を克服し、量子コンピューティングの実用的なソフトウェアエンジニアリングを前進させる、有望なアプローチを提供する。

Quantum computing has the potential to solve complex problems beyond the capabilities of classical computers. However, its practical use is currently limited due to early-stage quantum software engineering and the constraints of Noisy Intermediate-Scale Quantum (NISQ) devices. To address this issue, this chapter introduces the concept of serverless quantum computing with examples using QFaaS, a practical Quantum Function-as-a-Service framework. This framework utilizes the serverless computing model to simplify quantum application development and deployment by abstracting the complexities of quantum hardware and enhancing application portability across different quantum software development kits and quantum backends. The chapter provides comprehensive documentation and guidelines for deploying and using QFaaS, detailing the setup, component deployment, and examples of service-oriented quantum applications. This framework offers a promising approach to overcoming current limitations and advancing the practical software engineering of quantum computing.
翻訳日:2024-07-04 15:25:09 公開日:2024-07-03
# 放射光補正に基づく都市景観のTLS点雲の反射音除去のための光モデリング手法

A Radiometric Correction based Optical Modeling Approach to Removing Reflection Noise in TLS Point Clouds of Urban Scenes ( http://arxiv.org/abs/2407.02830v1 )

ライセンス: Link先を確認
Li Fang, Tianyu Li, Yanghong Lin, Shudong Zhou, Wei Yao, (参考訳) ポイントクラウドは、3D再構成、自律運転、ロボット工学といったコンピュータビジョンタスクにおいて不可欠である。 しかし、TLSが取得した点雲は反射面の仮想点を含むことが多く、乱れを引き起こす。 本研究では,TLS点雲に対する反射ノイズ除去アルゴリズムを提案する。 我々の革新的な反射面検出アルゴリズムは、幾何-光学モデルと物理特性に基づいて、光反射理論ごとに反射点を特定し、分類する。 我々は LSFH 特徴記述子を反射特性の保持に適応させ, 対称構造構造からの干渉を緩和した。 ハウスドルフ特徴距離を組み込むことで、ゴーストや変形に対するレジリエンスを高め、仮想点検出精度を向上させる。 仮想TLS反射雑音を伴う多様な都市環境を特徴とする3DRNベンチマークデータセットの大規模な実験により,反射領域における3D点の精度とリコール率をそれぞれ57.03\%,31.80\%向上させた。 本手法は, 先行法よりも9.17 %, 5.65 %高い精度で検出できる。 3DRNデータセットをhttps://github.com/Tsuiky/3DRNでアクセスする。

Point clouds are vital in computer vision tasks such as 3D reconstruction, autonomous driving, and robotics. However, TLS-acquired point clouds often contain virtual points from reflective surfaces, causing disruptions. This study presents a reflection noise elimination algorithm for TLS point clouds. Our innovative reflection plane detection algorithm, based on geometry-optical models and physical properties, identifies and categorizes reflection points per optical reflection theory. We've adapted the LSFH feature descriptor to retain reflection features, mitigating interference from symmetrical architectural structures. By incorporating the Hausdorff feature distance, the algorithm enhances resilience to ghosting and deformation, improving virtual point detection accuracy. Extensive experiments on the 3DRN benchmark dataset, featuring diverse urban environments with virtual TLS reflection noise, show our algorithm improves precision and recall rates for 3D points in reflective regions by 57.03\% and 31.80\%, respectively. Our method achieves a 9.17\% better outlier detection rate and 5.65\% higher accuracy than leading methods. Access the 3DRN dataset at (https://github.com/Tsuiky/3DRN).
翻訳日:2024-07-04 15:25:09 公開日:2024-07-03
# スタイルアライメントに基づくUAV-Viewジオローカライゼーションのための動的観測法

Style Alignment based Dynamic Observation Method for UAV-View Geo-localization ( http://arxiv.org/abs/2407.02832v1 )

ライセンス: Link先を確認
Jie Shao, LingHao Jiang, (参考訳) UAVビューのジオローカライゼーションの課題は、ドローン/衛星画像からなる参照データセットとマッチングすることで、クエリ衛星/ドローン画像のローカライゼーションを推定することである。 衛星視界とドローン視界の微妙な調整は行われてきたが、視界、高度、照明の変化により、クラス内とクラス内の両方に大きな違いは依然として大きな課題である。 本稿では,UAVビューのジオローカライズのためのスタイルアライメントに基づく動的観測手法を提案し,この課題を視覚的スタイル変換と周囲の騒音制御という2つの視点から解決する。 具体的には、ドローンビュー画像の多様な視覚スタイルから衛星画像の統一的な視覚スタイルへ変換するスタイルアライメント戦略を導入する。 次に、人間の観察習慣を模倣して画像の空間分布を評価する動的観察モジュールを設計する。 二重二乗リングストリーム構造を持つ階層型アテンションブロック(HAB)によって特徴付けられ、周囲のノイズと地理的な変形を低減する。 さらに、異なるジオタグの特徴を排除し、相関計算により未マッチング画像からの知識を絞り込むデコンストラクション損失を提案する。 実験により,ベンチマークデータセット上でのモデルの最先端性能を実証した。 特に、University-1652の先行技術と比較すると、2倍のパラメータしか必要とせず、最も優れたFSRA(FSRA)を上回りました。 コードはhttps://github.com/Xcco1/SA\_DOMでリリースされる

The task of UAV-view geo-localization is to estimate the localization of a query satellite/drone image by matching it against a reference dataset consisting of drone/satellite images. Though tremendous strides have been made in feature alignment between satellite and drone views, vast differences in both inter and intra-class due to changes in viewpoint, altitude, and lighting remain a huge challenge. In this paper, a style alignment based dynamic observation method for UAV-view geo-localization is proposed to meet the above challenges from two perspectives: visual style transformation and surrounding noise control. Specifically, we introduce a style alignment strategy to transfrom the diverse visual style of drone-view images into a unified satellite images visual style. Then a dynamic observation module is designed to evaluate the spatial distribution of images by mimicking human observation habits. It is featured by the hierarchical attention block (HAB) with a dual-square-ring stream structure, to reduce surrounding noise and geographical deformation. In addition, we propose a deconstruction loss to push away features of different geo-tags and squeeze knowledge from unmatched images by correlation calculation. The experimental results demonstrate the state-of-the-art performance of our model on benchmarked datasets. In particular, when compared to the prior art on University-1652, our results surpass the best of them (FSRA), while only requiring 2x fewer parameters. Code will be released at https://github.com/Xcco1/SA\_DOM
翻訳日:2024-07-04 15:25:09 公開日:2024-07-03
# LANE: 説明可能な推論生成のための非チューニング大規模言語モデルとオンラインレコメンデーションシステムの論理アライメント

LANE: Logic Alignment of Non-tuning Large Language Models and Online Recommendation Systems for Explainable Reason Generation ( http://arxiv.org/abs/2407.02833v1 )

ライセンス: Link先を確認
Hongke Zhao, Songming Zheng, Likang Wu, Bowen Yu, Jing Wang, (参考訳) ユーザの信頼と満足度を高めるためには,レコメンデーションシステムの説明責任が不可欠である。 大きな言語モデル(LLM)を活用することで、包括的なレコメンデーションロジック生成の新しい機会を提供する。 しかし、既存の研究では、レコメンデーションタスクのための微調整LDMモデルは計算コストが高く、既存のシステムとのアライメントの問題を引き起こし、GPT-4のような証明済みのプロプライエタリ/クローズドソースLSMモデルの応用可能性を制限する。 本研究では,LLM とオンラインレコメンデーションシステムとの連携を LLM のチューニングやコスト削減,説明可能性の向上を伴わない効果的戦略 LANE を提案する。 この革新的なアプローチは、強力なプロプライエタリなモデルの能力を十分に活用しながら、言語モデルとレコメンデーションシステムを統合する上で重要な課題に対処する。 具体的には、セマンティック埋め込み、ゼロショットプロンプトを用いたユーザマルチ参照抽出、セマンティックアライメント、およびChain of Thought(CoT)プロンプトを用いた説明可能なレコメンデーション生成など、いくつかの重要なコンポーネントを運用している。 提案手法では,IDの代わりに項目タイトルを埋め込み,マルチヘッドアテンション機構を活用することにより,ユーザの好みのセマンティックな特徴と候補項目のセマンティックな特徴を一致させ,一貫性とユーザ対応のレコメンデーションを確保する。 性能比較,質問票,ビジュアライゼーションケースを含む十分な実験結果から,提案手法は推奨性能を保証できるだけでなく,理解し易く,合理的な推薦ロジックも提供できることが証明された。

The explainability of recommendation systems is crucial for enhancing user trust and satisfaction. Leveraging large language models (LLMs) offers new opportunities for comprehensive recommendation logic generation. However, in existing related studies, fine-tuning LLM models for recommendation tasks incurs high computational costs and alignment issues with existing systems, limiting the application potential of proven proprietary/closed-source LLM models, such as GPT-4. In this work, our proposed effective strategy LANE aligns LLMs with online recommendation systems without additional LLMs tuning, reducing costs and improving explainability. This innovative approach addresses key challenges in integrating language models with recommendation systems while fully utilizing the capabilities of powerful proprietary models. Specifically, our strategy operates through several key components: semantic embedding, user multi-preference extraction using zero-shot prompting, semantic alignment, and explainable recommendation generation using Chain of Thought (CoT) prompting. By embedding item titles instead of IDs and utilizing multi-head attention mechanisms, our approach aligns the semantic features of user preferences with those of candidate items, ensuring coherent and user-aligned recommendations. Sufficient experimental results including performance comparison, questionnaire voting, and visualization cases prove that our method can not only ensure recommendation performance, but also provide easy-to-understand and reasonable recommendation logic.
翻訳日:2024-07-04 15:25:09 公開日:2024-07-03
# アスペクトベース感性分析手法の比較研究

Aspect-Based Sentiment Analysis Techniques: A Comparative Study ( http://arxiv.org/abs/2407.02834v1 )

ライセンス: Link先を確認
Dineth Jayakody, Koshila Isuranda, A V A Malkith, Nisansa de Silva, Sachintha Rajith Ponnamperuma, G G N Sandamali, K L K Sudheera, (参考訳) デジタル化時代が明けてから、顧客からのフィードバックとオンラインレビューは間違いなくビジネスにとって重要な洞察源である。 結果として、そのような情報源の比較分析を行うことは、仲間に対して競争力を与え、顧客の忠誠を向上したいと考えるあらゆるビジネスの事実上のモダス・オペラディとなった。 センチメント分析は、大衆の関心を喚起し、市場の動向を露呈し、競争相手を分析するための手法である。 従来の感情分析は全体の感情に焦点が当てられているが、ニーズが時間とともに進むにつれて、より粒度の細かいレビューで言及された様々な特定の主題、製品、サービスに関する世論や感情を探求することが重要になっている。 この目的のために、Aspect-based Sentiment Analysis (ABSA)は、単純な単語レベル分析からトーンや文脈認識分析へのパラダイムシフトに寄与した人工知能(AI)技術の進歩に支えられ、テキスト内の特定の側面を特定し、各側面に関連する感情を決定することに重点を置いている。 本研究では、2つのベンチマークデータセット(Restaurant14とLaptop-14)でABSAのディープNN法を比較し、FAST LSAが87.6%と82.6%の精度で最高の総合結果を得るが、それぞれ93%と86.21%の精度を示すLSA+DeBERTaを通過しないことを示した。

Since the dawn of the digitalisation era, customer feedback and online reviews are unequivocally major sources of insights for businesses. Consequently, conducting comparative analyses of such sources has become the de facto modus operandi of any business that wishes to give itself a competitive edge over its peers and improve customer loyalty. Sentiment analysis is one such method instrumental in gauging public interest, exposing market trends, and analysing competitors. While traditional sentiment analysis focuses on overall sentiment, as the needs advance with time, it has become important to explore public opinions and sentiments on various specific subjects, products and services mentioned in the reviews on a finer-granular level. To this end, Aspect-based Sentiment Analysis (ABSA), supported by advances in Artificial Intelligence (AI) techniques which have contributed to a paradigm shift from simple word-level analysis to tone and context-aware analyses, focuses on identifying specific aspects within the text and determining the sentiment associated with each aspect. In this study, we compare several deep-NN methods for ABSA on two benchmark datasets (Restaurant14 and Laptop-14) and found that FAST LSA obtains the best overall results of 87.6% and 82.6% accuracy but does not pass LSA+DeBERTa which reports 90.33% and 86.21% accuracy respectively.
翻訳日:2024-07-04 15:25:09 公開日:2024-07-03
# 非教師付きドメイン適応オブジェクト検出のためのペアワイズDomMix Attentive Adversarial Network

A Pairwise DomMix Attentive Adversarial Network for Unsupervised Domain Adaptive Object Detection ( http://arxiv.org/abs/2407.02835v1 )

ライセンス: Link先を確認
Jie Shao, Jiacheng Wu, Wenzhong Shen, Cheng Yang, (参考訳) 教師なしドメイン適応オブジェクト検出(DAOD)は、ソースドメインでトレーニングされたモデルを未ラベルのターゲットドメインに適応させ、オブジェクト検出を行う。 既存の教師なしDAODメソッドは通常、ターゲットからソースへの特徴アライメントを実行する。 一方向のドメイン転送は、ターゲットのサンプルに関する情報を省略し、大きなドメインシフトがある場合、最適な準適応をもたらす。 そこで本稿では,上記の課題を軽減するために,Domain Mixup (DomMix) モジュールを用いた対角対向ネットワークを提案する。 具体的には、両方のドメインのフィーチャが相違点を共有することができる中間ドメインを構築するために、ディープレベルのミックスアップが使用される。 次に、画像レベルとインスタンスレベルの両方の特徴を異なるスケールで符号化し、対向学習によるドメインアライメントを最適化する。 これにより、ネットワークは異なるコンテキスト情報を持つリージョンに集中し、異なるドメイン間の類似性を学ぶことができる。 いくつかのベンチマークデータセットで大規模な実験を行い,提案手法の優位性を実証した。

Unsupervised Domain Adaptive Object Detection (DAOD) could adapt a model trained on a source domain to an unlabeled target domain for object detection. Existing unsupervised DAOD methods usually perform feature alignments from the target to the source. Unidirectional domain transfer would omit information about the target samples and result in suboptimal adaptation when there are large domain shifts. Therefore, we propose a pairwise attentive adversarial network with a Domain Mixup (DomMix) module to mitigate the aforementioned challenges. Specifically, a deep-level mixup is employed to construct an intermediate domain that allows features from both domains to share their differences. Then a pairwise attentive adversarial network is applied with attentive encoding on both image-level and instance-level features at different scales and optimizes domain alignment by adversarial learning. This allows the network to focus on regions with disparate contextual information and learn their similarities between different domains. Extensive experiments are conducted on several benchmark datasets, demonstrating the superiority of our proposed method.
翻訳日:2024-07-04 15:25:09 公開日:2024-07-03
# PII一般化レベル予測に対する特徴量と文脈認識アプローチの比較

Comparing Feature-based and Context-aware Approaches to PII Generalization Level Prediction ( http://arxiv.org/abs/2407.02837v1 )

ライセンス: Link先を確認
Kailin Zhang, Xinying Qiu, (参考訳) テキストデータにおける個人識別情報(PII)の保護はプライバシにとって重要であるが,現在のPII一般化手法では,不均一なデータ配信やコンテキスト認識の制限といった課題に直面している。 これらの問題に対処するために、構造化された入力の性能を改善するための機械学習を用いた特徴ベース手法と、原文と一般化された候補の間のより広い文脈と意味的関係を考慮に入れた新しい文脈認識フレームワークを提案する。 文脈認識アプローチでは、テキスト表現、関数変換、平均二乗誤差スコアリングにMultilingual-BERTを用いる。 WikiReplaceデータセットの実験では、両方の方法の有効性が示され、コンテキスト認識アプローチは、さまざまなスケールで機能ベースのものよりも優れています。 本研究は, テキスト匿名化におけるPII一般化手法の進歩に寄与し, 特徴選択の重要性, アンサンブル学習, および, テキスト匿名化におけるプライバシー保護の促進を目的としたコンテキスト情報の導入に寄与する。

Protecting Personal Identifiable Information (PII) in text data is crucial for privacy, but current PII generalization methods face challenges such as uneven data distributions and limited context awareness. To address these issues, we propose two approaches: a feature-based method using machine learning to improve performance on structured inputs, and a novel context-aware framework that considers the broader context and semantic relationships between the original text and generalized candidates. The context-aware approach employs Multilingual-BERT for text representation, functional transformations, and mean squared error scoring to evaluate candidates. Experiments on the WikiReplace dataset demonstrate the effectiveness of both methods, with the context-aware approach outperforming the feature-based one across different scales. This work contributes to advancing PII generalization techniques by highlighting the importance of feature selection, ensemble learning, and incorporating contextual information for better privacy protection in text anonymization.
翻訳日:2024-07-04 15:25:09 公開日:2024-07-03
# CRUISE on Quantum Computing for Feature Selection in Recommender Systems (特集 量子コンピューティング)

CRUISE on Quantum Computing for Feature Selection in Recommender Systems ( http://arxiv.org/abs/2407.02839v1 )

ライセンス: Link先を確認
Jiayang Niu, Jie Li, Ke Deng, Yongli Ren, (参考訳) 量子コンピュータを使って、古典的なコンピュータでは対処できないRecommender Systemsの問題を解決することは、貴重な研究トピックである。 本稿では,推奨アルゴリズムの特徴選択問題に対処するためにQuantum Annealersを用いる。 この特徴選択問題は、擬似非拘束バイナリ最適化(QUBO)問題である。 対実解析を取り入れることで、純粋な相互情報を用いた場合と比較して、アイテムベースのKNN推薦アルゴリズムの性能を著しく改善する。 大規模な実験により、このような問題に対処する上で、対実分析を用いることが大きな可能性を証明している。

Using Quantum Computers to solve problems in Recommender Systems that classical computers cannot address is a worthwhile research topic. In this paper, we use Quantum Annealers to address the feature selection problem in recommendation algorithms. This feature selection problem is a Quadratic Unconstrained Binary Optimization(QUBO) problem. By incorporating Counterfactual Analysis, we significantly improve the performance of the item-based KNN recommendation algorithm compared to using pure Mutual Information. Extensive experiments have demonstrated that the use of Counterfactual Analysis holds great promise for addressing such problems.
翻訳日:2024-07-04 15:25:09 公開日:2024-07-03
# MindBench:マインドマップの構造認識と分析のための総合ベンチマーク

MindBench: A Comprehensive Benchmark for Mind Map Structure Recognition and Analysis ( http://arxiv.org/abs/2407.02842v1 )

ライセンス: Link先を確認
Lei Chen, Feng Yan, Yujie Zhong, Shaoxiang Chen, Zequn Jie, Lin Ma, (参考訳) MLLM(Multimodal Large Language Models)は文書解析の分野で大きな進歩を遂げている。 それにもかかわらず、既存のベンチマークはテキストと単純なレイアウト情報のみを抽出することに重点を置いており、マインドマップやフローチャートのような構造化ドキュメントの要素間の複雑な相互作用を無視している。 この問題に対処するために、MindBenchという新しいベンチマークを導入する。これは、厳密に構築されたバイリンガル認証や合成画像、詳細なアノテーション、評価指標、ベースラインモデルを含むだけでなく、5種類の構造化理解および解析タスクを設計する。 これらのタスクには、完全解析、部分解析、位置関連解析、構造化された視覚質問回答(VQA)、および位置関連VQAが含まれ、テキスト認識、空間認識、関係識別、構造化解析などの重要な領域をカバーする。 大規模な実験結果から、構造化文書情報を扱う現在のモデルの能力を改善するための大きな可能性と重要な余地が示される。 我々は、MindBenchのローンチが構造化文書分析技術の研究開発を著しく前進させることを期待している。 MindBench は以下の https://miasanlei.github.io/MindBench.github.io/ で利用可能である。

Multimodal Large Language Models (MLLM) have made significant progress in the field of document analysis. Despite this, existing benchmarks typically focus only on extracting text and simple layout information, neglecting the complex interactions between elements in structured documents such as mind maps and flowcharts. To address this issue, we introduce the new benchmark named MindBench, which not only includes meticulously constructed bilingual authentic or synthetic images, detailed annotations, evaluation metrics and baseline models, but also specifically designs five types of structured understanding and parsing tasks. These tasks include full parsing, partial parsing, position-related parsing, structured Visual Question Answering (VQA), and position-related VQA, covering key areas such as text recognition, spatial awareness, relationship discernment, and structured parsing. Extensive experimental results demonstrate the substantial potential and significant room for improvement in current models' ability to handle structured document information. We anticipate that the launch of MindBench will significantly advance research and application development in structured document analysis technology. MindBench is available at: https://miasanlei.github.io/MindBench.github.io/.
翻訳日:2024-07-04 15:25:09 公開日:2024-07-03
# 乳がん分離・同定のための多段階統合型深層学習フレームワーク

Multi-Attention Integrated Deep Learning Frameworks for Enhanced Breast Cancer Segmentation and Identification ( http://arxiv.org/abs/2407.02844v1 )

ライセンス: Link先を確認
Pandiyaraju V, Shravan Venkatraman, Pavan Kumar S, Santhosh Malarvannan, Kannan A, (参考訳) 乳がんは世界中で深刻な脅威となり、毎年多くの命が報告されている。 したがって、早期介入や生存率の向上には、タイムリーな検出が不可欠である。 超音波画像を用いた乳腺腫瘍の正確な診断と分類は、治療戦略の改善のために最先端の解決策を要求する医学的課題である。 本研究は,乳がん腫瘍の超音波画像からの分類と分類を目的とした多目的ディープラーニング(DL)フレームワークを提案する。 InceptionResNetバックボーンを備えた新しいLinkNet DLフレームワークを用いて,超音波画像から腫瘍をセグメント化するための空間チャネルアテンション機構を提案する。 そこで本研究では,腫瘍を良性,悪性,正常と分類するために,DCNNIMAFを用いた深部畳み込みニューラルネットワークを提案する。 実験結果から、セグメンテーションモデルの精度は98.1%であり、最小損失は0.6%であることがわかった。 また、IoUとDice Coefficientのスコアはそれぞれ96.9%、97.2%という高いインターセクションを達成している。 同様に、分類モデルは99.2%の精度に達し、低い損失は0.31%となった。 さらに、この分類フレームワークは、それぞれ99.1%、99.3%、99.1%の優れたF1スコア、精度、リコール値を達成した。 乳がんの早期発見と正確な分類のための堅牢な枠組みを提供することにより、この研究は医療画像解析の分野を著しく進歩させ、診断精度と患者の予後を向上させる可能性がある。

Breast cancer poses a profound threat to lives globally, claiming numerous lives each year. Therefore, timely detection is crucial for early intervention and improved chances of survival. Accurately diagnosing and classifying breast tumors using ultrasound images is a persistent challenge in medicine, demanding cutting-edge solutions for improved treatment strategies. This research introduces multiattention-enhanced deep learning (DL) frameworks designed for the classification and segmentation of breast cancer tumors from ultrasound images. A spatial channel attention mechanism is proposed for segmenting tumors from ultrasound images, utilizing a novel LinkNet DL framework with an InceptionResNet backbone. Following this, the paper proposes a deep convolutional neural network with an integrated multi-attention framework (DCNNIMAF) to classify the segmented tumor as benign, malignant, or normal. From experimental results, it is observed that the segmentation model has recorded an accuracy of 98.1%, with a minimal loss of 0.6%. It has also achieved high Intersection over Union (IoU) and Dice Coefficient scores of 96.9% and 97.2%, respectively. Similarly, the classification model has attained an accuracy of 99.2%, with a low loss of 0.31%. Furthermore, the classification framework has achieved outstanding F1-Score, precision, and recall values of 99.1%, 99.3%, and 99.1%, respectively. By offering a robust framework for early detection and accurate classification of breast cancer, this proposed work significantly advances the field of medical image analysis, potentially improving diagnostic precision and patient outcomes.
翻訳日:2024-07-04 15:25:09 公開日:2024-07-03
# 3次元オブジェクトを用いた言語接地のためのマルチタスク領域適応

Multi-Task Domain Adaptation for Language Grounding with 3D Objects ( http://arxiv.org/abs/2407.02846v1 )

ライセンス: Link先を確認
Penglei Sun, Yaoxian Song, Xinglin Pan, Peijie Dong, Xiaofei Yang, Qiang Wang, Zhixu Li, Tiefeng Li, Xiaowen Chu, (参考訳) 既存の3Dオブジェクトによるオブジェクトレベルの言語接地に関する研究は、主に、市販の事前学習モデルを利用して、視点選択や幾何学的先行といった特徴を捉えることで、パフォーマンス向上に重点を置いている。 しかし、クロスドメイン分野における言語ビジョンアライメントのクロスモーダル表現について検討することはできなかった。 そこで本研究では,3次元オブジェクトを用いたDA4LG(Domain Adaptation for Language Grounding)という新しい手法を提案する。 具体的には、DA4LGは、マルチタスク学習による視覚的適応モジュールからなり、包括的マルチモーダル特徴表現による視覚言語アライメントを実現する。 実験の結果,DA4LGは観察の完全性とは無関係に,視覚的および非視覚的言語記述を競合的に行うことが示された。 DA4LGは、言語基盤ベンチマークSNAREにおいて、それぞれ83.8%と86.8%の精度で、シングルビュー設定とマルチビュー設定で最先端のパフォーマンスを達成する。 シミュレーション実験により,従来の手法と比較して,DA4LGの実用的,汎用的な性能を示す。 私たちのプロジェクトはhttps://sites.google.com/view/da4lg.comで利用可能です。

The existing works on object-level language grounding with 3D objects mostly focus on improving performance by utilizing the off-the-shelf pre-trained models to capture features, such as viewpoint selection or geometric priors. However, they have failed to consider exploring the cross-modal representation of language-vision alignment in the cross-domain field. To answer this problem, we propose a novel method called Domain Adaptation for Language Grounding (DA4LG) with 3D objects. Specifically, the proposed DA4LG consists of a visual adapter module with multi-task learning to realize vision-language alignment by comprehensive multimodal feature representation. Experimental results demonstrate that DA4LG competitively performs across visual and non-visual language descriptions, independent of the completeness of observation. DA4LG achieves state-of-the-art performance in the single-view setting and multi-view setting with the accuracy of 83.8% and 86.8% respectively in the language grounding benchmark SNARE. The simulation experiments show the well-practical and generalized performance of DA4LG compared to the existing methods. Our project is available at https://sites.google.com/view/da4lg.
翻訳日:2024-07-04 15:25:09 公開日:2024-07-03
# 植物医師:映像中の植物被害を定量化するハイブリッド機械学習とイメージセグメンテーションソフトウェア

Plant Doctor: A hybrid machine learning and image segmentation software to quantify plant damage in video footage ( http://arxiv.org/abs/2407.02853v1 )

ライセンス: Link先を確認
Marc Josep Montagut Marques, Liu Mingxin, Kuri Thomas Shiojiri, Tomika Hagiwara, Kayo Hirose, Kaori Shiojiri, Shinjiro Umezu, (参考訳) 人工知能は診断プロセスの自動化を大幅に進歩させ、農業を含む様々な分野に利益をもたらした。 本研究では,アクセス可能なカメラで撮影した映像を用いて,街路植物の自動診断を行うAIシステムを提案する。 本システムは,都市部における病気のコントロールを支援するため,日常的に植物の健康をモニタリングすることを目的としている。 YOLOv8とDeepSORTの2つのマシンビジョンアルゴリズムを組み合わせることで、システムは個々の葉を効率よく識別し、追跡し、健康分析のための最適なイメージを抽出する。 速度と計算効率のために選択されたYOLOv8は葉を見つけるが、DeepSORTは複雑な環境で堅牢なトラッキングを保証する。 詳細な健康評価のために、畳み込みニューラルネットワークであるDeepLabV3Plusを使用して、細菌、害虫、真菌による葉の損傷を分類し定量化する。 このハイブリッドシステムは、東京の都市工場の映像を含む多様なデータセットを使って訓練され、検証されている。 その結果, 葉の損傷診断におけるシステムの堅牢性と精度が示され, 大規模都会の植物病モニタリングにも応用できる可能性が示唆された。 このアプローチは、持続的な都市生態系をサポートする、非侵襲的で効率的でスケーラブルなソリューションを都会の木の健康管理に提供します。

Artificial intelligence has significantly advanced the automation of diagnostic processes, benefiting various fields including agriculture. This study introduces an AI-based system for the automatic diagnosis of urban street plants using video footage obtained with accessible camera devices. The system aims to monitor plant health on a day-to-day basis, aiding in the control of disease spreading in urban areas. By combining two machine vision algorithms, YOLOv8 and DeepSORT, the system efficiently identifies and tracks individual leaves, extracting the optimal images for health analysis. YOLOv8, chosen for its speed and computational efficiency, locates leaves, while DeepSORT ensures robust tracking in complex environments. For detailed health assessment, DeepLabV3Plus, a convolutional neural network, is employed to segment and quantify leaf damage caused by bacteria, pests, and fungi. The hybrid system, named Plant Doctor, has been trained and validated using a diverse dataset including footage from Tokyo urban plants. The results demonstrate the robustness and accuracy of the system in diagnosing leaf damage, with potential applications in large scale urban flora illness monitoring. This approach provides a non-invasive, efficient, and scalable solution for urban tree health management, supporting sustainable urban ecosystems.
翻訳日:2024-07-04 15:25:09 公開日:2024-07-03
# グロスフリー手話翻訳・生成のためのユニバーサルグロスレベル表現

Universal Gloss-level Representation for Gloss-free Sign Language Translation and Production ( http://arxiv.org/abs/2407.02854v1 )

ライセンス: Link先を確認
Eui Jun Hwang, Sukmin Cho, Huije Lee, Youngwoo Yoon, Jong C. Park, (参考訳) 手話は、聴覚障害や難聴に欠かせないものであり、多モーダルな性質と手話の動きを話し言葉にマッピングする本来のあいまいさにより、翻訳と生産において固有の課題を呈している。 それまでの手法は、しばしばグロスアノテーションに頼り、手話に時間を要する労働と専門的な専門知識を必要とする。 グロスフリーなメソッドはこれらの制限に対処するために現れたが、しばしば外部の手話データや辞書に依存しており、グロスアノテーションの必要性を完全に排除することができない。 グロスアノテーションを置き換えて手話翻訳(SLT)と手話生成(SLP)の両方に活用できる包括的アプローチへの明確な要求がある。 我々は、PHOENIX14T、How2Sign、NIASL2021などの複数のデータセットでトレーニングされた、SLTとSLPの統一かつ自己教師型ソリューションであるUniGloR(UniGloR)を紹介する。 本結果は,UniGloRの翻訳および生産における有効性を示すものである。 さらに、未確認データに対して、手話認識(SLR)を奨励する結果を報告する。 本研究は、自己指導型学習を統一的に実現し、今後の研究における革新的で実践的な応用の道を開くことを示唆している。

Sign language, essential for the deaf and hard-of-hearing, presents unique challenges in translation and production due to its multimodal nature and the inherent ambiguity in mapping sign language motion to spoken language words. Previous methods often rely on gloss annotations, requiring time-intensive labor and specialized expertise in sign language. Gloss-free methods have emerged to address these limitations, but they often depend on external sign language data or dictionaries, failing to completely eliminate the need for gloss annotations. There is a clear demand for a comprehensive approach that can supplant gloss annotations and be utilized for both Sign Language Translation (SLT) and Sign Language Production (SLP). We introduce Universal Gloss-level Representation (UniGloR), a unified and self-supervised solution for both SLT and SLP, trained on multiple datasets including PHOENIX14T, How2Sign, and NIASL2021. Our results demonstrate UniGloR's effectiveness in the translation and production tasks. We further report an encouraging result for the Sign Language Recognition (SLR) on previously unseen data. Our study suggests that self-supervised learning can be made in a unified manner, paving the way for innovative and practical applications in future research.
翻訳日:2024-07-04 15:25:09 公開日:2024-07-03
# 安全なアンラーニング: ジェイルブレイク攻撃を防御するための、驚くほど効果的で一般化可能なソリューション

Safe Unlearning: A Surprisingly Effective and Generalizable Solution to Defend Against Jailbreak Attacks ( http://arxiv.org/abs/2407.02855v1 )

ライセンス: Link先を確認
Zhexin Zhang, Junxiao Yang, Pei Ke, Shiyao Cui, Chujie Zheng, Hongning Wang, Minlie Huang, (参考訳) LLMは安全アライメントの後にも、ジェイルブレイク攻撃に弱いことが知られている。 重要な観察は、異なるタイプのジェイルブレイク攻撃は、かなり異なるクエリを生成することができるが、ほとんどは同じ有害な知識(例えば、爆弾を作るための詳細な手順)に根ざした同様の反応をもたらすことである。 したがって, LLMにおける有害な知識を直接解き放つことは, 主流監督微調整(SFT)に基づくアプローチよりも, ジェイルブレイク攻撃に対する防御に有効な方法であると推測する。 我々のソリューションは、トレーニング中のジェイルブレイクプロンプトを20個だけ使用することで、Vicuna-7Bのアタック成功率(ASR)を82.6\%から7.7\%まで、複雑なジェイルブレイクプロンプトでラップした有害な質問を減らしました。 これはLlama2-7B-Chatよりも大幅に優れており、約0.1Mの安全アライメントサンプルで微調整されているが、追加の安全システムプロンプトの下でもASRは21.9\%である。 さらに,本手法の一般化能力は,有害な質問に対する有害な応答(例えば,応答パターン,共有ステップと行動,LLMにおける学習表現間の類似性)の内在的関連性に起因していることが明らかとなった。 私たちのコードは \url{https://github.com/thu-coai/SafeUnlearning} で利用可能です。

LLMs are known to be vulnerable to jailbreak attacks, even after safety alignment. An important observation is that, while different types of jailbreak attacks can generate significantly different queries, they mostly result in similar responses that are rooted in the same harmful knowledge (e.g., detailed steps to make a bomb). Therefore, we conjecture that directly unlearn the harmful knowledge in the LLM can be a more effective way to defend against jailbreak attacks than the mainstream supervised fine-tuning (SFT) based approaches. Our extensive experiments confirmed our insight and suggested surprising generalizability of our unlearning-based approach: using only 20 raw harmful questions \emph{without} any jailbreak prompt during training, our solution reduced the Attack Success Rate (ASR) in Vicuna-7B on \emph{out-of-distribution} (OOD) harmful questions wrapped with various complex jailbreak prompts from 82.6\% to 7.7\%. This significantly outperforms Llama2-7B-Chat, which is fine-tuned on about 0.1M safety alignment samples but still has an ASR of 21.9\% even under the help of an additional safety system prompt. Further analysis reveals that the generalization ability of our solution stems from the intrinsic relatedness among harmful responses across harmful questions (e.g., response patterns, shared steps and actions, and similarity among their learned representations in the LLM). Our code is available at \url{https://github.com/thu-coai/SafeUnlearning}.
翻訳日:2024-07-04 15:25:09 公開日:2024-07-03
# 初期異常検出:完全対部分流のモデル性能に関する研究

Early-Stage Anomaly Detection: A Study of Model Performance on Complete vs. Partial Flows ( http://arxiv.org/abs/2407.02856v1 )

ライセンス: Link先を確認
Adrian Pekar, Richard Jozsa, (参考訳) 本研究では,機械学習モデル,特にランダムフォレスト(ランダムフォレスト)が,完全フロー記録でトレーニングし,部分フローデータでテストした場合の異常検出システムにおいて有効性について検討した。 実世界のリアルタイムネットワーク環境に典型的な不完全なデータにモデルを適用する際に生じる性能格差について検討する。 本研究は, 完全流動モデルが部分流動に対して試験された場合, モデル性能が著しく低下し, 精度とリコールが最大で30 %低下することを示した。 逆に、一貫した完全あるいは部分的なデータセットでトレーニングおよびテストされたモデルは堅牢性を維持し、トレーニングにおけるデータセット一貫性の重要性を強調している。 本研究は,信頼性の高い検出率を維持するためには,テストセット内の最低7個のパケットが必要であることを明らかにした。 これらの結果は、部分データのダイナミクスに効果的に適応し、運用環境における異常検出システムの実用性を高めるための調整されたトレーニング戦略の必要性を浮き彫りにしている。

This study investigates the efficacy of machine learning models, specifically Random Forest, in anomaly detection systems when trained on complete flow records and tested on partial flow data. We explore the performance disparity that arises when models are applied to incomplete data typical in real-world, real-time network environments. Our findings demonstrate a significant decline in model performance, with precision and recall dropping by up to 30\% under certain conditions when models trained on complete flows are tested against partial flows. Conversely, models trained and tested on consistently complete or partial datasets maintain robustness, highlighting the importance of dataset consistency in training. The study reveals that a minimum of 7 packets in the test set is required for maintaining reliable detection rates. These results underscore the need for tailored training strategies that can effectively adapt to the dynamics of partial data, enhancing the practical applicability of anomaly detection systems in operational settings.
翻訳日:2024-07-04 15:25:09 公開日:2024-07-03
# 超伝導量子コンピュータにおける19量子ビット間の2量子絡み合いのテレポート

Teleporting two-qubit entanglement across 19 qubits on a superconducting quantum computer ( http://arxiv.org/abs/2407.02858v1 )

ライセンス: Link先を確認
Haiyue Kang, John F. Kam, Gary J. Mooney, Lloyd C. L. Hollenberg, (参考訳) 量子テレポーテーションは単に量子エンタングルメントの魅力的な系であるだけでなく、量子処理や回路のコンパイルにも有用である。 本稿では,127量子ビットのIBM量子デバイス上に用意された2量子状態の絡み合いと忠実さを計測・追跡する。 提案手法は,中間回路計測に基づく後続計測分類と動的回路補正の2つの異なる手法を設計,評価,比較し,SWAPゲートを用いた直接状態輸送と比較する。 最寄りのペア間で高い全負性絡み合いを示すテレポーテーションパスを最適に選択することにより、2ビットグラフ状態の絡み合いは、動的回路アプローチを用いて、選択後のアプローチと17ホップを用いて、少なくとも19ホップのテレポーテーション後に持続することを示す。 本研究では,2ビットの負極性から決定される経路において,ゲート誤差から得られる負極性マップよりも高いレベルの絡み合いを観測し,ゲート誤差マップ上の負極性マップを用いて量子回路をコンパイルする利点を示す。

Quantum teleportation is not merely a fascinating corollary of quantum entanglement, it also finds utility in quantum processing and circuit compilation. In this paper, we measure and track the entanglement and fidelity of two-qubit states prepared on a 127-qubit IBM Quantum device, as one of the qubits is teleported across 19 qubits. We design, evaluate and compare two distinct approaches to teleportation: post-selected measurement categorisation and dynamic circuit corrections based on mid-circuit measurements, and compare with direct state transportation using SWAP gates. By optimally choosing the teleportation path which exhibits the highest total negativity entanglement measure across nearest-neighbour pairs, we show the entanglement of a two-qubit graph state is sustained after at least 19 hops in teleportation using the post-selection approach and 17 hops using the dynamic circuit approach. We observe a higher level of teleported entanglement in paths determined from two-qubit negativities compared to those obtained from gate errors, demonstrating an advantage in using the negativity map over the gate error map for compiling quantum circuits.
翻訳日:2024-07-04 15:15:24 公開日:2024-07-03
# 衛星多変量時系列における異常検出のための自己監督タスク

A Self-Supervised Task for Fault Detection in Satellite Multivariate Time Series ( http://arxiv.org/abs/2407.02861v1 )

ライセンス: Link先を確認
Carlo Cena, Silvia Bucci, Alessandro Balossino, Marcello Chiaberge, (参考訳) 宇宙セクターでは、環境条件やアクセシビリティの制限により、ロバストな断層検出手法がミッション成功の確保と貴重な資産の保護に不可欠である。 本研究は,センサのデータ置換に基づく自己教師型タスクを付加し,複雑な分布と高次元分布をモデル化できることで有名である物理インフォームドリアルNVPニューラルネットワークを活用した新しいアプローチを提案する。 衛星多変量時系列における断層検出の強化に焦点を当てている。 実験には、セルフスーパービジョンによる事前トレーニング、マルチタスク学習、スタンドアロンのセルフ教師付きトレーニングなど、さまざまな構成が含まれている。 結果は、すべての設定で大幅にパフォーマンスが向上したことを示している。 特に、自己監督的損失のみを用いると、最も優れた総合的な結果が得られるため、ネットワークに障害検出に関連する特徴を抽出するよう誘導する効果が示唆される。 本研究は、宇宙システムにおける故障検出を改善するための有望な方向を示し、他のデータセットやアプリケーションでのさらなる探索を保証している。

In the space sector, due to environmental conditions and restricted accessibility, robust fault detection methods are imperative for ensuring mission success and safeguarding valuable assets. This work proposes a novel approach leveraging Physics-Informed Real NVP neural networks, renowned for their ability to model complex and high-dimensional distributions, augmented with a self-supervised task based on sensors' data permutation. It focuses on enhancing fault detection within the satellite multivariate time series. The experiments involve various configurations, including pre-training with self-supervision, multi-task learning, and standalone self-supervised training. Results indicate significant performance improvements across all settings. In particular, employing only the self-supervised loss yields the best overall results, suggesting its efficacy in guiding the network to extract relevant features for fault detection. This study presents a promising direction for improving fault detection in space systems and warrants further exploration in other datasets and applications.
翻訳日:2024-07-04 15:15:24 公開日:2024-07-03
# 航空観測による高速機動回収:軌道クラスタリングと降圧器の拒絶

Fast maneuver recovery from aerial observation: trajectory clustering and outliers rejection ( http://arxiv.org/abs/2407.02863v1 )

ライセンス: Link先を確認
Nelson de Moura, Augustin Gervreau-Mercier, Fernando Garrido, Fawzi Nashashibi, (参考訳) マルチエージェントシミュレーションにおける信頼行動を現実的に再現する道路ユーザモデルの実装は、まだ未解決の問題である。 データ駆動型アプローチは、大きな観測セットから異なるタイプの軌道を得るために、実際の状況に存在する可能性のある振る舞いを推定するために構成される。 そのデータとその分類は、そのような振る舞いを外挿できるモデルを訓練するために使われる。 車と2種類のVulnerable Road Users (VRU) は、歩行者と自転車の軌道クラスタリング手法として提案される。 本報告の結果は, 地図情報を使わずに生データから適切に定義された軌跡クラスを抽出し, 「偏心」や「不完全軌跡」を, あらゆるシナリオにおいて完全かつ代表的であるものから分離する手法として評価した。 2つの環境がメソッド開発のテストとして機能し、3つの異なる交差点と1つのラウンドアバウトとなる。 結果として得られるトラジェクトリのクラスタは、予測や学習のタスクに使用したり、あるいは、アウトレイアによって構成されている場合は破棄することができる。

The implementation of road user models that realistically reproduce a credible behavior in a multi-agentsimulation is still an open problem. A data-driven approach consists on to deduce behaviors that may exist in real situation to obtain different types of trajectories from a large set of observations. The data, and its classification, could then be used to train models capable to extrapolate such behavior. Cars and two different types of Vulnerable Road Users (VRU) will be considered by the trajectory clustering methods proposed: pedestrians and cyclists. The results reported here evaluate methods to extract well-defined trajectory classes from raw data without the use of map information while also separating ''eccentric'' or incomplete trajectories from the ones that are complete and representative in any scenario. Two environments will serve as test for the methods develop, three different intersections and one roundabout. The resulting clusters of trajectories can then be used for prediction or learning tasks or discarded if it is composed by outliers.
翻訳日:2024-07-04 15:15:24 公開日:2024-07-03
# 最適制御のための量子的アプローチ

A quantum approach for optimal control ( http://arxiv.org/abs/2407.02864v1 )

ライセンス: Link先を確認
Hiram Sandesara, Alok Shukla, Prakash Vedula, (参考訳) 本研究では,非線形最適制御問題のクラスを解くための新しい変分量子アプローチを提案する。 我々のアプローチは、ディラックの力学系の正準量子化と、変分量子固有解法(VQE)による結果の非エルミート・ハミルトニアン基底状態の解を統合する。 我々は、制約の存在下での一般化ハミルトン力学に対するディラックブラケットの定式化に関する新しい視点を導入し、明確なモチベーションとイラストラティブな例を提供する。 さらに,多次元制約最適化問題におけるディラックブラケットの構造特性について検討する。 非線形最適制御問題のクラスを解くためのアプローチは、非エルミートハミルトニアンの基底状態エネルギーに付随する固有状態と対応する固有値を決定するためのVQEに基づくアプローチを用いる。 理想的なVQEへのアクセスを仮定すると、この定式化は、選択された計算例から証明されるように、優れた結果を示す。 さらに,本手法は,非エルミート・ハミルトン系に対するVQEに基づくアプローチと組み合わせてうまく機能する。 我々のVQEに基づく定式化は、特に高次元シナリオにおいて、幅広い最適制御問題に関連する課題に効果的に対処する。 従来の手法と比較して、我々の量子ベースの手法は大きな可能性を示し、複雑で高次元の最適化課題に取り組むための魅力的な代替手段を提供する。

In this work, we propose a novel variational quantum approach for solving a class of nonlinear optimal control problems. Our approach integrates Dirac's canonical quantization of dynamical systems with the solution of the ground state of the resulting non-Hermitian Hamiltonian via a variational quantum eigensolver (VQE). We introduce a new perspective on the Dirac bracket formulation for generalized Hamiltonian dynamics in the presence of constraints, providing a clear motivation and illustrative examples. Additionally, we explore the structural properties of Dirac brackets within the context of multidimensional constrained optimization problems. Our approach for solving a class of nonlinear optimal control problems employs a VQE-based approach to determine the eigenstate and corresponding eigenvalue associated with the ground state energy of a non-Hermitian Hamiltonian. Assuming access to an ideal VQE, our formulation demonstrates excellent results, as evidenced by selected computational examples. Furthermore, our method performs well when combined with a VQE-based approach for non-Hermitian Hamiltonian systems. Our VQE-based formulation effectively addresses challenges associated with a wide range of optimal control problems, particularly in high-dimensional scenarios. Compared to standard classical approaches, our quantum-based method shows significant promise and offers a compelling alternative for tackling complex, high-dimensional optimization challenges.
翻訳日:2024-07-04 15:15:24 公開日:2024-07-03
# 対照的に, セマンティック近傍検索強化帰納的多モーダル知識グラフ補完

Contrast then Memorize: Semantic Neighbor Retrieval-Enhanced Inductive Multimodal Knowledge Graph Completion ( http://arxiv.org/abs/2407.02867v1 )

ライセンス: Link先を確認
Yu Zhao, Ying Zhang, Baohang Zhou, Xinying Qian, Kehui Song, Xiangrui Cai, (参考訳) マルチモーダル知識グラフ補完(MKGC)は、MKGの欠落するリンクを予測するために多くの研究がなされている。 しかし、トレーニング中に見つからない新興物質を含む誘導性MKGC(IMKGC)を研究する研究は少ない。 既存の帰納的アプローチは、視覚的モダリティにおいてリッチな意味情報を無視するテキストエンティティ表現の学習に重点を置いている。 さらに、彼らは既存のKGから構造上の隣人を集約することに注力している。 しかし、セマンティックな隣人はトポロジーリンクから切り離され、通常は真のターゲットエンティティを意味する。 本稿では,IMKGC タスクと IMKGC フレームワーク CMR を提案する。 具体的には、まず、一貫した表現空間において、問合せ対のテキスト・視覚・テキスト・テキストの相関を同時に捉えるために、一貫したクロスモーダル・コントラスト学習を提案する。 対照的な学習は、正の問合せ対の類似性を高めるため、有用なセマンティックな隣人の表現を近接させる。 そして,その知識表現を明示的に記憶し,セマンティックな隣人検索を支援する。 テスト時には、最も近いセマンティックな隣人を検索し、それらを問合せの類似度分布に補間し、最終的な予測を補強する。 広範囲な実験により、3つのMKGCデータセットに対するCMRの有効性が検証された。 コードはhttps://github.com/OreOZhao/CMRで入手できる。

A large number of studies have emerged for Multimodal Knowledge Graph Completion (MKGC) to predict the missing links in MKGs. However, fewer studies have been proposed to study the inductive MKGC (IMKGC) involving emerging entities unseen during training. Existing inductive approaches focus on learning textual entity representations, which neglect rich semantic information in visual modality. Moreover, they focus on aggregating structural neighbors from existing KGs, which of emerging entities are usually limited. However, the semantic neighbors are decoupled from the topology linkage and usually imply the true target entity. In this paper, we propose the IMKGC task and a semantic neighbor retrieval-enhanced IMKGC framework CMR, where the contrast brings the helpful semantic neighbors close, and then the memorize supports semantic neighbor retrieval to enhance inference. Specifically, we first propose a unified cross-modal contrastive learning to simultaneously capture the textual-visual and textual-textual correlations of query-entity pairs in a unified representation space. The contrastive learning increases the similarity of positive query-entity pairs, therefore making the representations of helpful semantic neighbors close. Then, we explicitly memorize the knowledge representations to support the semantic neighbor retrieval. At test time, we retrieve the nearest semantic neighbors and interpolate them to the query-entity similarity distribution to augment the final prediction. Extensive experiments validate the effectiveness of CMR on three inductive MKGC datasets. Codes are available at https://github.com/OreOZhao/CMR.
翻訳日:2024-07-04 15:15:24 公開日:2024-07-03
# 時系列モデルに対する会員推測攻撃

Membership Inference Attacks Against Time-Series Models ( http://arxiv.org/abs/2407.02870v1 )

ライセンス: Link先を確認
Noam Koren, Abigail Goldsteen, Ariel Farkash, Guy Amit, (参考訳) 特に医療分野において、個人情報を含む可能性のある時系列データを分析すると、深刻なプライバシー上の懸念が生じる。 患者からの敏感な健康データは、診断と継続的なケアのための機械学習モデルのトレーニングにしばしば使用される。 このようなモデルのプライバシリスクを評価することは、プロダクションでモデルを使用するか、サードパーティと共有するか、あるいは患者ホームにデプロイするかについて、知識に富んだ決定を下す上で重要である。 メンバーシップ推論攻撃(MIA)はこの種の評価の鍵となる手法であるが、時系列予測モデルは、この文脈では十分に研究されていない。 時系列モデルにおける既存のMIA技術について検討し、データの季節性やトレンドに焦点をあてた新機能を紹介する。 季節性は多変量フーリエ変換を用いて推定され、低次多項式を用いて傾向を近似する。 健康領域のデータセットを用いて,これらの手法を各種時系列モデルに適用した。 以上の結果から,これらの新機能はMIAの識別における有効性を高め,医療データアプリケーションにおけるプライバシリスクの理解を向上させることが示唆された。

Analyzing time-series data that may contain personal information, particularly in the medical field, presents serious privacy concerns. Sensitive health data from patients is often used to train machine-learning models for diagnostics and ongoing care. Assessing the privacy risk of such models is crucial to making knowledgeable decisions on whether to use a model in production, share it with third parties, or deploy it in patients homes. Membership Inference Attacks (MIA) are a key method for this kind of evaluation, however time-series prediction models have not been thoroughly studied in this context. We explore existing MIA techniques on time-series models, and introduce new features, focusing on the seasonality and trend components of the data. Seasonality is estimated using a multivariate Fourier transform, and a low-degree polynomial is used to approximate trends. We applied these techniques to various types of time-series models, using datasets from the health domain. Our results demonstrate that these new features enhance the effectiveness of MIAs in identifying membership, improving the understanding of privacy risks in medical data applications.
翻訳日:2024-07-04 15:15:24 公開日:2024-07-03
# LMBF-Net:多機能セグメンテーションのための軽量多経路双方向焦点注意ネットワーク

LMBF-Net: A Lightweight Multipath Bidirectional Focal Attention Network for Multifeatures Segmentation ( http://arxiv.org/abs/2407.02871v1 )

ライセンス: Link先を確認
Tariq M Khan, Shahzaib Iqbal, Syed S. Naqvi, Imran Razzak, Erik Meijering, (参考訳) 網膜疾患は、早期に診断や治療を受けなければ、両眼で不可逆的な視力喪失を引き起こす可能性がある。 網膜疾患は非常に複雑であるため、網膜イメージングは2つ以上の異常を示す可能性がある。 多くのラベルや属性で網膜画像をセグメント化するための現在のディープラーニング技術は、検出精度と一般性に乏しい。 本稿では,多機能セグメンテーションのためのマルチパス畳み込みニューラルネットワークを提案する。 提案するネットワークは軽量で空間的に情報に敏感である。 パッチベースの実装で局所画像の特徴を抽出し、エンコーダとデコーダの間に焦点変調アテンションブロックを組み込んでセグメンテーションを改善する。 フィルタの最適化は、フィルタの重複を防止し、モデルの収束を高速化するために用いられる。 畳み込み演算とグループ畳み込み演算を組み合わせて計算コストを削減する。 これは、眼底画像の複数の特徴(網膜血管、微小動脈瘤、視神経円板、出血、硬口蓋、軟口蓋を含む)を分割できる最初の堅牢で一般的なネットワークである。 複数の特徴を持つ10以上の公開データセットに対する実験結果から,学習可能なパラメータが少なくても,提案したネットワークが最近のネットワークより優れていることが示された。

Retinal diseases can cause irreversible vision loss in both eyes if not diagnosed and treated early. Since retinal diseases are so complicated, retinal imaging is likely to show two or more abnormalities. Current deep learning techniques for segmenting retinal images with many labels and attributes have poor detection accuracy and generalisability. This paper presents a multipath convolutional neural network for multifeature segmentation. The proposed network is lightweight and spatially sensitive to information. A patch-based implementation is used to extract local image features, and focal modulation attention blocks are incorporated between the encoder and the decoder for improved segmentation. Filter optimisation is used to prevent filter overlaps and speed up model convergence. A combination of convolution operations and group convolution operations is used to reduce computational costs. This is the first robust and generalisable network capable of segmenting multiple features of fundus images (including retinal vessels, microaneurysms, optic discs, haemorrhages, hard exudates, and soft exudates). The results of our experimental evaluation on more than ten publicly available datasets with multiple features show that the proposed network outperforms recent networks despite having a small number of learnable parameters.
翻訳日:2024-07-04 15:15:24 公開日:2024-07-03
# エンド・ツー・エンド自動運転における効率的な核融合とタスクガイド埋め込み

Efficient Fusion and Task Guided Embedding for End-to-end Autonomous Driving ( http://arxiv.org/abs/2407.02878v1 )

ライセンス: Link先を確認
Yipin Guo, Yilin Lang, Qinyuan Ren, (参考訳) センサフュージョンと安全リスク予測の課題に対処するためには、模倣学習を活用する現代のクローズドループ自律走行ニューラルネットワークは、ニューラルネットワークを実行するために大量のパラメータと計算資源を必要とするのが普通である。 搭載車載コンピュータの制約された計算能力を考えると、EfficientFuserというコンパクトで強力なソリューションを導入する。 このアプローチでは、視覚情報抽出にEfficientViTを使用し、クロスアテンションを介して特徴マップを統合する。 その後、デコーダのみの変換器を使用して、複数の特徴のアマルガメーションを行う。 予測のために、学習可能なベクトルをトークンとして埋め込み、注意を通してタスクとセンサの特徴の関係を探索する。 CARLAシミュレーションプラットフォームで評価されたEfficientFuserは、パラメータの37.6%と計算の8.7%しか使用せず、運転スコアがわずか0.4%低い最先端の軽量な方法と比較して、顕著な効率性を示し、安全スコアは主要な安全向上手法に近づき、自動運転システムの実用的展開の有効性と可能性を示している。

To address the challenges of sensor fusion and safety risk prediction, contemporary closed-loop autonomous driving neural networks leveraging imitation learning typically require a substantial volume of parameters and computational resources to run neural networks. Given the constrained computational capacities of onboard vehicular computers, we introduce a compact yet potent solution named EfficientFuser. This approach employs EfficientViT for visual information extraction and integrates feature maps via cross attention. Subsequently, it utilizes a decoder-only transformer for the amalgamation of multiple features. For prediction purposes, learnable vectors are embedded as tokens to probe the association between the task and sensor features through attention. Evaluated on the CARLA simulation platform, EfficientFuser demonstrates remarkable efficiency, utilizing merely 37.6% of the parameters and 8.7% of the computations compared to the state-of-the-art lightweight method with only 0.4% lower driving score, and the safety score neared that of the leading safety-enhanced method, showcasing its efficacy and potential for practical deployment in autonomous driving systems.
翻訳日:2024-07-04 15:15:24 公開日:2024-07-03
# 学習した異方性スケーリングを用いたタスクベクトルを用いた知識構成

Knowledge Composition using Task Vectors with Learned Anisotropic Scaling ( http://arxiv.org/abs/2407.02880v1 )

ライセンス: Link先を確認
Frederic Z. Zhang, Paul Albert, Cristian Rodriguez-Opazo, Anton van den Hengel, Ehsan Abbasnejad, (参考訳) 事前訓練されたモデルは、微調整によって適応できる強力な汎用表現を生成する。 タスクベクトルとして知られる事前訓練されたモデルに対する学習重量差は、微調整の方向と歩みを特徴づける。 タスクベクトルの重要さは、それらの上の単純な算術演算が、異なる領域からの多様な表現を組み合わせるのに使用できることである。 本稿では,タスクベクトルの特性を基盤として,(1)タスクベクトル,特にパラメータブロックの構成要素が類似した特性を示すかどうか,(2)知識合成と伝達の強化にどのように使用できるのかを問う。 この目的のために,パラメータブロックと異なる学習係数を線形に結合するアルゴリズムであるaTLASを導入し,タスクベクトルレベルでの異方性スケーリングを実現する。 このような線形結合は事前学習されたモデルの低内在次元を明示的に利用し、学習可能なパラメータは数係数のみであることを示す。 さらに、パラメータブロックの構成は、既に学んだ表現を活用し、大量のデータへの依存を減らす。 本稿では,タスク算術,少数ショット認識,テスト時間適応において,教師なしあるいは教師なしの目的を用いた手法の有効性を実証する。 特に,(1)学習した異方性スケーリングは,タスクベクトルの絡み合いを緩和し,構成の干渉を少なくし,(2)ラベル付きデータが少なく,ドメインシフトの少ないタスクベクトル合成により,一般化性が向上すること,(3)学習前のタスクベクトル間で最も情報性の高いパラメータブロックを混合することにより,メモリフットプリントを低減し,知識伝達の柔軟性を向上させること,などが示されている。 さらに,PEFT法としてのaTLASの可能性,特に少ないデータで示し,その可視性を示す。

Pre-trained models produce strong generic representations that can be adapted via fine-tuning. The learned weight difference relative to the pre-trained model, known as a task vector, characterises the direction and stride of fine-tuning. The significance of task vectors is such that simple arithmetic operations on them can be used to combine diverse representations from different domains. This paper builds on these properties of task vectors and aims to answer (1) whether components of task vectors, particularly parameter blocks, exhibit similar characteristics, and (2) how such blocks can be used to enhance knowledge composition and transfer. To this end, we introduce aTLAS, an algorithm that linearly combines parameter blocks with different learned coefficients, resulting in anisotropic scaling at the task vector level. We show that such linear combinations explicitly exploit the low intrinsic dimensionality of pre-trained models, with only a few coefficients being the learnable parameters. Furthermore, composition of parameter blocks leverages the already learned representations, thereby reducing the dependency on large amounts of data. We demonstrate the effectiveness of our method in task arithmetic, few-shot recognition and test-time adaptation, with supervised or unsupervised objectives. In particular, we show that (1) learned anisotropic scaling allows task vectors to be more disentangled, causing less interference in composition; (2) task vector composition excels with scarce or no labeled data and is less prone to domain shift, thus leading to better generalisability; (3) mixing the most informative parameter blocks across different task vectors prior to training can reduce the memory footprint and improve the flexibility of knowledge transfer. Moreover, we show the potential of aTLAS as a PEFT method, particularly with less data, and demonstrate that its scalibility.
翻訳日:2024-07-04 15:15:24 公開日:2024-07-03
# ShiftAddAug: Augment Multiplication-Free Tiny Neural Network with Hybrid Computation

ShiftAddAug: Augment Multiplication-Free Tiny Neural Network with Hybrid Computation ( http://arxiv.org/abs/2407.02881v1 )

ライセンス: Link先を確認
Yipin Guo, Zihao Li, Yilin Lang, Qinyuan Ren, (参考訳) ShiftやAddのような乗算を欠いたオペレータは、ハードウェアとの互換性で有名になった。 しかしながら、これらの演算子を用いるニューラルネットワーク(NN)は、通常、同じ構造を持つ従来のNNに比べて精度が低い。 ShiftAddAugは費用のかかる乗算を使い、効率は良いが非力な乗算演算子を拡張し、推論オーバーヘッドなしでパフォーマンスを向上させる。 ShiftAddの小さなNNを大きな乗法モデルに置き、追加の監視を得るためにサブモデルとしてトレーニングすることを奨励する。 ハイブリッド演算子間の重み差問題を解決するために,新しい重み共有法を提案する。 さらに、より小さいがより強力な乗算のない小さなニューラルネットワークに対して、より優れた拡張効果を得るために、2段階のニューラルアーキテクチャサーチが使用される。 ShiftAddAugの優位性は、画像分類とセマンティックセグメンテーションの実験を通じて検証され、一貫して注目すべき拡張が提供される。 注目すべきは、CIFAR100の精度が直接訓練されたものよりも最大4.95%向上し、乗算NNの性能を上回っていることだ。

Operators devoid of multiplication, such as Shift and Add, have gained prominence for their compatibility with hardware. However, neural networks (NNs) employing these operators typically exhibit lower accuracy compared to conventional NNs with identical structures. ShiftAddAug uses costly multiplication to augment efficient but less powerful multiplication-free operators, improving performance without any inference overhead. It puts a ShiftAdd tiny NN into a large multiplicative model and encourages it to be trained as a sub-model to obtain additional supervision. In order to solve the weight discrepancy problem between hybrid operators, a new weight sharing method is proposed. Additionally, a novel two stage neural architecture search is used to obtain better augmentation effects for smaller but stronger multiplication-free tiny neural networks. The superiority of ShiftAddAug is validated through experiments in image classification and semantic segmentation, consistently delivering noteworthy enhancements. Remarkably, it secures up to a 4.95% increase in accuracy on the CIFAR100 compared to its directly trained counterparts, even surpassing the performance of multiplicative NNs.
翻訳日:2024-07-04 15:15:24 公開日:2024-07-03
# CoIR: コード情報検索モデルのための総合ベンチマーク

CoIR: A Comprehensive Benchmark for Code Information Retrieval Models ( http://arxiv.org/abs/2407.02883v1 )

ライセンス: Link先を確認
Xiangyang Li, Kuicai Dong, Yi Quan Lee, Wei Xia, Yichun Yin, Hao Zhang, Yong Liu, Yasheng Wang, Ruiming Tang, (参考訳) 様々なNLPタスクにおいて情報検索(IR)がかなり成功したにもかかわらず、ほとんどのIRシステムは、主に自然言語でクエリやコーパスを処理し、コード検索の領域を無視している。 コード検索は重要な部分ですが、既存のメソッドやベンチマークはさまざまなドメインやタスクにおけるコードの多様性を不十分に表現しています。 このギャップに対処するため、コード検索機能を評価するために特別に設計された堅牢で包括的なベンチマークである \textbf{\name} (\textbf{Co}de \textbf{I}nformation \textbf{R}etrieval Benchmark) を提示する。 \name は \textbf{ten} に精巧にキュレートされたコードデータセットで構成されており、さまざまなドメインにまたがる固有の検索タスクにまたがっている。 まず, \name の構成とその多種多様なデータセットの構成について論じる。 さらに, \name を用いた9種類の検索モデルの評価を行い, 最先端システムにおいても, コード検索作業の難しさを明らかにした。 既存の研究ワークフローへの導入と統合を容易にするため、 \nameはユーザフレンドリなPythonフレームワークとして開発され、簡単にpip経由でインストールできる。 MTEBやBEIRといった他の一般的なベンチマークと同じデータスキーマを共有しており、シームレスなベンチマーク間評価を可能にしている。 コード検索システムのさらなる開発と探索を促進する汎用的なベンチマークツールを提供する。footnote{\url{ https://github.com/CoIR-team/coir}}。

Despite the substantial success of Information Retrieval (IR) in various NLP tasks, most IR systems predominantly handle queries and corpora in natural language, neglecting the domain of code retrieval. Code retrieval is critically important yet remains under-explored, with existing methods and benchmarks inadequately representing the diversity of code in various domains and tasks. Addressing this gap, we present \textbf{\name} (\textbf{Co}de \textbf{I}nformation \textbf{R}etrieval Benchmark), a robust and comprehensive benchmark specifically designed to assess code retrieval capabilities. \name comprises \textbf{ten} meticulously curated code datasets, spanning \textbf{eight} distinctive retrieval tasks across \textbf{seven} diverse domains. We first discuss the construction of \name and its diverse dataset composition. Further, we evaluate nine widely used retrieval models using \name, uncovering significant difficulties in performing code retrieval tasks even with state-of-the-art systems. To facilitate easy adoption and integration within existing research workflows, \name has been developed as a user-friendly Python framework, readily installable via pip. It shares same data schema as other popular benchmarks like MTEB and BEIR, enabling seamless cross-benchmark evaluations. Through \name, we aim to invigorate research in the code retrieval domain, providing a versatile benchmarking tool that encourages further development and exploration of code retrieval systems\footnote{\url{ https://github.com/CoIR-team/coir}}.
翻訳日:2024-07-04 15:15:24 公開日:2024-07-03
# 記号レジスタ変換器を用いた複合イベント認識:拡張技術報告

Complex Event Recognition with Symbolic Register Transducers: Extended Technical Report ( http://arxiv.org/abs/2407.02884v1 )

ライセンス: Link先を確認
Elias Alevizos, Alexander Artikis, Georgios Paliouras, (参考訳) 本稿では,オートマトンに基づく複合イベント認識(CER)システムを提案する。 このようなシステムは文献で説明されているが、通常は明確な意味論や意味論の欠如に悩まされ、その表現力に関してしばしば混乱を招く。 この問題に対処するために,本システムは記号とレジスタオートマトンを組み合わせたオートマトンモデルに基づいている。 我々は,これらの種類のオートマトンに関する過去の研究を拡張し,明確なセマンティクスとそれに対応するオートマトンモデルを構築する。 このようなオートマチック・シンボリック・レジスター・トランスデューサ (SRT) と呼ぶ。 SRT は様々な作用素の下で閉じているが、一般には補作用素の下で閉じているわけではなく、決定不可能であることを示す。 しかし、複雑なイベント認識において、ウィンドウ演算子であるクインテシデント(quintessential)が使用されると、これらの操作の下でクローズされる。 宣言的および構成的意味論を提供する我々のフレームワークを用いて、イベントストリーム上のパターンを検出するために、SRTをCERでどのように使用できるかを示し、そのようなオートマトンを体系的に扱うことができる。 SRTがパターン検出で機能するためには、入力ストリームからのイベントを複雑なイベントに属するかどうかとしてマークできるようにします。 また,CERの実行が可能なSRTの実装も提案する。 我々は、SRTベースのCERエンジンを他の最先端CERシステムと比較し、より表現力があり、より効率的であることを示す。

We present a system for Complex Event Recognition (CER) based on automata. While multiple such systems have been described in the literature, they typically suffer from a lack of clear and denotational semantics, a limitation which often leads to confusion with respect to their expressive power. In order to address this issue, our system is based on an automaton model which is a combination of symbolic and register automata. We extend previous work on these types of automata, in order to construct a formalism with clear semantics and a corresponding automaton model whose properties can be formally investigated. We call such automata Symbolic Register Transducers (SRT). We show that SRT are closed under various operators, but are not in general closed under complement and they are not determinizable. However, they are closed under these operations when a window operator, quintessential in Complex Event Recognition, is used. We show how SRT can be used in CER in order to detect patterns upon streams of events, using our framework that provides declarative and compositional semantics, and that allows for a systematic treatment of such automata. For SRT to work in pattern detection, we allow them to mark events from the input stream as belonging to a complex event or not, hence the name "transducers". We also present an implementation of SRT which can perform CER. We compare our SRT-based CER engine against other state-of-the-art CER systems and show that it is both more expressive and more efficient.
翻訳日:2024-07-04 15:15:24 公開日:2024-07-03
# CogErgLLM:認知エルゴノミクスを用いた大規模言語モデルシステム設計の展望

CogErgLLM: Exploring Large Language Model Systems Design Perspective Using Cognitive Ergonomics ( http://arxiv.org/abs/2407.02885v1 )

ライセンス: Link先を確認
Azmine Toushik Wasi, (参考訳) LLMと認知エルゴノミクスを統合することは、人間とAIの相互作用における安全性、信頼性、およびユーザ満足度を高めるために不可欠である。 現在のLLM設計では、この統合が欠如していることが多く、人間の認知能力や制限を完全に満たさないシステムにつながっている。 認知科学手法を取り入れることに十分な焦点が当てられると、LLM出力のバイアスが悪化する一方、ユーザ中心の設計原則の一貫性のない適用は、準最適ユーザー体験をもたらす。 これらの課題に対処するため,本論文では,認知人間工学の原則をLLM設計に重要な統合し,倫理的LLM開発のための包括的枠組みと実践的ガイドラインを提供することを目的としている。 我々の貢献を通じて、認知人間工学をLLMシステムに統合し、より安全で信頼性が高く倫理的に健全な人間とAIの相互作用を育むための理解と実践の促進を目指しています。

Integrating cognitive ergonomics with LLMs is essential for enhancing safety, reliability, and user satisfaction in human-AI interactions. Current LLM design often lacks this integration, leading to systems that may not fully align with human cognitive capabilities and limitations. Insufficient focus on incorporating cognitive science methods exacerbates biases in LLM outputs, while inconsistent application of user-centered design principles results in sub-optimal user experiences. To address these challenges, our position paper explores the critical integration of cognitive ergonomics principles into LLM design, aiming to provide a comprehensive framework and practical guidelines for ethical LLM development. Through our contributions, we seek to advance understanding and practice in integrating cognitive ergonomics into LLM systems, fostering safer, more reliable, and ethically sound human-AI interactions.
翻訳日:2024-07-04 15:15:24 公開日:2024-07-03
# 羊の衣服の狼: 学習ベースのWindowsマルウェア検出を野生で実施するための実用的なブラックボックス・アドバサリアルアタック

A Wolf in Sheep's Clothing: Practical Black-box Adversarial Attacks for Evading Learning-based Windows Malware Detection in the Wild ( http://arxiv.org/abs/2407.02886v1 )

ライセンス: Link先を確認
Xiang Ling, Zhiyu Wu, Bin Wang, Wei Deng, Jingzheng Wu, Shouling Ji, Tianyue Luo, Yanjun Wu, (参考訳) そこで本研究では,既存の学習ベースのマルウェア検出システムにおいて,ブラックボックス環境下でのセキュリティリスクを評価する,実用的なブラックボックス攻撃フレームワークであるMalGuiseを提案する。 MalGuiseは、まず、マルウェアの制御フローグラフのノードとエッジの両方を同時に操作するために、コールベースのリバイブレーションのセマンティックス保存変換を採用した。 モンテカルロ・ツリー・サーチに基づく最適化を用いて、MalGuiseは、入力されたWindowsマルウェアを回避するために、コールベースの再帰変換の最適化シーケンスを検索する。 最後に、Windowsの実行可能なフォーマット制約に固執しながら、最適化された変換シーケンスに基づいて、敵のマルウェアファイルを再構築し、オリジナルと同じ意味を維持できる。 MalGuiseは、ブラックボックス設定下で、最先端の3つのWindowsマルウェア検出システムに対して体系的に評価される。 評価の結果,MalGuiseの攻撃成功率は95%を超え,生成したマルウェアファイルの91%以上が同じ意味を保っていることがわかった。 さらに、MalGuiseは5つのアンチウイルス製品に対する74.97%の攻撃成功率を達成した。

Given the remarkable achievements of existing learning-based malware detection in both academia and industry, this paper presents MalGuise, a practical black-box adversarial attack framework that evaluates the security risks of existing learning-based Windows malware detection systems under the black-box setting. MalGuise first employs a novel semantics-preserving transformation of call-based redividing to concurrently manipulate both nodes and edges of malware's control-flow graph, making it less noticeable. By employing a Monte-Carlo-tree-search-based optimization, MalGuise then searches for an optimized sequence of call-based redividing transformations to apply to the input Windows malware for evasions. Finally, it reconstructs the adversarial malware file based on the optimized transformation sequence while adhering to Windows executable format constraints, thereby maintaining the same semantics as the original. MalGuise is systematically evaluated against three state-of-the-art learning-based Windows malware detection systems under the black-box setting. Evaluation results demonstrate that MalGuise achieves a remarkably high attack success rate, mostly exceeding 95%, with over 91% of the generated adversarial malware files maintaining the same semantics. Furthermore, MalGuise achieves up to a 74.97% attack success rate against five anti-virus products, highlighting potential tangible security concerns to real-world users.
翻訳日:2024-07-04 15:15:24 公開日:2024-07-03
# クロスモーダル・ポイント・クラウド・コンプリートのための明示的ガイド付き情報対話ネットワーク

Explicitly Guided Information Interaction Network for Cross-modal Point Cloud Completion ( http://arxiv.org/abs/2407.02887v1 )

ライセンス: Link先を確認
Hang Xu, Chen Long, Wenxiao Zhang, Yuan Liu, Zhen Cao, Zhen Dong, Bisheng Yang, (参考訳) 本稿では,ビュー誘導ポイントクラウドコンプリート(ViPC)タスクのモデルであるEGIInet(Explicitly Guided Information Interaction Network)について検討する。 入力画像のグローバルなセマンティクスに依存する従来の手法と比較して、EGIInetは、完成タスクの幾何学的性質を活用して、2つのモードからの情報を効率的に組み合わせている。 具体的には、ポイントクラウド完了のためのモーダルアライメントをサポートする、明示的にガイドされた情報インタラクション戦略を提案する。 まず, 2D と 3D のバックボーンを使ってそれぞれ特徴を符号化する従来の手法とは対照的に,符号化処理を統一してモーダルアライメントを促進する。 第2に,ネットワークが画像内の重要な情報を識別する上で有効な情報インタラクション戦略を提案する。 我々は,従来の手法よりもパラメータが少ないにもかかわらず,ベンチマークデータセットで新たな最先端(+16\% CD over XMFnet)を実現した。 事前訓練されたモデルとコードはhttps://github.com/WHU-USI3DV/EGIInetで入手できる。

Corresponding author}In this paper, we explore a novel framework, EGIInet (Explicitly Guided Information Interaction Network), a model for View-guided Point cloud Completion (ViPC) task, which aims to restore a complete point cloud from a partial one with a single view image. In comparison with previous methods that relied on the global semantics of input images, EGIInet efficiently combines the information from two modalities by leveraging the geometric nature of the completion task. Specifically, we propose an explicitly guided information interaction strategy supported by modal alignment for point cloud completion. First, in contrast to previous methods which simply use 2D and 3D backbones to encode features respectively, we unified the encoding process to promote modal alignment. Second, we propose a novel explicitly guided information interaction strategy that could help the network identify critical information within images, thus achieving better guidance for completion. Extensive experiments demonstrate the effectiveness of our framework, and we achieved a new state-of-the-art (+16\% CD over XMFnet) in benchmark datasets despite using fewer parameters than the previous methods. The pre-trained model and code and are available at https://github.com/WHU-USI3DV/EGIInet.
翻訳日:2024-07-04 15:15:24 公開日:2024-07-03
# 高速かつ低コストなフェデレーションエッジ学習のための資源配分とデータ選択の併用最適化

Joint Optimization of Resource Allocation and Data Selection for Fast and Cost-Efficient Federated Edge Learning ( http://arxiv.org/abs/2407.02888v1 )

ライセンス: Link先を確認
Yunjian Jia, Zhen Huang, Jiping Yan, Yulu Zhang, Kun Luo, Wanli Wen, (参考訳) ワイヤレスエッジでのフェデレーション学習の導入には、フェデレーションエッジ学習(FEEL)が導入されている。 FEELの限られた通信リソースとデバイス上の潜在的な誤ラベルデータを考えると、不適切なリソース割り当てやデータ選択は収束速度を損なったり、トレーニングコストを増大させる可能性がある。 そこで本研究では,効率的なFEELシステムを実現するために,資源割り当てとデータ選択を協調的に最適化することを強調する。 具体的には、トレーニングプロセスを厳密にモデル化し、FEELの1ラウンド収束率の上限を導出することにより、共同資源配分とデータ選択の問題を確立し、残念ながら直接解決することができない。 この目的に向けて、我々は元の問題を変数置換によって解き易い形式に変換し、2つのサブプロブレム、すなわちリソース割り当て問題とデータ選択問題に分解する。 2つのサブプロブレムはそれぞれ混合整数非凸問題と整数非凸問題であり、最適解を達成することは難しい課題である。 マッチング理論と凸凹法および勾配投影法の適用により, 2つのサブプロブレムに対して, それぞれ低複素度部分最適化アルゴリズムを考案した。 最後に,提案手法による共同資源配分とデータ選択の優位性を数値計算により検証した。

Deploying federated learning at the wireless edge introduces federated edge learning (FEEL). Given FEEL's limited communication resources and potential mislabeled data on devices, improper resource allocation or data selection can hurt convergence speed and increase training costs. Thus, to realize an efficient FEEL system, this paper emphasizes jointly optimizing resource allocation and data selection. Specifically, in this work, through rigorously modeling the training process and deriving an upper bound on FEEL's one-round convergence rate, we establish a problem of joint resource allocation and data selection, which, unfortunately, cannot be solved directly. Toward this end, we equivalently transform the original problem into a solvable form via a variable substitution and then break it into two subproblems, that is, the resource allocation problem and the data selection problem. The two subproblems are mixed-integer non-convex and integer non-convex problems, respectively, and achieving their optimal solutions is a challenging task. Based on the matching theory and applying the convex-concave procedure and gradient projection methods, we devise a low-complexity suboptimal algorithm for the two subproblems, respectively. Finally, the superiority of our proposed scheme of joint resource allocation and data selection is validated by numerical results.
翻訳日:2024-07-04 15:05:39 公開日:2024-07-03
# ヘッド・ツー・テール原子ジョセフソン接合における相互作用誘起散逸量子相転移

Interaction-induced dissipative quantum phase transition in a head-to-tail atomic Josephson junction ( http://arxiv.org/abs/2407.02890v1 )

ライセンス: Link先を確認
Koichiro Furutani, Luca Salasnich, (参考訳) ヘッド・ツー・テールのボース・ジョセフソン接合における散逸相転移を提案する。 量子相転移はジョセフソン接合に比例した起源を持つが、ジョセフソンモードとバスモードとの固有運動量結合は、合成散逸を伴わずに散逸相転移を観察することを可能にする。 原子間相互作用強度が減衰パラメータの役割を担っていることを示す。 したがって、比抵抗的なジョセフソン回路とは対照的に、ボースジョセフソン接合は、非摂動効果に対して頑健な反発相互作用強度を増大させることにより、より広いパラメータ領域で絶縁相を示すことができる。 我々は、準1次元の原子ガスの密閉により絶縁相に到達することができると主張している。

We propose a dissipative phase transition in a head-to-tail Bose Josephson junction. The quantum phase transition has the same origin as the one in a resistively shunted Josephson junction, but the intrinsic momentum coupling between the Josephson mode and the bath modes enables us to observe the dissipative phase transition without any synthetic dissipation. We show that the inter-atomic interaction strength plays the role of the damping parameter. Consequently, in contrast to a resistively shunted Josephson circuit, the Bose Josephson junction can exhibit an insulating phase in a wider parameter region by increasing the repulsive interaction strength, which is robust against nonperturbative effects. We argue that tight transverse confinement of the quasi-one-dimensional atomic gas allows us to reach the insulating phase.
翻訳日:2024-07-04 15:05:39 公開日:2024-07-03
# GPTQT: 効率を上げるために2倍の大規模言語モデルを量子化する

GPTQT: Quantize Large Language Models Twice to Push the Efficiency ( http://arxiv.org/abs/2407.02891v1 )

ライセンス: Link先を確認
Yipin Guo, Yilin Lang, Qinyuan Ren, (参考訳) その規模が大きいため、生成型Large Language Models (LLMs) は重要な計算資源とストレージ資源を必要とする。 本稿では,3bit/2bit で LLM の重みを表現し,メモリ使用量の削減と処理速度の向上を図るため,新しい学習後量子化手法 GPTQT を提案する。 重みの量子化誤差の最小化は非効率であり、過度に適合することを示した。 したがって、GPTQTはプログレッシブな2段階のアプローチを採用しており、最初は線形量子化を用いて重みを相対的に高いビットに量子化し、続いて得られた重みを低ビットバイナリ符号化に変換する。 初期スケーリング係数を最適化するための再探索戦略を提案する。 推論の間、これらのステップは純粋なバイナリコーディングにマージされ、効率的な計算を可能にします。 さまざまなモデルとデータセットを対象としたテストでは、GPTQTの有効性が確認されている。 強い3ビット量子化ベースラインと比較して、GPTQTはオプト66Bではパープレキシティを4.01削減し、オプト30bではスピードを1.24倍向上させる。 Llama2 の結果から GPTQT はこの種の LLM に最適なバイナリ符号化量子化法であることがわかった。

Due to their large size, generative Large Language Models (LLMs) require significant computing and storage resources. This paper introduces a new post-training quantization method, GPTQT, to reduce memory usage and enhance processing speed by expressing the weight of LLM in 3bit/2bit. Practice has shown that minimizing the quantization error of weights is ineffective, leading to overfitting. Therefore, GPTQT employs a progressive two-step approach: initially quantizing weights using Linear quantization to a relatively high bit, followed by converting obtained int weight to lower bit binary coding. A re-explore strategy is proposed to optimize initial scaling factor. During inference, these steps are merged into pure binary coding, enabling efficient computation. Testing across various models and datasets confirms GPTQT's effectiveness. Compared to the strong 3-bit quantization baseline, GPTQT further reduces perplexity by 4.01 on opt-66B and increases speed by 1.24 times on opt-30b. The results on Llama2 show that GPTQT is currently the best binary coding quantization method for such kind of LLMs.
翻訳日:2024-07-04 15:05:39 公開日:2024-07-03
# 前立腺分節領域適応のための不確かさ誘導型自己学習フレームワーク

An Uncertainty-guided Tiered Self-training Framework for Active Source-free Domain Adaptation in Prostate Segmentation ( http://arxiv.org/abs/2407.02893v1 )

ライセンス: Link先を確認
Zihao Luo, Xiangde Luo, Zijun Gao, Guotai Wang, (参考訳) 深層学習モデルは、前立腺疾患の診断と治療のための前立腺を正確に記述する上で顕著な効果を示したが、異なる医療センターで堅牢な一般化を達成する上での課題は続いている。 Source-free Domain Adaptation (SFDA)は、ソースとターゲットドメイン間のドメインシフトを減らしながら、プライバシとセキュリティ上の問題に対処するために、ディープセグメンテーションモデルを適用する、有望なテクニックである。 しかし、近年の文献では、SFDAの性能は予測不可能なドメインギャップのため、まだ十分ではないことが示されている。 アノテーションのコストが低く、パフォーマンスが大幅に向上する可能性があるため、いくつかの対象ドメインサンプルにアノテーションを付けることは許容できる。 それでも、アノテーションの予算が非常に限られているため、アノテーションのサンプルを選択する際には慎重な考慮が必要である。 これに触発されて、医用画像セグメンテーションのためのActive Source-free Domain Adaptation (ASFDA)の開発を目標としています。 具体的には,不確実性誘導型自己学習(UGTST)フレームワークを提案する。このフレームワークは,グローバル不確実性と多様性を考慮した冗長性フィルタを集約するために,エントロピーベースの一次局所ピークフィルタによる効率的なアクティブなサンプル選択と,連結した自己学習戦略と組み合わせて,安定したドメイン適応を実現する。 対象領域のDiceスコアは平均9.78%, 7.58%, 平均9.78%であった。 コードは、https://github.com/HiLab-git/UGTSTで入手できる。

Deep learning models have exhibited remarkable efficacy in accurately delineating the prostate for diagnosis and treatment of prostate diseases, but challenges persist in achieving robust generalization across different medical centers. Source-free Domain Adaptation (SFDA) is a promising technique to adapt deep segmentation models to address privacy and security concerns while reducing domain shifts between source and target domains. However, recent literature indicates that the performance of SFDA remains far from satisfactory due to unpredictable domain gaps. Annotating a few target domain samples is acceptable, as it can lead to significant performance improvement with a low annotation cost. Nevertheless, due to extremely limited annotation budgets, careful consideration is needed in selecting samples for annotation. Inspired by this, our goal is to develop Active Source-free Domain Adaptation (ASFDA) for medical image segmentation. Specifically, we propose a novel Uncertainty-guided Tiered Self-training (UGTST) framework, consisting of efficient active sample selection via entropy-based primary local peak filtering to aggregate global uncertainty and diversity-aware redundancy filter, coupled with a tiered self-learning strategy, achieves stable domain adaptation. Experimental results on cross-center prostate MRI segmentation datasets revealed that our method yielded marked advancements, with a mere 5% annotation, exhibiting an average Dice score enhancement of 9.78% and 7.58% in two target domains compared with state-of-the-art methods, on par with fully supervised learning. Code is available at:https://github.com/HiLab-git/UGTST
翻訳日:2024-07-04 15:05:39 公開日:2024-07-03
# Translatotron-V(ison):画像内機械翻訳のためのエンドツーエンドモデル

Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation ( http://arxiv.org/abs/2407.02894v1 )

ライセンス: Link先を確認
Zhibin Lan, Liqiang Niu, Fandong Meng, Jie Zhou, Min Zhang, Jinsong Su, (参考訳) In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。 この点において、従来のカスケード手法は、エラー伝播、大量のパラメータ、配置の困難さ、入力画像の視覚的特性の維持といった問題に悩まされている。 このように、エンド・ツー・エンド・モデルの構築は選択肢となり、しかしながら2つの大きな課題に直面している。 1 言語間のアライメントを同時に学習し、入力画像の視覚的特徴を保ちながら、膨大なモデリング負担がかかること。 2)過剰長画素列の直接予測の難しさについて検討した。 本稿では、4つのモジュールからなるエンド・ツー・エンド IIMT モデルである \textit{Translatotron-V(ision)} を提案する。 画像エンコーダと画像デコーダに加えて、対象のテキストデコーダと画像トークン化器を含む。 それらのうち、対象のテキストデコーダは言語アライメントの負担を軽減するために使用され、画像トークン化器は、長い画素列を短い視覚トークン列に変換し、低レベルな視覚特徴にフォーカスすることを防止する。 さらに,モダリティや言語間のアライメントの学習を支援するために,モデルのための2段階のトレーニングフレームワークを提案する。 最後に、生成した画像の翻訳品質を評価するために、Structure-BLEUと呼ばれる位置認識評価指標を提案する。 実験結果から,本モデルは70.95%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも有意に優れていた。

In-image machine translation (IIMT) aims to translate an image containing texts in source language into an image containing translations in target language. In this regard, conventional cascaded methods suffer from issues such as error propagation, massive parameters, and difficulties in deployment and retaining visual characteristics of the input image. Thus, constructing end-to-end models has become an option, which, however, faces two main challenges: 1) the huge modeling burden, as it is required to simultaneously learn alignment across languages and preserve the visual characteristics of the input image; 2) the difficulties of directly predicting excessively lengthy pixel sequences. In this paper, we propose \textit{Translatotron-V(ision)}, an end-to-end IIMT model consisting of four modules. In addition to an image encoder, and an image decoder, our model contains a target text decoder and an image tokenizer. Among them, the target text decoder is used to alleviate the language alignment burden, and the image tokenizer converts long sequences of pixels into shorter sequences of visual tokens, preventing the model from focusing on low-level visual features. Besides, we present a two-stage training framework for our model to assist the model in learning alignment across modalities and languages. Finally, we propose a location-aware evaluation metric called Structure-BLEU to assess the translation quality of the generated images. Experimental results demonstrate that our model achieves competitive performance compared to cascaded models with only 70.9\% of parameters, and significantly outperforms the pixel-level end-to-end IIMT model.
翻訳日:2024-07-04 15:05:39 公開日:2024-07-03
# バーチャルリアリティにおけるオープンエンディンググループ活動におけるターンタイキング行動の予測と理解

Predicting and Understanding Turn-Taking Behavior in Open-Ended Group Activities in Virtual Reality ( http://arxiv.org/abs/2407.02896v1 )

ライセンス: Link先を確認
Portia Wang, Eugy Han, Anna C. M. Queiroz, Cyan DeVeaux, Jeremy N. Bailenson, (参考訳) ネットワーク型バーチャルリアリティ(VR)では、ユーザの行動、個人差、グループダイナミクスは、次の話者が誰であるか、ターンテイク行動のタイミングなど、将来の音声行動の重要なシグナルとして機能する。 これらの振る舞いを予測し、理解する能力は、適応的でパーソナライズされた支援を提供する機会を提供する。例えば、様々な感覚能力を持つユーザーが複雑な社会的シーンをナビゲートしたり、仮想モデレーターを自然な振る舞いでインスタンス化したりすることができる。 本研究では,社会的ダイナミクスの文献から抽出した特徴を用いたターンテイク行動の予測を行う。 77セッションと1660分間の少人数のソーシャルインタラクションを4週間にわたって収集した大規模VR教室データセットの結果について論じる。 評価では, 順応行動の「何」「誰」「何」「何」の3つの課題に対して, 0.71--0.78 AUC (ROC曲線下) を達成し, 最適性能を得た。 これらのモデルを解釈すると,グループサイズ,聴取者個性,発話関連行動(例えば,聴取者の最後のスピーチイベントから経過した時間),グループガウン(例えば,聴取者および過去の話者の頭部ピッチ,頭部y軸位置,左手y軸位置)が,より健康的に予測に影響を及ぼすことがわかった。 その結果、これらの機能は、予測性能が時間とともに堅牢であり、トレーニングデータセットに使用されていないグループやアクティビティを持つため、新しいソーシャルVR設定において信頼性の高い指標のままであることが示唆された。 本研究の理論的・実践的意義について論じる。

In networked virtual reality (VR), user behaviors, individual differences, and group dynamics can serve as important signals into future speech behaviors, such as who the next speaker will be and the timing of turn-taking behaviors. The ability to predict and understand these behaviors offers opportunities to provide adaptive and personalized assistance, for example helping users with varying sensory abilities navigate complex social scenes and instantiating virtual moderators with natural behaviors. In this work, we predict turn-taking behaviors using features extracted based on social dynamics literature. We discuss results from a large-scale VR classroom dataset consisting of 77 sessions and 1660 minutes of small-group social interactions collected over four weeks. In our evaluation, gradient boosting classifiers achieved the best performance, with accuracies of 0.71--0.78 AUC (area under the ROC curve) across three tasks concerning the "what", "who", and "when" of turn-taking behaviors. In interpreting these models, we found that group size, listener personality, speech-related behavior (e.g., time elapsed since the listener's last speech event), group gaze (e.g., how much the group looks at the speaker), as well as the listener's and previous speaker's head pitch, head y-axis position, and left hand y-axis position more saliently influenced predictions. Results suggested that these features remain reliable indicators in novel social VR settings, as prediction performance is robust over time and with groups and activities not used in the training dataset. We discuss theoretical and practical implications of the work.
翻訳日:2024-07-04 15:05:39 公開日:2024-07-03
# 自己教師型視覚変換器はドメイン一般化のためのスケーラブルな生成モデルである

Self-supervised Vision Transformer are Scalable Generative Models for Domain Generalization ( http://arxiv.org/abs/2407.02900v1 )

ライセンス: Link先を確認
Sebastian Doerrich, Francesco Di Salvo, Christian Ledig, (参考訳) 特にデジタル病理学の領域における深層学習(DL)技術の統合は、顕著な進歩にもかかわらず、多様な画像領域や特徴をまたいだ堅牢な一般化の実現に関わる課題によって妨げられている。 データ強化や染色色正規化など、この分野における従来の緩和戦略は、この制限に対処するには不十分であることが証明されており、代替手法の探索が必要である。 そこで本研究では,病理組織像における領域一般化のための新しい生成法を提案する。 画像パッチの特徴を動的に抽出し,それらを原画像にシームレスに注入することにより,多様な属性を持つ新規な合成画像を生成する。 このような合成画像でデータセットを豊かにすることにより、その全体性を高め、DLモデルの未確認領域への一般化を促進することを目指している。 2つの異なる病理組織学的データセットで実施された広範囲な実験は、カメリオン17-wildsチャレンジデータセット(+2%)と第2エピテリウムストローマデータセット(+26%)において、提案手法の有効性を著しく上回った。 さらに,利用可能なラベルのないデータサンプルと,より複雑で高いパラメトリックアーキテクチャで容易にスケールできることを強調した。 ソースコードはhttps://github.com/sdoerrich97/vits-are-generative-modelsで入手できる。

Despite notable advancements, the integration of deep learning (DL) techniques into impactful clinical applications, particularly in the realm of digital histopathology, has been hindered by challenges associated with achieving robust generalization across diverse imaging domains and characteristics. Traditional mitigation strategies in this field such as data augmentation and stain color normalization have proven insufficient in addressing this limitation, necessitating the exploration of alternative methodologies. To this end, we propose a novel generative method for domain generalization in histopathology images. Our method employs a generative, self-supervised Vision Transformer to dynamically extract characteristics of image patches and seamlessly infuse them into the original images, thereby creating novel, synthetic images with diverse attributes. By enriching the dataset with such synthesized images, we aim to enhance its holistic nature, facilitating improved generalization of DL models to unseen domains. Extensive experiments conducted on two distinct histopathology datasets demonstrate the effectiveness of our proposed approach, outperforming the state of the art substantially, on the Camelyon17-wilds challenge dataset (+2%) and on a second epithelium-stroma dataset (+26%). Furthermore, we emphasize our method's ability to readily scale with increasingly available unlabeled data samples and more complex, higher parametric architectures. Source code is available at https://github.com/sdoerrich97/vits-are-generative-models .
翻訳日:2024-07-04 15:05:39 公開日:2024-07-03
# ロボット学習における力移動の欠点

The Shortcomings of Force-from-Motion in Robot Learning ( http://arxiv.org/abs/2407.02904v1 )

ライセンス: Link先を確認
Elie Aljalbout, Felix Frank, Patrick van der Smagt, Alexandros Paraschos, (参考訳) ロボット操作には正確な動きと物理的相互作用の制御が必要である。 しかし、現在のロボット学習アプローチでは、インタラクションのポリシーを明示的に制御しない動き中心のアクション空間に焦点が当てられている。 本稿では,この選択の反響を論じ,ロボット学習におけるより対話的な行動空間を論じる。

Robotic manipulation requires accurate motion and physical interaction control. However, current robot learning approaches focus on motion-centric action spaces that do not explicitly give the policy control over the interaction. In this paper, we discuss the repercussions of this choice and argue for more interaction-explicit action spaces in robot learning.
翻訳日:2024-07-04 15:05:39 公開日:2024-07-03
# 拡散モデルによる単一画像転がりシャッター除去

Single Image Rolling Shutter Removal with Diffusion Models ( http://arxiv.org/abs/2407.02906v1 )

ライセンス: Link先を確認
Zhanglei Yang, Haipeng Li, Mingbo Hong, Bing Zeng, Shuaicheng Liu, (参考訳) 単フレーム転がりシャッター(RS)補正のための最初の拡散モデルに基づく手法であるRS-Diffusionを提案する。 RSアーティファクトはCMOSセンサの行ワイズ露光によってフレームの視覚的品質を損なう。 従来の手法のほとんどは、連続したフレームからの時間情報を用いて動きの修正を行うマルチフレームアプローチに重点を置いている。 しかし、より難しいが重要な単一フレームRS補正に対処するアプローチはほとんどない。 本研究では,<image-to-motion'フレームワークを,パッチアテンションモジュールを設計した拡散技術を用いて提案する。 さらに,得られたRSフレームと,対応するGlobal Shutter(GS)地対からなるRS-Realデータセットを提案する。 GSフレームはRSフレームから修正され、キャプチャ中に取得された対応する慣性計測ユニット(IMU)ジャイロデータによってガイドされる。 実験の結果, RS拡散は従来のRS補正法を上回ることがわかった。 提案手法とRS-Realデータセットは,RS補正の分野を前進させるための基盤となる。

We present RS-Diffusion, the first Diffusion Models-based method for single-frame Rolling Shutter (RS) correction. RS artifacts compromise visual quality of frames due to the row wise exposure of CMOS sensors. Most previous methods have focused on multi-frame approaches, using temporal information from consecutive frames for the motion rectification. However, few approaches address the more challenging but important single frame RS correction. In this work, we present an ``image-to-motion'' framework via diffusion techniques, with a designed patch-attention module. In addition, we present the RS-Real dataset, comprised of captured RS frames alongside their corresponding Global Shutter (GS) ground-truth pairs. The GS frames are corrected from the RS ones, guided by the corresponding Inertial Measurement Unit (IMU) gyroscope data acquired during capture. Experiments show that our RS-Diffusion surpasses previous single RS correction methods. Our method and proposed RS-Real dataset lay a solid foundation for advancing the field of RS correction.
翻訳日:2024-07-04 15:05:39 公開日:2024-07-03
# 量子状態合成:決定複雑度クラスと合成誤差低減の可能性

Quantum State Synthesis: Relation with Decision Complexity Classes and Impossibility of Synthesis Error Reduction ( http://arxiv.org/abs/2407.02907v1 )

ライセンス: Link先を確認
Hugo Delavenne, François Le Gall, (参考訳) 本研究では、量子状態合成複雑性クラス(量子状態の生成の複雑さに焦点を当てた最近の計算複雑性の概念)と従来の決定複雑性クラスとの関係について検討する。 特に,量子状態合成複雑性クラスにおける合成の質を特徴付ける合成誤差パラメータの役割について検討する。 まず、高い合成誤差構造において、合成クラスの崩壊は等価な決定クラスの崩壊を意味することを示す。 より合理的な合成誤差について、BQP と QCMA の類似関係を示す。 最後に、量子状態合成クラスでは、一般に合成の質を改善することは不可能であることが示され、完全性や音質パラメータ(繰り返しによって改善できる)とは異なり、任意の計算力でも合成誤差を低減できない。

This work investigates the relationships between quantum state synthesis complexity classes (a recent concept in computational complexity that focuses on the complexity of preparing quantum states) and traditional decision complexity classes. We especially investigate the role of the synthesis error parameter, which characterizes the quality of the synthesis in quantum state synthesis complexity classes. We first show that in the high synthesis error regime, collapse of synthesis classes implies collapse of the equivalent decision classes. For more reasonable synthesis error, we then show a similar relationships for BQP and QCMA. Finally, we show that for quantum state synthesis classes it is in general impossible to improve the quality of the synthesis: unlike the completeness and soundness parameters (which can be improved via repetition), the synthesis error cannot be reduced, even with arbitrary computational power.
翻訳日:2024-07-04 15:05:39 公開日:2024-07-03
# 既知の異常のドメイン非依存的検出

Domain-independent detection of known anomalies ( http://arxiv.org/abs/2407.02910v1 )

ライセンス: Link先を確認
Jonas Bühler, Jonas Fehrenbach, Lucas Steinmann, Christian Nauck, Marios Koulakis, (参考訳) 工業品質検査における永続的な障害の1つは異常の検出である。 現実のユースケースでは、2つの問題に対処する必要がある: 異常データはスパースであり、同じ種類の異常を以前に見つからなかったオブジェクトで検出する必要がある。 現在の異常検出アプローチはスパースな名目データで訓練できるが、ドメインの一般化アプローチは、これまで見つからなかった領域のオブジェクトの検出を可能にする。 これら2つの観測を利用して、スパースクラスにおける領域一般化のハイブリッドタスクを導入する。 このタスクに付随するデータセットを導入するために、3つの新しいデータセットを生成することにより、確立されたMVTec ADデータセットの修正を提案する。 既存のベンチマーク手法の適用に加えて,組込み型アプローチであるSpatial Embedding MLP (SEMLP) と Labeled PatchCore を設計した。 SEMLPは、平均画像レベルのAUROCが87.2%であるのに対して、MIROは80.4%である。 新たに公開され、利用可能なデータセットにより、さらなる研究が産業的異常検出を改善することができる。

One persistent obstacle in industrial quality inspection is the detection of anomalies. In real-world use cases, two problems must be addressed: anomalous data is sparse and the same types of anomalies need to be detected on previously unseen objects. Current anomaly detection approaches can be trained with sparse nominal data, whereas domain generalization approaches enable detecting objects in previously unseen domains. Utilizing those two observations, we introduce the hybrid task of domain generalization on sparse classes. To introduce an accompanying dataset for this task, we present a modification of the well-established MVTec AD dataset by generating three new datasets. In addition to applying existing methods for benchmark, we design two embedding-based approaches, Spatial Embedding MLP (SEMLP) and Labeled PatchCore. Overall, SEMLP achieves the best performance with an average image-level AUROC of 87.2 % vs. 80.4 % by MIRO. The new and openly available datasets allow for further research to improve industrial anomaly detection.
翻訳日:2024-07-04 15:05:39 公開日:2024-07-03
# 非対角学習:マルチシーケンスMRIのためのベクトル量子化共通潜時空間

Non-Adversarial Learning: Vector-Quantized Common Latent Space for Multi-Sequence MRI ( http://arxiv.org/abs/2407.02911v1 )

ライセンス: Link先を確認
Luyi Han, Tao Tan, Tianyu Zhang, Xin Wang, Yuan Gao, Chunyao Lu, Xinglong Liang, Haoran Dou, Yunzhi Huang, Ritse Mann, (参考訳) 対向学習は、ペア化されたサンプルが欠如している場合、生成モデルがMRIをソースからターゲットシーケンスに変換するのに役立つ。 しかし, 臨床現場でのMRI合成は, トレーニング不安定性やモード崩壊により困難である。 この問題に対処するために、中間列を利用してマルチシーケンスMRIの共通潜時空間を推定し、共通潜時空間から異なる列を再構成する。 複数の列間のベクトル量子化コモン(VQC)潜在空間のガウス分布を推定するために,各列の離散表現を圧縮する生成モデルを提案する。 さらに、コントラスト学習による潜在空間の整合性を改善し、ドメイン拡張によるモデルの安定性を向上させる。 BraTS2021データセットを用いた実験により、我々の非敵対的モデルは他のGAN法よりも優れており、VQC潜伏空間は、(1)ノイズ、バイアス場、アーティファクトの影響を排除し、(2)一発セグメンテーションの可能性を秘めた、固いセグメンテーション能力を実現するのに役立ちます。 私たちのコードは公開されています。

Adversarial learning helps generative models translate MRI from source to target sequence when lacking paired samples. However, implementing MRI synthesis with adversarial learning in clinical settings is challenging due to training instability and mode collapse. To address this issue, we leverage intermediate sequences to estimate the common latent space among multi-sequence MRI, enabling the reconstruction of distinct sequences from the common latent space. We propose a generative model that compresses discrete representations of each sequence to estimate the Gaussian distribution of vector-quantized common (VQC) latent space between multiple sequences. Moreover, we improve the latent space consistency with contrastive learning and increase model stability by domain augmentation. Experiments using BraTS2021 dataset show that our non-adversarial model outperforms other GAN-based methods, and VQC latent space aids our model to achieve (1) anti-interference ability, which can eliminate the effects of noise, bias fields, and artifacts, and (2) solid semantic representation ability, with the potential of one-shot segmentation. Our code is publicly available.
翻訳日:2024-07-04 15:05:39 公開日:2024-07-03
# SFC: Achieveが低精度算術下での高速畳み込みを正確に行う

SFC: Achieve Accurate Fast Convolution under Low-precision Arithmetic ( http://arxiv.org/abs/2407.02913v1 )

ライセンス: Link先を確認
Liulu He, Yufei Zhao, Rui Gao, Yuan Du, Li Du, (参考訳) WinogradやFFTなどの高速畳み込みアルゴリズムは、深層モデルの畳み込み操作を効率的に高速化することができる。 しかし、これらのアルゴリズムは推論精度を維持するために高精度演算に依存しており、これはモデルの量子化と矛盾する。 この対立を解消し、量子化畳み込みの効率をさらに向上するために、SFCを提案する。これは、離散フーリエ変換(DFT)をシンボル演算で拡張し、特定の変換点において変換を行うのに必要な追加のみを必要とし、不合理数の計算を回避し、精度の低下を図り、高速畳み込みのための新しい代数変換である。 さらに、フーリエ法の無効な円形畳み込み出力を効果的に変換する補正項を導入することにより、畳み込み効率を向上させる。 数値誤差解析は,3x3畳み込みに対して3.68倍の乗算還元が可能であることを示すとともに,Winogradアルゴリズムも同様に低い数値誤差で2.25倍の減算しか達成できないことを示す。 ベンチマークとFPGAで行った実験により、我々の新しいアルゴリズムは、量子化アルゴリズムと高速畳み込み量子化に関する既存の研究に勝らず、精度を保ちながら量子化モデルの計算効率をさらに向上できることを示した。

Fast convolution algorithms, including Winograd and FFT, can efficiently accelerate convolution operations in deep models. However, these algorithms depend on high-precision arithmetic to maintain inference accuracy, which conflicts with the model quantization. To resolve this conflict and further improve the efficiency of quantized convolution, we proposes SFC, a new algebra transform for fast convolution by extending the Discrete Fourier Transform (DFT) with symbolic computing, in which only additions are required to perform the transformation at specific transform points, avoiding the calculation of irrational number and reducing the requirement for precision. Additionally, we enhance convolution efficiency by introducing correction terms to convert invalid circular convolution outputs of the Fourier method into effective ones. The numerical error analysis is presented for the first time in this type of work and proves that our algorithms can provide a 3.68x multiplication reduction for 3x3 convolution, while the Winograd algorithm only achieves a 2.25x reduction with similarly low numerical errors. Experiments carried out on benchmarks and FPGA show that our new algorithms can further improve the computation efficiency of quantized models while maintaining accuracy, surpassing both the quantization-alone method and existing works on fast convolution quantization.
翻訳日:2024-07-04 15:05:39 公開日:2024-07-03
# マーリエの増大 : エンサンブルラーニングシステムにおける精度とエネルギー効率設計のトレードオフ

The More the Merrier? Navigating Accuracy vs. Energy Efficiency Design Trade-Offs in Ensemble Learning Systems ( http://arxiv.org/abs/2407.02914v1 )

ライセンス: Link先を確認
Rafiullah Omar, Justus Bogner, Henry Muccini, Patricia Lago, Silverio Martínez-Fernández, Xavier Franch, (参考訳) 背景: 機械学習(ML)モデル構成は、単一のMLモデルの欠点を緩和し、より効果的なML対応システムを設計するための一般的なテクニックである。 アンサンブル学習、すなわち、同じ要求を複数のモデルに転送し、それらの予測を融合させることは、正確さのために広く研究されているが、エネルギー効率の良いアンサンブルの設計方法に関する知識は不十分である。 目的:我々は,正確さとエネルギー消費のトレードオフの可能性について,学習の合理化に関する3つの設計判断を分析した。 a)アンサンブルサイズ、すなわちアンサンブル内のモデルの数 ロ 融合方法(大票対メタモデル)及び c)パーティショニング方法(全体データセット対サブセットベーストレーニング) 方法: 異なるアンサンブルの分類のための4つの一般的なMLアルゴリズムを組み合わせることで,11のアンサンブル x 4 データセット x 2 融合法 x 2 分割法 (176 組み合わせ) を用いて完全な因子的実験を行った。 各組み合わせの精度(F1スコア)とJのエネルギー消費(トレーニングと推論の両方)を測定した。 結果:より大きなアンサンブルサイズはエネルギー消費を著しく増加させた(サイズ2のアンサンブルはサイズ3のアンサンブルよりも37.49%少ないエネルギーを消費し、サイズ4のアンサンブルより26.96%少ないエネルギーを消費する)が、精度は著しく向上しなかった。 さらに、多数決によるメタモデル融合は精度(コーエンd:0.38)とエネルギー消費(コーエンd:0.92)の両方で優れていた。 最後に、サブセットベースのトレーニングはエネルギー消費を著しく減少させ(コーエンのdは0.91)、データセット全体のトレーニングは正確さを著しく向上させなかった。 結論: Green AIの観点からは、サブセットベースのトレーニング、多数決投票、決定木やネイブベイズ、KNNといったエネルギー効率のよいMLアルゴリズムを使用して、小さなサイズのアンサンブル(2ないし最大3モデル)を設計することを推奨します。

Background: Machine learning (ML) model composition is a popular technique to mitigate shortcomings of a single ML model and to design more effective ML-enabled systems. While ensemble learning, i.e., forwarding the same request to several models and fusing their predictions, has been studied extensively for accuracy, we have insufficient knowledge about how to design energy-efficient ensembles. Objective: We therefore analyzed three types of design decisions for ensemble learning regarding a potential trade-off between accuracy and energy consumption: a) ensemble size, i.e., the number of models in the ensemble, b) fusion methods (majority voting vs. a meta-model), and c) partitioning methods (whole-dataset vs. subset-based training). Methods: By combining four popular ML algorithms for classification in different ensembles, we conducted a full factorial experiment with 11 ensembles x 4 datasets x 2 fusion methods x 2 partitioning methods (176 combinations). For each combination, we measured accuracy (F1-score) and energy consumption in J (for both training and inference). Results: While a larger ensemble size significantly increased energy consumption (size 2 ensembles consumed 37.49% less energy than size 3 ensembles, which in turn consumed 26.96% less energy than the size 4 ensembles), it did not significantly increase accuracy. Furthermore, majority voting outperformed meta-model fusion both in terms of accuracy (Cohen's d of 0.38) and energy consumption (Cohen's d of 0.92). Lastly, subset-based training led to significantly lower energy consumption (Cohen's d of 0.91), while training on the whole dataset did not increase accuracy significantly. Conclusions: From a Green AI perspective, we recommend designing ensembles of small size (2 or maximum 3 models), using subset-based training, majority voting, and energy-efficient ML algorithms like decision trees, Naive Bayes, or KNN.
翻訳日:2024-07-04 15:05:39 公開日:2024-07-03
# 音声対話マネージャのための交渉対話に向けて

Towards Negotiative Dialogue for the Talkamatic Dialogue Manager ( http://arxiv.org/abs/2407.02917v1 )

ライセンス: Link先を確認
Staffan Larsson, Alexander Berman, David Hjelm, (参考訳) 本稿では,TDM(Talkamatic Dialogue Manager)の開発版に実装された,交渉対話に関連する対話現象について述べる。 この実装は、TDMにおける交渉対話の一般的な特徴を網羅する最初のステップである。

The paper describes a number of dialogue phenomena associated with negotiative dialogue, as implemented in a development version of the Talkamatic Dialogue Manager (TDM). This implementation is an initial step towards full coverage of general features of negotiative dialogue in TDM.
翻訳日:2024-07-04 15:05:39 公開日:2024-07-03
# Free-SurGS: SfM-free 3D Gaussian Splatting

Free-SurGS: SfM-Free 3D Gaussian Splatting for Surgical Scene Reconstruction ( http://arxiv.org/abs/2407.02918v1 )

ライセンス: Link先を確認
Jiaxin Guo, Jiangliu Wang, Di Kang, Wenzhen Dong, Wenting Wang, Yun-hui Liu, (参考訳) 手術シーンのリアルタイム3D再構成は, 手術者の視認性を高めることを約束し, コンピュータ支援手術において重要な役割を担っている。 近年の3Dガウススティング(3DGS)の進歩は、初期化のためにStructure-from-Motion(SfM)によって生成された正確なポーズと点雲に依存する、一般的なシーンのリアルタイムな新しいビュー合成に大きな可能性を示している。 しかし、SfMを用いた3DGSは、テクスチャの最小化と光度不整合の難しさにより、手術シーンにおける正確なカメラポーズと幾何学の回復に失敗する。 そこで本研究では,SfMフリー3DGSを用いた手術シーン再構築手法を提案する。 映像の連続性に基づいて,本手法の鍵となるのは,3次元ガウスから導出される投影流を誘導するために,直近の光学的流れを利用することである。 光量損失のみに依存する従来の方法とは異なり、投影流と光流の間の損失を最小限に抑えるため、ポーズ推定問題を定式化する。 さらに、エピポーラ幾何学を満たす厳密で信頼性の高い点を検出することにより、フローアウトレーヤをフィルタリングするために整合性チェックが導入された。 3次元ガウス最適化では,フレームをランダムにサンプリングしてシーン表現を最適化し,段階的に3次元ガウスを成長させる。 SCAREDデータセットの実験は、新しいビュー合成における既存の手法よりも優れた性能を示し、高い効率でポーズ推定を行う。 コードはhttps://github.com/wrld/Free-SurGS.comで入手できる。

Real-time 3D reconstruction of surgical scenes plays a vital role in computer-assisted surgery, holding a promise to enhance surgeons' visibility. Recent advancements in 3D Gaussian Splatting (3DGS) have shown great potential for real-time novel view synthesis of general scenes, which relies on accurate poses and point clouds generated by Structure-from-Motion (SfM) for initialization. However, 3DGS with SfM fails to recover accurate camera poses and geometry in surgical scenes due to the challenges of minimal textures and photometric inconsistencies. To tackle this problem, in this paper, we propose the first SfM-free 3DGS-based method for surgical scene reconstruction by jointly optimizing the camera poses and scene representation. Based on the video continuity, the key of our method is to exploit the immediate optical flow priors to guide the projection flow derived from 3D Gaussians. Unlike most previous methods relying on photometric loss only, we formulate the pose estimation problem as minimizing the flow loss between the projection flow and optical flow. A consistency check is further introduced to filter the flow outliers by detecting the rigid and reliable points that satisfy the epipolar geometry. During 3D Gaussian optimization, we randomly sample frames to optimize the scene representations to grow the 3D Gaussian progressively. Experiments on the SCARED dataset demonstrate our superior performance over existing methods in novel view synthesis and pose estimation with high efficiency. Code is available at https://github.com/wrld/Free-SurGS.
翻訳日:2024-07-04 14:55:24 公開日:2024-07-03
# EgoFlowNet: Ego-Motionをサポートしたポイントクラウドからの非リジッドシーンフロー

EgoFlowNet: Non-Rigid Scene Flow from Point Clouds with Ego-Motion Support ( http://arxiv.org/abs/2407.02920v1 )

ライセンス: Link先を確認
Ramy Battrawy, René Schuster, Didier Stricker, (参考訳) 近年のLiDAR点雲からのシーンフロー推定法は,オブジェクトレベルの明示的推論に限られている。 これらの手法は各剛体オブジェクトに対して複数の反復最適化を行い、クラスタリングの堅牢性に弱い。 本稿では,オブジェクトを抽象化することなく,弱教師付きで訓練されたポイントレベルのシーンフロー推定ネットワークであるEgoFlowNetを提案する。 提案手法は,エゴモーションとシーンフローの2つの並列分岐を暗黙的に駆動する二分分割マスクを推定する。 従来の手法とは異なり、各ブランチに全ての入力ポイントを提供し、特徴抽出と損失にバイナリマスクを注意深く統合する。 また、クラスタリングや厳密性の仮定なしに複数のスケールで更新される局所的な改善を伴う共有コストボリュームも使用しています。 現実的なKITTIのシーンでは,地上点の存在下では,EgoFlowNetは最先端の手法よりも優れた性能を示している。

Recent weakly-supervised methods for scene flow estimation from LiDAR point clouds are limited to explicit reasoning on object-level. These methods perform multiple iterative optimizations for each rigid object, which makes them vulnerable to clustering robustness. In this paper, we propose our EgoFlowNet - a point-level scene flow estimation network trained in a weakly-supervised manner and without object-based abstraction. Our approach predicts a binary segmentation mask that implicitly drives two parallel branches for ego-motion and scene flow. Unlike previous methods, we provide both branches with all input points and carefully integrate the binary mask into the feature extraction and losses. We also use a shared cost volume with local refinement that is updated at multiple scales without explicit clustering or rigidity assumptions. On realistic KITTI scenes, we show that our EgoFlowNet performs better than state-of-the-art methods in the presence of ground surface points.
翻訳日:2024-07-04 14:55:24 公開日:2024-07-03
# 情報完全測定とテンソルネットワークを用いた低分散可観測推定

Low-variance observable estimation with informationally-complete measurements and tensor networks ( http://arxiv.org/abs/2407.02923v1 )

ライセンス: Link先を確認
Stefano Mangini, Daniel Cavalcanti, (参考訳) 本稿では,情報的(過剰な)完全測定とテンソルネットワークを利用して,統計誤差の低い複数の観測対象の非バイアス推定器を提案する。 この方法は、テンソルネットワークに基づく測定データの観測可能な古典的最適化からなり、低分散推定に繋がる。 古典的なシャドウと測定フレームに基づく他の観測可能な推定プロトコルと比較して、我々のアプローチにはいくつかの利点がある。 一 統計誤差の低減に最適化することができ、その結果、所定の推定精度を達成するための測定予算を短縮することができる。 (ii)テンソルネットワーク構造による多数の量子ビットにスケールする。 三 テンソルネットワークの観点で効率的な表現を有する測度演算子を持つ任意の測度プロトコルに適用することができる。 本手法は, 無限・有限統計シナリオにおけるスピン・化学系を含む様々な数値例を用いて評価し, 低結合次元のテンソルネットを用いた場合においても最適推定が可能であることを示す。

We propose a method to provide unbiased estimators of multiple observables with low statistical error by utilizing informationally (over)complete measurements and tensor networks. The method consists of an observable-specific classical optimisation of the measurement data based on tensor networks leading to low-variance estimations. Compared to other observable estimation protocols based on classical shadows and measurement frames, our approach offers several advantages: (i) it can be optimized to provide lower statistical error, resulting in a reduced measurement budget to achieve a specified estimation precision; (ii) it scales to a large number of qubits due to the tensor network structure; (iii) it can be applied to any measurement protocol with measurement operators that have an efficient representation in terms of tensor networks. We benchmark the method through various numerical examples, including spin and chemical systems in both infinite and finite statistics scenarios, and show how optimal estimation can be found even when we use tensor-networks with low bond dimensions.
翻訳日:2024-07-04 14:55:24 公開日:2024-07-03
# 異なる規則に基づく分類を用いた不確実性推定を用いた説明可能な脊椎骨折解析

Explainable vertebral fracture analysis with uncertainty estimation using differentiable rule-based classification ( http://arxiv.org/abs/2407.02926v1 )

ライセンス: Link先を確認
Victor Wåhlstrand Skärström, Lisa Johansson, Jennifer Alvén, Mattias Lorentzon, Ida Häggström, (参考訳) 深部神経回路を用いた低用量XVFAによる脊椎骨折の診断法について検討した。 我々はGenantの半定量基準を、椎骨骨折の成績と形態を分類する異なる規則に基づく方法として取り入れた。 以前の研究とは異なり、XVFAは現在の臨床方法論と関連する説明可能な分類と不確実性評価を提供し、同時に脊椎レベルの感度が93%、エンドツーエンドのAUCが97%の最先端の手法を超越している。 さらに, モデル不確実性の推定値と, 人間のアノテータと同等の信頼性のモデルとの可読性の比較を行った。

We present a novel method for explainable vertebral fracture assessment (XVFA) in low-dose radiographs using deep neural networks, incorporating vertebra detection and keypoint localization with uncertainty estimates. We incorporate Genant's semi-quantitative criteria as a differentiable rule-based means of classifying both vertebra fracture grade and morphology. Unlike previous work, XVFA provides explainable classifications relatable to current clinical methodology, as well as uncertainty estimations, while at the same time surpassing state-of-the art methods with a vertebra-level sensitivity of 93% and end-to-end AUC of 97% in a challenging setting. Moreover, we compare intra-reader agreement with model uncertainty estimates, with model reliability on par with human annotators.
翻訳日:2024-07-04 14:55:24 公開日:2024-07-03
# 文脈性次数推定のための新しいヒューリスティックなアプローチとその4ビットから6ビットの表現

A new heuristic approach for contextuality degree estimates and its four- to six-qubit portrayals ( http://arxiv.org/abs/2407.02928v1 )

ライセンス: Link先を確認
Axel Muller, Metod Saniga, Alain Giorgetti, Frédéric Holweck, Colm Kelleher, (参考訳) 次数2の多ビットシンプレクティック極空間に位置する3要素のコンテキスト(線)を持つ量子コンテキスト構成の文脈度とそれに対応する不満足な部分の上限を求めるための新しいヒューリスティックな方法を紹介し,記述する。 SATソルバをベースとした従来手法は3キュービットに制限されていたが,本手法はより高速で汎用性が高く,4~6キュービットのケースも扱えるようになった。 われわれが見つけた4ビットの未満足な構成は非常に素晴らしい。 楕円四角形の特徴は315行であり、中心となるカイリー六角形(英語版)の3つのコピーには、ヘアウッドグラフに固定された幾何学が共通している。 双曲的二次函数も 315 個の直線を持つが、点線の入射構造として、双対 $\mathcal{DW}(5,2)$ の $\mathcal{W}(5,2)$ に同型である。 最後に、四ビット空間のすべての直線/コンテキストに付随する1575行を持つ不満足な構成は、PG$(3,2)$の点平面入射グラフを中心とする、区別された$\mathcal{DW}(5,2)$を含む。 5ビット空間で見られる対応する構成は、6975の満たされない文脈がPG$(4,2)$の点超平面入射グラフの周りにコンパクト化されている双曲二次体を除いて、かなり高い複雑さを示す。 6ビット空間で発見された最も顕著な不満足なパターンは、(全空間について)ケイリー六角形と、完備二部グラフ$K_{7,7}$(双曲二次体について)の下の部分幾何学である。

We introduce and describe a new heuristic method for finding an upper bound on the degree of contextuality and the corresponding unsatisfied part of a quantum contextual configuration with three-element contexts (i.e., lines) located in a multi-qubit symplectic polar space of order two. While the previously used method based on a SAT solver was limited to three qubits, this new method is much faster and more versatile, enabling us to also handle four- to six-qubit cases. The four-qubit unsatisfied configurations we found are quite remarkable. That of an elliptic quadric features 315 lines and has in its core three copies of the split Cayley hexagon of order two having a Heawood-graph-underpinned geometry in common. That of a hyperbolic quadric also has 315 lines but, as a point-line incidence structure, is isomorphic to the dual $\mathcal{DW}(5,2)$ of $\mathcal{W}(5,2)$. Finally, an unsatisfied configuration with 1575 lines associated with all the lines/contexts of the four-qubit space contains a distinguished $\mathcal{DW}(5,2)$ centered on a point-plane incidence graph of PG$(3,2)$. The corresponding configurations found in the five-qubit space exhibit a considerably higher degree of complexity, except for a hyperbolic quadric, whose 6975 unsatisfied contexts are compactified around the point-hyperplane incidence graph of PG$(4,2)$. The most remarkable unsatisfied patterns discovered in the six-qubit space are a couple of disjoint split Cayley hexagons (for the full space) and a subgeometry underpinned by the complete bipartite graph $K_{7,7}$ (for a hyperbolic quadric).
翻訳日:2024-07-04 14:55:24 公開日:2024-07-03
# PosMLP-Video: 効率的なビデオ認識のための空間的・時間的相対的位置符号化

PosMLP-Video: Spatial and Temporal Relative Position Encoding for Efficient Video Recognition ( http://arxiv.org/abs/2407.02934v1 )

ライセンス: Link先を確認
Yanbin Hao, Diansong Zhou, Zhicai Wang, Chong-Wah Ngo, Meng Wang, (参考訳) 近年,視覚変換器とMLPは画像理解タスクにおいて顕著な性能を示した。 しかし、自己アテンション層やトークン混合層のような本質的に密度の高い計算演算子は、時空間ビデオデータに適用した場合に重大な課題を生じさせる。 このギャップに対処するために,PosMLP-Videoを提案する。 密接な演算子の代わりに、相対的相対的位置符号化(RPE)を用いてペアのトークン関係を構築し、小さなパラメータ化された相対的位置バイアスを利用して各関係スコアを得る。 具体的には、時空間モデルを実現するために、画像PosMLPの位置ゲーティングユニットを時間的、空間的、時空間的、時空間的、時空間的、すなわちPoTGU、PoSGU、PoSTGUに拡張する。 これらのゲーティングユニットは、モデルの複雑さを減少させるだけでなく、優れた性能を維持するために、3種類の時空間分解位置MLPブロックに組み込むことができる。 さらに、チャネルグルーピングを用いて相対的な位置関係を豊かにする。 3つのビデオ関連タスクの実験結果から,PosMLP-Videoは従来の最先端モデルと比較して,競争速度のトレードオフを実現することが示された。 特にImageNet1Kで事前トレーニングされたPosMLP-Videoは、Somes-Something V1/V2で59.0%/70.3%、Kinetics-400で82.1%、パラメータやFLOPは他のモデルよりはるかに少ない。 コードはhttps://github.com/zhouds1918/PosMLP_Videoで公開されている。

In recent years, vision Transformers and MLPs have demonstrated remarkable performance in image understanding tasks. However, their inherently dense computational operators, such as self-attention and token-mixing layers, pose significant challenges when applied to spatio-temporal video data. To address this gap, we propose PosMLP-Video, a lightweight yet powerful MLP-like backbone for video recognition. Instead of dense operators, we use efficient relative positional encoding (RPE) to build pairwise token relations, leveraging small-sized parameterized relative position biases to obtain each relation score. Specifically, to enable spatio-temporal modeling, we extend the image PosMLP's positional gating unit to temporal, spatial, and spatio-temporal variants, namely PoTGU, PoSGU, and PoSTGU, respectively. These gating units can be feasibly combined into three types of spatio-temporal factorized positional MLP blocks, which not only decrease model complexity but also maintain good performance. Additionally, we enrich relative positional relationships by using channel grouping. Experimental results on three video-related tasks demonstrate that PosMLP-Video achieves competitive speed-accuracy trade-offs compared to the previous state-of-the-art models. In particular, PosMLP-Video pre-trained on ImageNet1K achieves 59.0%/70.3% top-1 accuracy on Something-Something V1/V2 and 82.1% top-1 accuracy on Kinetics-400 while requiring much fewer parameters and FLOPs than other models. The code is released at https://github.com/zhouds1918/PosMLP_Video.
翻訳日:2024-07-04 14:55:24 公開日:2024-07-03
# GraCoRe: 大規模言語モデルにおけるグラフ理解と複雑な推論のベンチマーク

GraCoRe: Benchmarking Graph Comprehension and Complex Reasoning in Large Language Models ( http://arxiv.org/abs/2407.02936v1 )

ライセンス: Link先を確認
Zike Yuan, Ming Liu, Hui Wang, Bing Qin, (参考訳) 大規模言語モデル(LLM)のグラフ理解と推論能力の評価は困難であり、しばしば不完全である。 既存のベンチマークは主に純粋なグラフ理解に焦点を当てており、すべてのグラフタイプと詳細な機能定義の包括的な評価が欠如している。 本稿では,LLMのグラフ理解と推論を体系的に評価するベンチマークであるGraCoReを提案する。 GraCoReは3階層の階層分類を使用して、純粋なグラフと不均一グラフのモデルを分類し、テストし、19のタスクでテストされた10の領域に分割する。 私たちのベンチマークには、複雑さの異なる5,140グラフを持つ11のデータセットが含まれています。 我々は3つのクローズドソースと7つのオープンソースLCMを評価し、能力とタスクの観点から徹底的な分析を行った。 キーとなる発見は、セマンティックエンリッチメントが推論性能を高め、ノード順序付けがタスクの成功に影響を及ぼし、長いテキストを処理する能力が必ずしもグラフの理解や推論を改善するとは限らないことである。 GraCoReがhttps://github.com/ZIKEYUAN/GraCoReでオープンソース化

Evaluating the graph comprehension and reasoning abilities of Large Language Models (LLMs) is challenging and often incomplete. Existing benchmarks focus primarily on pure graph understanding, lacking a comprehensive evaluation across all graph types and detailed capability definitions. This paper presents GraCoRe, a benchmark for systematically assessing LLMs' graph comprehension and reasoning. GraCoRe uses a three-tier hierarchical taxonomy to categorize and test models on pure graph and heterogeneous graphs, subdividing capabilities into 10 distinct areas tested through 19 tasks. Our benchmark includes 11 datasets with 5,140 graphs of varying complexity. We evaluated three closed-source and seven open-source LLMs, conducting thorough analyses from both ability and task perspectives. Key findings reveal that semantic enrichment enhances reasoning performance, node ordering impacts task success, and the ability to process longer texts does not necessarily improve graph comprehension or reasoning. GraCoRe is open-sourced at https://github.com/ZIKEYUAN/GraCoRe
翻訳日:2024-07-04 14:55:24 公開日:2024-07-03
# 多言語話者匿名化の可能性について

Probing the Feasibility of Multilingual Speaker Anonymization ( http://arxiv.org/abs/2407.02937v1 )

ライセンス: Link先を確認
Sarina Meyer, Florian Lux, Ngoc Thang Vu, (参考訳) 話者匿名化では、話者の身元が隠されているように音声記録が修正される。 この技術は世界中の個人のプライバシーを守るのに役立つが、現在の研究は、ほとんど英語のデータに焦点を絞ることで、これを制限している。 本研究では,言語に依存したコンポーネントを多言語に変換することで,最先端の匿名化システムを9言語に拡張する。 プライバシー攻撃や音声劣化に対する匿名化音声の堅牢性をテストする実験は、全言語でこのシステムの全体的な成功を示している。 その結果、英語データに基づく話者埋め込みは言語間で適用可能であり、言語における匿名化性能は、主にそれに用いる音声合成成分の品質に影響されることが示唆された。

In speaker anonymization, speech recordings are modified in a way that the identity of the speaker remains hidden. While this technology could help to protect the privacy of individuals around the globe, current research restricts this by focusing almost exclusively on English data. In this study, we extend a state-of-the-art anonymization system to nine languages by transforming language-dependent components to their multilingual counterparts. Experiments testing the robustness of the anonymized speech against privacy attacks and speech deterioration show an overall success of this system for all languages. The results suggest that speaker embeddings trained on English data can be applied across languages, and that the anonymization performance for a language is mainly affected by the quality of the speech synthesis component used for it.
翻訳日:2024-07-04 14:55:24 公開日:2024-07-03
# 圧縮係数依存性を除去したディープニューラルネットワークを用いた圧縮に基づくJPEGタンパー検出と位置決め

Recompression Based JPEG Tamper Detection and Localization Using Deep Neural Network Eliminating Compression Factor Dependency ( http://arxiv.org/abs/2407.02942v1 )

ライセンス: Link先を確認
Jamimamul Bakas, Praneta Rawat, Kalyan Kokkalla, Ruchira Naskar, (参考訳) 本研究では,再圧縮に基づく画像偽造検出の問題に対処し,画像の一部の領域が不正に修正され,単一の画像内に二重圧縮特性が生じる。 この方向には過去10年間、いくつかの重要な研究がなされている。 しかし、ほとんどの既存の手法は、第1の圧縮係数が第2の圧縮係数よりも大きい場合、この形式の偽造を検出できない。 近年,デジタル画像鑑定の分野において,機械学習技術の重要性が高まっている。 本研究では,JPEG画像におけるrepression based forgeryの存在を検出することができる畳み込みニューラルネットワークに基づくディープラーニングアーキテクチャを提案する。 提案アーキテクチャは,第1圧縮比が第2圧縮比よりも大きい場合であっても,等しく効率的に機能する。 本研究では,リ圧縮機能に基づく画像操作領域のローカライズも目的とする。 提案手法は, 偽造検出と局所化精度に関して, 最先端の手法よりも優れていることを示す。

In this work, we deal with the problem of re compression based image forgery detection, where some regions of an image are modified illegitimately, hence giving rise to presence of dual compression characteristics within a single image. There have been some significant researches in this direction, in the last decade. However, almost all existing techniques fail to detect this form of forgery, when the first compression factor is greater than the second. We address this problem in re compression based forgery detection, here Recently, Machine Learning techniques have started gaining a lot of importance in the domain of digital image forensics. In this work, we propose a Convolution Neural Network based deep learning architecture, which is capable of detecting the presence of re compression based forgery in JPEG images. The proposed architecture works equally efficiently, even in cases where the first compression ratio is greater than the second. In this work, we also aim to localize the regions of image manipulation based on re compression features, using the trained neural network. Our experimental results prove that the proposed method outperforms the state of the art, with respect to forgery detection and localization accuracy.
翻訳日:2024-07-04 14:55:24 公開日:2024-07-03
# PII-Compass:LLMトレーニングデータ抽出プロンプトのグラウンド化による目標PIIへの誘導

PII-Compass: Guiding LLM training data extraction prompts towards the target PII via grounding ( http://arxiv.org/abs/2407.02943v1 )

ライセンス: Link先を確認
Krishna Kanth Nakka, Ahmed Frikha, Ricardo Mendes, Xue Jiang, Xuebing Zhou, (参考訳) 大型モデルの最新かつ最も影響力のある進歩は、そのサイズの増加によるものである。 残念ながら、これは記憶能力が改善され、データのプライバシに関する懸念が高まる。 具体的には、モデルがトレーニングデータに含まれる個人識別情報(PII)を出力できることが示されている。 しかし、報告されたPIII抽出性能は様々であり、このリスクを評価するための最適手法について合意が得られず、現実的な敵を過小評価する結果となった。 本研究では,ドメイン内データを用いて手作業で構築した抽出プロンプトの接頭辞を接頭することで,PIIの抽出性を10倍に向上できることを実証的に示す。 PII-Compassは1,128,2308問合せで0.92%,3.9%,6.86%の電話番号を抽出する。

The latest and most impactful advances in large models stem from their increased size. Unfortunately, this translates into an improved memorization capacity, raising data privacy concerns. Specifically, it has been shown that models can output personal identifiable information (PII) contained in their training data. However, reported PIII extraction performance varies widely, and there is no consensus on the optimal methodology to evaluate this risk, resulting in underestimating realistic adversaries. In this work, we empirically demonstrate that it is possible to improve the extractability of PII by over ten-fold by grounding the prefix of the manually constructed extraction prompt with in-domain data. Our approach, PII-Compass, achieves phone number extraction rates of 0.92%, 3.9%, and 6.86% with 1, 128, and 2308 queries, respectively, i.e., the phone number of 1 person in 15 is extractable.
翻訳日:2024-07-04 14:55:24 公開日:2024-07-03
# VEGS:学習先行情報を用いた3次元ガウス平滑化における都市景観の可視化

VEGS: View Extrapolation of Urban Scenes in 3D Gaussian Splatting using Learned Priors ( http://arxiv.org/abs/2407.02945v1 )

ライセンス: Link先を確認
Sungwon Hwang, Min-Jung Kim, Taewoong Kang, Jayeon Kang, Jaegul Choo, (参考訳) ニューラルレンダリングに基づく都市景観再構築手法は、一般的に、カメラが対向して前進する運転車両から収集された画像に頼っている。 これらの方法は、トレーニングカメラの軌跡と同様のビューからうまく合成できるが、トレーニングカメラの外部に新しいビューを誘導することは、オンパー性能を保証しない。 本稿では, カメラ分布のトレーニングにおいて, 左, 右, 下などの視線に対する再構成を評価することで, EVS問題に対処する。 EVSのレンダリング品質を向上させるため,高密度LiDARマップの構築によりモデルの初期化を行い,表面正規推定器や大規模拡散モデルといった事前のシーン知識を活用することを提案する。 定性的および定量的な比較は,EVSにおける手法の有効性を示す。 我々の知る限りでは、都市景観再建におけるESV問題に最初に取り組む人物である。 プロジェクトページへのリンクは、https://vegs3d.github.io/.com/です。

Neural rendering-based urban scene reconstruction methods commonly rely on images collected from driving vehicles with cameras facing and moving forward. Although these methods can successfully synthesize from views similar to training camera trajectory, directing the novel view outside the training camera distribution does not guarantee on-par performance. In this paper, we tackle the Extrapolated View Synthesis (EVS) problem by evaluating the reconstructions on views such as looking left, right or downwards with respect to training camera distributions. To improve rendering quality for EVS, we initialize our model by constructing dense LiDAR map, and propose to leverage prior scene knowledge such as surface normal estimator and large-scale diffusion model. Qualitative and quantitative comparisons demonstrate the effectiveness of our methods on EVS. To the best of our knowledge, we are the first to address the EVS problem in urban scene reconstruction. Link to our project page: https://vegs3d.github.io/.
翻訳日:2024-07-04 14:55:24 公開日:2024-07-03
# 植物表現のための3次元マルチモーダル画像レジストレーション

3D Multimodal Image Registration for Plant Phenotyping ( http://arxiv.org/abs/2407.02946v1 )

ライセンス: Link先を確認
Eric Stumpe, Gernot Bodner, Francesco Flagiello, Matthias Zeppelzauer, (参考訳) 植物フェノタイピングのための複合マルチモーダルモニタリングシステムにおける複数のカメラ技術の利用は、有望な利益をもたらす。 単一のカメラ技術のみを利用する構成と比較して、植物表現型をより包括的に評価できるクロスモーダルパターンを記録できる。 しかし、クロスモーダルパターンの有効利用は、正確な画像登録に依存してピクセル・正確なアライメントを実現している。 本研究では、飛行時間カメラからの深度情報を登録プロセスに統合することにより、これらの課題に対処する新しいマルチモーダル3D画像登録手法を提案する。 奥行きデータを活用することにより、パララックス効果を緩和し、カメラモード間のより正確な画素アライメントを容易にする。 さらに,異なる種類のオクルージョンを識別・識別する自動メカニズムを導入し,登録エラーの最小化を図る。 本手法の有効性を評価するため,異なる葉の地形を持つ6種の異なる植物種からなる多様な画像データセットを用いて実験を行った。 本研究は, 植物の種類やカメラ組成の正確なアライメントを実現するために, 提案した登録アルゴリズムの堅牢性を示すものである。 従来の方法と比較して、植物特有の画像の特徴の検出には依存せず、植物科学の幅広い応用に利用することができる。 登録方式は、主に解像度と波長の異なる任意の数のカメラにスケールする。 本研究は,マルチモーダル画像登録のための堅牢で信頼性の高いソリューションを提供することにより,植物表現の分野の進展に寄与する。

The use of multiple camera technologies in a combined multimodal monitoring system for plant phenotyping offers promising benefits. Compared to configurations that only utilize a single camera technology, cross-modal patterns can be recorded that allow a more comprehensive assessment of plant phenotypes. However, the effective utilization of cross-modal patterns is dependent on precise image registration to achieve pixel-accurate alignment, a challenge often complicated by parallax and occlusion effects inherent in plant canopy imaging. In this study, we propose a novel multimodal 3D image registration method that addresses these challenges by integrating depth information from a time-of-flight camera into the registration process. By leveraging depth data, our method mitigates parallax effects and thus facilitates more accurate pixel alignment across camera modalities. Additionally, we introduce an automated mechanism to identify and differentiate different types of occlusions, thereby minimizing the introduction of registration errors. To evaluate the efficacy of our approach, we conduct experiments on a diverse image dataset comprising six distinct plant species with varying leaf geometries. Our results demonstrate the robustness of the proposed registration algorithm, showcasing its ability to achieve accurate alignment across different plant types and camera compositions. Compared to previous methods it is not reliant on detecting plant specific image features and can thereby be utilized for a wide variety of applications in plant sciences. The registration approach principally scales to arbitrary numbers of cameras with different resolutions and wavelengths. Overall, our study contributes to advancing the field of plant phenotyping by offering a robust and reliable solution for multimodal image registration.
翻訳日:2024-07-04 14:55:24 公開日:2024-07-03
# IncogniText: LLMベースのプライベート属性ランダム化によるプライバシ強化条件テキスト匿名化

IncogniText: Privacy-enhancing Conditional Text Anonymization via LLM-based Private Attribute Randomization ( http://arxiv.org/abs/2407.02956v1 )

ライセンス: Link先を確認
Ahmed Frikha, Nassim Walha, Krishna Kanth Nakka, Ricardo Mendes, Xue Jiang, Xuebing Zhou, (参考訳) 本研究では,著者の個人属性を正しく推測するのを防ぐことを目的としたテキスト匿名化の問題に対処する。 IncogniTextは,テキストを匿名化して潜在的敵を誤認し,誤った属性値を予測する手法である。 実証評価の結果,私的属性の漏洩が90%以上減少した。 最後に、実世界のアプリケーションにおけるIncogniTextの成熟度を、その匿名化能力をオンデバイスモデルに関連するLoRAパラメータのセットに蒸留することによって実証する。

In this work, we address the problem of text anonymization where the goal is to prevent adversaries from correctly inferring private attributes of the author, while keeping the text utility, i.e., meaning and semantics. We propose IncogniText, a technique that anonymizes the text to mislead a potential adversary into predicting a wrong private attribute value. Our empirical evaluation shows a reduction of private attribute leakage by more than 90%. Finally, we demonstrate the maturity of IncogniText for real-world applications by distilling its anonymization capability into a set of LoRA parameters associated with an on-device model.
翻訳日:2024-07-04 14:55:24 公開日:2024-07-03
# ObfuscaTune: オフサイトファインチューニングの難しさとプライベートデータセット上のプライオリティLLMの推測

ObfuscaTune: Obfuscated Offsite Fine-tuning and Inference of Proprietary LLMs on Private Datasets ( http://arxiv.org/abs/2407.02960v1 )

ライセンス: Link先を確認
Ahmed Frikha, Nassim Walha, Ricardo Mendes, Krishna Kanth Nakka, Xue Jiang, Xuebing Zhou, (参考訳) この研究は、モデルとデータの両方の機密性を保証する方法で、他のデータ所有者エンティティの秘密/秘密データに対して、モデルプロバイダエンティティが所有する独自のLCMの推論と微調整を行うという、時折未解決の問題に対処する。 これにより、サードパーティのクラウドプロバイダの計算インフラにおいて、その微調整が行われる。 これは、シンプルで効果的な難読化技術と効率的な秘密計算(TEEにはモデルパラメータの5%しか配置されていない)を組み合わせた、新しく、効率的で、完全に実用的な保存手法である。 4つのNLPベンチマークデータセットで異なる大きさのGPT-2モデル上で,ObfuscaTuneの有効性を実証的に検証した。 最後に, 難解化による誤差を低減するために, 条件数が少ないランダム行列を用いることの必要性を強調するために, 提案手法のna\"iveバージョンと比較した。

This work addresses the timely yet underexplored problem of performing inference and finetuning of a proprietary LLM owned by a model provider entity on the confidential/private data of another data owner entity, in a way that ensures the confidentiality of both the model and the data. Hereby, the finetuning is conducted offsite, i.e., on the computation infrastructure of a third-party cloud provider. We tackle this problem by proposing ObfuscaTune, a novel, efficient and fully utility-preserving approach that combines a simple yet effective obfuscation technique with an efficient usage of confidential computing (only 5% of the model parameters are placed on TEE). We empirically demonstrate the effectiveness of ObfuscaTune by validating it on GPT-2 models with different sizes on four NLP benchmark datasets. Finally, we compare to a na\"ive version of our approach to highlight the necessity of using random matrices with low condition numbers in our approach to reduce errors induced by the obfuscation.
翻訳日:2024-07-04 14:55:24 公開日:2024-07-03
# 拡張性のある参照フリーな生成モデル評価に向けて

Towards a Scalable Reference-Free Evaluation of Generative Models ( http://arxiv.org/abs/2407.02961v1 )

ライセンス: Link先を確認
Azim Ospanov, Jingwei Zhang, Mohammad Jalali, Xuenan Cao, Andrej Bogdanov, Farzan Farnia, (参考訳) 生成モデルの標準評価スコアは、主に参照ベースであるが、適用可能な参照データセットが利用できないため、生成モデルの参照依存評価は一般的に困難である。 近年, 基準自由エントロピースコアであるVENDIとRKEが, 生成データの多様性を評価するために提案されている。 しかし、これらのスコアをデータから推定すると、大規模生成モデルにおいてかなりの計算コストがかかる。 本研究では、ランダムなフーリエ特徴量フレームワークを利用して計算コストを削減し、フーリエに基づくカーネルエントロピー近似(FKEA)法を提案する。 我々は、FKEAのカーネル行列の近似固有スペクトルを用いて、上述のエントロピースコアを効率的に推定する。 さらに、FKEAのプロキシ固有ベクトルを用いて、生成したサンプルの多様性を評価する方法の特定モードを明らかにする。 我々は,FKEAアセスメントアルゴリズムの確率的実装を複雑度$O(n)$で,サンプルサイズ$n$で線形に成長させる。 我々は、FKEAの数値性能を、標準画像、テキスト、ビデオデータセットに適用して広範囲に評価する。 実験結果から,大規模生成モデルに適用する手法のスケーラビリティと解釈可能性を示す。 コードベースはhttps://github.com/aziksh-ospanov/FKEAで公開されている。

While standard evaluation scores for generative models are mostly reference-based, a reference-dependent assessment of generative models could be generally difficult due to the unavailability of applicable reference datasets. Recently, the reference-free entropy scores, VENDI and RKE, have been proposed to evaluate the diversity of generated data. However, estimating these scores from data leads to significant computational costs for large-scale generative models. In this work, we leverage the random Fourier features framework to reduce the computational price and propose the Fourier-based Kernel Entropy Approximation (FKEA) method. We utilize FKEA's approximated eigenspectrum of the kernel matrix to efficiently estimate the mentioned entropy scores. Furthermore, we show the application of FKEA's proxy eigenvectors to reveal the method's identified modes in evaluating the diversity of produced samples. We provide a stochastic implementation of the FKEA assessment algorithm with a complexity $O(n)$ linearly growing with sample size $n$. We extensively evaluate FKEA's numerical performance in application to standard image, text, and video datasets. Our empirical results indicate the method's scalability and interpretability applied to large-scale generative models. The codebase is available at https://github.com/aziksh-ospanov/FKEA.
翻訳日:2024-07-04 14:55:24 公開日:2024-07-03
# FSM:マルチホップ質問応答のための有限状態マシンに基づくゼロショットプロンプティングパラダイム

FSM: A Finite State Machine Based Zero-Shot Prompting Paradigm for Multi-Hop Question Answering ( http://arxiv.org/abs/2407.02964v1 )

ライセンス: Link先を確認
Xiaochen Wang, Junqing He, Zhe yang, Yiru Wang, Xiangdi Meng, Kunhao Pan, Zhifang Sui, (参考訳) 大きな言語モデル (LLM) とチェーン・オブ・シント (COT) のプロンプトは、単純な自然言語推論タスクにおいて印象的な能力を示している。 しかし,マルチホップ質問応答(MHQA)タスクでは,幻覚,エラーの伝搬,コンテキスト長の制限など,いくつかの課題があるため,性能が低下する傾向にある。 複雑なタスクに対するLLMの推論能力を向上し,有効性と信頼性を向上させるために,FSM(Finite State Machine)というプロンプト手法を提案する。 COT法と異なり、FSMは質問を複数ターンのサブクエストに繰り返し分解し、時間内に自己修正することでMHQAに対処し、各ステップにおける回答の精度を向上させる。 具体的には、FSMは一度に1つのサブクエストに対処し、その現在の結果と状態に基づいて次のステップを決定する。 ベンチマーク実験により,本手法の有効性が示された。 我々の手法は比較的単純なデータセットのベースラインと同等に機能するが、Musiqueのような挑戦的なデータセットよりも優れている。 さらに,中間的推論における誤りにもかかわらず,正しい最終回答を復元できる幻覚現象を緩和する。 さらに,提案手法は,所定出力形式要件に従うLLMの能力を向上し,解答の難易度と再考の必要性を大幅に低減する。

Large Language Models (LLMs) with chain-of-thought (COT) prompting have demonstrated impressive abilities on simple nature language inference tasks. However, they tend to perform poorly on Multi-hop Question Answering (MHQA) tasks due to several challenges, including hallucination, error propagation and limited context length. We propose a prompting method, Finite State Machine (FSM) to enhance the reasoning capabilities of LLM for complex tasks in addition to improved effectiveness and trustworthiness. Different from COT methods, FSM addresses MHQA by iteratively decomposing a question into multi-turn sub-questions, and self-correcting in time, improving the accuracy of answers in each step. Specifically, FSM addresses one sub-question at a time and decides on the next step based on its current result and state, in an automaton-like format. Experiments on benchmarks show the effectiveness of our method. Although our method performs on par with the baseline on relatively simpler datasets, it excels on challenging datasets like Musique. Moreover, this approach mitigates the hallucination phenomenon, wherein the correct final answer can be recovered despite errors in intermediate reasoning. Furthermore, our method improves LLMs' ability to follow specified output format requirements, significantly reducing the difficulty of answer interpretation and the need for reformatting.
翻訳日:2024-07-04 14:45:33 公開日:2024-07-03
# 知識蒸留と量子化を用いたエッジデバイス上の統一異常検出法

Unified Anomaly Detection methods on Edge Device using Knowledge Distillation and Quantization ( http://arxiv.org/abs/2407.02968v1 )

ライセンス: Link先を確認
Sushovan Jena, Arya Pulkit, Kajal Singh, Anoushka Banerjee, Sharad Joshi, Ananth Ganesh, Dinesh Singh, Arnav Bhavsar, (参考訳) 産業4.0におけるディープラーニングとスマートマニュファクチャリングの急速な進歩により、ハイスループット、ハイパフォーマンス、完全に統合された視覚検査システムに欠かせないものが存在する。 MVTec ADのような欠陥検出データセットを使用したほとんどの異常検出アプローチでは、各クラスに個別のモデルを適用する必要がある1クラスモデルを採用している。 それとは対照的に、統一モデルは各クラスに別々のモデルを適用する必要をなくし、コストとメモリの要求を大幅に削減する。 そこで本研究では,統一型マルチクラス構成について検討する。 実験により,マルチクラスモデルは標準MVTec ADデータセットの1クラスモデルと同等に動作することが示された。 したがって、このことは、考慮されたデータセットの場合のように、オブジェクトクラスが互いに著しく異なるときに、別々のオブジェクト/クラス-ワイズモデルを学ぶ必要がないことを示している。 さらに、CPUとエッジデバイス(NVIDIA Jetson Xavier NX)に3つの異なる統一軽量アーキテクチャをデプロイしました。 我々は、異なる精度で性能を向上するために、量子化対応トレーニング(QAT)と後学習量子化(PTQ)を比較しながら、エッジデバイスに展開するためのレイテンシとメモリ要件の観点から、量子化マルチクラス異常検出モデルを分析する。 さらに,訓練後のシナリオで必要とされる2つの異なるキャリブレーション手法について検討し,そのうちの1つは,教師なしタスクの重要性を強調した。 量子化により、PTQの性能低下はQATによりさらに補償され、2つのモデルにおいて元の32ビット浮動小数点と同等の性能が得られる。

With the rapid advances in deep learning and smart manufacturing in Industry 4.0, there is an imperative for high-throughput, high-performance, and fully integrated visual inspection systems. Most anomaly detection approaches using defect detection datasets, such as MVTec AD, employ one-class models that require fitting separate models for each class. On the contrary, unified models eliminate the need for fitting separate models for each class and significantly reduce cost and memory requirements. Thus, in this work, we experiment with considering a unified multi-class setup. Our experimental study shows that multi-class models perform at par with one-class models for the standard MVTec AD dataset. Hence, this indicates that there may not be a need to learn separate object/class-wise models when the object classes are significantly different from each other, as is the case of the dataset considered. Furthermore, we have deployed three different unified lightweight architectures on the CPU and an edge device (NVIDIA Jetson Xavier NX). We analyze the quantized multi-class anomaly detection models in terms of latency and memory requirements for deployment on the edge device while comparing quantization-aware training (QAT) and post-training quantization (PTQ) for performance at different precision widths. In addition, we explored two different methods of calibration required in post-training scenarios and show that one of them performs notably better, highlighting its importance for unsupervised tasks. Due to quantization, the performance drop in PTQ is further compensated by QAT, which yields at par performance with the original 32-bit Floating point in two of the models considered.
翻訳日:2024-07-04 14:45:33 公開日:2024-07-03
# Zero-X: IoVにおけるゼロデイ攻撃検出のためのブロックチェーン対応オープンセットフェデレーション学習フレームワーク

Zero-X: A Blockchain-Enabled Open-Set Federated Learning Framework for Zero-Day Attack Detection in IoV ( http://arxiv.org/abs/2407.02969v1 )

ライセンス: Link先を確認
Abdelaziz Amara korba, Abdelwahab Boualouache, Yacine Ghamri-Doudane, (参考訳) Internet of Vehicles (IoV) は、インテリジェントトランスポーテーションシステム(ITS)にとって重要な技術であり、車両をインターネットや他のエンティティと統合する。 5Gと次の6Gネットワークの出現は、超信頼性、低レイテンシ、高帯域通信を可能にすることで、IoVを変換する大きな可能性を示す。 それでも、接続が拡大するにつれて、サイバーセキュリティの脅威は大きな問題となっている。 この問題は、未知の脆弱性を悪用し、既存の侵入検知システム(IDS)をバイパスできるゼロデイ(0日)攻撃の増加によってさらに悪化している。 本稿では,0日とN日の両方の攻撃を効果的に検出する革新的なセキュリティフレームワークであるZero-Xを提案する。 このフレームワークは、ディープニューラルネットワークとOpen-Set Recognition(OSR)を組み合わせることで、これを実現する。 当社のアプローチでは,ZeroXフレームワークの信頼性と分散化フェデレーション学習(FL)を促進するために,ブロックチェーン技術を使用した新たなスキームを導入している。 このスキームはまた、プライバシー保護を優先し、機密データのプライバシーを保護しながら、CAVとセキュリティ操作センター(SOC)の両方が独自の知識を貢献できるようにする。 我々の知る限りでは、これはOSRとプライバシー保護FLを組み合わせることで、IoVの領域における0日間とN日間の攻撃を識別する最初の試みである。 最近の2つのネットワークトラフィックデータセットの詳細な実験により、提案手法は偽陽性率を最小化しながら高い検出率を達成した。 関連する研究と比較すると、Zero-Xフレームワークは既存のソリューションよりも優れていた。

The Internet of Vehicles (IoV) is a crucial technology for Intelligent Transportation Systems (ITS) that integrates vehicles with the Internet and other entities. The emergence of 5G and the forthcoming 6G networks presents an enormous potential to transform the IoV by enabling ultra-reliable, low-latency, and high-bandwidth communications. Nevertheless, as connectivity expands, cybersecurity threats have become a significant concern. The issue has been further exacerbated by the rising number of zero-day (0-day) attacks, which can exploit unknown vulnerabilities and bypass existing Intrusion Detection Systems (IDSs). In this paper, we propose Zero-X, an innovative security framework that effectively detects both 0-day and N-day attacks. The framework achieves this by combining deep neural networks with Open-Set Recognition (OSR). Our approach introduces a novel scheme that uses blockchain technology to facilitate trusted and decentralized federated learning (FL) of the ZeroX framework. This scheme also prioritizes privacy preservation, enabling both CAVs and Security Operation Centers (SOCs) to contribute their unique knowledge while protecting the privacy of their sensitive data. To the best of our knowledge, this is the first work to leverage OSR in combination with privacy-preserving FL to identify both 0-day and N-day attacks in the realm of IoV. The in-depth experiments on two recent network traffic datasets show that the proposed framework achieved a high detection rate while minimizing the false positive rate. Comparison with related work showed that the Zero-X framework outperforms existing solutions.
翻訳日:2024-07-04 14:45:33 公開日:2024-07-03
# IM-MoCo:運動誘導型インプシットニューラル表現を用いた自己教師型MRI運動補正

IM-MoCo: Self-supervised MRI Motion Correction using Motion-Guided Implicit Neural Representations ( http://arxiv.org/abs/2407.02974v1 )

ライセンス: Link先を確認
Ziad Al-Haj Hemidi, Christian Weihsbach, Mattias P. Heinrich, (参考訳) 磁気共鳴イメージング(MRI)における運動アーティファクトは、比較的長い取得時間によって発生し、取得した画像の臨床的有用性を損なう可能性がある。 従来の動き補正法は、しばしば激しい動きに対処できず、歪んだり信頼性の低い結果をもたらす。 深層学習(DL)は、これらの落とし穴を、構造と幻覚を消失させるコストで一般化することで緩和し、幻覚構造が診断結果に大きな影響を及ぼす医療分野に適用することは困難である。 本研究では, 運動誘導型インプシットニューラル表現(INR)を利用して, 解剖学的構造を維持しつつ, 運動人工物の影響を軽減するインスタンスワイド動作補正パイプラインを提案する。 本手法は, シミュレーションの精度の異なるNYU高速MRIデータセットを用いて評価した。 補正だけでは、最先端の画像再構成手法を、SSIM$+5\%、PSNR$+5\:db$、HaarPSI$+14\%で改善できる。 臨床関連性はその後の実験で実証され, 動作不良画像と比較すると, 分類結果が少なくとも$1.5$の精度で改善された。

Motion artifacts in Magnetic Resonance Imaging (MRI) arise due to relatively long acquisition times and can compromise the clinical utility of acquired images. Traditional motion correction methods often fail to address severe motion, leading to distorted and unreliable results. Deep Learning (DL) alleviated such pitfalls through generalization with the cost of vanishing structures and hallucinations, making it challenging to apply in the medical field where hallucinated structures can tremendously impact the diagnostic outcome. In this work, we present an instance-wise motion correction pipeline that leverages motion-guided Implicit Neural Representations (INRs) to mitigate the impact of motion artifacts while retaining anatomical structure. Our method is evaluated using the NYU fastMRI dataset with different degrees of simulated motion severity. For the correction alone, we can improve over state-of-the-art image reconstruction methods by $+5\%$ SSIM, $+5\:db$ PSNR, and $+14\%$ HaarPSI. Clinical relevance is demonstrated by a subsequent experiment, where our method improves classification outcomes by at least $+1.5$ accuracy percentage points compared to motion-corrupted images.
翻訳日:2024-07-04 14:45:33 公開日:2024-07-03
# 科学合成のための評価指標としての大規模言語モデル

Large Language Models as Evaluators for Scientific Synthesis ( http://arxiv.org/abs/2407.02977v1 )

ライセンス: Link先を確認
Julia Evans, Jennifer D'Souza, Sören Auer, (参考訳) GPT-4やMistralのような最先端のLarge Language Model(LLMs)が、科学的要約の質や、より適切な科学合成の質を評価し、それらの評価を人間のアノテーションと比較する。 我々は,5つの関連論文の要約から,GPT-4による100の質問とそれらの合成のデータセットを用いて,人間の品質評価を検証した。 本研究は、オープンソースGPT-4とオープンソースのMistralモデルの両方で、これらの要約を評価し、その判断の理由を提示する能力を評価する。 予備的な結果は、LLMが品質評価に幾らか適合する論理的説明を提供することができることを示しているが、より深い統計分析により、LLMと人間の評価との間には弱い相関関係が見られ、科学合成評価におけるLLMの可能性と現在の限界が示唆されている。

Our study explores how well the state-of-the-art Large Language Models (LLMs), like GPT-4 and Mistral, can assess the quality of scientific summaries or, more fittingly, scientific syntheses, comparing their evaluations to those of human annotators. We used a dataset of 100 research questions and their syntheses made by GPT-4 from abstracts of five related papers, checked against human quality ratings. The study evaluates both the closed-source GPT-4 and the open-source Mistral model's ability to rate these summaries and provide reasons for their judgments. Preliminary results show that LLMs can offer logical explanations that somewhat match the quality ratings, yet a deeper statistical analysis shows a weak correlation between LLM and human ratings, suggesting the potential and current limitations of LLMs in scientific synthesis evaluation.
翻訳日:2024-07-04 14:45:33 公開日:2024-07-03
# Mast Kalandar - SemEval-2024 Task 8: On the Trail of Textual Origins: RoBERTa-BiLSTM Approach to Detect AI-Generated Text

Mast Kalandar at SemEval-2024 Task 8: On the Trail of Textual Origins: RoBERTa-BiLSTM Approach to Detect AI-Generated Text ( http://arxiv.org/abs/2407.02978v1 )

ライセンス: Link先を確認
Jainit Sushil Bafna, Hardik Mittal, Suyash Sethia, Manish Shrivastava, Radhika Mamidi, (参考訳) 大きな言語モデル(LLM)は、多様なユーザクエリに対する流動的な応答を生成する素晴らしい能力を示しています。 しかし、ジャーナリズム、教育、学術的文脈におけるそのようなテキストの潜在的誤用に関する懸念が浮上している。 SemEval 2024はマルチジェネレータ、マルチドメイン、マルチ言語ブラックボックスマシン生成テキスト検出のタスクを導入し、機械生成テキストを識別し、潜在的な誤用を検出する自動システムの開発を目指している。 本稿では, i)RoBERTa-BiLSTMに基づくテキスト分類器の提案 二 ベースラインアプローチによるモデルの比較研究を行い、その有効性を評価すること。 本稿では,機械が生成したテキスト誤用による問題に対処する上で,自動テキスト検出システムの進歩に寄与する。 私たちのアーキテクチャは、125の内、80.83の正確さで、公式のリーダーボードで46位でした。

Large Language Models (LLMs) have showcased impressive abilities in generating fluent responses to diverse user queries. However, concerns regarding the potential misuse of such texts in journalism, educational, and academic contexts have surfaced. SemEval 2024 introduces the task of Multigenerator, Multidomain, and Multilingual Black-Box Machine-Generated Text Detection, aiming to develop automated systems for identifying machine-generated text and detecting potential misuse. In this paper, we i) propose a RoBERTa-BiLSTM based classifier designed to classify text into two categories: AI-generated or human ii) conduct a comparative study of our model with baseline approaches to evaluate its effectiveness. This paper contributes to the advancement of automatic text detection systems in addressing the challenges posed by machine-generated text misuse. Our architecture ranked 46th on the official leaderboard with an accuracy of 80.83 among 125.
翻訳日:2024-07-04 14:45:33 公開日:2024-07-03
# ゲノミクスにおける説明可能なAIのための意味的にリッチな局所データセット生成

Semantically Rich Local Dataset Generation for Explainable AI in Genomics ( http://arxiv.org/abs/2407.02984v1 )

ライセンス: Link先を確認
Pedro Barbosa, Rosina Savisaar, Alcides Fonseca, (参考訳) ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。 したがって、これらのモデルを解釈することで、下流の生物医学的応用をサポートする基礎となる生物学に関する新たな洞察が得られるかもしれない。 その複雑さのため、解釈可能な代理モデルは局所的な説明(例:単一インスタンス)のためにのみ構築できる。 しかし、これを実現するには、入力の近傍にデータセットを生成する必要がある。これは、モデルの予測にセマンティック変数を導入しながら、元のデータと構文的類似性を維持する必要がある。 この課題はDNAの複雑な配列と機能の関係のため困難である。 本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。 我々のカスタムドメイン誘導型個人表現は、構文的類似性を効果的に制約し、計算労力なしで多様性を促進する2つの代替フィットネス関数を提供する。 本手法はRNAスプライシング領域に適用し, 優れた多様性を実現し, 検索空間を探索する際のランダムなベースラインを著しく上回っている。 さらに、その一般化性を評価し、より大きなシーケンスに対するスケーラビリティを実証し、ベースラインよりも$$\approx$30\%改善する。

Black box deep learning models trained on genomic sequences excel at predicting the outcomes of different gene regulatory mechanisms. Therefore, interpreting these models may provide novel insights into the underlying biology, supporting downstream biomedical applications. Due to their complexity, interpretable surrogate models can only be built for local explanations (e.g., a single instance). However, accomplishing this requires generating a dataset in the neighborhood of the input, which must maintain syntactic similarity to the original data while introducing semantic variability in the model's predictions. This task is challenging due to the complex sequence-to-function relationship of DNA. We propose using Genetic Programming to generate datasets by evolving perturbations in sequences that contribute to their semantic diversity. Our custom, domain-guided individual representation effectively constrains syntactic similarity, and we provide two alternative fitness functions that promote diversity with no computational effort. Applied to the RNA splicing domain, our approach quickly achieves good diversity and significantly outperforms a random baseline in exploring the search space, as shown by our proof-of-concept, short RNA sequence. Furthermore, we assess its generalizability and demonstrate scalability to larger sequences, resulting in a $\approx$30\% improvement over the baseline.
翻訳日:2024-07-04 14:45:33 公開日:2024-07-03
# LoRA-Guard:大規模言語モデルのコンテンツモデレーションのためのパラメータ効率の良いガードレール適応

LoRA-Guard: Parameter-Efficient Guardrail Adaptation for Content Moderation of Large Language Models ( http://arxiv.org/abs/2407.02987v1 )

ライセンス: Link先を確認
Hayder Elesedy, Pedro M. Esperança, Silviu Vlad Oprea, Mete Ozay, (参考訳) ガードレールは、大規模言語モデル(LLM)のコンテンツモデレーションのための安全性アライメントの代替として登場した。 既存のモデルベースのガードレールは、携帯電話など、資源に制約のある計算ポータブルデバイス向けには設計されておらず、その多くがLLMベースのアプリケーションをローカルで実行している。 LLMとガードレールモデル間の知識共有に依存するパラメータ効率の高いガードレール適応法であるLoRA-Guardを導入する。 LoRA-GuardはLLMから言語機能を抽出し、低ランクのアダプタを使ってコンテンツモデレーションタスクに適応する。 LoRA-Guardは100-1000倍のパラメータオーバヘッドで既存の手法よりも優れ、精度を保ちながらオンデバイスコンテンツのモデレーションを実現している。

Guardrails have emerged as an alternative to safety alignment for content moderation of large language models (LLMs). Existing model-based guardrails have not been designed for resource-constrained computational portable devices, such as mobile phones, more and more of which are running LLM-based applications locally. We introduce LoRA-Guard, a parameter-efficient guardrail adaptation method that relies on knowledge sharing between LLMs and guardrail models. LoRA-Guard extracts language features from the LLMs and adapts them for the content moderation task using low-rank adapters, while a dual-path design prevents any performance degradation on the generative task. We show that LoRA-Guard outperforms existing approaches with 100-1000x lower parameter overhead while maintaining accuracy, enabling on-device content moderation.
翻訳日:2024-07-04 14:45:33 公開日:2024-07-03
# YOLOv5, YOLOv8, YOLOv10: リアルタイムビジョンのためのGo-To検出器

YOLOv5, YOLOv8 and YOLOv10: The Go-To Detectors for Real-time Vision ( http://arxiv.org/abs/2407.02988v1 )

ライセンス: Link先を確認
Muhammad Hussain, (参考訳) 本稿では,YOLOv5,YOLOv8,YOLOv10に着目し,YOLO(You Only Look Once)オブジェクト検出アルゴリズムの進化を概観する。 これらのバージョンにまたがるエッジデプロイメントのアーキテクチャの進歩、パフォーマンスの改善、適合性を分析します。 YOLOv5はCSPDarknetバックボーンやMosaic Augmentationといった重要なイノベーションを導入し、スピードと精度をバランスさせた。 YOLOv8はこの基盤の上に構築され、機能抽出とアンカーフリー検出が強化され、汎用性とパフォーマンスが向上した。 YOLOv10は、NMSのないトレーニング、空間チャネルの分離されたダウンサンプリング、および大きなカーネルの畳み込みによる飛躍的な進歩であり、計算オーバーヘッドを減らして最先端のパフォーマンスを実現する。 本研究は, 精度, 効率, リアルタイム性能の進歩的向上, 特に資源制約環境における適用性を強調した。 このレビューでは、モデル複雑性と検出精度のトレードオフに関する洞察を提供し、特定のエッジコンピューティングアプリケーションに最適なYOLOバージョンを選択するためのガイダンスを提供する。

This paper presents a comprehensive review of the evolution of the YOLO (You Only Look Once) object detection algorithm, focusing on YOLOv5, YOLOv8, and YOLOv10. We analyze the architectural advancements, performance improvements, and suitability for edge deployment across these versions. YOLOv5 introduced significant innovations such as the CSPDarknet backbone and Mosaic Augmentation, balancing speed and accuracy. YOLOv8 built upon this foundation with enhanced feature extraction and anchor-free detection, improving versatility and performance. YOLOv10 represents a leap forward with NMS-free training, spatial-channel decoupled downsampling, and large-kernel convolutions, achieving state-of-the-art performance with reduced computational overhead. Our findings highlight the progressive enhancements in accuracy, efficiency, and real-time performance, particularly emphasizing their applicability in resource-constrained environments. This review provides insights into the trade-offs between model complexity and detection accuracy, offering guidance for selecting the most appropriate YOLO version for specific edge computing applications.
翻訳日:2024-07-04 14:45:33 公開日:2024-07-03
# ハイブリッド擬スペクトル偏差量子アルゴリズムによる非線形シュレーディンガー方程式の数値解

Numerical solution of nonlinear Schrödinger equation by a hybrid pseudospectral-variational quantum algorithm ( http://arxiv.org/abs/2407.02989v1 )

ライセンス: Link先を確認
Nikolas Köcher, Hendrik Rose, Jörg Schumacher, Stefan Schumacher, (参考訳) 時間依存型1次元非線形シュリンガー方程式(NLSE)は、ハミルトン項の擬スペクトルステップと非線形項の変分ステップを結合するハイブリッド擬スペクトル偏差量子アルゴリズムによって数値的に解かれる。 ハミルトニアン項は、古典的に実行される前方および後方フーリエ変換による積分因子として扱われる。 この分割により、高次時間積分スキームを回避し、残余非線形NLSE項の1次明示時間ステップを変分アルゴリズムブロックに適用し、数値不安定を回避することができる。 解析解は, 非線形ソリトンが空間内でかなり前方に伝播し, 形状を保ちながら, 長い間隔で小さなルート平均二乗誤差で再現されることを実証した。 量子アルゴリズムの精度を分析し,古典的手法と比較する。 さらに,時間ステップ幅や量子回路の深さなど,アルゴリズムパラメータが結果の精度に与える影響について検討する。

The time-dependent one-dimensional nonlinear Schr\"odinger equation (NLSE) is solved numerically by a hybrid pseudospectral-variational quantum algorithm that connects a pseudospectral step for the Hamiltonian term with a variational step for the nonlinear term. The Hamiltonian term is treated as an integrating factor by forward and backward Fourier transformations, which are here carried out classically. This split allows us to avoid higher-order time integration schemes, to apply a first-order explicit time stepping for the remaining nonlinear NLSE term in a variational algorithm block, and thus to avoid numerical instabilities. We demonstrate that the analytical solution is reproduced with a small root mean square error for a long time interval over which a nonlinear soliton propagates significantly forward in space while keeping its shape. We analyze the accuracy of the quantum algorithm and compare it with classical approaches. Furthermore, we investigate the influence of algorithm parameters on the accuracy of the results, including the temporal step width and the depth of the quantum circuit.
翻訳日:2024-07-04 14:45:33 公開日:2024-07-03
# グラフとスクラップ変換器:効率的な3次元人物位置推定のための空間的・時間的モデリング能力の爆発

Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation ( http://arxiv.org/abs/2407.02990v1 )

ライセンス: Link先を確認
Mengmeng Cui, Kunbo Zhang, Zhenan Sun, (参考訳) 近年,2D-to-3Dによる単分子型3次元人物姿勢推定(HPE)の上昇が研究の関心を集めている。 GNNベースの手法とトランスフォーマーベースの手法は、空間的および時間的特徴学習能力の進歩により、主流のアーキテクチャとなっている。 しかし、既存のアプローチは通常、空間的および時間的領域における共同的およびフレーム的注意アライメントを構築し、結果として局所的な冗長性と計算上のオーバーヘッドをかなり引き起こすような密接な接続をもたらす。 本稿では,時空間情報を活用し,簡潔なグラフとスクリプトランスフォーマーアーキテクチャを用いて,効率的な3次元HPEを実現するためのグローバルアプローチを提案する。 具体的には、空間エンコーディングの段階では、粗粒度の粗いボディパーツを配置して、完全なデータ駆動適応トポロジを持つ空間グラフネットワークを構築し、様々なポーズにおけるモデルの柔軟性と一般化性を確保する。 テンポラルエンコーディングとデコーディングの段階では、長い時間的依存関係をキャプチャし、階層的な特徴集約を実装するために、シンプルで効果的なスキャットトランスフォーマーが提案されている。 動的情報を2次元ポーズシーケンスに導入するための簡単なデータローリング戦略も開発されている。 大規模な実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われる。 G-SFormer級数法は、パラメータの10%程度しか持たず、計算複雑性を著しく低減した従来の最先端技術と比較して、優れた性能を実現する。 さらに、G-SFormerは検出された2Dポーズにおける不正確性に対して顕著な堅牢性を示す。

In recent years, 2D-to-3D pose uplifting in monocular 3D Human Pose Estimation (HPE) has attracted widespread research interest. GNN-based methods and Transformer-based methods have become mainstream architectures due to their advanced spatial and temporal feature learning capacities. However, existing approaches typically construct joint-wise and frame-wise attention alignments in spatial and temporal domains, resulting in dense connections that introduce considerable local redundancy and computational overhead. In this paper, we take a global approach to exploit spatio-temporal information and realise efficient 3D HPE with a concise Graph and Skipped Transformer architecture. Specifically, in Spatial Encoding stage, coarse-grained body parts are deployed to construct Spatial Graph Network with a fully data-driven adaptive topology, ensuring model flexibility and generalizability across various poses. In Temporal Encoding and Decoding stages, a simple yet effective Skipped Transformer is proposed to capture long-range temporal dependencies and implement hierarchical feature aggregation. A straightforward Data Rolling strategy is also developed to introduce dynamic information into 2D pose sequence. Extensive experiments are conducted on Human3.6M, MPI-INF-3DHP and Human-Eva benchmarks. G-SFormer series methods achieve superior performances compared with previous state-of-the-arts with only around ten percent of parameters and significantly reduced computational complexity. Additionally, G-SFormer also exhibits outstanding robustness to inaccuracies in detected 2D poses.
翻訳日:2024-07-04 14:45:33 公開日:2024-07-03
# MedPix 2.0 - 高度なAIアプリケーションのための総合的マルチモーダルバイオメディカルデータセット

MedPix 2.0: A Comprehensive Multimodal Biomedical Dataset for Advanced AI Applications ( http://arxiv.org/abs/2407.02994v1 )

ライセンス: Link先を確認
Irene Siragusa, Salvatore Contino, Massimo La Ciura, Rosario Alicata, Roberto Pirrone, (参考訳) 医療分野における人工知能アプリケーションの開発に対する関心が高まっているため、プライバシに関する問題を中心に、高品質なデータセットが不足している。 さらに、近年のMLLM(Multimodal Large Language Models)の増加により、臨床報告や所見が対応するCTやMRスキャンに添付されるマルチモーダル医療データセットの必要性が高まっている。 本稿では、データセットMedPix 2.0を構築するためのワークフロー全体について説明する。 有名なマルチモーダルデータセットであるMedPix\textsuperscript{\textregistered} を出発点として、主に医師、看護師、医療学生が継続医療教育目的で使用している。 データセットとともに、MongoDBインスタンスを効率的にナビゲートし、トレーニングや微調整に簡単に使用できる生データを取得するためのGUIを開発しました。 そこで本研究では,MedPix 2.0で学習したCLIPモデルを用いて,分類タスクをスキャンする手法を提案する。

The increasing interest in developing Artificial Intelligence applications in the medical domain, suffers from the lack of high-quality dataset, mainly due to privacy-related issues. Moreover, the recent rising of Multimodal Large Language Models (MLLM) leads to a need for multimodal medical datasets, where clinical reports and findings are attached to the corresponding CT or MR scans. This paper illustrates the entire workflow for building the data set MedPix 2.0. Starting from the well-known multimodal dataset MedPix\textsuperscript{\textregistered}, mainly used by physicians, nurses and healthcare students for Continuing Medical Education purposes, a semi-automatic pipeline was developed to extract visual and textual data followed by a manual curing procedure where noisy samples were removed, thus creating a MongoDB database. Along with the dataset, we developed a GUI aimed at navigating efficiently the MongoDB instance, and obtaining the raw data that can be easily used for training and/or fine-tuning MLLMs. To enforce this point, we also propose a CLIP-based model trained on MedPix 2.0 for scan classification tasks.
翻訳日:2024-07-04 14:45:33 公開日:2024-07-03
# 大規模言語モデルはバリューラインドな質問に一貫性があるか?

Are Large Language Models Consistent over Value-laden Questions? ( http://arxiv.org/abs/2407.02996v1 )

ライセンス: Link先を確認
Jared Moore, Tanvi Deshpande, Diyi Yang, (参考訳) 大きな言語モデル(LLM)は、調査回答を特定の値にバイアスしているように見える。 それでも、LSMは特定の値をシミュレートするには矛盾しすぎていると主張する者もいる。 そうなの? まず,(1)1つの質問のパラフレーズ,(2)1つの質問の関連質問,(3)1つの質問の複数選択とオープンな使用事例,(4)英語,中国語,ドイツ語,日本語への質問の多言語翻訳について,回答の類似性として値整合性を定義した。 我々は,300以上のトピックにまたがる8万の質問を用いて,ラマ3を含むオープン LLM と gpt-4o にこれらの対策を適用した。 従来の作業とは異なり、モデルはパラフレーズ、ユースケース、翻訳、トピック内で比較的一貫性がある。 しかし、いくつかの矛盾は残る。 モデルは議論の余地のない話題(例えば、アメリカ合衆国では「感謝祭」)において、議論を呼ぶもの(「ユータナシア」)よりも一貫性がある。 ベースモデルは、微調整されたモデルよりも一貫性があり、トピック間の一貫性が均一であるのに対して、微調整されたモデルは、人間の主題(n=165)のような他のトピック(女性の権利)よりも、いくつかのトピック(「ユータナシア」)に一貫性がない。

Large language models (LLMs) appear to bias their survey answers toward certain values. Nonetheless, some argue that LLMs are too inconsistent to simulate particular values. Are they? To answer, we first define value consistency as the similarity of answers across (1) paraphrases of one question, (2) related questions under one topic, (3) multiple-choice and open-ended use-cases of one question, and (4) multilingual translations of a question to English, Chinese, German, and Japanese. We apply these measures to a few large ($>=34b$), open LLMs including llama-3, as well as gpt-4o, using eight thousand questions spanning more than 300 topics. Unlike prior work, we find that models are relatively consistent across paraphrases, use-cases, translations, and within a topic. Still, some inconsistencies remain. Models are more consistent on uncontroversial topics (e.g., in the U.S., "Thanksgiving") than on controversial ones ("euthanasia"). Base models are both more consistent compared to fine-tuned models and are uniform in their consistency across topics, while fine-tuned models are more inconsistent about some topics ("euthanasia") than others ("women's rights") like our human subjects (n=165).
翻訳日:2024-07-04 14:45:33 公開日:2024-07-03
# VIVA: 人的価値を持つ視覚的な意思決定のためのベンチマーク

VIVA: A Benchmark for Vision-Grounded Decision-Making with Human Values ( http://arxiv.org/abs/2407.03000v1 )

ライセンス: Link先を確認
Zhe Hu, Yixiao Ren, Jing Li, Yu Yin, (参考訳) 本稿では,人間のVAluによって駆動されるVsion-grounded decision-makingのベンチマークであるVIVAを紹介する。 ほとんどの大規模視覚言語モデル(VLM)は物理レベルのスキルに重点を置いているが、私たちの研究は、人間の価値を活用して意思決定を行うためのマルチモーダル能力を調べる最初のものである。 VIVAには、様々な現実世界の状況と手動でアノテートされた決定を描いている1,062のイメージが含まれている。 イメージが与えられたら、モデルは状況に対処するための最も適切なアクションを選択し、関連する人間の価値と決定の根底にある理由を提供するべきである。 VIVAに基づく大規模な実験は、人間の値を用いてマルチモーダル決定を行う際のVLMの制限を示す。 さらなる分析は、行動結果と予測された人間の価値を利用する潜在的な利点を示している。

This paper introduces VIVA, a benchmark for VIsion-grounded decision-making driven by human VAlues. While most large vision-language models (VLMs) focus on physical-level skills, our work is the first to examine their multimodal capabilities in leveraging human values to make decisions under a vision-depicted situation. VIVA contains 1,062 images depicting diverse real-world situations and the manually annotated decisions grounded in them. Given an image there, the model should select the most appropriate action to address the situation and provide the relevant human values and reason underlying the decision. Extensive experiments based on VIVA show the limitation of VLMs in using human values to make multimodal decisions. Further analyses indicate the potential benefits of exploiting action consequences and predicted human values.
翻訳日:2024-07-04 14:45:33 公開日:2024-07-03
# SemioLLM: てんかん研究のための大規模言語モデルの評価

SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research ( http://arxiv.org/abs/2407.03004v1 )

ライセンス: Link先を確認
Meghal Dani, Muthu Jeyanthi Prakash, Zeynep Akata, Stefanie Liebe, (参考訳) 大規模言語モデルは、一般的な医学的知識を標準的医学的問合せデータセットにエンコードする能力において、有望な結果を示している。 しかし、彼らの臨床実践における潜在的な応用には、ベンチマークがほとんど欠落しているドメイン固有のタスクの評価が必要である。 本研究では, 内科的知識を活用してててててんかんの診断を行うために, 最先端のLCM(GPT-3.5, GPT-4, Mixtral 8x7B, Qwen-72chat) を試験した。 具体的には、1269項目を含む注釈付き臨床データベースを用いて、発作の非構造的テキスト記述を発作発生脳領域にリンクする推定値を得る。 臨床評価と比較して, LLMの性能, 信頼性, 推論, 引用能力を評価した。 モデルは上述の分類性能を達成し、素早いエンジニアリングにより結果が大幅に改善され、いくつかのモデルはクローズ・トゥ・クリニカルな性能と推論を達成する。 しかし,本研究では,性能が劣る一方で,いくつかのモデルが過度に自信を持ち,引用誤りや幻覚を呈するなど,重大な落とし穴も明らかとなった。 本研究は, てんかん領域における現在のSOTA LLMを比較した最初の広範囲なベンチマークであり, 患者の医療史からの非構造化テキストを活用して, 医療における診断プロセスを支援する能力を強調している。

Large Language Models have shown promising results in their ability to encode general medical knowledge in standard medical question-answering datasets. However, their potential application in clinical practice requires evaluation in domain-specific tasks, where benchmarks are largely missing. In this study semioLLM, we test the ability of state-of-the-art LLMs (GPT-3.5, GPT-4, Mixtral 8x7B, and Qwen-72chat) to leverage their internal knowledge and reasoning for epilepsy diagnosis. Specifically, we obtain likelihood estimates linking unstructured text descriptions of seizures to seizure-generating brain regions, using an annotated clinical database containing 1269 entries. We evaluate the LLM's performance, confidence, reasoning, and citation abilities in comparison to clinical evaluation. Models achieve above-chance classification performance with prompt engineering significantly improving their outcome, with some models achieving close-to-clinical performance and reasoning. However, our analyses also reveal significant pitfalls with several models being overly confident while showing poor performance, as well as exhibiting citation errors and hallucinations. In summary, our work provides the first extensive benchmark comparing current SOTA LLMs in the medical domain of epilepsy and highlights their ability to leverage unstructured texts from patients' medical history to aid diagnostic processes in health care.
翻訳日:2024-07-04 14:45:33 公開日:2024-07-03
# ニューラルスピーチモデルにおけるヒューマンライクな言語バイアス:Wav2Vec2.0における音韻分類と音韻制約

Human-like Linguistic Biases in Neural Speech Models: Phonetic Categorization and Phonotactic Constraints in Wav2Vec2.0 ( http://arxiv.org/abs/2407.03005v1 )

ライセンス: Link先を確認
Marianne de Heer Kloots, Willem Zuidema, (参考訳) ディープ・ニューラル・スピーチ・モデルは音韻学について何を知っているのか? 既存の研究は、これらのモデルにおける音素などの個々の言語単位の符号化について検討してきた。 ここでは、単位間の相互作用について検討する。 人間の音声知覚に関する古典的な実験から着想を得て,Wav2Vec2が音韻論的制約をどう解決するかを考察した。 我々は、/l/ と /r/ の音響連続体に音を合成し、/l/ のみ、/r/ のみ、あるいは英語では起こらないような制御された文脈に埋め込む。 人間と同様に、Wav2Vec2モデルは、このようなあいまいな音を処理する際に、音素的に許容できるカテゴリーに対してバイアスを示す。 このバイアスはモデルのTransformerモジュールの初期層に現れる。 この効果はASRファインタニングによって増幅されるが、完全に自己制御されたモデルにも現れる。 提案手法は,制御刺激設計がニューラル音声モデルにおける特定の言語知識のローカライズにどのように役立つかを示す。

What do deep neural speech models know about phonology? Existing work has examined the encoding of individual linguistic units such as phonemes in these models. Here we investigate interactions between units. Inspired by classic experiments on human speech perception, we study how Wav2Vec2 resolves phonotactic constraints. We synthesize sounds on an acoustic continuum between /l/ and /r/ and embed them in controlled contexts where only /l/, only /r/, or neither occur in English. Like humans, Wav2Vec2 models show a bias towards the phonotactically admissable category in processing such ambiguous sounds. Using simple measures to analyze model internals on the level of individual stimuli, we find that this bias emerges in early layers of the model's Transformer module. This effect is amplified by ASR finetuning but also present in fully self-supervised models. Our approach demonstrates how controlled stimulus designs can help localize specific linguistic knowledge in neural speech models.
翻訳日:2024-07-04 14:35:46 公開日:2024-07-03
# テキスト誘導画像変換のための周波数制御拡散モデル

Frequency-Controlled Diffusion Model for Versatile Text-Guided Image-to-Image Translation ( http://arxiv.org/abs/2407.03006v1 )

ライセンス: Link先を確認
Xiang Gao, Zhengbo Xu, Junhan Zhao, Jiaying Liu, (参考訳) 近年,大規模なテキスト・ツー・イメージ拡散モデルが画像・画像変換(I2I)の強力なツールとして登場し,ユーザが提供するテキスト・プロンプトによるオープンドメイン画像翻訳が可能になった。 本稿では、周波数領域の観点から、テキスト誘導I2Iの新しいソリューションに寄与する、エンドツーエンドの拡散に基づくフレームワークである周波数制御拡散モデル(FCDiffusion)を提案する。 本フレームワークの中心となるのは、離散コサイン変換に基づく特徴空間周波数領域フィルタリングモジュールで、DCT領域のソース画像の潜時特徴をフィルタリングし、DCTスペクトル帯域の異なるフィルタ画像特徴を、事前訓練された潜時拡散モデルに異なる制御信号として与える。 異なるDCTスペクトル帯の制御信号は、ソース画像とT2I生成画像とを異なる相関関係(例えば、スタイル、構造、レイアウト、輪郭など)で橋渡しし、スタイル誘導コンテンツ生成、画像意味操作、画像シーン翻訳、画像スタイル翻訳など、異なるI2I相関性を強調する汎用I2Iアプリケーションを実現する。 関連するアプローチとは違って、FCDiffusionは、推論時に異なる周波数制御ブランチを切り替えることによって、多様な画像翻訳タスクに適した統一されたテキスト誘導I2Iフレームワークを確立する。 テキスト誘導I2I法の有効性と優位性について,定性的かつ定量的に検討した。 コードはhttps://github.com/XiangGao1102/FCDiffusionで公開されている。

Recently, large-scale text-to-image (T2I) diffusion models have emerged as a powerful tool for image-to-image translation (I2I), allowing open-domain image translation via user-provided text prompts. This paper proposes frequency-controlled diffusion model (FCDiffusion), an end-to-end diffusion-based framework that contributes a novel solution to text-guided I2I from a frequency-domain perspective. At the heart of our framework is a feature-space frequency-domain filtering module based on Discrete Cosine Transform, which filters the latent features of the source image in the DCT domain, yielding filtered image features bearing different DCT spectral bands as different control signals to the pre-trained Latent Diffusion Model. We reveal that control signals of different DCT spectral bands bridge the source image and the T2I generated image in different correlations (e.g., style, structure, layout, contour, etc.), and thus enable versatile I2I applications emphasizing different I2I correlations, including style-guided content creation, image semantic manipulation, image scene translation, and image style translation. Different from related approaches, FCDiffusion establishes a unified text-guided I2I framework suitable for diverse image translation tasks simply by switching among different frequency control branches at inference time. The effectiveness and superiority of our method for text-guided I2I are demonstrated with extensive experiments both qualitatively and quantitatively. The code is publicly available at: https://github.com/XiangGao1102/FCDiffusion.
翻訳日:2024-07-04 14:35:46 公開日:2024-07-03
# ツール学習の安定性に影響を及ぼすもの : ツール学習フレームワークのロバスト性に関する実証的研究

What Affects the Stability of Tool Learning? An Empirical Study on the Robustness of Tool Learning Frameworks ( http://arxiv.org/abs/2407.03007v1 )

ライセンス: Link先を確認
Chengrui Huang, Zhengliang Shi, Yuntao Wen, Xiuying Chen, Peng Han, Shen Gao, Shuo Shang, (参考訳) ツール学習手法は、大規模言語モデル(LLM)が現実世界のアプリケーションと対話する能力を向上した。 多くの既存の作業は、LCMが適切なツールを選択し、ユーザ要求を満たすためにそれらを正しく呼び出せるように、LCMや設計プロンプトを微調整する。 しかし、以前の研究では、ツール学習のパフォーマンスはタスク、データセット、トレーニング設定、アルゴリズムによって異なることが示されている。 これらの要因の影響を理解できなければ、一貫性のない結果、非効率なモデルデプロイメント、最適なツール利用につながる可能性があり、現実のシナリオにおけるLLMの実践的な統合とスケーラビリティを妨げます。 そこで本稿では,ツール学習フレームワークの性能に及ぼす内部要因と外部要因の影響について検討する。 2つのベンチマークデータセットに関する広範な実験を通じて、LLMが試行錯誤と探索の増加から大きな恩恵を受けるという観察を含む、将来の研究に対する洞察に富んだ結論がいくつか見つかる。 我々は、我々の実証的研究が将来のツール学習研究に新たな視点をもたらすと信じている。

Tool learning methods have enhanced the ability of large language models (LLMs) to interact with real-world applications. Many existing works fine-tune LLMs or design prompts to enable LLMs to select appropriate tools and correctly invoke them to meet user requirements. However, it is observed in previous works that the performance of tool learning varies from tasks, datasets, training settings, and algorithms. Without understanding the impact of these factors, it can lead to inconsistent results, inefficient model deployment, and suboptimal tool utilization, ultimately hindering the practical integration and scalability of LLMs in real-world scenarios. Therefore, in this paper, we explore the impact of both internal and external factors on the performance of tool learning frameworks. Through extensive experiments on two benchmark datasets, we find several insightful conclusions for future work, including the observation that LLMs can benefit significantly from increased trial and exploration. We believe our empirical study provides a new perspective for future tool learning research.
翻訳日:2024-07-04 14:35:46 公開日:2024-07-03
# アライメントとアグリゲーション:ビデオ質問に対するビデオアライメントと回答アグリゲーションによる構成的推論

Align and Aggregate: Compositional Reasoning with Video Alignment and Answer Aggregation for Video Question-Answering ( http://arxiv.org/abs/2407.03008v1 )

ライセンス: Link先を確認
Zhaohe Liao, Jiangtong Li, Li Niu, Liqing Zhang, (参考訳) ビデオ質問回答(Video Question-Answering, VideoQA)の最近の進歩にもかかわらず、これらの手法は一般的にブラックボックスとして機能し、それらの推論プロセスを理解し、一貫した構成的推論を行うのが困難である。 これらの課題に対処するために,ビデオアライメントと応答アグリゲータモジュールを統合することで,既存のVidQA手法の構成整合性と精度を両立させることができる,ビデオアライメントとアンサーアグリゲーション(VA$^{3}$)フレームワークを提案する。 ビデオ整合器は、質問に基づいて関連ビデオクリップを階層的に選択し、回答集約器はそのサブクエストに基づいて質問に対する回答を推論し、質問分解グラフ及びコントラスト学習戦略に沿った情報フローによって構成整合性を確保する。 我々は,AGQA-Decompデータセットの3つの設定をベースライン手法で評価し,VidQA手法の構成整合性をより包括的に測定するための新しい指標を提案する。 さらに,我々のフレームワークを任意のVidQAデータセットに適用するために,大規模言語モデル(LLM)に基づく自動質問分解パイプラインを提案する。 私たちは、より広いシナリオでVA$^3$フレームワークを評価するために、MSVDとNExT-QAデータセットを拡張します。 大規模な実験により,本フレームワークは既存手法の構成整合性および精度を向上し,より解釈可能な実世界のVidQAモデルが得られた。

Despite the recent progress made in Video Question-Answering (VideoQA), these methods typically function as black-boxes, making it difficult to understand their reasoning processes and perform consistent compositional reasoning. To address these challenges, we propose a \textit{model-agnostic} Video Alignment and Answer Aggregation (VA$^{3}$) framework, which is capable of enhancing both compositional consistency and accuracy of existing VidQA methods by integrating video aligner and answer aggregator modules. The video aligner hierarchically selects the relevant video clips based on the question, while the answer aggregator deduces the answer to the question based on its sub-questions, with compositional consistency ensured by the information flow along question decomposition graph and the contrastive learning strategy. We evaluate our framework on three settings of the AGQA-Decomp dataset with three baseline methods, and propose new metrics to measure the compositional consistency of VidQA methods more comprehensively. Moreover, we propose a large language model (LLM) based automatic question decomposition pipeline to apply our framework to any VidQA dataset. We extend MSVD and NExT-QA datasets with it to evaluate our VA$^3$ framework on broader scenarios. Extensive experiments show that our framework improves both compositional consistency and accuracy of existing methods, leading to more interpretable real-world VidQA models.
翻訳日:2024-07-04 14:35:46 公開日:2024-07-03
# 説明によるモデルガイダンスによる画像分類器のセグメンテーションモデルへの変換

Model Guidance via Explanations Turns Image Classifiers into Segmentation Models ( http://arxiv.org/abs/2407.03009v1 )

ライセンス: Link先を確認
Xiaoyan Yu, Jannik Franzen, Wojciech Samek, Marina M. -C. Höhne, Dagmar Kainmueller, (参考訳) Grad-CAMやLRPのような説明可能なAI手法による画像分類ネットワークの入力から生成されたヒートマップは、多くの場合、入力画像のセグメンテーションに類似している。 その結果、画像レベルの監督を伴う弱教師付きセグメンテーションを実現するために、ヒートマップも活用されている。 一方、(1)より人間的に解釈可能なヒートマップの改善、(2)より優れた一般化に向けてのネットワークの正規化、(3)多様なネットワークのアンサンブルのトレーニング、(4)〜明示的に不明確な入力特徴を無視するためのヒートマップに損失を課すことができる。 後者のユースケースのため、ヒートマップに損失を与えるパラダイムは、しばしば「正しい理由の右」と呼ばれる。 右利権パラダイムの新たなユースケースとして,半教師付きセグメンテーションを探求することで,これらの2つの研究を統一する。 まず、画像分割のための微分可能ヒートマップアーキテクチャと標準エンコーダデコーダアーキテクチャの形式的並列性を示す。 第2に、このような微分可能なヒートマップアーキテクチャは、標準的なセグメンテーション損失でトレーニングされた場合、競合する結果が得られることを示す。 第3に,このようなアーキテクチャは,画像レベルラベルや少数のピクセルレベルラベルの形式で,弱い監督力を持つトレーニングを可能にし,同等のエンコーダ・デコーダモデルより優れていることを示す。 コードは \url{https://github.com/Kainmueller-Lab/TW-autoencoder} で入手できる。

Heatmaps generated on inputs of image classification networks via explainable AI methods like Grad-CAM and LRP have been observed to resemble segmentations of input images in many cases. Consequently, heatmaps have also been leveraged for achieving weakly supervised segmentation with image-level supervision. On the other hand, losses can be imposed on differentiable heatmaps, which has been shown to serve for (1)~improving heatmaps to be more human-interpretable, (2)~regularization of networks towards better generalization, (3)~training diverse ensembles of networks, and (4)~for explicitly ignoring confounding input features. Due to the latter use case, the paradigm of imposing losses on heatmaps is often referred to as "Right for the right reasons". We unify these two lines of research by investigating semi-supervised segmentation as a novel use case for the Right for the Right Reasons paradigm. First, we show formal parallels between differentiable heatmap architectures and standard encoder-decoder architectures for image segmentation. Second, we show that such differentiable heatmap architectures yield competitive results when trained with standard segmentation losses. Third, we show that such architectures allow for training with weak supervision in the form of image-level labels and small numbers of pixel-level labels, outperforming comparable encoder-decoder models. Code is available at \url{https://github.com/Kainmueller-Lab/TW-autoencoder}.
翻訳日:2024-07-04 14:35:46 公開日:2024-07-03
# コンテキスト対応ビデオインスタンスセグメンテーション

Context-Aware Video Instance Segmentation ( http://arxiv.org/abs/2407.03010v1 )

ライセンス: Link先を確認
Seunghun Lee, Jiwan Seo, Kiljoon Han, Minwoo Choi, Sunghoon Im, (参考訳) 本稿では、各オブジェクトに隣接するコンテキスト情報を統合することで、インスタンスアソシエーションを強化するための新しいフレームワークであるCAVISについて紹介する。 この情報を効率的に抽出し,活用するために,インスタンスを取り巻くコンテキストデータをコアインスタンス機能にマージし,トラッキング精度を向上させるコンテキスト認識インスタンストラッカ(CAIT)を提案する。 さらに,PCC(Prototypeal Cross-frame Contrastive)ロスを導入し,フレーム間のオブジェクトレベルの特徴の整合性を確保し,インスタンスマッチングの精度を大幅に向上させる。 CAVISは、ビデオインスタンスセグメンテーション(VIS)とビデオパノプティクスセグメンテーション(VPS)において、すべてのベンチマークデータセットの最先端手法よりも優れた性能を示す。 特に,本手法は,特に難易度の高いビデオで知られているOVISデータセットに優れる。

In this paper, we introduce the Context-Aware Video Instance Segmentation (CAVIS), a novel framework designed to enhance instance association by integrating contextual information adjacent to each object. To efficiently extract and leverage this information, we propose the Context-Aware Instance Tracker (CAIT), which merges contextual data surrounding the instances with the core instance features to improve tracking accuracy. Additionally, we introduce the Prototypical Cross-frame Contrastive (PCC) loss, which ensures consistency in object-level features across frames, thereby significantly enhancing instance matching accuracy. CAVIS demonstrates superior performance over state-of-the-art methods on all benchmark datasets in video instance segmentation (VIS) and video panoptic segmentation (VPS). Notably, our method excels on the OVIS dataset, which is known for its particularly challenging videos.
翻訳日:2024-07-04 14:35:46 公開日:2024-07-03
# NV型単一光子エミッタにおけるサブナノ秒寿命の誘電体ファノナノアンテナ

Dielectric Fano Nanoantennas for Enabling Sub-Nanosecond Lifetimes in NV-based Single Photon Emitters ( http://arxiv.org/abs/2407.03014v1 )

ライセンス: Link先を確認
Shu An, Dmitry Kalashnikov, Wenqiao Shi, Zackaria Mahfoud, Ah Bian Chew, Yan Liu, Jing Wu, Di Zhu, Weibo Gao, Cheng-Wei Qiu, Victor Leong, Zhaogang Dong, (参考訳) 固体量子エミッタは単一光子の必須源であり、その放出率の向上は量子通信、計算、気象学の応用において最重要となる。 1つのアプローチは、パーセル効果により放出速度が増大する共鳴フォトニックナノ構造と量子エミッターを結合させることである。 誘電体ナノアンテナは、高いオーミック損失を被るプラズモンよりも強力な発光増強を提供するため、有望である。 そこで我々は,シリコン(Si)エリプとディスクを用いた誘電体ファノ共振器の設計と製造を行い,準バウンド状態の準連続(準BIC)と三重共鳴のモードハイブリダイゼーションをサポートする。 ナノダイアモンド(ND)中の窒素空孔(NV-)中心をベースとした単一光子エミッタ(SPE)を介在させることにより,開発した共振器の性能を実証した。 その結果, 界面エミッタはパーセル増強係数が約10であり, サブnsの発光寿命と偏極コントラストが9。 本研究は, 量子フォトニクス応用のための, 効率的かつコンパクトな単一光子源開発のための有望な手法であることを示す。

Solid-state quantum emitters are essential sources of single photons, and enhancing their emission rates is of paramount importance for applications in quantum communications, computing, and metrology. One approach is to couple quantum emitters with resonant photonic nanostructures, where the emission rate is enhanced due to the Purcell effect. Dielectric nanoantennas are promising as they provide strong emission enhancement compared to plasmonic ones, which suffer from high Ohmic loss. Here, we designed and fabricated a dielectric Fano resonator based on a pair of silicon (Si) ellipses and a disk, which supports the mode hybridization between quasi-bound-states-in-the-continuum (quasi-BIC) and Mie resonance. We demonstrated the performance of the developed resonant system by interfacing it with single photon emitters (SPEs) based on nitrogen-vacancy (NV-) centers in nanodiamonds (NDs). We observed that the interfaced emitters have a Purcell enhancement factor of ~10, with sub-ns emission lifetime and a polarization contrast of 9. Our results indicate a promising method for developing efficient and compact single-photon sources for integrated quantum photonics applications.
翻訳日:2024-07-04 14:35:46 公開日:2024-07-03
# 単一ピクサーセルで始める有機体:高分解能画像合成のための神経細胞拡散

An Organism Starts with a Single Pix-Cell: A Neural Cellular Diffusion for High-Resolution Image Synthesis ( http://arxiv.org/abs/2407.03018v1 )

ライセンス: Link先を確認
Marawan Elbatel, Konstantinos Kamnitsas, Xiaomeng Li, (参考訳) 生成モデリングは、実際のデータの統計特性を近似し、元の分布によく似た新しいデータの合成を可能にする。 Generative Adversarial Networks (GANs) と Denoising Diffusion Probabilistic Models (DDPMs) は、それぞれゲーム理論と熱力学からインスピレーションを得ている。 しかしながら、生物進化のレンズによる生成的モデリングの探索は、ほとんど未解決のままである。 本稿では,単一細胞からの生物の進化に触発されたGeCA(Generative Cellular Automata)と呼ばれる新しいモデル群を紹介する。 GeCAは、Fundus と Optical Coherence Tomography (OCT) の2つの画像モダリティにおいて、網膜疾患分類のための効果的な拡張ツールとして評価されている。 データが不足し,クラス分布が本質的に歪んでいるOCT画像の文脈では,GeCAは従来のベースラインに比べて平均F1スコアが12%増加し,11種類の眼科的条件の性能を著しく向上させる。 GeCAは、同様なパラメータ制約の下で、UNetを組み込んだ拡散法と、トランスフォーマーベースのデノナイジングモデルで最先端のアート変種の両方を上回ります。 コードは、https://github.com/xmed-lab/GeCA.comで入手できる。

Generative modeling seeks to approximate the statistical properties of real data, enabling synthesis of new data that closely resembles the original distribution. Generative Adversarial Networks (GANs) and Denoising Diffusion Probabilistic Models (DDPMs) represent significant advancements in generative modeling, drawing inspiration from game theory and thermodynamics, respectively. Nevertheless, the exploration of generative modeling through the lens of biological evolution remains largely untapped. In this paper, we introduce a novel family of models termed Generative Cellular Automata (GeCA), inspired by the evolution of an organism from a single cell. GeCAs are evaluated as an effective augmentation tool for retinal disease classification across two imaging modalities: Fundus and Optical Coherence Tomography (OCT). In the context of OCT imaging, where data is scarce and the distribution of classes is inherently skewed, GeCA significantly boosts the performance of 11 different ophthalmological conditions, achieving a 12% increase in the average F1 score compared to conventional baselines. GeCAs outperform both diffusion methods that incorporate UNet or state-of-the art variants with transformer-based denoising models, under similar parameter constraints. Code is available at: https://github.com/xmed-lab/GeCA.
翻訳日:2024-07-04 14:35:46 公開日:2024-07-03
# リンク予測を用いたデバイス依存の同定

Identification of Device Dependencies Using Link Prediction ( http://arxiv.org/abs/2407.03019v1 )

ライセンス: Link先を確認
Lukáš Sadlek, Martin Husák, Pavel Čeleda, (参考訳) コンピュータネットワークのデバイスは、限られた数のデバイスによって提供される必須のネットワークサービスなしでは機能しない。 デバイス依存の識別は、一対のIPアドレスが依存関係であるかどうか、すなわち、最初のIPアドレスを持つホストが第2のIPアドレスに依存するかどうかを決定する。 これらの依存関係は、大規模かつ動的に変化するネットワークにおいて手動で識別することはできない。 それでも、予期せぬ失敗、パフォーマンスの問題、カスケード効果のため、これらは重要である。 グラフベース機械学習に基づく新しいアプローチを用いて,依存関係の識別に対処する。 この手法は、コンピュータネットワークの通信グラフの潜在表現に基づくリンク予測に属する。 ネットワーク依存に課される時間条件を満たすIPアドレスをランダムにウォーキングする。 制約されたランダムウォークは、同じ通信チェーン(すなわちランダムウォーク)によく現れるIPアドレスを含む空間であるIPアドレスの埋め込みを構築するためにニューラルネットワークによって使用される。 依存性の埋め込みは、その埋め込みからIPアドレスの値を組み合わせて構築され、その結果の依存性分類器のトレーニングに使用される。 制御された環境と大学キャンパスネットワークからのIPフローデータセットを用いて,依存関係に関する証拠を含むアプローチを評価した。 他のアプローチとの正しさと関係性の評価は、このアプローチが許容できる性能を達成することを示す。 あらゆる種類の依存関係を同時に考慮し、運用環境でバッチ処理に適用できます。

Devices in computer networks cannot work without essential network services provided by a limited count of devices. Identification of device dependencies determines whether a pair of IP addresses is a dependency, i.e., the host with the first IP address is dependent on the second one. These dependencies cannot be identified manually in large and dynamically changing networks. Nevertheless, they are important due to possible unexpected failures, performance issues, and cascading effects. We address the identification of dependencies using a new approach based on graph-based machine learning. The approach belongs to link prediction based on a latent representation of the computer network's communication graph. It samples random walks over IP addresses that fulfill time conditions imposed on network dependencies. The constrained random walks are used by a neural network to construct IP address embedding, which is a space that contains IP addresses that often appear close together in the same communication chain (i.e., random walk). Dependency embedding is constructed by combining values for IP addresses from their embedding and used for training the resulting dependency classifier. We evaluated the approach using IP flow datasets from a controlled environment and university campus network that contain evidence about dependencies. Evaluation concerning the correctness and relationship to other approaches shows that the approach achieves acceptable performance. It can simultaneously consider all types of dependencies and is applicable for batch processing in operational conditions.
翻訳日:2024-07-04 14:35:46 公開日:2024-07-03
# 自動辞書テキスト正規化における爆発的辞書識別

Exploiting Dialect Identification in Automatic Dialectal Text Normalization ( http://arxiv.org/abs/2407.03020v1 )

ライセンス: Link先を確認
Bashar Alhafni, Sarah Al-Towaity, Ziyad Fawzy, Fatema Nassar, Fadhl Eryani, Houda Bouamor, Nizar Habash, (参考訳) アラビア語は、アラビア語話者が日常のコミュニケーションで使用する主要な言語である。 ソーシャルメディアプラットフォームが台頭し、文字言語としての利用が拡大した。 しかし、アラビア語の方言は標準的な正書法を持っていない。 これは、ソーシャルメディア上のユーザー生成コンテンツに固有のノイズと組み合わさって、ディレクタルアラビア語を扱うNLPアプリケーションにとって大きな課題となる。 本稿では,方言アラビアの標準オーソグラフィー(CODA)への正規化を目的としたCODAficationの課題について検討・報告する。 我々は5つの主要都市方言に焦点を当てた複数のアラビア方言の独自の平行コーパスで作業している。 我々は,CODAfication のタスク上で,事前訓練されたシーケンス・ツー・シーケンスのモデルをベンチマークした。 さらに、方言識別情報を使用することで、すべての方言のパフォーマンスが向上することを示す。 コード、データ、事前訓練されたモデルを公開しています。

Dialectal Arabic is the primary spoken language used by native Arabic speakers in daily communication. The rise of social media platforms has notably expanded its use as a written language. However, Arabic dialects do not have standard orthographies. This, combined with the inherent noise in user-generated content on social media, presents a major challenge to NLP applications dealing with Dialectal Arabic. In this paper, we explore and report on the task of CODAfication, which aims to normalize Dialectal Arabic into the Conventional Orthography for Dialectal Arabic (CODA). We work with a unique parallel corpus of multiple Arabic dialects focusing on five major city dialects. We benchmark newly developed pretrained sequence-to-sequence models on the task of CODAfication. We further show that using dialect identification information improves the performance across all dialects. We make our code, data, and pretrained models publicly available.
翻訳日:2024-07-04 14:35:46 公開日:2024-07-03
# Qifusion-Net: エンドツーエンドマルチアクセント音声認識のための層適応ストリーム/ノンストリームモデル

Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition ( http://arxiv.org/abs/2407.03026v1 )

ライセンス: Link先を確認
Jinming Chen, Jingyi Fang, Yuanzhong Zheng, Yaoxuan Wang, Haojun Fei, (参考訳) 現在,エンド・ツー・エンド(E2E)音声認識手法は有望な性能を実現している。 しかし、自動音声認識(ASR)モデルは、マルチアクセント音声を正確に認識する上で、依然として課題に直面している。 本稿では,ターゲットアクセントに関する事前知識を必要としないQifusion-Netと呼ばれる層適応核融合モデルを提案する。 本手法は,動的チャンク戦略に基づいて,ストリーム復号化を実現し,フレームレベルの音響特徴を抽出し,微細な情報融合を容易にする。 実験の結果,提案手法はKeSpeechおよびMagicData-RMAC上の複数アクセントテストデータセットに対して,22.1$\%$と17.2$\%$の文字誤り率(CER)を相対的に低減し,ベースラインを上回った。

Currently, end-to-end (E2E) speech recognition methods have achieved promising performance. However, auto speech recognition (ASR) models still face challenges in recognizing multi-accent speech accurately. We propose a layer-adapted fusion (LAF) model, called Qifusion-Net, which does not require any prior knowledge about the target accent. Based on dynamic chunk strategy, our approach enables streaming decoding and can extract frame-level acoustic feature, facilitating fine-grained information fusion. Experiment results demonstrate that our proposed methods outperform the baseline with relative reductions of 22.1$\%$ and 17.2$\%$ in character error rate (CER) across multi accent test datasets on KeSpeech and MagicData-RMAC.
翻訳日:2024-07-04 14:35:46 公開日:2024-07-03
# 逆場におけるXXスピン1中心スピンモデルの可積分性と暗黒状態

Integrability and dark states of the XX spin-1 central spin model in a transverse field ( http://arxiv.org/abs/2407.03029v1 )

ライセンス: Link先を確認
Eric De Nadai, Nathan Maestracci, Alexandre Faribault, (参考訳) 近年、中心スピン1/2と中心スピン-1に対して、XX中心スピンモデルが結合が存在するXY平面に垂直な磁場の存在下で積分可能であることが示されている。 スピン-1/2の場合、非スキュー対称 XXZ Richardson-Gaudin 模型の適切な極限により、磁場が平面内成分を含むように傾いた場合でも積分可能であることを示した。 このモデルはまだ、リチャードソン・ゴーディンモデルの既知のクラスに明示的に属していないが、この研究において、スピン-1 の場合もまた、題名の磁場で積分可能であることを示す。 保存された電荷の完全な集合を明示的に記述し、それらの作用素が多項式関係に従うことを示す。 暗黒状態は、中心スピンが浴槽と完全に絡み合っていないため、任意の向きの磁場で中心スピン-1/2モデルで行うように、十分に強いカップリングで現れることが、最終的に数値的に証明された。

It was recently shown that, for central spin-1/2 and central spin-1, the XX central spin model is integrable in the presence of a magnetic field oriented perpendicular to the XY plane in which the coupling exists. In the spin-1/2 case, it was also shown, through an appropriate limit of the non-skew symmetric XXZ Richardson-Gaudin models, that it remained integrable even when the magnetic field is tilted to contain an in-plane component. Although the model has not yet been shown to explicitly belong to a known class of Richardson- Gaudin models, we show, in this work, that the spin-1 case also remains integrable in a titled magnetic field. We do so by writing explicitly the complete set of conserved charges, then showing that these operators obey polynomial relations. It is finally demonstrated numerically that dark states, for which the central spin is completely unentangled with the bath, can emerge at strong enough coupling just as they do in the central spin-1/2 model in an arbitrarily oriented magnetic field.
翻訳日:2024-07-04 14:35:46 公開日:2024-07-03
# アラビア可読性モデリングのための戦略

Strategies for Arabic Readability Modeling ( http://arxiv.org/abs/2407.03032v1 )

ライセンス: Link先を確認
Juan Piñeros Liberato, Bashar Alhafni, Muhamed Al Khalil, Nizar Habash, (参考訳) 自動可読性評価は、教育、コンテンツ分析、アクセシビリティのためのNLPアプリケーションの構築に関係している。 しかし、アラビア語の可読性の評価は、アラビア語の形態的豊かさと限られた可読性資源のために難しい課題である。 本稿では,ルールベース手法からアラビア事前学習言語モデルまで,多種多様なアプローチを用いたアラビア可読性評価に関する実験結果について述べる。 テキストの粒度が異なるコーパス(単語と文の断片)で新たに作成したコーパスについて報告する。 その結果,単語レベルでは86.7のマクロF1スコア,ブラインドテストセットでは87.9のマクロF1スコアが得られた。 コード、データ、事前訓練されたモデルを公開しています。

Automatic readability assessment is relevant to building NLP applications for education, content analysis, and accessibility. However, Arabic readability assessment is a challenging task due to Arabic's morphological richness and limited readability resources. In this paper, we present a set of experimental results on Arabic readability assessment using a diverse range of approaches, from rule-based methods to Arabic pretrained language models. We report our results on a newly created corpus at different textual granularity levels (words and sentence fragments). Our results show that combining different techniques yields the best results, achieving an overall macro F1 score of 86.7 at the word level and 87.9 at the fragment level on a blind test set. We make our code, data, and pretrained models publicly available.
翻訳日:2024-07-04 14:35:46 公開日:2024-07-03
# ISWSST:マルチスペクトルリモートセンシング画像セマンティックセマンティックセグメンテーションのための指数空間-波状態重畳変換器

ISWSST: Index-space-wave State Superposition Transformers for Multispectral Remotely Sensed Imagery Semantic Segmentation ( http://arxiv.org/abs/2407.03033v1 )

ライセンス: Link先を確認
Chang Li, Pengfei Zhang, Yu Wang, (参考訳) 現在、マルチスペクトルリモートセンシング画像(MSRSI)のセグメンテーションタスクは以下の問題に直面している。 1) 通常,単一の領域の特徴(すなわち,空間領域又は周波数領域)のみが考慮される。 2) エンコーダのダウンサンプリング操作は,一般的に,エッジ抽出の精度の低下につながる。 3) MSRSIのマルチチャネル機能は十分に考慮されていない。 4) リモートセンシングの事前知識は十分に活用されていない。 上記の問題を解決するため、ISWSST(Index-space-wave State Superposition Transformer)は、量子力学のインスピレーションにより、MSRSIセマンティックセグメンテーションのために最初に提案される。 1) 索引、空間及び波動状態は、より強力な分類器であり、セグメンテーション精度を向上させるための決定(すなわち、アンサンブル学習のアイデア)を適応的に投票することで、量子的重ね合わせをシミュレートするために重畳または融合される。 2 ロスレスウェーブレットピラミッドエンコーダモジュールは、エッジ抽出損失を回避するために、ウェーブレット変換と逆ウェーブレット変換に基づいて、画像のロスレス再構成と量子絡み合わせをシミュレートするように設計されている。 3)マルチスペクトル特徴(リモートセンシング指標とチャネルアテンション機構)を組み合わせることで、元の解像度画像からグラウンドオブジェクトを正確に抽出する。 4)ISWSSTの基本的な優位性を解釈するために量子力学を導入する。 実験の結果,ISWSSTはMSRSIセグメンテーションタスクの最先端アーキテクチャよりも優れており,セグメンテーションとエッジ抽出の精度が向上していることがわかった。 私たちの論文が受理されたら、コードは公開されます。

Currently the semantic segmentation task of multispectral remotely sensed imagery (MSRSI) faces the following problems: 1) Usually, only single domain feature (i.e., space domain or frequency domain) is considered; 2) downsampling operation in encoder generally leads to the accuracy loss of edge extraction; 3) multichannel features of MSRSI are not fully considered; and 4) prior knowledge of remote sensing is not fully utilized. To solve the aforementioned issues, an index-space-wave state superposition Transformer (ISWSST) is the first to be proposed for MSRSI semantic segmentation by the inspiration from quantum mechanics, whose superiority is as follows: 1) index, space and wave states are superposed or fused to simulate quantum superposition by adaptively voting decision (i.e., ensemble learning idea) for being a stronger classifier and improving the segmentation accuracy; 2) a lossless wavelet pyramid encoder-decoder module is designed to losslessly reconstruct image and simulate quantum entanglement based on wavelet transform and inverse wavelet transform for avoiding the edge extraction loss; 3) combining multispectral features (i.e. remote sensing index and channel attention mechanism) is proposed to accurately extract ground objects from original resolution images; and 4) quantum mechanics are introduced to interpret the underlying superiority of ISWSST. Experiments show that ISWSST is validated and superior to the state-of-the-art architectures for the MSRSI segmentation task, which improves the segmentation and edge extraction accuracy effectively. Codes will be available publicly after our paper is accepted.
翻訳日:2024-07-04 14:35:46 公開日:2024-07-03
# MR画像再構成における低位, 画像, K空間情報共有のための注意ネットワーク

Attention Incorporated Network for Sharing Low-rank, Image and K-space Information during MR Image Reconstruction to Achieve Single Breath-hold Cardiac Cine Imaging ( http://arxiv.org/abs/2407.03034v1 )

ライセンス: Link先を確認
Siying Xu, Kerstin Hammernik, Andreas Lingg, Jens Kuebler, Patrick Krumm, Daniel Rueckert, Sergios Gatidis, Thomas Kuestner, (参考訳) 心臓磁気共鳴画像(Cydiac Cine Magnetic Resonance Imaging, MRI)は、臨床における心臓形態と機能に関する正確な評価を提供する。 しかし、MRIは長い取得時間を必要とし、近年のディープラーニングベースの手法は、画像の高速化と再構成品質の向上を大いに約束している。 既存のネットワークは、単一ドメインの学習、単一正規化項への依存、同等の機能貢献など、さらなる加速可能性を制限するいくつかの共通の制限を示す。 これらの制約に対処するため、我々は低ランク、画像、k空間を含む複数の領域からの情報をMRI再構成のための新しい深層学習ネットワークに組み込むことを提案し、A-LIKNetと表現する。 A-LIKNetは並列ブランチ構造を採用し、k空間と画像領域で独立した学習を可能にする。 結合情報共有層は、ドメイン間の情報交換を実現する。 さらに,より重要なコイルや重要な時間的フレームに重みを割り当てるための注意機構をネットワークに導入する。 心血管疾患患者91名,健常者38名を対象に2次元心シンスキャンを行った。 さらに,A-LIKNetをOCMRデータセットから将来的なアンサンプされた8倍の精度で評価した。 その結果,提案するA-LIKNetは既存の手法よりも優れ,高品質な再構築を実現していることがわかった。 このネットワークは、最大24倍の加速度で高解像度にアンサンプされた動的MR画像を効果的に再構成することができ、単一の呼吸ホールドイメージングの可能性を示唆している。

Cardiac Cine Magnetic Resonance Imaging (MRI) provides an accurate assessment of heart morphology and function in clinical practice. However, MRI requires long acquisition times, with recent deep learning-based methods showing great promise to accelerate imaging and enhance reconstruction quality. Existing networks exhibit some common limitations that constrain further acceleration possibilities, including single-domain learning, reliance on a single regularization term, and equal feature contribution. To address these limitations, we propose to embed information from multiple domains, including low-rank, image, and k-space, in a novel deep learning network for MRI reconstruction, which we denote as A-LIKNet. A-LIKNet adopts a parallel-branch structure, enabling independent learning in the k-space and image domain. Coupled information sharing layers realize the information exchange between domains. Furthermore, we introduce attention mechanisms into the network to assign greater weights to more critical coils or important temporal frames. Training and testing were conducted on an in-house dataset, including 91 cardiovascular patients and 38 healthy subjects scanned with 2D cardiac Cine using retrospective undersampling. Additionally, we evaluated A-LIKNet on the real-time 8x prospectively undersampled data from the OCMR dataset. The results demonstrate that our proposed A-LIKNet outperforms existing methods and provides high-quality reconstructions. The network can effectively reconstruct highly retrospectively undersampled dynamic MR images up to 24x accelerations, indicating its potential for single breath-hold imaging.
翻訳日:2024-07-04 14:35:46 公開日:2024-07-03
# NLPサンプリング:分散制約サンプリングのためのMCMC法とNLP法の組み合わせ

NLP Sampling: Combining MCMC and NLP Methods for Diverse Constrained Sampling ( http://arxiv.org/abs/2407.03035v1 )

ライセンス: Link先を確認
Marc Toussaint, Cornelius V. Braun, Joaquim Ortiz-Haro, (参考訳) 厳しい制約の下で多様なサンプルを生成することは、多くの分野において重要な課題である。 本研究は,MCMCの分野,制約付き最適化,ロボット工学などの手法を組み合わせるための統合的視点と枠組みを提供することを目標とし,実証的な評価からその強度の洞察を得ることを目的とする。 一般問題の定式化としてNLPサンプリングを提案し、各分野からの手法統合のためのフレームワークとして2段階の手法を再起動するファミリーを提案し、解析的およびロボット操作計画問題において評価する。 これに補完して,ラグランジュパラメータの役割,グローバルサンプリング,ディフューズドNLPとそれに対応するモデルベースデノジングサンプリングのアイデアなど,いくつかの概念的な議論を行う。

Generating diverse samples under hard constraints is a core challenge in many areas. With this work we aim to provide an integrative view and framework to combine methods from the fields of MCMC, constrained optimization, as well as robotics, and gain insights in their strengths from empirical evaluations. We propose NLP Sampling as a general problem formulation, propose a family of restarting two-phase methods as a framework to integrated methods from across the fields, and evaluate them on analytical and robotic manipulation planning problems. Complementary to this, we provide several conceptual discussions, e.g. on the role of Lagrange parameters, global sampling, and the idea of a Diffused NLP and a corresponding model-based denoising sampler.
翻訳日:2024-07-04 14:26:01 公開日:2024-07-03
# SAFT:ファインチューニングにおけるアウト・オブ・ディストリビューションの一般化を目指して

SAFT: Towards Out-of-Distribution Generalization in Fine-Tuning ( http://arxiv.org/abs/2407.03036v1 )

ライセンス: Link先を確認
Bac Nguyen, Stefan Uhlich, Fabien Cardinaux, Lukas Mauch, Marzieh Edraki, Aaron Courville, (参考訳) アウト・オブ・ディストリビューション(OOD)一般化として知られるトレーニングデータからの分散シフトを扱うことは、機械学習の分野において大きな課題となる。 CLIPのような事前訓練された視覚言語モデルは、顕著なゼロショット性能を示したが、下流タスクへのモデルのさらなる適応は、OODデータの望ましくない劣化をもたらす。 本研究では,事前学習モデルにおいて,ファインチューニングが一般的な知識を忘れないようにするための手法であるスパース適応 for Fine-Tuning(SAFT)を提案する。 SAFTは、勾配が大きい重要なパラメータの小さなサブセットだけを更新するが、他のパラメータは凍結する。 SAFTは簡単に実装でき、概念的にはシンプルである。 大規模な実験により、モデルパラメータのわずか0.1%で、SAFTはCLIPの性能を大幅に改善できることが示された。 複数のベンチマークで一貫してベースラインメソッドを上回ります。 ImageNetとその変種に関する数ショットの学習ベンチマークでは、SAFTは従来のOOD設定の微調整法よりも平均5.15%向上している。

Handling distribution shifts from training data, known as out-of-distribution (OOD) generalization, poses a significant challenge in the field of machine learning. While a pre-trained vision-language model like CLIP has demonstrated remarkable zero-shot performance, further adaptation of the model to downstream tasks leads to undesirable degradation for OOD data. In this work, we introduce Sparse Adaptation for Fine-Tuning (SAFT), a method that prevents fine-tuning from forgetting the general knowledge in the pre-trained model. SAFT only updates a small subset of important parameters whose gradient magnitude is large, while keeping the other parameters frozen. SAFT is straightforward to implement and conceptually simple. Extensive experiments show that with only 0.1% of the model parameters, SAFT can significantly improve the performance of CLIP. It consistently outperforms baseline methods across several benchmarks. On the few-shot learning benchmark of ImageNet and its variants, SAFT gives a gain of 5.15% on average over the conventional fine-tuning method in OOD settings.
翻訳日:2024-07-04 14:26:01 公開日:2024-07-03
# マルチモーダル大言語モデルによる視覚駆動型モバイルGUIテスト

Vision-driven Automated Mobile GUI Testing via Multimodal Large Language Model ( http://arxiv.org/abs/2407.03037v1 )

ライセンス: Link先を確認
Zhe Liu, Cheng Li, Chunyang Chen, Junjie Wang, Boyu Wu, Yawen Wang, Jun Hu, Qing Wang, (参考訳) ソフトウェアレンダリング技術の進歩により、モバイルアプリのGUIページは豊富なビジュアル情報を含み、各ページの視覚的セマンティクスがアプリケーションロジック全体に貢献し、ソフトウェアテストに新たな課題を提示している。 グラフィカルユーザインタフェース(GUI)の自動テストの進歩にもかかわらず、オーラクルテストの欠如により、異常信号のあるクラッシュバグのみを特定する効果が制限されている。 それでも、予期せぬ振る舞いからミスアライメントまで、既存のテクニックによる検出を回避している、かなりの数の非クラッシュバグがある。 これらのバグは、潜在的なテストオラクルとして機能する視覚的な手がかりを示すことができるが、スクリーンショットのシーケンスを伴い、GUIページ遷移間の操作ロジックを理解する必要があることを検知する。 視覚・言語理解におけるマルチモーダル言語モデル(MLLM)の顕著な性能を考慮し,視覚駆動型自動GUIテストアプローチであるVisionDroidを提案し,MLLMによる非クラッシュな機能的バグを検出する。 GUIテキスト情報を抽出し、スクリーンショットと整列して視覚プロンプトを形成することで、MLLMはGUIコンテキストを理解することができる。 関数認識エクスプローラーはMLLMをより深く関数指向のGUIページ探索に使用し、論理認識バグ検出器は、探索履歴全体を論理的に結合した部分に分割し、MLLMにバグ検出を促す。 VisionDroidを3つのデータセットで評価し、10のベースラインと比較し、その優れた性能を示した。 アブレーション研究は、各加群の寄与をさらに証明している。 さらにVisionDroidは、Google Playの29の新しいバグを特定し、そのうち19が確認され、修正されている。

With the advancement of software rendering techniques, GUI pages in mobile apps now encompass a wealth of visual information, where the visual semantics of each page contribute to the overall app logic, presenting new challenges to software testing. Despite the progress in automated Graphical User Interface (GUI) testing, the absence of testing oracles has constrained its efficacy to identify only crash bugs with evident abnormal signals. Nonetheless, there are still a considerable number of non-crash bugs, ranging from unexpected behaviors to misalignments, often evading detection by existing techniques. While these bugs can exhibit visual cues that serve as potential testing oracles, they often entail a sequence of screenshots, and detecting them necessitates an understanding of the operational logic among GUI page transitions, which is challenging traditional techniques. Considering the remarkable performance of Multimodal Large Language Models (MLLM) in visual and language understanding, this paper proposes a vision-driven automated GUI testing approach VisionDroid to detect non-crash functional bugs with MLLM. It begins by extracting GUI text information and aligning it with screenshots to form a vision prompt, enabling MLLM to understand GUI context. The function-aware explorer then employs MLLM for deeper and function-oriented GUI page exploration, while the logic-aware bug detector segments the entire exploration history into logically cohesive parts and prompts the MLLM for bug detection. We evaluate VisionDroid on three datasets and compare it with 10 baselines, demonstrating its excellent performance. The ablation study further proves the contribution of each module. Moreover, VisionDroid identifies 29 new bugs on Google Play, of which 19 have been confirmed and fixed.
翻訳日:2024-07-04 14:26:01 公開日:2024-07-03
# フェデレーション学習におけるLLMファインチューニングのクライアント選好について

On the Client Preference of LLM Fine-tuning in Federated Learning ( http://arxiv.org/abs/2407.03038v1 )

ライセンス: Link先を確認
Feijie Wu, Xiaoze Liu, Haoyu Wang, Xingchen Wang, Jing Gao, (参考訳) 人間のフィードバックによる強化学習(RLHF)は、嗜好データセットを使用して事前訓練された大規模言語モデル(LLM)を微調整し、LLMは人間の嗜好と整合した出力を生成する。 さまざまなクライアントが保持するこれらの選好データセットの繊細な性質を考えると、クライアントがプライバシ上の懸念からデータを共有できないような、フェデレートラーニング(FL)フレームワークにRLHFを実装する必要がある。 これを解決するために,提案したFedBisを用いて,クライアントが好みのデータセットでバイナリセレクタを協調的にトレーニングする,実現可能なフレームワークを提案する。 十分に訓練されたセレクタにより、人間に好まれる完了を生成するLCMをさらに強化することができる。 一方,FedBiscuitという新しいアルゴリズムでは,クライアントを選好に基づいてバランスの取れたクラスタに整理し,複数のセレクタを訓練する。 FedBiscuitはFedBiscuitと比較して、ペアの完了に対する人間の好みをシミュレートする上で優れたパフォーマンスを示している。 FedBiscuitがFedBisより優れており、従来の集中型トレーニングを超えていることを実証しています。

Reinforcement learning with human feedback (RLHF) fine-tunes a pretrained large language model (LLM) using preference datasets, enabling the LLM to generate outputs that align with human preferences. Given the sensitive nature of these preference datasets held by various clients, there is a need to implement RLHF within a federated learning (FL) framework, where clients are reluctant to share their data due to privacy concerns. To address this, we introduce a feasible framework in which clients collaboratively train a binary selector with their preference datasets using our proposed FedBis. With a well-trained selector, we can further enhance the LLM that generates human-preferred completions. Meanwhile, we propose a novel algorithm, FedBiscuit, that trains multiple selectors by organizing clients into balanced and disjoint clusters based on their preferences. Compared to the FedBis, FedBiscuit demonstrates superior performance in simulating human preferences for pairwise completions. Our extensive experiments on federated human preference datasets -- marking the first benchmark to address heterogeneous data partitioning among clients -- demonstrate that FedBiscuit outperforms FedBis and even surpasses traditional centralized training.
翻訳日:2024-07-04 14:26:01 公開日:2024-07-03
# 大言語モデルのための知識集約型マルチターンインストラクションチューニング

Raw Text is All you Need: Knowledge-intensive Multi-turn Instruction Tuning for Large Language Model ( http://arxiv.org/abs/2407.03040v1 )

ライセンス: Link先を確認
Xia Hou, Qifeng Li, Jian Yang, Tongliang Li, Linzheng Chai, Xianjie Wu, Hangyuan Ji, Zhoujun Li, Jixuan Nie, Jingbo Dun, Wenfeng Song, (参考訳) 効果的な手法としてのインストラクションチューニングは、大きな言語モデル(LLM)の出力と人間の好みを一致させる。 しかし, 生文書から季節多元対話を生成するには, さらなる探究が必要である。 本稿では,対話論理のCoD-Chainを利用して,多言語モデル(LLM)を指導指導のための知識集約型多元対話に導出する,R2Sという新しいフレームワークを提案する。 オープンソースデータセットとドメイン固有のWebcrawledドキュメントの両方の生文書をベンチマークK-BENCHに統合することにより、Wikipedia(英語)、Science(中国語)、Artifacts(中国語)などのさまざまな領域をカバーする。 提案手法はまず,現在の対話の論理フローを判断し,関連する応答内容を抽出するためのキーフレーズを生成することをLLMに促す。 この手法はG I NSTRUCT命令データセットの作成を可能にし、対話スタイルのインタラクション内で生文書の知識を保持する。 このデータセットを利用することで、生文書を構造化されたマルチターン対話に変換するモデルであるGLLMを微調整し、SFTモデルに包括的なドメイン知識を注入し、命令チューニングを強化する。 この研究は、様々な分野にわたるより正確で文脈的にニュアンスのある応答を処理・生成する上で、LLMの適応性と有効性を改善するための一歩である。

Instruction tuning as an effective technique aligns the outputs of large language models (LLMs) with human preference. But how to generate the seasonal multi-turn dialogues from raw documents for instruction tuning still requires further exploration. In this paper, we present a novel framework named R2S that leverages the CoD-Chain of Dialogue logic to guide large language models (LLMs) in generating knowledge-intensive multi-turn dialogues for instruction tuning. By integrating raw documents from both open-source datasets and domain-specific web-crawled documents into a benchmark K-BENCH, we cover diverse areas such as Wikipedia (English), Science (Chinese), and Artifacts (Chinese). Our approach first decides the logic flow of the current dialogue and then prompts LLMs to produce key phrases for sourcing relevant response content. This methodology enables the creation of the G I NSTRUCT instruction dataset, retaining raw document knowledge within dialoguestyle interactions. Utilizing this dataset, we fine-tune GLLM, a model designed to transform raw documents into structured multi-turn dialogues, thereby injecting comprehensive domain knowledge into the SFT model for enhanced instruction tuning. This work signifies a stride towards refining the adaptability and effectiveness of LLMs in processing and generating more accurate, contextually nuanced responses across various fields.
翻訳日:2024-07-04 14:26:01 公開日:2024-07-03
# サッカー場と重力方向の2点からの直カメラヘッドの位置と姿勢

Position and Altitude of the Nao Camera Head from Two Points on the Soccer Field plus the Gravitational Direction ( http://arxiv.org/abs/2407.03041v1 )

ライセンス: Link先を確認
Stijn Oomes, Arnoud Visser, (参考訳) サッカーをするためには、ロボットはフィールド上の現在の位置を十分に見積もる必要がある。 理想的には、複数の機能が既知の場所を見ることができる。 三角法を適用することで、この観測が実際に行われた場所から視点を推定することができる。 標準プラットフォームリーグの直ロボットは視野が限られているため、カメラフレームが認識できるのは1つか2つの点のみである。 本稿では, 簡易テトラヘドロンの形状から, カメラのフィールド上の(x, y)座標と高さhを決定する手法を提案する。 この構成は、地上面上の2つの観測点と重力方向によって形成される。 2つの点間の距離が分かっていて、点と重力方向の方向が測定されると、テトラヘドロンのすべての次元が決定できる。 これらの計算を古典三角法の代わりに有理三角法で行うことで、計算は28.7%速くなり、数値の精度は等しいことが判明した。 OptiTrackシステムでは、直の頭部の位置を外部で測定することもできる。 センサデータとの外部測定位置と内部予測位置の違いは,目標位置の外縁から重力方向を推定する際に,3~6cmの範囲における平均絶対誤差を与える。

To be able to play soccer, a robot needs a good estimate of its current position on the field. Ideally, multiple features are visible that have known locations. By applying trigonometry we can estimate the viewpoint from where this observation was actually made. Given that the Nao robots of the Standard Platform League have quite a limited field of view, a given camera frame typically only allows for one or two points to be recognized. In this paper we propose a method for determining the (x, y) coordinates on the field and the height h of the camera from the geometry of a simplified tetrahedron. This configuration is formed by two observed points on the ground plane plus the gravitational direction. When the distance between the two points is known, and the directions to the points plus the gravitational direction are measured, all dimensions of the tetrahedron can be determined. By performing these calculations with rational trigonometry instead of classical trigonometry, the computations turn out to be 28.7% faster, with equal numerical accuracy. The position of the head of the Nao can also be externally measured with the OptiTrack system. The difference between externally measured and internally predicted position from sensor data gives us mean absolute errors in the 3-6 centimeters range, when we estimated the gravitational direction from the vanishing point of the outer edges of the goal posts.
翻訳日:2024-07-04 14:26:01 公開日:2024-07-03
# SlerpFace: 球面線形補間による顔テンプレート保護

SlerpFace: Face Template Protection via Spherical Linear Interpolation ( http://arxiv.org/abs/2407.03043v1 )

ライセンス: Link先を確認
Zhizhou Zhong, Yuxi Mi, Yuge Huang, Jianqing Xu, Guodong Mu, Shouhong Ding, Jingyun Zhang, Rizen Guo, Yunsheng Wu, Shuigeng Zhou, (参考訳) 現代の顔認識システムは、人物を特定するために顔画像から抽出された特徴テンプレートを使用する。 プライバシーを高めるために、顔テンプレート保護技術は、テンプレートに格納された機密性や外観情報を隠蔽するために広く用いられている。 本稿では,インバージョン攻撃と呼ばれる事前保護を無効化できる拡散モデルを用いて,新たなプライバシ攻撃形態を特定する。 この攻撃は、テンプレートから高品質でアイデンティティを保存する顔画像を合成し、人の外観を明らかにする。 本稿では,拡散モデルの生成能力に関する研究に基づいて,テンプレートをノイズ様の分布に回転させることにより,攻撃を悪化させる防御法を提案する。 これは、その位置する超球上で、球状かつ線形に補間するテンプレートまたはスラープによって効率的に達成される。 さらに, テンプレートの特徴次元をグループ的に分割, ドロップアウトし, 回転テンプレートの可逆性を高めることを提案する。 各グループ内のグループとドロップアウトの分割は、認識に好意的な方法で学習される。 提案手法は,新しい顔テンプレート保護技術であるSlerpFaceとして実装されている。 大規模な実験により、SlerpFaceは、先行技術よりも優れたインバージョンやその他の攻撃形式に対して、十分な認識精度と包括的なプライバシー保護を提供することが示された。

Contemporary face recognition systems use feature templates extracted from face images to identify persons. To enhance privacy, face template protection techniques are widely employed to conceal sensitive identity and appearance information stored in the template. This paper identifies an emerging privacy attack form utilizing diffusion models that could nullify prior protection, referred to as inversion attacks. The attack can synthesize high-quality, identity-preserving face images from templates, revealing persons' appearance. Based on studies of the diffusion model's generative capability, this paper proposes a defense to deteriorate the attack, by rotating templates to a noise-like distribution. This is achieved efficiently by spherically and linearly interpolating templates, or slerp, on their located hypersphere. This paper further proposes to group-wisely divide and drop out templates' feature dimensions, to enhance the irreversibility of rotated templates. The division of groups and dropouts within each group are learned in a recognition-favored way. The proposed techniques are concretized as a novel face template protection technique, SlerpFace. Extensive experiments show that SlerpFace provides satisfactory recognition accuracy and comprehensive privacy protection against inversion and other attack forms, superior to prior arts.
翻訳日:2024-07-04 14:26:01 公開日:2024-07-03
# JailbreakHunter: 大規模ヒューマン-LLM会話データセットからのジェイルブレイクプロンプト発見のためのビジュアル分析手法

JailbreakHunter: A Visual Analytics Approach for Jailbreak Prompts Discovery from Large-Scale Human-LLM Conversational Datasets ( http://arxiv.org/abs/2407.03045v1 )

ライセンス: Link先を確認
Zhihua Jin, Shiyi Liu, Haotian Li, Xun Zhao, Huamin Qu, (参考訳) 大規模言語モデル (LLM) は注目されているが、誤用リスクが懸念されている。 LLMに対する敵対的な攻撃であるジェイルブレイクプロンプトが出現し、LLMの安全プロトコルを破るために常に進化してきた。 この問題に対処するため、LDMは、報告されたジェイルブレイクプロンプトに基づいて、安全パッチを定期的に更新する。 しかし、悪意のあるユーザは、しばしば自分のジェイルブレイクを成功させるプロンプトをプライベートに保持し、LSMを悪用する。 これらのプライベートなジェイルブレイクプロンプトを明らかにするには、システムの防御を回避できるプロンプトを特定するために、大規模な会話データセットの広範な分析が必要である。 この課題は、大量の会話データ、ジェイルブレイクプロンプトの特徴の多様さ、複雑なマルチターン会話の存在など、極めて困難である。 これらの課題に対処するために、大規模な人間-LLM会話データセットでジェイルブレイクプロンプトを特定する視覚分析手法であるJailbreakHunterを紹介した。 グループレベル、会話レベル、ターンレベルという3つの分析レベルを持つワークフローを設計しました。 グループレベルの分析により、ユーザーは複数の基準を用いて会話の分布を把握し、不審な会話を特定できる。 会話レベルの分析は、会話の進行状況の理解を促進し、会話コンテキスト内でジェイルブレイクのプロンプトを発見するのに役立つ。 ターンレベルの分析により、ユーザーは単一ターンプロンプトと報告されたジェイルブレイクプロンプトとのセマンティックな類似性とトークンの重複を探索し、新しいジェイルブレイク戦略の特定を支援することができる。 システムの有効性とユーザビリティは,複数のケーススタディと専門家によるインタビューを通じて検証された。

Large Language Models (LLMs) have gained significant attention but also raised concerns due to the risk of misuse. Jailbreak prompts, a popular type of adversarial attack towards LLMs, have appeared and constantly evolved to breach the safety protocols of LLMs. To address this issue, LLMs are regularly updated with safety patches based on reported jailbreak prompts. However, malicious users often keep their successful jailbreak prompts private to exploit LLMs. To uncover these private jailbreak prompts, extensive analysis of large-scale conversational datasets is necessary to identify prompts that still manage to bypass the system's defenses. This task is highly challenging due to the immense volume of conversation data, diverse characteristics of jailbreak prompts, and their presence in complex multi-turn conversations. To tackle these challenges, we introduce JailbreakHunter, a visual analytics approach for identifying jailbreak prompts in large-scale human-LLM conversational datasets. We have designed a workflow with three analysis levels: group-level, conversation-level, and turn-level. Group-level analysis enables users to grasp the distribution of conversations and identify suspicious conversations using multiple criteria, such as similarity with reported jailbreak prompts in previous research and attack success rates. Conversation-level analysis facilitates the understanding of the progress of conversations and helps discover jailbreak prompts within their conversation contexts. Turn-level analysis allows users to explore the semantic similarity and token overlap between a singleturn prompt and the reported jailbreak prompts, aiding in the identification of new jailbreak strategies. The effectiveness and usability of the system were verified through multiple case studies and expert interviews.
翻訳日:2024-07-04 14:26:01 公開日:2024-07-03
# 閉じ込められたイオンに対する振幅ノイズ耐性エンタングリングゲート

Amplitude-noise-resilient entangling gates for trapped ions ( http://arxiv.org/abs/2407.03047v1 )

ライセンス: Link先を確認
Nguyen H. Le, Modesto Orozco-Ruiz, Sahra A. Kulmiya, James G. Urquhart, Samuel J. Hile, Winfried K. Hensinger, Florian Mintert, (参考訳) 量子情報処理の耐雑音性は、フォールトトレランスしきい値に達するための重要な前提条件である。 多くの種類のノイズに対するレジリエンスは適切な制御方式によって達成できるが、振幅雑音に対するレジリエンスは、閉じ込められたイオンのバスモードに対する一般的な調和近似の中では明らかである。 弱い非調和性は、最先端の実験要件と整合した振幅雑音耐性を達成する制御スキームを許容し、必要となる非調和性は、現在のマイクロ構造トラップや本質的に非調和性クーロン相互作用の標準で達成可能であることを示す。

Noise resilience of quantum information processing is a crucial precondition to reach the fault-tolerance threshold. While resilience to many types of noise can be achieved through suitable control schemes, resilience to amplitude noise seems to be elusive within the common harmonic approximation for the bus mode of trapped ions. We show that weak an-harmonicities admit control schemes that achieve amplitude noise-resilience consistent with state-of-the-art experimental requirements, and that the required an-harmonicities can be achieved with current standards of micro-structured traps or even the intrinsically an-harmonic Coulomb interaction.
翻訳日:2024-07-04 14:26:01 公開日:2024-07-03
# 汎用ビデオゲームにおけるリアルタイムモンテカルロ木探索の強化

Enhancements for Real-Time Monte-Carlo Tree Search in General Video Game Playing ( http://arxiv.org/abs/2407.03049v1 )

ライセンス: Link先を確認
Dennis J. N. J. Soemers, Chiara F. Sironi, Torsten Schuster, Mark H. M. Winands, (参考訳) General Video Game Playing (GVGP) は、エージェントが事前に不明な様々なリアルタイムビデオゲームを行う人工知能の分野である。 これはドメイン固有のヒューリスティックの使用を制限する。 Monte-Carlo Tree Search (MCTS)は、ドメイン固有の知識に依存しないゲームプレイのための検索手法である。 本稿では,GVGPにおけるMCTSの8つの拡張について述べる。プログレッシブヒストリー,N-グラム選択技術,ツリー再利用,ブレッドスファーストツリー初期化,ロス回避,ノベルティベースプルーニング,知識ベース評価,決定論的ゲーム検出。 これらのいくつかは既存の文献から知られており、GVGPの文脈で拡張または導入されている。 ほとんどの拡張は、個別に適用された場合の勝利率の統計的に有意な増加をもたらすことが示されている。 組み合わせると、2015年のGVG-AIコンペティションのベストエージェントと競合するレベルに近づいているバニラMCTS実装と比較して、60種類のゲームの平均勝利率を31.0%から48.4%に引き上げる。

General Video Game Playing (GVGP) is a field of Artificial Intelligence where agents play a variety of real-time video games that are unknown in advance. This limits the use of domain-specific heuristics. Monte-Carlo Tree Search (MCTS) is a search technique for game playing that does not rely on domain-specific knowledge. This paper discusses eight enhancements for MCTS in GVGP; Progressive History, N-Gram Selection Technique, Tree Reuse, Breadth-First Tree Initialization, Loss Avoidance, Novelty-Based Pruning, Knowledge-Based Evaluations, and Deterministic Game Detection. Some of these are known from existing literature, and are either extended or introduced in the context of GVGP, and some are novel enhancements for MCTS. Most enhancements are shown to provide statistically significant increases in win percentages when applied individually. When combined, they increase the average win percentage over sixty different games from 31.0% to 48.4% in comparison to a vanilla MCTS implementation, approaching a level that is competitive with the best agents of the GVG-AI competition in 2015.
翻訳日:2024-07-04 14:26:01 公開日:2024-07-03
# 直接選好アライメントによる量子化大言語モデルの会話能力の向上

Improving Conversational Abilities of Quantized Large Language Models via Direct Preference Alignment ( http://arxiv.org/abs/2407.03051v1 )

ライセンス: Link先を確認
Janghwan Lee, Seongmin Park, Sukjin Hong, Minsoo Kim, Du-Seong Chang, Jungwook Choi, (参考訳) 大規模言語モデル(LLM)の急速な進歩は、文脈のニュアンスを把握し、関連する文を生成できる会話型チャットボットへの変換を促進し、人間のフィードバックからの指導チューニングや強化学習(RLHF)といった高度な技術を通じて、人間の価値を忠実に反映している。 しかし、後学習量子化(PTQ)のような技術によって達成されるLLMに必要な計算効率は、チャットボットのパフォーマンスを損なうトークンフリッピングのような課題を提示している。 そこで本研究では,量子化されたLLMをその完全精度に整合させ,会話能力の向上を図るための,新しい選好アライメント手法であるQDPOを提案する。 各種言語における2つの命令調整 LLM を評価したところ、QDPO は既存のPTQ や知識蒸留細調整技術と比較して、会話能力の向上に優れた性能を示し、効率的で効果的な会話型 LLM の開発において大きな一歩を踏み出した。

The rapid advancement of large language models (LLMs) has facilitated their transformation into conversational chatbots that can grasp contextual nuances and generate pertinent sentences, closely mirroring human values through advanced techniques such as instruction tuning and reinforcement learning from human feedback (RLHF). However, the computational efficiency required for LLMs, achieved through techniques like post-training quantization (PTQ), presents challenges such as token-flipping that can impair chatbot performance. In response, we propose a novel preference alignment approach, quantization-aware direct preference optimization (QDPO), that aligns quantized LLMs with their full-precision counterparts, improving conversational abilities. Evaluated on two instruction-tuned LLMs in various languages, QDPO demonstrated superior performance in improving conversational abilities compared to established PTQ and knowledge-distillation fine-tuning techniques, marking a significant step forward in the development of efficient and effective conversational LLMs.
翻訳日:2024-07-04 14:26:01 公開日:2024-07-03
# 教師なし知識蒸留による学習プロンプトのゼロショット一般化の改善

Improving Zero-shot Generalization of Learned Prompts via Unsupervised Knowledge Distillation ( http://arxiv.org/abs/2407.03056v1 )

ライセンス: Link先を確認
Marco Mistretta, Alberto Baldrati, Marco Bertini, Andrew D. Bagdanov, (参考訳) VLM(Vision-Language Models)は、目に見えないタスクに対して顕著なゼロショットの一般化を示すが、限られたデータで下流タスクに一般化する教師付き手法のパフォーマンスには劣る。 プロンプト学習はVLMを適応するためのパラメータ効率のよい手法として登場しているが、最先端のアプローチでは注釈付きサンプルが必要である。 本稿では,より強力なモデルによる教師なし知識の蒸留に基づく学習を促す新しい手法を提案する。 我々はKDPL(Knowledge Distillation Prompt Learning)と呼ぶアプローチを,既存の即興学習技術に統合し,適応中にラベル付きサンプルを不要にする。 10以上の標準ベンチマークデータセットに対する実験により、KDPLはゼロショットドメイン一般化、ゼロショットクロスデータセット一般化、ゼロショットベース・ツー・ノーベルクラス一般化問題に対する学習プロンプトの一般化に非常に効果的であることが示された。 KDPLは適応のための基礎的なラベルを必要としておらず、トレーニングクラス名の知識がなくても、知識を効果的に伝達するために使用できることを示す。 コードはhttps://github.com/miccunifi/KDPLで公開されている。

Vision-Language Models (VLMs) demonstrate remarkable zero-shot generalization to unseen tasks, but fall short of the performance of supervised methods in generalizing to downstream tasks with limited data. Prompt learning is emerging as a parameter-efficient method for adapting VLMs, but state-of-the-art approaches require annotated samples. In this paper we propose a novel approach to prompt learning based on unsupervised knowledge distillation from more powerful models. Our approach, which we call Knowledge Distillation Prompt Learning (KDPL), can be integrated into existing prompt learning techniques and eliminates the need for labeled examples during adaptation. Our experiments on more than ten standard benchmark datasets demonstrate that KDPL is very effective at improving generalization of learned prompts for zero-shot domain generalization, zero-shot cross-dataset generalization, and zero-shot base-to-novel class generalization problems. KDPL requires no ground-truth labels for adaptation, and moreover we show that even in the absence of any knowledge of training class names it can be used to effectively transfer knowledge. The code is publicly available at https://github.com/miccunifi/KDPL.
翻訳日:2024-07-04 14:26:01 公開日:2024-07-03
# 1次元を超える格子ゲージ理論のためのテンソルネットワーク:ロードマップ

Tensor Networks for Lattice Gauge Theories beyond one dimension: a Roadmap ( http://arxiv.org/abs/2407.03058v1 )

ライセンス: Link先を確認
Giuseppe Magnifico, Giovanni Cataldi, Marco Rigobello, Peter Majcen, Daniel Jaschke, Pietro Silvi, Simone Montangero, (参考訳) テンソルネットワーク法(テンソルネットワークほう、Tensor network method)は、多体量子系を平衡状態から外へ、調整された変動波動関数に基づいて研究する数値ツールとアルゴリズムのクラスである。 彼らは高エネルギー物理学における関連する問題に近づく格子ゲージ理論のシミュレーションに重要な応用を見出した。 モンテカルロ法と比較すると、それらは符号問題に苦しめられず、有限化学ポテンシャルやリアルタイム力学のような挑戦的な状態を探ることができる。 継続限界へのアクセスや大規模量子色力学の計算といった基本的な課題に取り組むためには、さらなる開発が必要である。 本稿では,テンソルネットワーク手法の現状を概観し,その能力向上と高エネルギー問題への適用性向上に向けたアルゴリズム開発と戦略のロードマップについて論じる。 大規模格子ゲージ理論を攻撃するための理論的および計算的資源スケーリングの調整された見積もりを提供する。

Tensor network methods are a class of numerical tools and algorithms to study many-body quantum systems in and out of equilibrium, based on tailored variational wave functions. They have found significant applications in simulating lattice gauge theories approaching relevant problems in high-energy physics. Compared to Monte Carlo methods, they do not suffer from the sign problem, allowing them to explore challenging regimes such as finite chemical potentials and real-time dynamics. Further development is required to tackle fundamental challenges, such as accessing continuum limits or computations of large-scale quantum chromodynamics. In this work, we review the state-of-the-art of Tensor Network methods and discuss a possible roadmap for algorithmic development and strategies to enhance their capabilities and extend their applicability to open high-energy problems. We provide tailored estimates of the theoretical and computational resource scaling for attacking large-scale lattice gauge theories.
翻訳日:2024-07-04 14:26:01 公開日:2024-07-03
# FairJob: オンラインシステムにおけるフェアネスのためのリアルタイムデータセット

FairJob: A Real-World Dataset for Fairness in Online Systems ( http://arxiv.org/abs/2407.03059v1 )

ライセンス: Link先を確認
Mariia Vladimirova, Federico Pavone, Eustache Diemert, (参考訳) 実世界のシナリオにおけるアルゴリズム的公正性の研究を促進するために,広告における求人推薦のためのフェアネス対応データセットを導入する。 収集され、プライバシー基準とビジネス機密に準拠する準備が整った。 もう一つの課題は、性別などの保護されたユーザー属性へのアクセスの欠如である。 匿名化され、センシティブな属性のプロキシを含むにもかかわらず、私たちのデータセットは予測力を保ち、現実的で挑戦的なベンチマークを維持します。 このデータセットは、広告のようなインパクトの高いドメインに対するフェアネスに焦点を当てたリソースの可用性において、大きなギャップに対処します。 また、不公平が生じる広告プロセスのさまざまな段階についても検討し、偏りのあるデータセットから、オンラインシステムの場合の求職度を公平に計算する方法を提案する。 リリースデータセットにおけるバイアス緩和手法の実験的評価は、フェアネスとそれに伴うユーティリティとのトレードオフの潜在的な改善を示すものである。

We introduce a fairness-aware dataset for job recommendation in advertising, designed to foster research in algorithmic fairness within real-world scenarios. It was collected and prepared to comply with privacy standards and business confidentiality. An additional challenge is the lack of access to protected user attributes such as gender, for which we propose a solution to obtain a proxy estimate. Despite being anonymized and including a proxy for a sensitive attribute, our dataset preserves predictive power and maintains a realistic and challenging benchmark. This dataset addresses a significant gap in the availability of fairness-focused resources for high-impact domains like advertising -- the actual impact being having access or not to precious employment opportunities, where balancing fairness and utility is a common industrial challenge. We also explore various stages in the advertising process where unfairness can occur and introduce a method to compute a fair utility metric for the job recommendations in online systems case from a biased dataset. Experimental evaluations of bias mitigation techniques on the released dataset demonstrate potential improvements in fairness and the associated trade-offs with utility.
翻訳日:2024-07-04 14:26:01 公開日:2024-07-03
# ALTER: 大規模テーブルベースの推論のための拡張

ALTER: Augmentation for Large-Table-Based Reasoning ( http://arxiv.org/abs/2407.03061v1 )

ライセンス: Link先を確認
Han Zhang, Yuheng Ma, Hanfang Yang, (参考訳) 大規模言語モデル(LLM)をテーブルベースの推論に利用することについて広範な研究が行われてきたが、ほとんどのアプローチは大規模テーブルに適用した場合のスケーラビリティに苦慮している。 これらのシナリオにおいてLLMの優れた理解能力を維持するために,クエリオーグメンタおよび半構造化表データを介して,自由形式自然言語(NL)問合せにおける潜時拡張可能性を活用するために設計されたALTER(Augmentation for Large-Table-based Reasoning)フレームワークを導入する。 テーブルからの関連データの小さなサブセットのみを利用し、拡張済みスキーマ、セマンティック、リテラル情報で補足することにより、ALTERはテーブルベースの推論ベンチマークで優れたパフォーマンスを達成する。 また、様々な方法と様々なパーティショニング原則を比較しながら、大規模なシナリオを詳細に分析する。 これらのシナリオでは,本手法は他の手法よりも優れ,摂動に対する堅牢性と効率性を示す。

While extensive research has explored the use of large language models (LLMs) for table-based reasoning, most approaches struggle with scalability when applied to large tables. To maintain the superior comprehension abilities of LLMs in these scenarios, we introduce ALTER(Augmentation for Large-Table-Based Reasoning)-a framework designed to harness the latent augmentation potential in both free-form natural language (NL) questions, via the query augmentor, and semi-structured tabular data, through the table augmentor. By utilizing only a small subset of relevant data from the table and supplementing it with pre-augmented schema, semantic, and literal information, ALTER achieves outstanding performance on table-based reasoning benchmarks. We also provide a detailed analysis of large-table scenarios, comparing different methods and various partitioning principles. In these scenarios, our method outperforms all other approaches and exhibits robustness and efficiency against perturbations.
翻訳日:2024-07-04 14:26:01 公開日:2024-07-03
# ウォームアップ自由政策最適化:リニアマルコフ決定過程におけるレグレットの改善

Warm-up Free Policy Optimization: Improved Regret in Linear Markov Decision Processes ( http://arxiv.org/abs/2407.03065v1 )

ライセンス: Link先を確認
Asaf Cassel, Aviv Rosenberg, (参考訳) ポリシー最適化(PO)手法は、実際に最も人気のある強化学習(RL)アルゴリズムの一つである。 近年、シャーマンらは、線形マルコフ決定過程(MDP)モデルの下で、レート最適後悔を保証するPOベースのアルゴリズムを提案している。 しかし、彼らのアルゴリズムは、実際は実装が難しい、コストのかかる純粋な探索ウォームアップフェーズに依存している。 本稿では、この不要なウォームアップフェーズを取り除き、シンプルで効率的な収縮機構に置き換える。 我々のPOアルゴリズムは、2つの基本的な設定において問題の他のパラメータ(水平および関数近似次元)への依存を改善して、レート最適の後悔を達成している。

Policy Optimization (PO) methods are among the most popular Reinforcement Learning (RL) algorithms in practice. Recently, Sherman et al. [2023a] proposed a PO-based algorithm with rate-optimal regret guarantees under the linear Markov Decision Process (MDP) model. However, their algorithm relies on a costly pure exploration warm-up phase that is hard to implement in practice. This paper eliminates this undesired warm-up phase, replacing it with a simple and efficient contraction mechanism. Our PO algorithm achieves rate-optimal regret with improved dependence on the other parameters of the problem (horizon and function approximation dimension) in two fundamental settings: adversarial losses with full-information feedback and stochastic losses with bandit feedback.
翻訳日:2024-07-04 14:16:16 公開日:2024-07-03
# 中間散乱関数の量子力学的評価

A quantum mechanical evaluation of the intermediate scattering function ( http://arxiv.org/abs/2407.03067v1 )

ライセンス: Link先を確認
Oussama Bindech, Roberto Marquardt, Fabien Gatti, Souvik Mandal, Jean Christophe Tremblay, (参考訳) 中間散乱関数は散乱中心の熱波パケットの相関関数として解釈される。 概念実証は、弾道移動中心の例で与えられる。 次に、Cu(100)上に吸着したCOの例を示す。

The intermediate scattering function is interpreted as a correlation function of thermal wave packets of the scattering centers perturbed by the scattering particles at different times. A proof of concept is given at the example of ballistic moving centers. The ensuing numerical method is then illustrated at the example of CO adsorbed on Cu(100).
翻訳日:2024-07-04 14:16:16 公開日:2024-07-03
# xApp蒸留:B5G O-RANにおけるAIベースの衝突軽減

xApp Distillation: AI-based Conflict Mitigation in B5G O-RAN ( http://arxiv.org/abs/2407.03068v1 )

ライセンス: Link先を確認
Hakan Erdol, Xiaoyang Wang, Robert Piechocki, George Oikonomou, Arjun Parekh, (参考訳) 機械学習に基づく意思決定アルゴリズム(ML)の進歩は、様々な研究と産業の機会を生み出した。 これらの領域の1つは、Open-Radio Access Network (O-RAN)におけるMLベースのニアリアルタイムネットワーク管理アプリケーション(xApps)である。 通常、xAppsは望ましい目的のためにのみ設計され、デプロイ用に微調整されている。 しかし、通信会社は複数のxAppを使用でき、重複する領域にデプロイすることができる。 xAppsの異なる設計目標を考えると、デプロイメントが競合を引き起こす可能性がある。 このような衝突を防ぐため,我々は,複数のxAppから知識を蒸留するxApp蒸留法を提案し,その知識を用いて,Previous xAppsの機能を維持した単一モデルのトレーニングを行った。 性能評価は、競合緩和方式の比較により、xApp蒸留の最大6倍のネットワーク障害を引き起こす可能性があることを示している。

The advancements of machine learning-based (ML) decision-making algorithms created various research and industrial opportunities. One of these areas is ML-based near-real-time network management applications (xApps) in Open-Radio Access Network (O-RAN). Normally, xApps are designed solely for the desired objectives, and fine-tuned for deployment. However, telecommunication companies can employ multiple xApps and deploy them in overlapping areas. Consider the different design objectives of xApps, the deployment might cause conflicts. To prevent such conflicts, we proposed the xApp distillation method that distills knowledge from multiple xApps, then uses this knowledge to train a single model that has retained the capabilities of Previous xApps. Performance evaluations show that compared conflict mitigation schemes can cause up to six times more network outages than xApp distillation in some cases.
翻訳日:2024-07-04 14:16:16 公開日:2024-07-03
# 5GおよびV2Xネットワークを越えたゼロデイ攻撃検出のためのフェデレーション学習

Federated Learning for Zero-Day Attack Detection in 5G and Beyond V2X Networks ( http://arxiv.org/abs/2407.03070v1 )

ライセンス: Link先を確認
Abdelaziz Amara korba, Abdelwahab Boualouache, Bouziane Brik, Rabah Rahal, Yacine Ghamri-Doudane, Sidi Mohammed Senouci, (参考訳) 5GとBeyondネットワーク(5GB)上にConnected and Automated Vehicles(CAV)をデプロイすることで、セキュリティとプライバシ攻撃のベクトルの増加に対して脆弱になる。 この文脈では、幅広い高度な機械学習/ディープラーニングベースのソリューションが、セキュリティ攻撃を正確に検出するために設計されている。 具体的には、列車攻撃検出モデルに教師付き学習技術が広く応用されている。 しかしながら、そのようなソリューションの主な制限は、トレーニングフェーズで見られるものと異なる攻撃を検出できないこと、またはゼロデイ攻撃(ゼロデイ攻撃)と呼ばれる新しい攻撃である。 さらに、検出モデルのトレーニングには重要なデータ収集とラベル付けが必要であるため、通信オーバーヘッドが増加し、プライバシー上の懸念が高まる。 本稿では,ネットワークトラフィックパターンのみに依存する攻撃を検知するディープ・オートエンコーダ法を利用した新しい検出機構を提案する。 連合学習を用いて、提案した侵入検知システムは、CAVのプライバシーを維持し、通信オーバーヘッドを最小限に抑えながら、大規模で多様なネットワークトラフィックで訓練することができる。 最近のネットワークトラフィックデータセットの詳細な実験では、偽陽性率と検出遅延を最小化しながら、提案方式が高い検出率を達成したことが示されている。

Deploying Connected and Automated Vehicles (CAVs) on top of 5G and Beyond networks (5GB) makes them vulnerable to increasing vectors of security and privacy attacks. In this context, a wide range of advanced machine/deep learning based solutions have been designed to accurately detect security attacks. Specifically, supervised learning techniques have been widely applied to train attack detection models. However, the main limitation of such solutions is their inability to detect attacks different from those seen during the training phase, or new attacks, also called zero-day attacks. Moreover, training the detection model requires significant data collection and labeling, which increases the communication overhead, and raises privacy concerns. To address the aforementioned limits, we propose in this paper a novel detection mechanism that leverages the ability of the deep auto-encoder method to detect attacks relying only on the benign network traffic pattern. Using federated learning, the proposed intrusion detection system can be trained with large and diverse benign network traffic, while preserving the CAVs privacy, and minimizing the communication overhead. The in-depth experiment on a recent network traffic dataset shows that the proposed system achieved a high detection rate while minimizing the false positive rate, and the detection delay.
翻訳日:2024-07-04 14:16:16 公開日:2024-07-03
# 低エネルギー推定と状態準備のためのビーティンググローバー探索

Beating Grover search for low-energy estimation and state preparation ( http://arxiv.org/abs/2407.03073v1 )

ライセンス: Link先を確認
Harry Buhrman, Sevag Gharibian, Zeph Landau, François Le Gall, Norbert Schuch, Suguru Tamaki, (参考訳) 多体ハミルトニアンの基底状態エネルギーの推定は、量子物理学の多くの分野において中心的な課題である。 この研究において、量子アルゴリズムは、任意の$k$-body Hamiltonian $H$を与えられたとき、基底状態エネルギーの推定を計算し、そのエネルギーを達成する量子状態を作成する。 具体的には、任意の$\varepsilon>0$に対して、我々のアルゴリズムは高い確率で、加算誤差$\varepsilon M$内の基底状態エネルギーの見積もり$H$、対応するエネルギーを持つ量子状態を返す。 ここでは、$M$は全ての相互作用項の総強度であり、一般にシステムサイズにおいて広範囲である。 我々のアプローチは、入力ハミルトニアンの相互作用項の幾何学的あるいは空間的局所性について仮定をしないので、格子ベースの技法が崩壊する量子化学のような長距離またはオール・ツー・オールな相互作用を扱う。 この完全に一般的な設定では、我々のアルゴリズムのランタイムは$2^{cn/2}$ for $c<1$とスケールし、グロバー探索に基づいて自然界を破る低エネルギー推定のための最初の量子アルゴリズムとなる。 我々のアプローチの核は驚くほど単純であり、任意の$k$ボディハミルトン多様体が指数次元の低エネルギー部分空間を持つことを示すことに依存している。

Estimating ground state energies of many-body Hamiltonians is a central task in many areas of quantum physics. In this work, we give quantum algorithms which, given any $k$-body Hamiltonian $H$, compute an estimate for the ground state energy and prepare a quantum state achieving said energy, respectively. Specifically, for any $\varepsilon>0$, our algorithms return, with high probability, an estimate of the ground state energy of $H$ within additive error $\varepsilon M$, or a quantum state with the corresponding energy. Here, $M$ is the total strength of all interaction terms, which in general is extensive in the system size. Our approach makes no assumptions about the geometry or spatial locality of interaction terms of the input Hamiltonian and thus handles even long-range or all-to-all interactions, such as in quantum chemistry, where lattice-based techniques break down. In this fully general setting, the runtime of our algorithms scales as $2^{cn/2}$ for $c<1$, yielding the first quantum algorithms for low-energy estimation breaking the natural bound based on Grover search. The core of our approach is remarkably simple, and relies on showing that any $k$-body Hamiltonian has a low-energy subspace of exponential dimension.
翻訳日:2024-07-04 14:16:16 公開日:2024-07-03
# マルチタスク学習を用いた文脈認識型ニューラルネットワーク翻訳の一事例

A Case Study on Context-Aware Neural Machine Translation with Multi-Task Learning ( http://arxiv.org/abs/2407.03076v1 )

ライセンス: Link先を確認
Ramakrishna Appicharla, Baban Gain, Santanu Pal, Asif Ekbal, Pushpak Bhattacharyya, (参考訳) 文書レベルのニューラルネットワーク翻訳(DocNMT)では、コンテクストやソース文のエンコーディングにおいてマルチエンコーダアプローチが一般的である。 近年の「cite{li-etal-2020-multi-encoder}」研究は、文脈エンコーダがノイズを発生させ、そのモデルを文脈の選択に頑健にすることを示した。 本稿では、マルチタスク学習(MTL)を通してコンテキストエンコーディングを明示的にモデル化することで、コンテキスト選択に敏感なモデルを実現することにより、この観察をさらに検討する。 1つのエンコーダと2つのデコーダからなるカスケードMTLアーキテクチャの実験を行った。 コンテキストからのソースの生成は補助的タスクと見なされ、ソースからのターゲットの生成が主なタスクである。 我々はNews,TED,Europarl corporaでドイツ語と英語のペアを実験した。 評価の結果,提案手法は,低リソース環境下での結合型およびマルチエンコーダDocNMTモデルよりも優れた性能を示し,コンテキスト選択に敏感であることがわかった。 しかし、MTLモデルは、コンテキストからソースを生成するのに失敗している。 これらの観察は、以前の研究と一致しており、利用可能な文書レベルの並列コーパスは文脈認識ではなく、頑健な文レベルモデルは文脈認識モデルよりも優れていることを示唆している。

In document-level neural machine translation (DocNMT), multi-encoder approaches are common in encoding context and source sentences. Recent studies \cite{li-etal-2020-multi-encoder} have shown that the context encoder generates noise and makes the model robust to the choice of context. This paper further investigates this observation by explicitly modelling context encoding through multi-task learning (MTL) to make the model sensitive to the choice of context. We conduct experiments on cascade MTL architecture, which consists of one encoder and two decoders. Generation of the source from the context is considered an auxiliary task, and generation of the target from the source is the main task. We experimented with German--English language pairs on News, TED, and Europarl corpora. Evaluation results show that the proposed MTL approach performs better than concatenation-based and multi-encoder DocNMT models in low-resource settings and is sensitive to the choice of context. However, we observe that the MTL models are failing to generate the source from the context. These observations align with the previous studies, and this might suggest that the available document-level parallel corpora are not context-aware, and a robust sentence-level model can outperform the context-aware models.
翻訳日:2024-07-04 14:16:16 公開日:2024-07-03
# グラニュラーアルミニウムスーパーインダクタによる平面ゲルマニウムの強電荷光子結合

Strong Charge-Photon Coupling in Planar Germanium Enabled by Granular Aluminium Superinductors ( http://arxiv.org/abs/2407.03079v1 )

ライセンス: Link先を確認
Marián Janík, Kevin Roux, Carla Borja Espinosa, Oliver Sagi, Abdulhamid Baghdadi, Thomas Adletzberger, Stefano Calcaterra, Marc Botifoll, Alba Garzón Manjón, Jordi Arbiol, Daniel Chrastina, Giovanni Isella, Ioan M. Pop, Georgios Katsaros, (参考訳) 高速度インダクタンス超伝導体は、量子ビット、増幅器、検出器の実現への関心が高まっている。 さらに、その高いインピーダンスのおかげで、そのような材料で作られた量子バスは電圧のゼロポイント変動を大きくし、スピンと電荷の量子ビットへの結合速度を高めることができる。 しかし、乱れや粒状超伝導体のポテンシャルを十分に活用することは、誘導力として困難であり、高い値のインピーダンスを制御することは困難である。 ここでは、抵抗量子を超えた特性インピーダンスを持つグラニュラルアルミニウム共振器をゲルマニウム二重量子ドットに統合し、$g_\text{c}/2\pi= (566 \pm 2)$ MHzで強い電荷-光子結合を示す。 これは, 膜沈着時のemph{in situ}測定を可能にする無線オーメータの実現により達成され, グラニュラーアルミニウム薄膜の運動インダクタンス制御が可能となった。 インピーダンス(インダクタンス)が13 k$\Omega$ (1 nH per square)を超える回路の再現可能製造が可能になった。 広範に適用可能な手法は、新しい量子ビットと高忠実で長距離2量子ゲートの経路を開く。

High kinetic inductance superconductors are gaining increasing interest for the realisation of qubits, amplifiers and detectors. Moreover, thanks to their high impedance, quantum buses made of such materials enable large zero-point fluctuations of the voltage, boosting the coupling rates to spin and charge qubits. However, fully exploiting the potential of disordered or granular superconductors is challenging, as their inductance and, therefore, impedance at high values are difficult to control. Here we have integrated a granular aluminium resonator, having a characteristic impedance exceeding the resistance quantum, with a germanium double quantum dot and demonstrate strong charge-photon coupling with a rate of $g_\text{c}/2\pi= (566 \pm 2)$ MHz. This was achieved due to the realisation of a wireless ohmmeter, which allows \emph{in situ} measurements during film deposition and, therefore, control of the kinetic inductance of granular aluminium films. Reproducible fabrication of circuits with impedances (inductances) exceeding 13 k$\Omega$ (1 nH per square) is now possible. This broadly applicable method opens the path for novel qubits and high-fidelity, long-distance two-qubit gates.
翻訳日:2024-07-04 14:16:16 公開日:2024-07-03
# データスカースシナリオにおける人工インダクティブバイアスによる合成語彙データ生成

Artificial Inductive Bias for Synthetic Tabular Data Generation in Data-Scarce Scenarios ( http://arxiv.org/abs/2407.03080v1 )

ライセンス: Link先を確認
Patricia A. Apellániz, Ana Jiménez, Borja Arroyo Galende, Juan Parras, Santiago Zazo, (参考訳) Deep Generative Models (DGMs) を用いた合成表データ生成は、データの不足とプライバシの懸念に対する説得力のある解決策を提供するが、それらの有効性は、現実のアプリケーションでは利用できない、実質的なトレーニングデータに依存している。 本稿では,DGMを用いた現実的で信頼性の高い合成表データを,限られた実データ環境下で生成する手法を提案する。 本稿では,移動学習とメタ学習技術を用いて,DGMにおける人工的帰納バイアスを生成する方法を提案する。 このフレームワークでは,モデル非依存型メタラーニングやドメインランダム化検索など,事前学習やモデル平均化といったトランスファー学習戦略が,優れたメタラーニングアプローチであることを示した。 我々は,2つの最先端DGM,すなわち変分オートエンコーダとジェネレーティブ・アドバーサリアル・ネットワークを用いて,我々の人工的誘導バイアスが,ジェンセン=シャノンの発散によって測定された合成データ品質を向上し,提案手法を用いた場合の相対利得を最大50%向上させることを示す。 この方法論は、さまざまなDGMや機械学習タスク、特にデータの不足が重大な問題である医療や金融といった分野において、幅広い適用性を持っている。

While synthetic tabular data generation using Deep Generative Models (DGMs) offers a compelling solution to data scarcity and privacy concerns, their effectiveness relies on substantial training data, often unavailable in real-world applications. This paper addresses this challenge by proposing a novel methodology for generating realistic and reliable synthetic tabular data with DGMs in limited real-data environments. Our approach proposes several ways to generate an artificial inductive bias in a DGM through transfer learning and meta-learning techniques. We explore and compare four different methods within this framework, demonstrating that transfer learning strategies like pre-training and model averaging outperform meta-learning approaches, like Model-Agnostic Meta-Learning, and Domain Randomized Search. We validate our approach using two state-of-the-art DGMs, namely, a Variational Autoencoder and a Generative Adversarial Network, to show that our artificial inductive bias fuels superior synthetic data quality, as measured by Jensen-Shannon divergence, achieving relative gains of up to 50\% when using our proposed approach. This methodology has broad applicability in various DGMs and machine learning tasks, particularly in areas like healthcare and finance, where data scarcity is often a critical issue.
翻訳日:2024-07-04 14:16:16 公開日:2024-07-03
# 分布域外における安定な不均一処理効果の推定

Stable Heterogeneous Treatment Effect Estimation across Out-of-Distribution Populations ( http://arxiv.org/abs/2407.03082v1 )

ライセンス: Link先を確認
Yuling Zhang, Anpeng Wu, Kun Kuang, Liang Du, Zixun Sun, Zhi Wang, (参考訳) 不均一治療効果(HTE)の推定は、個人またはサブグループ間の治療効果の変化を理解するために不可欠である。 既存のHTE推定手法の多くは、共同創設者の不均衡分布に起因した選択バイアスに対処するが、集団間の分布シフトは無視する。 これにより、それらの適用性は、トレーニングデータセットに類似した分布を共有するID(In-distriion)人口に限られている。 人口分布が連続的な変化を受ける現実世界のアプリケーションでは、分布外人口(OOD)をまたいだ安定したHTE推定が緊急に必要であり、これは依然として未解決の問題である。 この問題の解決の先駆者として,階層型HAP(Stable Balanced Representation Learning with Hierarchical-Attention Paradigm)フレームワークを提案する。 1)選択バイアスをなくすための正規化のバランスをとること。 2 流通シフト問題に対処するための独立調整器 3)バランスと独立の調整のための階層的注意パラダイム。 このようにして、SBRL-HAPはIDデータを用いて偽結果の回帰を行い、その結果のHTE推定をアウト・オブ・ディストリビューションシナリオにうまく一般化し、実際の設定におけるモデルの適用性を高める。 SBRL-HAP が OOD 集団全体で安定な HTE 推定を実現し,平均 10% の誤差測定値 PEHE の減少と ATE バイアスの11% の減少をSOTA 法と比較した。

Heterogeneous treatment effect (HTE) estimation is vital for understanding the change of treatment effect across individuals or subgroups. Most existing HTE estimation methods focus on addressing selection bias induced by imbalanced distributions of confounders between treated and control units, but ignore distribution shifts across populations. Thereby, their applicability has been limited to the in-distribution (ID) population, which shares a similar distribution with the training dataset. In real-world applications, where population distributions are subject to continuous changes, there is an urgent need for stable HTE estimation across out-of-distribution (OOD) populations, which, however, remains an open problem. As pioneers in resolving this problem, we propose a novel Stable Balanced Representation Learning with Hierarchical-Attention Paradigm (SBRL-HAP) framework, which consists of 1) Balancing Regularizer for eliminating selection bias, 2) Independence Regularizer for addressing the distribution shift issue, 3) Hierarchical-Attention Paradigm for coordination between balance and independence. In this way, SBRL-HAP regresses counterfactual outcomes using ID data, while ensuring the resulting HTE estimation can be successfully generalized to out-of-distribution scenarios, thereby enhancing the model's applicability in real-world settings. Extensive experiments conducted on synthetic and real-world datasets demonstrate the effectiveness of our SBRL-HAP in achieving stable HTE estimation across OOD populations, with an average 10% reduction in the error metric PEHE and 11% decrease in the ATE bias, compared to the SOTA methods.
翻訳日:2024-07-04 14:16:16 公開日:2024-07-03
# 自動微分を用いた部分観測マルコフ過程の高速化推論

Accelerated Inference for Partially Observed Markov Processes using Automatic Differentiation ( http://arxiv.org/abs/2407.03085v1 )

ライセンス: Link先を確認
Kevin Tan, Giles Hooker, Edward L. Ionides, (参考訳) 自動微分(AD)は、ディープニューラルネットワークやハミルトンマルコフ連鎖モンテカルロ法など、機械学習の最近の進歩を牽引している。 部分的に観察された非線形確率力学系は、広く使われている粒子フィルタアルゴリズムがモデルパラメータの関数として不連続である推定推定推定推定関数を生成するため、AD手法に耐性があることが証明されている。 我々は,新しいアルゴリズムのクラスの拡張を提供する理論的枠組みに,既存の2つのAD粒子フィルタ手法を組み込む方法を示す。 この新たなクラスはバイアス/分散トレードオフを許容し、従って既存のアルゴリズムよりも平均2乗誤差がかなり低い。 我々はAD勾配推定のモンテカルロ特性に適合する極大化アルゴリズムを開発する。 対照的に、AD極大化への従来のアプローチでは、粒子フィルタの最大化にはシステムの遷移確率へのアクセスが必要であった。 数値計算により,ADを用いて反復フィルタリングアルゴリズムから粗い解を精製するハイブリッドアルゴリズムは,挑戦的な科学的ベンチマーク問題に対する最先端の手法を大幅に改善したことを示す。

Automatic differentiation (AD) has driven recent advances in machine learning, including deep neural networks and Hamiltonian Markov Chain Monte Carlo methods. Partially observed nonlinear stochastic dynamical systems have proved resistant to AD techniques because widely used particle filter algorithms yield an estimated likelihood function that is discontinuous as a function of the model parameters. We show how to embed two existing AD particle filter methods in a theoretical framework that provides an extension to a new class of algorithms. This new class permits a bias/variance tradeoff and hence a mean squared error substantially lower than the existing algorithms. We develop likelihood maximization algorithms suited to the Monte Carlo properties of the AD gradient estimate. Our algorithms require only a differentiable simulator for the latent dynamic system; by contrast, most previous approaches to AD likelihood maximization for particle filters require access to the system's transition probabilities. Numerical results indicate that a hybrid algorithm that uses AD to refine a coarse solution from an iterated filtering algorithm show substantial improvement on current state-of-the-art methods for a challenging scientific benchmark problem.
翻訳日:2024-07-04 14:16:16 公開日:2024-07-03
# 効率的なハイパーネットワークに基づく重み生成による効果的な不均一なフェデレーション学習

Effective Heterogeneous Federated Learning via Efficient Hypernetwork-based Weight Generation ( http://arxiv.org/abs/2407.03086v1 )

ライセンス: Link先を確認
Yujin Shin, Kichang Lee, Sungmin Lee, You Rim Choi, Hyung-Sin Kim, JeongGil Ko, (参考訳) フェデレーション学習は分散クライアントリソースを活用するが、異種クライアント機能による課題に直面している。 これは、クライアントのリソースに適合するモデルの割り当てと、この不均一性に対応するために注意深くパラメータアグリゲーションを必要とする。 マルチエグジットネットワークアーキテクチャとハイパーネットワークベースのモデル重み生成を組み合わせることで、クライアントの不均一性をサポートするための新しいフェデレート学習フレームワークであるHypeMeFedを提案する。 このアプローチは、ヘテロジニアスモデル層の特徴空間を整列し、重み付け時の層間情報格差を解消する。 また,HypeMeFedを現実的に実現するために,ハイパーネット処理に伴う計算とメモリオーバーヘッドを最小限に抑えるために,低ランク因子化手法を提案する。 HypeMeFedはFedAvgよりも5.12%精度を向上し、ハイパーネットワークメモリの要求を98.22%削減し、単純なハイパーネットワークアプローチに比べて1.86倍の動作を高速化する。 これらの結果から,HypeMeFedがフェデレーション学習にヘテロジニアスクライアントを活用・活用する効果が示された。

While federated learning leverages distributed client resources, it faces challenges due to heterogeneous client capabilities. This necessitates allocating models suited to clients' resources and careful parameter aggregation to accommodate this heterogeneity. We propose HypeMeFed, a novel federated learning framework for supporting client heterogeneity by combining a multi-exit network architecture with hypernetwork-based model weight generation. This approach aligns the feature spaces of heterogeneous model layers and resolves per-layer information disparity during weight aggregation. To practically realize HypeMeFed, we also propose a low-rank factorization approach to minimize computation and memory overhead associated with hypernetworks. Our evaluations on a real-world heterogeneous device testbed indicate that HypeMeFed enhances accuracy by 5.12% over FedAvg, reduces the hypernetwork memory requirements by 98.22%, and accelerates its operations by 1.86 times compared to a naive hypernetwork approach. These results demonstrate HypeMeFed's effectiveness in leveraging and engaging heterogeneous clients for federated learning.
翻訳日:2024-07-04 14:16:16 公開日:2024-07-03
# コヒーレント攻撃下での離散変調連続可変量子鍵分布に対する有限サイズ鍵率の改善

Improved finite-size key rates for discrete-modulated continuous variable quantum key distribution under coherent attacks ( http://arxiv.org/abs/2407.03087v1 )

ライセンス: Link先を確認
Carlos Pascual-García, Stefan Bäuml, Mateus Araújo, Rotem Liss, Antonio Acín, (参考訳) 離散変調による連続変数量子鍵分布(CVQKD)は、容易に利用できる技術を用いた実装性などのCVQKDの利点と、より簡単なエラー修正手順のような離散変数量子鍵分布の利点を組み合わせたものである。 そこでAlice氏が4つのコヒーレント状態から選択し、Bob氏がヘテロダイン測定を行い、その結果をキーラウンドとテストラウンドの両方で識別するCVQKDプロトコルを提案する。 有限サイズシステムにおけるコヒーレント攻撃に対するセキュリティ証明を行い、達成可能なキーレートを算出する。 この目的のために、一般化エントロピー累積定理と、近年の円錐最適化の進歩を用いて、以前の研究と比べて鍵レートが向上した。 大都市距離では10^8$のラウンドの順に正のキーレートを提供できる。

Continuous variable quantum key distribution (CVQKD) with discrete modulation combines advantages of CVQKD, such as the implementability using readily available technologies, with advantages of discrete variable quantum key distribution, such as easier error correction procedures. We consider a prepare-and-measure CVQKD protocol, where Alice chooses from a set of four coherent states and Bob performs a heterodyne measurement, the result of which is discretised in both key and test rounds. We provide a security proof against coherent attacks in the finite-size regime, and compute the achievable key rate. To this end, we employ the generalised entropy accumulation theorem, as well as recent advances in conic optimisation, yielding improved key rates compared to previous works. At metropolitan distances, our method can provide positive key rates for the order of $10^8$ rounds.
翻訳日:2024-07-04 14:16:16 公開日:2024-07-03
# 相関世代における量子優位性の突然の死

The sudden death of quantum advantage in correlation generations ( http://arxiv.org/abs/2407.03088v1 )

ライセンス: Link先を確認
Weixiao Sun, Fuchuan Wei, Yuguo Shao, Zhaohui Wei, (参考訳) 量子誤り訂正はまだ物理的に実現できないため、量子ノイズは大規模量子アルゴリズムや量子スキームの実装において最も大きな障害となる。 量子コンピュータが強すぎる量子ノイズに悩まされた場合、その実行は古典的なコンピュータで容易にシミュレートできるため、量子的優位性は不可能であることが知られている。 しかし、一般的には、0から致命的なレベルまで異なる強度の量子ノイズがどのように影響し、量子的優位性を破壊するかはよく理解されていない。 間違いなく、これを達成することは、ノイズの多い中間スケール量子コンピュータのパワーを理解する上で非常に価値があるでしょう。 一方、相関生成は、量子優位性を正確に定量化できる情報処理タスクの貴重な理論的モデルである。 ここでは、このモデルが量子的優位性に対するノイズの影響を理解するための貴重な洞察を提供することを示す。 特に、量子ノイズの強さが0から連続的に上昇すると、量子の優位性は徐々に低下し、最終的には完全に消えていくことを厳格に証明する。 驚くべきことに、いくつかのケースでは予期せぬ現象を観測し、量子ノイズの強さが一定の点を超えると、量子的優位性は無視できないレベルから突然消える、という量子的優位性の突然の死と呼ぶ。 この興味深い現象は、新しい視点から量子情報処理タスクに対するノイズの重大な害を明らかにしている。

As quantum error corrections still cannot be realized physically, quantum noise is the most profound obstacle to the implementations of large-scale quantum algorithms or quantum schemes. It has been well-known that if a quantum computer suffers from too strong quantum noise, its running can be easily simulated by a classical computer, making the quantum advantage impossible. Generally speaking, however, the dynamical process that how quantum noise of varying strengths from 0 to a fatal level impacts and destroys quantum advantage has not been understood well. Undoubtedly, achieving this will be extremely valuable for us to understand the power of noisy intermediate-scale quantum computers. Meanwhile, correlation generation is a precious theoretical model of information processing tasks in which the quantum advantage can be precisely quantified. Here we show that this model also provides us a valuable insight into understanding the impact of noise on quantum advantage. Particularly, we will rigorously prove that when the strength of quantum noise continuously goes up from 0, the quantum advantage gradually declines, and eventually fades away completely. Surprisingly, in some cases we observe an unexpected phenomenon we call the sudden death of the quantum advantage, i.e., when the strength of quantum noise exceeds a certain point, the quantum advantage disappears suddenly from a non-negligible level. This interesting phenomenon reveals the tremendous harm of noise to quantum information processing tasks from a new viewpoint.
翻訳日:2024-07-04 14:16:16 公開日:2024-07-03
# てんかん診断における脳波超解像の時空間適応拡散モデル

Spatio-Temporal Adaptive Diffusion Models for EEG Super-Resolution in Epilepsy Diagnosis ( http://arxiv.org/abs/2407.03089v1 )

ライセンス: Link先を確認
Tong Zhou, Shuqiang Wang, (参考訳) 脳波(EEG)技術、特に高密度脳波(HD EEG)デバイスは神経科学などの分野で広く使われている。 HD EEGデバイスは、頭皮により多くの電極を配置することで脳波の空間分解能を改善し、てんかん焦点定位などの臨床診断応用の要件を満たす。 しかし、この手法は、高い取得コストや限られた利用シナリオといった課題に直面している。 本稿では,低分解能(LR,64チャンネル以下)の脳波から高分解能(HR,256チャンネル以下)の脳波への空間SR再構成を実現するために,時空間適応拡散モデル(STADM)を提案する。 具体的には、LR EEGの時空間的特徴を抽出するために時空間時空間モジュールを設計し、その後条件入力として機能し、拡散モデルの逆復調過程を導出する。 さらに,マルチスケールトランスフォーマーデノゲーションモジュールを構築し,マルチスケールの畳み込みブロックとクロスアテンションベースの拡散トランスフォーマーブロックを利用して条件付き誘導を行い,主観適応型SREEGを生成する。 実験により,提案手法はLR EEGの空間分解能を効果的に向上し,既存の手法を定量的に上回ることを示した。 さらに、STADMは、てんかん患者の分類およびソースローカライゼーションタスクに合成SR脳波を適用し、LR脳波の空間分解能を著しく向上させる可能性を示した。

Electroencephalogram (EEG) technology, particularly high-density EEG (HD EEG) devices, is widely used in fields such as neuroscience. HD EEG devices improve the spatial resolution of EEG by placing more electrodes on the scalp, meeting the requirements of clinical diagnostic applications such as epilepsy focus localization. However, this technique faces challenges such as high acquisition costs and limited usage scenarios. In this paper, spatio-temporal adaptive diffusion models (STADMs) are proposed to pioneer the use of diffusion models for achieving spatial SR reconstruction from low-resolution (LR, 64 channels or fewer) EEG to high-resolution (HR, 256 channels) EEG. Specifically, a spatio-temporal condition module is designed to extract the spatio-temporal features of LR EEG, which then serve as conditional inputs to guide the reverse denoising process of diffusion models. Additionally, a multi-scale Transformer denoising module is constructed to leverage multi-scale convolution blocks and cross-attention-based diffusion Transformer blocks for conditional guidance to generate subject-adaptive SR EEG. Experimental results demonstrate that the proposed method effectively enhances the spatial resolution of LR EEG and quantitatively outperforms existing methods. Furthermore, STADMs demonstrate their value by applying synthetic SR EEG to classification and source localization tasks of epilepsy patients, indicating their potential to significantly improve the spatial resolution of LR EEG.
翻訳日:2024-07-04 14:16:16 公開日:2024-07-03
# 実データを用いた深層学習による脆弱性検出性能の再検討

Revisiting the Performance of Deep Learning-Based Vulnerability Detection on Realistic Datasets ( http://arxiv.org/abs/2407.03093v1 )

ライセンス: Link先を確認
Partha Chakraborty, Krishna Kanth Arumugam, Mahmoud Alfadel, Meiyappan Nagappan, Shane McIntosh, (参考訳) ソフトウェア脆弱性が日々のソフトウェアシステムに与える影響は大きい。 脆弱性検出のためにディープラーニングモデルが提案されているが、信頼性には疑問がある。 以前の評価では、リコール/F1スコアは最大99%だった。 本稿では,脆弱性検出モデルを評価するために,実世界のシナリオを表す包括的データセットであるReal-Vulを紹介する。 DeepWukong、LineVul、ReVeal、IVDetectの評価では、パフォーマンスが大幅に低下し、精度は95パーセントまで低下し、F1スコアは91ポイントまで低下した。 さらに、モデルパフォーマンスは脆弱性特性に基づいて変動し、パスの解像度や予測可能な戻り値よりも、情報リークやコードインジェクションのF1スコアが優れている。 その結果は、ディープラーニングベースの脆弱性検出を実践的な設定でデプロイする前に対処する必要がある、大幅なパフォーマンスギャップを浮き彫りにしている。 オーバーフィッティングは重要な問題として認識され、改善手法が提案され、パフォーマンスが最大30%向上する可能性がある。 コントリビューションには、より良いモデル評価のためのデータセット生成アプローチ、Real-Vulデータセット、現実世界の設定で苦労しているディープラーニングモデルの実証的な証拠などがある。

The impact of software vulnerabilities on everyday software systems is significant. Despite deep learning models being proposed for vulnerability detection, their reliability is questionable. Prior evaluations show high recall/F1 scores of up to 99%, but these models underperform in practical scenarios, particularly when assessed on entire codebases rather than just the fixing commit. This paper introduces Real-Vul, a comprehensive dataset representing real-world scenarios for evaluating vulnerability detection models. Evaluating DeepWukong, LineVul, ReVeal, and IVDetect shows a significant drop in performance, with precision decreasing by up to 95 percentage points and F1 scores by up to 91 points. Furthermore, Model performance fluctuates based on vulnerability characteristics, with better F1 scores for information leaks or code injection than for path resolution or predictable return values. The results highlight a significant performance gap that needs addressing before deploying deep learning-based vulnerability detection in practical settings. Overfitting is identified as a key issue, and an augmentation technique is proposed, potentially improving performance by up to 30%. Contributions include a dataset creation approach for better model evaluation, Real-Vul dataset, and empirical evidence of deep learning models struggling in real-world settings.
翻訳日:2024-07-04 14:16:16 公開日:2024-07-03
# 連続処理の因果効果のコンフォーマル予測

Conformal Prediction for Causal Effects of Continuous Treatments ( http://arxiv.org/abs/2407.03094v1 )

ライセンス: Link先を確認
Maresa Schröder, Dennis Frauen, Jonas Schweisthal, Konstantin Heß, Valentyn Melnychuk, Stefan Feuerriegel, (参考訳) 因果効果の不確かさの定量化は、パーソナライズド医療のような安全上重要な応用に不可欠である。 これに対する強力なアプローチは共形予測であり、モデルに依存しない有限サンプル保証のためにいくつかの実用的な利点がある。 しかし、因果効果の共形予測法は二項/離散的処理に限られており、既知確率スコアのような非常に限定的な仮定を行う。 本研究では,連続処理の潜在的な結果に対する新しいコンフォメーション予測法を提案する。 共形予測区間が正当性スコアが未知であっても有効となるように、不確実性推定によって導入された追加的不確実性を考慮する。 コントリビューションは次の3つである: 1) 連続処理の潜在的な結果に対する有限サンプル予測間隔を導出する。 2) 導出区間を計算するアルゴリズムを提案する。 (3) 合成および実世界のデータセットを用いた実験において, 共形予測間隔の有効性を示す。 我々の知る限りでは、確率スコアが不明で、データから推定しなければならない場合、我々は、継続的治療のための共形予測を最初に提案する。

Uncertainty quantification of causal effects is crucial for safety-critical applications such as personalized medicine. A powerful approach for this is conformal prediction, which has several practical benefits due to model-agnostic finite-sample guarantees. Yet, existing methods for conformal prediction of causal effects are limited to binary/discrete treatments and make highly restrictive assumptions such as known propensity scores. In this work, we provide a novel conformal prediction method for potential outcomes of continuous treatments. We account for the additional uncertainty introduced through propensity estimation so that our conformal prediction intervals are valid even if the propensity score is unknown. Our contributions are three-fold: (1) We derive finite-sample prediction intervals for potential outcomes of continuous treatments. (2) We provide an algorithm for calculating the derived intervals. (3) We demonstrate the effectiveness of the conformal prediction intervals in experiments on synthetic and real-world datasets. To the best of our knowledge, we are the first to propose conformal prediction for continuous treatments when the propensity score is unknown and must be estimated from data.
翻訳日:2024-07-04 14:06:19 公開日:2024-07-03
# 量子ビットリセットにおける集合的優位性:コヒーレント量子ビットの効果

Collective advantages in qubit reset: effect of coherent qubits ( http://arxiv.org/abs/2407.03096v1 )

ライセンス: Link先を確認
Yue Liu, Chenlong Huang, Xingyu Zhang, Dahai He, (参考訳) ランダウアーの原理は、量子ビットリセットの熱力学的コストを低く設定するが、これは準定常過程でしか達成できない。 本文では,コヒーレント量子ビットの集合的リセットを3つの側面で検討する。 第一に、準定常過程において、集合リセットの熱力学的コストは、エンタングルメント効果によるヒルベルト空間次元の減少のため、並列リセットよりも著しく低い。 第二に、有限時間キュービットリセットの場合、誤差確率は減少し、キュービット当たりの熱生成は、熱力学極限における初期連続的なプロトコルに対してランダウアーが束縛される傾向があることを証明する。 第3に,量子ビット数の増加に伴い,量子ビットリセット性能が向上することを示す。 我々の結果は、異なるプロトコルで示され、将来の量子デバイス製造の青写真を提供する。

The Landauer principle sets a lower bound on the thermodynamic cost of qubit reset, which is only attainable for the quasistatic process. In this Letter, we explore the collective advantage of qubit reset of coherent qubits in three aspects. First, for the quasistatic process, the thermodynamic cost of collective reset is remarkably lower than parallel reset because of the reduced Hilbert space dimension due to entanglement effects. Second, for the finite-time qubit reset, we prove that the error probability fades away and per-qubit heat production tends the Landauer bound for initially continuous protocols in the thermodynamic limit. Third, we show that qubit reset performance enhances with the increase in the number of qubits. Our results, illustrated by different protocols, provide a blueprint for future quantum device fabrication.
翻訳日:2024-07-04 14:06:19 公開日:2024-07-03
# Cactus:認知行動理論を用いた心理的会話に向けて

Cactus: Towards Psychological Counseling Conversations using Cognitive Behavioral Theory ( http://arxiv.org/abs/2407.03103v1 )

ライセンス: Link先を確認
Suyeon Lee, Sunghwan Kim, Minju Kim, Dongjin Kang, Dongil Yang, Harim Kim, Minseok Kang, Dayi Jung, Min Hee Kim, Seungbeen Lee, Kyoung-Mee Chung, Youngjae Yu, Dongha Lee, Jinyoung Yeo, (参考訳) 近年,心理カウンセリングの需要が大幅に増加し,個人のメンタルヘルスへの懸念が高まっている。 この急上昇は、カウンセラーとして大規模言語モデル(LLM)を使用することでカウンセリングのアクセシビリティ向上への取り組みを加速させた。 クライアントのプライバシを確保するため、オープンソースのLLMのトレーニングは、現実的なカウンセリングデータセットの欠如という、大きな課題に直面している。 そこで我々は,認知行動療法(Cognitive Behavioral Therapy, CBT)の目標指向的, 構造化的アプローチを用いて, 実生活インタラクションをエミュレートする多次元対話データセットCactusを紹介する。 我々は、多様な特定のペルソナを持つクライアントを設計し、カウンセラーにCBTテクニックを体系的に適用することで、多様で現実的なデータセットを作成する。 データの品質を評価するために、実際のカウンセリングセッションの評価や専門家の評価との整合性の確保に使用される確立された心理的基準をベンチマークする。 Cactusで訓練されたモデルであるCamelはカウンセリングスキルにおいて他のモデルよりも優れており、カウンセリングエージェントとしての有効性と可能性を強調している。 データ、モデル、コードを公開しています。

Recently, the demand for psychological counseling has significantly increased as more individuals express concerns about their mental health. This surge has accelerated efforts to improve the accessibility of counseling by using large language models (LLMs) as counselors. To ensure client privacy, training open-source LLMs faces a key challenge: the absence of realistic counseling datasets. To address this, we introduce Cactus, a multi-turn dialogue dataset that emulates real-life interactions using the goal-oriented and structured approach of Cognitive Behavioral Therapy (CBT). We create a diverse and realistic dataset by designing clients with varied, specific personas, and having counselors systematically apply CBT techniques in their interactions. To assess the quality of our data, we benchmark against established psychological criteria used to evaluate real counseling sessions, ensuring alignment with expert evaluations. Experimental results demonstrate that Camel, a model trained with Cactus, outperforms other models in counseling skills, highlighting its effectiveness and potential as a counseling agent. We make our data, model, and code publicly available.
翻訳日:2024-07-04 14:06:19 公開日:2024-07-03
# KeyVideoLLM: 大規模ビデオキーボード選択に向けて

KeyVideoLLM: Towards Large-scale Video Keyframe Selection ( http://arxiv.org/abs/2407.03104v1 )

ライセンス: Link先を確認
Hao Liang, Jiapeng Li, Tianyi Bai, Chong Chen, Conghui He, Bin Cui, Wentao Zhang, (参考訳) 近年,Webビデオの普及に伴い,大規模ビデオデータセットの管理と理解がますます重要になっている。 Video Large Language Models (VideoLLMs) は、その強力なビデオ理解能力により近年出現している。 しかしながら、VideoLLMのトレーニングと推論プロセスは膨大な量のデータを必要とし、特に効率性、堅牢性、有効性に関して、データ管理に重大な課題を提示している。 本研究では,テキストフレームの類似性に基づくキーフレーム選択手法であるKeyVideoLLMを提案する。 具体的には、KeyVideoLLMは最大60.9倍のデータ圧縮速度を達成し、ディスクスペースの要求を大幅に低減し、高い効率性を示す。 さらに、すべてのビデオフォーマットとスケールで100%の選択成功率を維持し、既存のキーフレーム選択方法と比較して最大200倍の処理速度を向上し、ハイパーパラメータチューニングを必要としない。 KeyVideoLLMは、その卓越した効率と堅牢性に加えて、トレーニングと推論の段階において、ビデオ質問応答タスクのモデルパフォーマンスをさらに向上させる。 特に、さまざまなデータセットに関する最新技術(SoTA)の実験結果を一貫して達成している。

Recently, with the rise of web videos, managing and understanding large-scale video datasets has become increasingly important. Video Large Language Models (VideoLLMs) have emerged in recent years due to their strong video understanding capabilities. However, training and inference processes for VideoLLMs demand vast amounts of data, presenting significant challenges to data management, particularly regarding efficiency, robustness, and effectiveness. In this work, we present KeyVideoLLM, a text-video frame similarity-based keyframe selection method designed to manage VideoLLM data efficiently, robustly, and effectively. Specifically, KeyVideoLLM achieves a remarkable data compression rate of up to 60.9 times, substantially lowering disk space requirements, which proves its high efficiency. Additionally, it maintains a 100% selection success rate across all video formats and scales, enhances processing speed by up to 200 times compared to existing keyframe selection methods, and does not require hyperparameter tuning. Beyond its outstanding efficiency and robustness, KeyVideoLLM further improves model performance in video question-answering tasks during both training and inference stages. Notably, it consistently achieved the state-of-the-art (SoTA) experimental results on diverse datasets.
翻訳日:2024-07-04 14:06:19 公開日:2024-07-03
# 生成フローネットワークの一般化について

On Generalization for Generative Flow Networks ( http://arxiv.org/abs/2407.03105v1 )

ライセンス: Link先を確認
Anas Krichel, Nikolay Malkin, Salem Lahlou, Yoshua Bengio, (参考訳) Generative Flow Networks (GFlowNets) は、報酬関数と呼ばれる非正規化確率分布からのサンプリングの課題に対処するために設計された革新的な学習パラダイムとして登場した。 このフレームワークは構築されたグラフ上のポリシーを学習し、学習されたポリシーから連続的にサンプリングするステップを通じて、対象確率分布の近似からサンプリングすることができる。 これを実現するために、GFlowNetsはさまざまな目標をトレーニングすることができる。 GFlowNetsの願望的な強みは、報酬関数内の複雑なパターンを識別し、報酬関数の新規で目に見えない部分に効果的に一般化する能力にある。 本稿では,GFlowNetsの文脈で一般化を形式化し,一般化と安定性を結びつけるとともに,これらのモデルの能力を評価する実験を行い,報酬関数の未知の部分を明らかにする。 実験は長さの一般化、つまり訓練で見られるものよりも長い軌道でしか構築できない状態への一般化に焦点を当てる。

Generative Flow Networks (GFlowNets) have emerged as an innovative learning paradigm designed to address the challenge of sampling from an unnormalized probability distribution, called the reward function. This framework learns a policy on a constructed graph, which enables sampling from an approximation of the target probability distribution through successive steps of sampling from the learned policy. To achieve this, GFlowNets can be trained with various objectives, each of which can lead to the model s ultimate goal. The aspirational strength of GFlowNets lies in their potential to discern intricate patterns within the reward function and their capacity to generalize effectively to novel, unseen parts of the reward function. This paper attempts to formalize generalization in the context of GFlowNets, to link generalization with stability, and also to design experiments that assess the capacity of these models to uncover unseen parts of the reward function. The experiments will focus on length generalization meaning generalization to states that can be constructed only by longer trajectories than those seen in training.
翻訳日:2024-07-04 14:06:19 公開日:2024-07-03
# 符号化速度指標に基づく深層学習における反崩壊損失

Anti-Collapse Loss for Deep Metric Learning Based on Coding Rate Metric ( http://arxiv.org/abs/2407.03106v1 )

ライセンス: Link先を確認
Xiruo Jiang, Yazhou Yao, Xili Dai, Fumin Shen, Xian-Sheng Hua, Heng-Tao Shen, (参考訳) ディープメトリックラーニング(DML)は、分類、クラスタリング、検索といった下流タスクのための識別可能な高次元埋め込み空間を学習することを目的としている。 以前の文献は、主に、クラス間の差異を最大化し、クラス内の多様性を最小化するペアベースおよびプロキシベースの方法に焦点を当てていた。 しかし,これらの手法はラベル情報への依存度が高すぎるため,埋め込み空間の崩壊に悩まされる傾向にある。 これは、サブ最適特徴表現と劣ったモデルパフォーマンスをもたらす。 埋め込み空間の構造を維持し,特徴の崩壊を回避するために,反崩壊損失と呼ばれる新しい損失関数を提案する。 特に,提案した損失は,最大符号化率低下の原理から主にインスピレーションを得ている。 組込み空間における特徴クラスタのスパース性を促進し、サンプル特徴量やクラスプロキシの平均符号化率を最大化することにより、崩壊を防止する。 さらに、提案した損失をペアベースおよびプロキシベース手法と統合し、性能改善を図った。 ベンチマークデータセットの総合実験により,提案手法が既存の最先端手法より優れていることを示す。 包埋空間崩壊の防止と一般化性能の向上に本手法の有効性を検証する。

Deep metric learning (DML) aims to learn a discriminative high-dimensional embedding space for downstream tasks like classification, clustering, and retrieval. Prior literature predominantly focuses on pair-based and proxy-based methods to maximize inter-class discrepancy and minimize intra-class diversity. However, these methods tend to suffer from the collapse of the embedding space due to their over-reliance on label information. This leads to sub-optimal feature representation and inferior model performance. To maintain the structure of embedding space and avoid feature collapse, we propose a novel loss function called Anti-Collapse Loss. Specifically, our proposed loss primarily draws inspiration from the principle of Maximal Coding Rate Reduction. It promotes the sparseness of feature clusters in the embedding space to prevent collapse by maximizing the average coding rate of sample features or class proxies. Moreover, we integrate our proposed loss with pair-based and proxy-based methods, resulting in notable performance improvement. Comprehensive experiments on benchmark datasets demonstrate that our proposed method outperforms existing state-of-the-art methods. Extensive ablation studies verify the effectiveness of our method in preventing embedding space collapse and promoting generalization performance.
翻訳日:2024-07-04 14:06:19 公開日:2024-07-03
# XAI メソッドの説明はどの程度信頼性と安定か?

How Reliable and Stable are Explanations of XAI Methods? ( http://arxiv.org/abs/2407.03108v1 )

ライセンス: Link先を確認
José Ribeiro, Lucas Cardoso, Vitor Santos, Eduardo Carvalho, Níkolas Carneiro, Ronnie Alves, (参考訳) ブラックボックスモデルは、社会の中で生活している人間の日常生活にますます使われている。 この増加に伴い、モデルがどのように特定の予測を行うかについてのさらなる説明を生み出すことを目的とした、説明可能な人工知能(XAI)メソッドが出現した。 この意味で、Dalex、Eli5、eXirt、Lofo、Shapといった手法は、ブラックボックスモデルの説明を不可知的に生成するための異なる提案と方法論として登場した。 これらの手法の出現とともに、"信頼性と安定性はXAIメソッドとは何か"といった疑問が生まれている。 本研究は, 糖尿病データセットと4つの異なる機械学習モデル(LGBM, MLP, DT, KNN)を用いて実験を行い, テストデータの摂動レベルを異なるレベルで生成し, 最終的に, モデルの信頼性に関するeXirt法からの説明と, 前述のすべてのXAI法から有意なランク付けを行い, 摂動面の安定性を計測するパイプラインを作成する。 その結果、eXirtは使用したモデルの中で最も信頼性の高いモデルを特定することができた。 また、現在のXAI法は1つの特定の方法を除いて摂動に敏感であることがわかった。

Black box models are increasingly being used in the daily lives of human beings living in society. Along with this increase, there has been the emergence of Explainable Artificial Intelligence (XAI) methods aimed at generating additional explanations regarding how the model makes certain predictions. In this sense, methods such as Dalex, Eli5, eXirt, Lofo and Shap emerged as different proposals and methodologies for generating explanations of black box models in an agnostic way. Along with the emergence of these methods, questions arise such as "How Reliable and Stable are XAI Methods?". With the aim of shedding light on this main question, this research creates a pipeline that performs experiments using the diabetes dataset and four different machine learning models (LGBM, MLP, DT and KNN), creating different levels of perturbations of the test data and finally generates explanations from the eXirt method regarding the confidence of the models and also feature relevances ranks from all XAI methods mentioned, in order to measure their stability in the face of perturbations. As a result, it was found that eXirt was able to identify the most reliable models among all those used. It was also found that current XAI methods are sensitive to perturbations, with the exception of one specific method.
翻訳日:2024-07-04 14:06:19 公開日:2024-07-03
# 任意の$(n-1)$-パーティションにおける絡み合いのない強い量子非局所性

Strong quantum nonlocality without entanglement in every $(n-1)$-partition ( http://arxiv.org/abs/2407.03114v1 )

ライセンス: Link先を確認
Huaqi Zhou, Ting Gao, Fengli Yan, (参考訳) すべての分割において局所的に既約である直交積集合は、強い非局所性を持ち、多くの量子状態も必要である。 本稿では、任意の$n$-partite系において、強い量子非局所性を持つ直交積集合を構築し、$n$は3より大きい。 厳密な証明は、これらの集合がすべての$(n-1)$-パーティションにおいて局所的に既約であることを示している。 それらは、非局所性よりも強い性質を持ち、非局所性よりも少ない量子状態を持っているだけでなく、「Zhang et al [{Phys] の「一般多部類および高次元量子系の直交積状態の異なる強度非局所性を構築する方法」に対する正の答えでもある。 A \textbf{99}, 062108 (2019)} また,非局所性について,絡み合わずに理解を深めることができた。

Orthogonal product sets that are locally irreducible in every bipartition have the strongest nonlocality while also need a large number of quantum states. In this paper, we construct the orthogonal product sets with strong quantum nonlocality in any possible $n$-partite systems, where $n$ is greater than three. Rigorous proofs show that these sets are locally irreducible in every $(n-1)$-partition. They not only possess stronger properties than nonlocality and fewer quantum states than the strongest nonlocal sets, but also are positive answers to the open question "how to construct different strength nonlocality of orthogonal product states for general multipartite and high-dimensional quantum systems" of Zhang et al. [{Phys. Rev. A \textbf{99}, 062108 (2019)}]. Our results can also enhance one understanding for the nonlocality without entanglement.
翻訳日:2024-07-04 14:06:19 公開日:2024-07-03
# $L_p$-norm歪曲効率の良い逆攻撃

$L_p$-norm Distortion-Efficient Adversarial Attack ( http://arxiv.org/abs/2407.03115v1 )

ライセンス: Link先を確認
Chao Zhou, Yuan-Gen Wang, Zi-jia Wang, Xiangui Kang, (参考訳) 敵対的な例は、よく訓練されたモデルを誤分類する強力な能力を示している。 現在の主流の敵攻撃法は、$L_0$-norm、$L_2$-norm、$L_\infty$-normの歪みの1つしか考慮していない。 L_2$-normと$L_\infty$-normベースのメソッドは、常にすべてのピクセルに小さな摂動を拡散するため、敵防御に対する弱い頑丈さに悩まされる。 より現実的な逆境の摂動は、まばらで受け入れがたいものである。 本稿では,最小の$L_2$-norm損失を保有するだけでなく,$L_0$-norm歪みを著しく低減する,新しい$L_p$-norm歪み効率の対向攻撃を提案する。 この目的のために,まず最初に$L_2$-norm制約の下で最初の対向摂動を最適化し,次に初期摂動の次元非重要行列を構成する新しい最適化手法を設計する。 そのような次元不重要行列は、初期摂動の各次元の逆不重要度を示すことができる。 さらに,次元不重要行列に対する逆しきい値の新しい概念を導入する。 しきい値よりも重要でない初期摂動の次元は、全てゼロに設定され、$L_0$-normの歪みは大幅に減少する。 3つのベンチマークデータセットによる実験結果から, 提案手法が生成した逆数例は, 現状よりもL_0$-norm, $L_2$-normの歪みが低いことがわかった。 特にMNISTデータセットの場合、攻撃は8.1$\%$$L_2$-norm歪みを減らし、47$\%$ピクセルは未攻撃のままである。 このことは、対向的堅牢性と視覚的不受容性の観点から、提案手法が競合相手よりも優れていることを示す。

Adversarial examples have shown a powerful ability to make a well-trained model misclassified. Current mainstream adversarial attack methods only consider one of the distortions among $L_0$-norm, $L_2$-norm, and $L_\infty$-norm. $L_0$-norm based methods cause large modification on a single pixel, resulting in naked-eye visible detection, while $L_2$-norm and $L_\infty$-norm based methods suffer from weak robustness against adversarial defense since they always diffuse tiny perturbations to all pixels. A more realistic adversarial perturbation should be sparse and imperceptible. In this paper, we propose a novel $L_p$-norm distortion-efficient adversarial attack, which not only owns the least $L_2$-norm loss but also significantly reduces the $L_0$-norm distortion. To this aim, we design a new optimization scheme, which first optimizes an initial adversarial perturbation under $L_2$-norm constraint, and then constructs a dimension unimportance matrix for the initial perturbation. Such a dimension unimportance matrix can indicate the adversarial unimportance of each dimension of the initial perturbation. Furthermore, we introduce a new concept of adversarial threshold for the dimension unimportance matrix. The dimensions of the initial perturbation whose unimportance is higher than the threshold will be all set to zero, greatly decreasing the $L_0$-norm distortion. Experimental results on three benchmark datasets show that under the same query budget, the adversarial examples generated by our method have lower $L_0$-norm and $L_2$-norm distortion than the state-of-the-art. Especially for the MNIST dataset, our attack reduces 8.1$\%$ $L_2$-norm distortion meanwhile remaining 47$\%$ pixels unattacked. This demonstrates the superiority of the proposed method over its competitors in terms of adversarial robustness and visual imperceptibility.
翻訳日:2024-07-04 14:06:19 公開日:2024-07-03
# トラップイオン量子コンピュータにおけるハードウェア効率の変動量子アルゴリズム

Hardware-efficient variational quantum algorithm in trapped-ion quantum computer ( http://arxiv.org/abs/2407.03116v1 )

ライセンス: Link先を確認
J. -Z. Zhuang, Y. -K. Wu, L. -M. Duan, (参考訳) 本研究では, トラップイオン量子シミュレータ, HEA-TI に適したハードウェア効率の変動量子アルゴリズムアンサッツについて検討する。 我々は、全てのイオン間のプログラム可能な単一量子ビット回転と大域スピンスピン相互作用を活用し、従来のゲートベース手法における資源集約型2量子ビットゲートへの依存を減らす。 我々は、クラスタ状態のステートエンジニアリングにHEA-TIを適用し、必要な量子リソースのスケーリングを分析する。 また、HEA-TI を用いて化学分子の基底状態問題 $\mathrm{H_{2}}$, $\mathrm{LiH}$, $\mathrm{F_{2}}$ を解く。 本研究では,化学的精度を達成するために必要な量子コンピューティング資源を数値解析し,実測的な実験ノイズと統計的ゆらぎの下での性能について検討する。 このアンザッツの効率は UCCSD のような他の一般的な変分アンザイズに匹敵するもので、捕捉されたイオン量子シミュレータの実装は極めて容易である。 このアプローチは、短期量子コンピュータの応用のための強力なツールとして、ハードウェア効率の良いアンサッツを示す。

We study a hardware-efficient variational quantum algorithm ansatz tailored for the trapped-ion quantum simulator, HEA-TI. We leverage programmable single-qubit rotations and global spin-spin interactions among all ions, reducing the dependence on resource-intensive two-qubit gates in conventional gate-based methods. We apply HEA-TI to state engineering of cluster states and analyze the scaling of required quantum resources. We also apply HEA-TI to solve the ground state problem of chemical molecules $\mathrm{H_{2}}$, $\mathrm{LiH}$ and $\mathrm{F_{2}}$. We numerically analyze the quantum computing resources required to achieve chemical accuracy and examine the performance under realistic experimental noise and statistical fluctuation. The efficiency of this ansatz is shown to be comparable to other commonly used variational ansatzes like UCCSD, with the advantage of substantially easier implementation in the trapped-ion quantum simulator. This approach showcases the hardware-efficient ansatz as a powerful tool for the application of the near-term quantum computer.
翻訳日:2024-07-04 14:06:19 公開日:2024-07-03
# 72時間による食料不安全と国際移住の共進化の探索

A 72h exploration of the co-evolution of food insecurity and international migration ( http://arxiv.org/abs/2407.03117v1 )

ライセンス: Link先を確認
Duncan Cassells, Lorenzo Costantini, Ariel Flint Ashery, Shreyas Gadge, Diogo L. Pires, Miguel Á. Sánchez-Cortés, Arnaldo Santoro, Elisa Omodei, (参考訳) 安全で栄養豊かで十分な食料への物理的または経済的アクセスが欠如していると定義されている食品の安全性は、持続可能な開発のための2030年アジェンダの主要な課題の1つである。 食品の安全性は複雑な現象であり、環境、社会デマグラフィー、政治的出来事の相互作用から生じる。 これまでの研究では、気候変動、紛争、移住、食料安全保障のネクサスを家庭レベルで調査してきたが、これらの関係はいまだに国家レベルでは解明されていない。 この文脈では、2024年6月にマドリード大学カルロス3世で行われたコンプレクティティ72hワークショップにおいて、国際的移民フローと食料不安全の国家規模での共進化、送金、経済、紛争、気候状況の変化について検討した。 この目的のために,我々は,食料農業機関,世界銀行,国連経済社会省などの公立資料からデータを収集し,食料不安全と移動,移住・送還,送還・食料不安全の関係を分析した。 次に、これらの協会を結びつけて、食料不安全と国際移住の共進化をモデル化する枠組みを提案する。

Food insecurity, defined as the lack of physical or economic access to safe, nutritious and sufficient food, remains one of the main challenges of the 2030 Agenda for Sustainable Development. Food insecurity is a complex phenomenon, resulting from the interplay of environmental, socio-demographic, and political events. Previous work has investigated the nexus between climate change, conflict, migration and food security at the household level, however these relations are still largely unexplored at national scales. In this context, during the Complexity72h workshop, held at the Universidad Carlos III de Madrid in June 2024, we explored the co-evolution of international migration flows and food insecurity at the national scale, accounting for remittances, as well as for changes in the economic, conflict, and climate situation. To this aim, we gathered data from several publicly available sources (Food and Agriculture Organization, World Bank, and UN Department of Economic and Social Affairs) and analyzed the association between food insecurity and migration, migration and remittances, and remittances and food insecurity. We then propose a framework linking together these associations to model the co-evolution of food insecurity and international migrations.
翻訳日:2024-07-04 14:06:19 公開日:2024-07-03
# 機械学習は適応学習の課題と学習経路の個別化を解決できるか?オンライン学習プラットフォームにおけるフィールド実験

Can machine learning solve the challenge of adaptive learning and the individualization of learning paths? A field experiment in an online learning platform ( http://arxiv.org/abs/2407.03118v1 )

ライセンス: Link先を確認
Tim Klausmann, Marius Köppel, Daniel Schunk, Isabell Zipperle, (参考訳) デジタル技術に基づく学習内容の個別化は、大きな個人的および社会的利益をもたらす。 しかし、この個別化がどのように実装されるのかは未解決のままである。 この問題に対処するため、我々は大規模なデジタル自己学習プラットフォーム上でランダム化制御試験を実施している。 我々は,2つの畳み込みニューラルネットワークに基づくアルゴリズムを開発し,学習経路に応じて4,365ドルの学習者にタスクを割り当てる。 学習者は、グループベースの適応治療グループと個別適応治療グループという2つの治療グループと、1つのコントロールグループにランダム化される。 本研究は,学習者が提供する努力とプラットフォーム上でのパフォーマンスについて,これら3つのグループの違いを分析した。 我々のヌル結果は、学習経路の個別化に関連する複数の課題に光を当てた。

The individualization of learning contents based on digital technologies promises large individual and social benefits. However, it remains an open question how this individualization can be implemented. To tackle this question we conduct a randomized controlled trial on a large digital self-learning platform. We develop an algorithm based on two convolutional neural networks that assigns tasks to $4,365$ learners according to their learning paths. Learners are randomized into three groups: two treatment groups -- a group-based adaptive treatment group and an individual adaptive treatment group -- and one control group. We analyze the difference between the three groups with respect to effort learners provide and their performance on the platform. Our null results shed light on the multiple challenges associated with the individualization of learning paths.
翻訳日:2024-07-04 14:06:19 公開日:2024-07-03
# Entanglement-assisted aAuthhenated BB84 Protocol

Entanglement-assisted authenticated BB84 protocol ( http://arxiv.org/abs/2407.03119v1 )

ライセンス: Link先を確認
Pol Julià Farré, Vladlen Galetsky, Soham Ghosh, Janis Nötzel, Christian Deppe, (参考訳) この作業は、理想的ノイズレスシナリオと中程度のノイズの多いシナリオの両方において、最大絡み合ったペアの機能を利用する、新しいユーザサーバ認証手順を提供する。 さらに、よく知られたBB84量子通信プロトコルにインレイ化するのに便利な設計の特徴を活用している。 まず最初の提案の自明な拡張を定義し、そのようなタスク(対称スキーム)が非対称スキーム(非対称スキーム)として表されるものを見つけ出す。 さらに,伝送と記憶の両方にノイズモデルを用いることで,ユーザサーバ認証プロトコルの現実的なシミュレーションを実現している。 ノイズのないシナリオでは、我々の提案は気密であることを保証するが、ある程度のノイズを考慮すると、実際にそれを実装しようとする場合の課題となる。 我々は、正当なユーザーを偽造未遂と区別するために、ディープニューラルネットワークを実装し、同じタスクのために設計された単なる統計的アプローチよりも優れている。 この方式は成功率0.75で、ストレージ時間は$1$\mu s$、ユーザサーバ距離は$10$ kmである。

This work delivers a novel user-server authentication procedure exploiting the features of maximally entangled pairs in both an idealistic noiseless scenario and a moderately noisy one. Additionally, we leverage the specific features of our design, which are conveniently suited for inlaying it into the well known BB84 quantum communication protocol. We first define a trivial extension of our initial proposal allowing for such task (symmetric scheme) to then come up with what we denote as asymmetric scheme, better matching practicality. Furthermore, a realistic simulation of the user-server authentication protocol has been achieved by employing a noisy model for both transmission and storage, the latter relying on cavity-enhanced atomic-frequency comb (AFC) memories. While in a noiseless scenario our proposal is ensured to be airtight, considering a certain degree of noise poses a challenge when aiming to actually implement it. We have implemented a deep neural network to distinguish legitimate users from forgery attempts, outperforming a mere statistical approach designed for the same task. Such method achieved a success rate of 0.75 with storage times of $1$ $\mu s$ and a user-server distance of $10$ km.
翻訳日:2024-07-04 14:06:19 公開日:2024-07-03
# ランダムな測定による量子想像時間進化の加速

Accelerating quantum imaginary-time evolution with random measurements ( http://arxiv.org/abs/2407.03123v1 )

ライセンス: Link先を確認
Ioannis Kolotouros, David Joseph, Anand Kumar Narayanan, (参考訳) 量子想像時間進化(Quantum imaginary-time evolution, QITE)は、進化状態が基底状態と重なるときに収束が保証されるため、ハミルトンの温度状態や基底状態を作成するための有望なツールである。 しかし、パラメータ化量子回路を用いた実装は、進化における各ステップが量子フィッシャー情報行列(QFIM)を計算するために$\Theta(m^2)$状態の準備を必要とするため、$m$のパラメータの数が増えるため、実用的ではない。 本研究では,QFIMの迅速推定によりQITEを加速し,収束保証を可能な限り維持する。 この目的のために、パラメータ化状態が2次元設計で回転し、計算ベースで測定された場合、確率結果の偏微分クロス相関からQFIMを推定できることを証明した。 1つのサンプル推定には$\Theta(m)$状態の準備しか必要とせず、少数のサンプルが十分である場合のQFIMの迅速な推定に繋がる。 第2の家系はより自由を保ち、QFIMを古典的なフィッシャー情報行列(CFIM)に置き換える。 急速(過度に正確な)降下に最適化された極端な特殊ケースでは、1つのCFIMサンプルが描画される。 我々は急降下を証明して第2の推定者家族を正当化する。 これらの結果から,いくつかの分子系で実験を行い,基底状態の生成を目標としたランダムな計測想像時間進化(RMITE)アルゴリズムを提案する。

Quantum imaginary-time evolution (QITE) is a promising tool to prepare thermal or ground states of Hamiltonians, as convergence is guaranteed when the evolved state overlaps with the ground state. However, its implementation using a parameterized quantum circuit is impractical as the number of parameters $m$ increases, since each step in the evolution takes $\Theta(m^2)$ state preparations to calculate the quantum Fisher information matrix (QFIM). In this work, we accelerate QITE by rapid estimation of the QFIM, while conserving the convergence guarantees to the extent possible. To this end, we prove that if a parameterized state is rotated by a 2-design and measured in the computational basis, then the QFIM can be inferred from partial derivative cross correlations of the probability outcomes. One sample estimate costs only $\Theta(m)$ state preparations, leading to rapid QFIM estimation when a few samples suffice. The second family of estimators take greater liberties and replace QFIMs with averaged classical Fisher information matrices (CFIMs). In an extreme special case optimized for rapid (over accurate) descent, just one CFIM sample is drawn. We justify the second estimator family by proving rapid descent. Guided by these results, we propose the random-measurement imaginary-time evolution (RMITE) algorithm, which we showcase and test in several molecular systems, with the goal of preparing ground states.
翻訳日:2024-07-04 14:06:19 公開日:2024-07-03
# グラフ学習理論の基礎とフロンティア

Foundations and Frontiers of Graph Learning Theory ( http://arxiv.org/abs/2407.03125v1 )

ライセンス: Link先を確認
Yu Huang, Min Zhou, Menglin Yang, Zhen Wang, Muhan Zhang, Jie Wang, Hong Xie, Hao Wang, Defu Lian, Enhong Chen, (参考訳) グラフ学習の最近の進歩は、複雑な構造を持つデータを理解し分析する方法に革命をもたらした。 特に、グラフ表現を学習するために設計されたニューラルネットワークアーキテクチャであるグラフニューラルネットワーク(GNN)は、一般的なパラダイムとなっている。 これらのモデルは直感駆動設計や高度に複雑なコンポーネントによって特徴づけられ、コア概念を蒸留する理論分析フレームワークの中に配置することで、機能を改善する上で重要な原則を理解し、さらなる開発を導くのに役立つ。 この関心の高まりを踏まえ、本論文は、グラフ学習モデルに固有の近似と学習行動に関する理論的基礎とブレークスルーを包括的にまとめる。 表現力、一般化、最適化、過度な平滑化や過度なスキャッシングのようなユニークな現象といった基本的な側面に関する議論を通し、この論文はグラフ学習の進化を駆動する理論的基礎とフロンティアへと発展していった。 さらに、本記事ではいくつかの課題を提示し、可能なソリューションについてさらに議論を始める。

Recent advancements in graph learning have revolutionized the way to understand and analyze data with complex structures. Notably, Graph Neural Networks (GNNs), i.e. neural network architectures designed for learning graph representations, have become a popular paradigm. With these models being usually characterized by intuition-driven design or highly intricate components, placing them within the theoretical analysis framework to distill the core concepts, helps understand the key principles that drive the functionality better and guide further development. Given this surge in interest, this article provides a comprehensive summary of the theoretical foundations and breakthroughs concerning the approximation and learning behaviors intrinsic to prevalent graph learning models. Encompassing discussions on fundamental aspects such as expressiveness power, generalization, optimization, and unique phenomena such as over-smoothing and over-squashing, this piece delves into the theoretical foundations and frontier driving the evolution of graph learning. In addition, this article also presents several challenges and further initiates discussions on possible solutions.
翻訳日:2024-07-04 14:06:19 公開日:2024-07-03
# 大規模言語モデルの社会的バイアス評価は急激な変化を必要とする

Social Bias Evaluation for Large Language Models Requires Prompt Variations ( http://arxiv.org/abs/2407.03129v1 )

ライセンス: Link先を確認
Rem Hida, Masahiro Kaneko, Naoaki Okazaki, (参考訳) 警告: この論文はステレオタイプとバイアスの例を含む。 大規模言語モデル(LLM)は社会的偏見をかなり示しており、様々な研究がこれらの偏見を正確に評価・緩和しようと試みている。 従来の研究では、下流のタスクを評価と緩和のための社会的偏見の程度を調べるために用いた。 LLMの出力はプロンプトに大きく依存するが、これまでの研究では、バイアスの評価と緩和は、しばしば限られた種類のプロンプトに依存していた。 本稿では,LLMの課題性能と社会的偏りを分析し,迅速な変化(タスクの指示やプロンプト,少数ショット例,デビアス・プロンプト)を変化させる際のLCMの感度について検討する。 実験の結果, LLM はタスク性能と社会的バイアスのモデルを比較すると, LLM のランクが変動する程度に非常に敏感であることが判明した。 さらに, LLMには, プロンプトによる社会的偏見と性能のトレードオフがあることが示唆された。 プロンプト設定からのバイアスが少ないとパフォーマンスが低下する可能性がある。 さらに、インスタンスのあいまいさは、先進LLMにおけるプロンプトに対するこの感度の理由の1つであり、様々な出力をもたらす。 本研究は, LLMにおける社会的バイアスに対するプロンプトの効果を比較するために, 多様なプロンプトを使用することを推奨する。

Warning: This paper contains examples of stereotypes and biases. Large Language Models (LLMs) exhibit considerable social biases, and various studies have tried to evaluate and mitigate these biases accurately. Previous studies use downstream tasks as prompts to examine the degree of social biases for evaluation and mitigation. While LLMs' output highly depends on prompts, previous studies evaluating and mitigating bias have often relied on a limited variety of prompts. In this paper, we investigate the sensitivity of LLMs when changing prompt variations (task instruction and prompt, few-shot examples, debias-prompt) by analyzing task performance and social bias of LLMs. Our experimental results reveal that LLMs are highly sensitive to prompts to the extent that the ranking of LLMs fluctuates when comparing models for task performance and social bias. Additionally, we show that LLMs have tradeoffs between performance and social bias caused by the prompts. Less bias from prompt setting may result in reduced performance. Moreover, the ambiguity of instances is one of the reasons for this sensitivity to prompts in advanced LLMs, leading to various outputs. We recommend using diverse prompts, as in this study, to compare the effects of prompts on social bias in LLMs.
翻訳日:2024-07-04 13:56:35 公開日:2024-07-03
# 工業的異常検出と位置同定のための効率的な画素ラベリングに向けて

Towards Efficient Pixel Labeling for Industrial Anomaly Detection and Localization ( http://arxiv.org/abs/2407.03130v1 )

ライセンス: Link先を確認
Hanxi Li, Jingqi Wu, Lin Yuanbo, Hao Chen, Deyin Liu, Chunhua Shen, (参考訳) 実用的な異常検出(AD)タスクの領域では、異常画素の手動ラベリングはコストがかかる。 その結果、AD法の多くは一級分類器として作成され、トレーニングセットに完全に異常を欠くように調整され、よりコスト効率の良いアプローチが保証される。 いくつかの先駆的な研究は、トレーニングに実際の異常サンプルを組み込むことによってADの精度を高めることを示したが、この強化は労働集約的なラベリングプロセスの価格に繋がる。 本稿では,新しい対話的画像分割(Interactive Image Segmentation, IIS)アルゴリズムであるADClickを導入することにより,AD精度とラベリングコストのバランスをとる。 ADClickは、革新的な残像と巧妙に構築された言語プロンプトを利用して、実際の欠陥画像に対して「地中真実」の異常マスクを効率よく生成する。 特に、ADClickは既存の最先端IISアプローチと比較して、大幅に高度な一般化能力を示している。 ADClickは異常ラベル作成ツールとして機能し、トレーニング画像あたりの3ドルから5ドルの手動クリックアノテーションに基づいて高品質な異常ラベル(AP $=94.1\%$ on MVTec AD)を生成する。 さらに, ADClick の能力を ADClick-Seg に拡張する。 ADClick が推定する弱いラベルを用いて ADClick-Seg モデルを微調整することにより、教師付き AD タスクの最先端のパフォーマンスを確立する(AP $= 86.4\%$ on MVTec AD と AP $= 78.4\%$, PRO $= 98.6\%$ on KSDD2)。

In the realm of practical Anomaly Detection (AD) tasks, manual labeling of anomalous pixels proves to be a costly endeavor. Consequently, many AD methods are crafted as one-class classifiers, tailored for training sets completely devoid of anomalies, ensuring a more cost-effective approach. While some pioneering work has demonstrated heightened AD accuracy by incorporating real anomaly samples in training, this enhancement comes at the price of labor-intensive labeling processes. This paper strikes the balance between AD accuracy and labeling expenses by introducing ADClick, a novel Interactive Image Segmentation (IIS) algorithm. ADClick efficiently generates "ground-truth" anomaly masks for real defective images, leveraging innovative residual features and meticulously crafted language prompts. Notably, ADClick showcases a significantly elevated generalization capacity compared to existing state-of-the-art IIS approaches. Functioning as an anomaly labeling tool, ADClick generates high-quality anomaly labels (AP $= 94.1\%$ on MVTec AD) based on only $3$ to $5$ manual click annotations per training image. Furthermore, we extend the capabilities of ADClick into ADClick-Seg, an enhanced model designed for anomaly detection and localization. By fine-tuning the ADClick-Seg model using the weak labels inferred by ADClick, we establish the state-of-the-art performances in supervised AD tasks (AP $= 86.4\%$ on MVTec AD and AP $= 78.4\%$, PRO $= 98.6\%$ on KSDD2).
翻訳日:2024-07-04 13:56:35 公開日:2024-07-03
# MVGT:脳波認識のための空間関係に基づく多視点グラフ変換器

MVGT: A Multi-view Graph Transformer Based on Spatial Relations for EEG Emotion Recognition ( http://arxiv.org/abs/2407.03131v1 )

ライセンス: Link先を確認
Yanjie Cui, Xiaohong Liu, Jing Liang, Yamin Fu, (参考訳) 脳波(Electroencephalography、EEG)は、電極を介して脳構造物の頭皮電気活動を捉える医療画像技術である。 脳波の空間領域は感情情報に富んでいるが、空間領域の幾何学的・解剖学的構造から脳波の信号を同時に分析する研究はほとんどない。 本稿では,空間的関係に基づく多視点グラフ変換器を提案し,幾何学的・解剖学的構造を含む時間的・周波数的・空間的領域からの情報を統合することにより,モデルの表現力を包括的に向上させ,脳波チャネルの空間的情報を符号化としてモデルに組み込むことにより,チャネルの空間的構造を知覚する能力を向上させる。 一方, 公開データセットに基づく実験結果から, 提案手法は近年, 最先端の手法よりも優れていることが示された。 さらに、MVGTは複数の領域から情報を抽出し、脳波の感情認識タスクにおけるチャネル間関係を効果的に捉えることができることを示した。

Electroencephalography (EEG), a medical imaging technique that captures scalp electrical activity of brain structures via electrodes, has been widely used in affective computing. The spatial domain of EEG is rich in affective information.However, few of the existing studies have simultaneously analyzed EEG signals from multiple perspectives of geometric and anatomical structures in spatial domain. In this paper, we propose a multi-view Graph Transformer (MVGT) based on spatial relations, which integrates information from the temporal, frequency and spatial domains, including geometric and anatomical structures, so as to enhance the expressive power of the model comprehensively.We incorporate the spatial information of EEG channels into the model as encoding, thereby improving its ability to perceive the spatial structure of the channels. Meanwhile, experimental results based on publicly available datasets demonstrate that our proposed model outperforms state-of-the-art methods in recent years. In addition, the results also show that the MVGT could extract information from multiple domains and capture inter-channel relationships in EEG emotion recognition tasks effectively.
翻訳日:2024-07-04 13:56:35 公開日:2024-07-03
# 音声からの調音運動と音素アライメントの話者・テキスト非依存推定

Speaker- and Text-Independent Estimation of Articulatory Movements and Phoneme Alignments from Speech ( http://arxiv.org/abs/2407.03132v1 )

ライセンス: Link先を確認
Tobias Weise, Philipp Klumpp, Kubilay Can Demir, Paula Andrea Pérez-Toro, Maria Schuster, Elmar Noeth, Bjoern Heismann, Andreas Maier, Seung Hee Yang, (参考訳) 本稿では,従来別々に扱われていたAAIとPTAの動作推定という2つのタスクの組み合わせを紹介する。 本稿では,この共同作業を音響音素対調音音声インバージョン (APTAI) と呼び,推論中は音声とテキストに依存しない2つの異なるアプローチを探索する。 マルチタスク学習装置を用いて、生音声を入力とし、対応する調音運動、音素シーケンス、音素アライメントを推定する。 どちらの手法もこれらの要件を共有しているが、音素関連予測の方法が異なる。一方はフレーム分類、もう一方は2段階の訓練手順と強制アライメントに基づく。 我々は,AAIタスクの平均相関0.73に達し,最先端のテキスト依存音素力調整器と比較して,最大87%のフレームオーバーラップを実現した。

This paper introduces a novel combination of two tasks, previously treated separately: acoustic-to-articulatory speech inversion (AAI) and phoneme-to-articulatory (PTA) motion estimation. We refer to this joint task as acoustic phoneme-to-articulatory speech inversion (APTAI) and explore two different approaches, both working speaker- and text-independently during inference. We use a multi-task learning setup, with the end-to-end goal of taking raw speech as input and estimating the corresponding articulatory movements, phoneme sequence, and phoneme alignment. While both proposed approaches share these same requirements, they differ in their way of achieving phoneme-related predictions: one is based on frame classification, the other on a two-staged training procedure and forced alignment. We reach competitive performance of 0.73 mean correlation for the AAI task and achieve up to approximately 87% frame overlap compared to a state-of-the-art text-dependent phoneme force aligner.
翻訳日:2024-07-04 13:56:35 公開日:2024-07-03
# GMM-ResNext:話者検証のための生成モデルと識別モデルを組み合わせる

GMM-ResNext: Combining Generative and Discriminative Models for Speaker Verification ( http://arxiv.org/abs/2407.03135v1 )

ライセンス: Link先を確認
Hui Yan, Zhenchun Lei, Changhong Liu, Yong Zhou, (参考訳) ディープラーニングの発展に伴い、話者検証において多くの異なるネットワークアーキテクチャが検討されている。 しかし、ほとんどのネットワークアーキテクチャは1つのディープラーニングアーキテクチャに依存しており、異なるアーキテクチャを組み合わせたハイブリッドネットワークは、ASVタスクではほとんど研究されていない。 本稿では,話者検証のためのGMM-ResNextモデルを提案する。 従来のGMMでは、すべてのガウス成分における各フレーム特徴のスコア分布を考慮せず、隣接する音声フレーム間の関係を無視する。 そこで我々は,生音響特徴に基づいてガウス確率特徴を抽出し,ResNextベースのネットワークをバックボーンとして使用し,話者埋め込みを抽出する。 GMM-ResNextは、生成モデルと識別モデルを組み合わせて、ディープラーニングモデルの一般化能力を改善し、モデルパラメータに意味のある事前をより容易に特定できるようにする。 2つの性関連GMMに基づく2経路GMM-ResNextモデルも提案されている。 実験の結果,提案したGMM-ResNextは,VoxCeleb1-OテストセットのResNet34とECAPA-TDNNと比較して,EERの48.1\%と11.3\%の相対的な改善を実現していることがわかった。

With the development of deep learning, many different network architectures have been explored in speaker verification. However, most network architectures rely on a single deep learning architecture, and hybrid networks combining different architectures have been little studied in ASV tasks. In this paper, we propose the GMM-ResNext model for speaker verification. Conventional GMM does not consider the score distribution of each frame feature over all Gaussian components and ignores the relationship between neighboring speech frames. So, we extract the log Gaussian probability features based on the raw acoustic features and use ResNext-based network as the backbone to extract the speaker embedding. GMM-ResNext combines Generative and Discriminative Models to improve the generalization ability of deep learning models and allows one to more easily specify meaningful priors on model parameters. A two-path GMM-ResNext model based on two gender-related GMMs has also been proposed. The Experimental results show that the proposed GMM-ResNext achieves relative improvements of 48.1\% and 11.3\% in EER compared with ResNet34 and ECAPA-TDNN on VoxCeleb1-O test set.
翻訳日:2024-07-04 13:56:35 公開日:2024-07-03
# スーパーセレクション規則とボソニック量子計算資源

Superselection rules and bosonic quantum computational resources ( http://arxiv.org/abs/2407.03138v1 )

ライセンス: Link先を確認
Eloi Descamps, Nicolas Fabre, Astghik Saharyan, Arne Keller, Pérola Milman, (参考訳) 本稿では,ボゾン量子コンピュータにおいて生成する計算力に基づいて,量子光学的非古典的資源を体系的に同定し,分類する手法を提案する。 これを実現するために、多モードヒルベルト空間における任意の連続変数状態と、ボソニック量子コンピュータを定義するために用いられる1つのモードを占有する1つの光子とを1対1で対応付ける。 素数選択規則を明示的に尊重する表現において古典状態から始まり、同じ素数を持つ素数の任意の重ね合わせを生成するために普遍ゲートを適用する。 これらの状態の非古典性は、量子コンピュータで引き起こされる計算力と直接的に関連付けられる。 また、量子光学において、Fock状態の重畳が量子光学状態を記述する場合、採用されている表現と従来の表現との対応も提供し、モードの絡み合いが量子的優位性にどのように寄与するかを特定する。 さらに、量子光学の連続的な性質から離散的な性質へのシームレスな遷移の確立に寄与し、スピン系にも適用可能な非古典性および量子計算上の優位性の記述の基礎を築いた。

We present a method to systematically identify and classify quantum optical non-classical resources based on the computational power they generate in a bosonic quantum computer. To achieve this, we establish a one-to-one correspondence between arbitrary continuous variable states in a multimode Hilbert space and single photons occupying each a single mode, which are used to define a bosonic quantum computer. Starting from a classical state in a representation that explicitly respects particle number super-selection rules, we apply universal gates to create arbitrary superposition of states with the same total particle number. The non-classicality of these states can then be directly related to the computational power they induce in the quantum computer. We also provide a correspondence between the adopted representation and the more conventional one in quantum optics, where superpositions of Fock states describe quantum optical states, and we identify how mode entanglement can lead to quantum advantage. In addition, our work contributes to establish a seamless transition from continuous to discrete properties of quantum optics while laying the grounds for a description of non-classicality and quantum computational advantage that is applicable to spin systems as well.
翻訳日:2024-07-04 13:56:35 公開日:2024-07-03
# ランダムウォーク電位による量子力学的測定の誕生統計

Born statistics for quantum mechanical measurements from random walk potentials? ( http://arxiv.org/abs/2407.03139v1 )

ライセンス: Link先を確認
Frank Torres, (参考訳) シュロディンガー方程式は、ポテンシャルエネルギーが量子系をランダムウォーク(ランダムウォーク)させるときに、固有状態への進化のボルン統計をどのように予測するかについて議論する。 具体的には、ランダムウォークが、予測されるボルン確率の固有状態に近い任意に進化する測定中に量子状態にどのように影響するかを示す。 ランダムウォークは、シュロディンガー方程式の外部ポテンシャルに1対1の等価性を持つ時間依存ユニタリ行列 U(t) によって記述される。 解析が正しいと仮定すると、いくつかの興味深い疑問が生じる。 そのような物理で何か測定はできますか。 信頼性を保ちながらボルン統計から逸脱する測定統計を導出する計測装置を設計できるだろうか? 量子情報システムでは、量子ビットノイズとアルゴリズム設計に意味があるだろうか? これは進行中の作業の草案であり、非公式または公式なコラボレーションへの敬意を表した質問、コメント、提案、関心が歓迎される。

We discuss how the Schrodinger equation can predict Born statistics for evolution to eigenstates when a potential energy causes the quantum system to undergo a random walk. Specifically, we show how the random walk results in a quantum state during a measurement evolving arbitrarily close to eigenstates with the expected Born probabilities. The random walk is described in terms of the time-dependent unitary matrix U(t) that has a one-to-one equivalence to the external potential in Schrodinger's equation. Assuming the analysis is correct, some interesting questions arise. Are any measurements described by such physics? Can a measurement apparatus be designed that results in measurement statistics that deviate from Born statistics while still being a reliable measurement? For quantum information systems, are there implications for qubit noise and algorithm design? This is a draft of a work in progress, and respectful questions, comments, suggestions, or interest in informal or formal collaboration are welcome.
翻訳日:2024-07-04 13:56:35 公開日:2024-07-03
# レンジドップラーマップ画像からの追跡改善のための機械学習モデル

Machine Learning Models for Improved Tracking from Range-Doppler Map Images ( http://arxiv.org/abs/2407.03140v1 )

ライセンス: Link先を確認
Elizabeth Hou, Ross Greenwood, Piyush Kumar, (参考訳) 統計的追跡フィルタは、精度の高い目標測定と不確実性推定に頼っている。 本研究では,地中移動目標指標(GMTI)レーダのレンジ・ドップラー・マップ(RDM)画像におけるターゲット検出と不確実性推定のための新しい機械学習モデルを提案する。 これらのモデルを用いて,複雑な多目的空対地追跡シナリオに対して,複数の仮説トラッカーの性能を著しく向上させることができることを示す。

Statistical tracking filters depend on accurate target measurements and uncertainty estimates for good tracking performance. In this work, we propose novel machine learning models for target detection and uncertainty estimation in range-Doppler map (RDM) images for Ground Moving Target Indicator (GMTI) radars. We show that by using the outputs of these models, we can significantly improve the performance of a multiple hypothesis tracker for complex multi-target air-to-ground tracking scenarios.
翻訳日:2024-07-04 13:56:35 公開日:2024-07-03
# Venomancer:フェデレートラーニングにおける非知覚的かつ目標的バックドアアタックを目指して

Venomancer: Towards Imperceptible and Target-on-Demand Backdoor Attacks in Federated Learning ( http://arxiv.org/abs/2407.03144v1 )

ライセンス: Link先を確認
Son Nguyen, Thinh Nguyen, Khoa Doan, Kok-Seng Wong, (参考訳) Federated Learning(FL)は、分散型データソースのトレーニングによってデータのプライバシを維持する分散機械学習アプローチである。 集中型機械学習と同様に、FLもバックドア攻撃の影響を受けやすい。 FLのほとんどのバックドア攻撃は、事前に定義されたターゲットクラスを前提としており、多数のクライアントの制御や、良心的なクライアントの情報に関する知識を必要とする。 また、毒データに残されている鮮明な遺物により、人体検査により容易に検出される。 これらの課題を克服するために,我々は,効果的なバックドア攻撃であるVenomancerを提案する。 具体的には、視覚的損失関数を用いて、毒データを元のデータと視覚的に区別できるようにする。 Target-on-demandプロパティにより、攻撃者は条件付き逆行訓練によって任意のターゲットクラスを選択することができる。 さらに,Norm Clipping,Weak DP,Krum,Multi-Krumなど,最先端の防御に対して堅牢であることを示した。 ソースコードはhttps://anonymous.4open.science/r/Venomancer-3426で公開されている。

Federated Learning (FL) is a distributed machine learning approach that maintains data privacy by training on decentralized data sources. Similar to centralized machine learning, FL is also susceptible to backdoor attacks. Most backdoor attacks in FL assume a predefined target class and require control over a large number of clients or knowledge of benign clients' information. Furthermore, they are not imperceptible and are easily detected by human inspection due to clear artifacts left on the poison data. To overcome these challenges, we propose Venomancer, an effective backdoor attack that is imperceptible and allows target-on-demand. Specifically, imperceptibility is achieved by using a visual loss function to make the poison data visually indistinguishable from the original data. Target-on-demand property allows the attacker to choose arbitrary target classes via conditional adversarial training. Additionally, experiments showed that the method is robust against state-of-the-art defenses such as Norm Clipping, Weak DP, Krum, and Multi-Krum. The source code is available at https://anonymous.4open.science/r/Venomancer-3426.
翻訳日:2024-07-04 13:56:35 公開日:2024-07-03
# 並列データに基づく連続的事前学習による大規模言語モデルの翻訳精度向上

Enhancing Translation Accuracy of Large Language Models through Continual Pre-Training on Parallel Data ( http://arxiv.org/abs/2407.03145v1 )

ライセンス: Link先を確認
Minato Kondo, Takehito Utsuro, Masaaki Nagata, (参考訳) 本稿では,事前学習された大規模言語モデルを並列データ上で継続的に事前学習し,少量の高品質並列データを用いて微調整を行う2段階学習手法を提案する。 提案手法の有効性を検討するために,3.8Bパラメータモデルと8つの異なるフォーマットの並列データを用いた連続事前学習を行った。 日本語と英語と日本語の13種類のテストセットを用いて,これらの手法の評価を行った。 その結果、連続事前学習において並列データを利用する場合、ソースとターゲットの文を交互に扱うことが不可欠であることが示唆された。 さらに、ソースとターゲット文の順序が連続的な事前学習データと推論とを一致させる翻訳方向のみにおいて、翻訳精度が向上することが実証された。 さらに,LLMに基づく翻訳モデルは,音声翻訳においてより堅牢であり,教師付きエンコーダ・デコーダモデルと比較して訓練データが少ないほど精度が高いことを示す。 また、継続事前学習のためのデータがインターリーブされたソースとターゲット文で構成されており、タグがソース文に追加されている場合にも高い精度が得られることを示す。

In this paper, we propose a two-phase training approach where pre-trained large language models are continually pre-trained on parallel data and then supervised fine-tuned with a small amount of high-quality parallel data. To investigate the effectiveness of our proposed approach, we conducted continual pre-training with a 3.8B-parameter model and parallel data across eight different formats. We evaluate these methods on thirteen test sets for Japanese-to-English and English-to-Japanese translation. The results demonstrate that when utilizing parallel data in continual pre-training, it is essential to alternate between source and target sentences. Additionally, we demonstrated that the translation accuracy improves only for translation directions where the order of source and target sentences aligns between continual pre-training data and inference. In addition, we demonstrate that the LLM-based translation model is more robust in translating spoken language and achieves higher accuracy with less training data compared to supervised encoder-decoder models. We also show that the highest accuracy is achieved when the data for continual pre-training consists of interleaved source and target sentences and when tags are added to the source sentences.
翻訳日:2024-07-04 13:56:35 公開日:2024-07-03
# Stereo Risk: ステレオマッチングに対する継続的モデリングアプローチ

Stereo Risk: A Continuous Modeling Approach to Stereo Matching ( http://arxiv.org/abs/2407.03152v1 )

ライセンス: Link先を確認
Ce Liu, Suryansh Kumar, Shuhang Gu, Radu Timofte, Yao Yao, Luc Van Gool, (参考訳) 我々はコンピュータビジョンにおける古典的ステレオマッチング問題を解決するための新しいディープラーニングアプローチであるStereo Riskを紹介する。 ステレオマッチングが画素ごとの不均一性推定問題に起因していることはよく知られているため、一般的なステレオマッチング手法はシーンの異性値の回帰に大きく依存するが、シーンの異性値の離散化による。 このような離散化は、しばしばシーン深さの微妙で連続的な性質を捉えることに失敗する。 ステレオリスクは、シーンの格差を継続的なリスク最小化問題の最適解として定式化することで、従来の離散化アプローチから逸脱し、「ステレオリスク」と呼ばれる。 提案した連続リスク関数の$L^1$の最小化は、ディープネットワーク、特にマルチモーダル確率分布の相違に対してステレオマッチング性能を向上させることを実証する。 さらに、未分化な$L^1$リスク最適化のエンドツーエンドネットワークトレーニングを可能にするために、暗黙の関数定理を利用して、完全に微分可能なネットワークを確保する。 KITTI 2012、KITTI 2015、ETH3D、SceneFlow、Middlebury 2014など、さまざまなベンチマークデータセットにおける提案手法の理論的健全性と優れた性能を示す。

We introduce Stereo Risk, a new deep-learning approach to solve the classical stereo-matching problem in computer vision. As it is well-known that stereo matching boils down to a per-pixel disparity estimation problem, the popular state-of-the-art stereo-matching approaches widely rely on regressing the scene disparity values, yet via discretization of scene disparity values. Such discretization often fails to capture the nuanced, continuous nature of scene depth. Stereo Risk departs from the conventional discretization approach by formulating the scene disparity as an optimal solution to a continuous risk minimization problem, hence the name "stereo risk". We demonstrate that $L^1$ minimization of the proposed continuous risk function enhances stereo-matching performance for deep networks, particularly for disparities with multi-modal probability distributions. Furthermore, to enable the end-to-end network training of the non-differentiable $L^1$ risk optimization, we exploited the implicit function theorem, ensuring a fully differentiable network. A comprehensive analysis demonstrates our method's theoretical soundness and superior performance over the state-of-the-art methods across various benchmark datasets, including KITTI 2012, KITTI 2015, ETH3D, SceneFlow, and Middlebury 2014.
翻訳日:2024-07-04 13:56:35 公開日:2024-07-03
# タンパク質言語モデルを活用したシーケンス設計のための強化学習

Reinforcement Learning for Sequence Design Leveraging Protein Language Models ( http://arxiv.org/abs/2407.03154v1 )

ライセンス: Link先を確認
Jithendaraa Subramanian, Shivakanth Sujit, Niloy Irtisam, Umong Sain, Derek Nowrouzezahrai, Samira Ebrahimi Kahou, Riashat Islam, (参考訳) アミノ酸配列によって決定されるタンパク質配列の設計は、薬物発見におけるタンパク質工学の問題に不可欠である。 それまでのアプローチは、タンパク質設計の進化戦略やモンテカルロ法に頼っていたが、しばしば組み合わせ探索空間の構造を利用して、目に見えない配列に一般化することができなかった。 大規模な検索空間上での個別のブラックボックス最適化の文脈では、強化学習を伴う新規なシーケンスを生成する突然変異ポリシーを学習することが魅力的である。 タンパク質言語モデル(PLM)の最近の進歩は、タンパク質配列の大規模なコーパスに基づいて訓練され、その生物学的妥当性(TMスコアなど)に応じてタンパク質を評価することにより、この問題に対する潜在的な解決策を提供する。 本研究では,PLMを報酬関数として利用して新たなシーケンスを生成することを提案する。 しかし、PLMはその大きさが大きいため、クエリに計算コストがかかる可能性がある。 そこで本研究では,突然変異ポリシーを学習しながら,周期的に微調整された小さなプロキシモデルからスコアに対して最適化を行う方法を提案する。 我々は、RLに基づくアプローチをベンチマークするために、様々な配列長に関する広範な実験を行い、生物学的妥当性とタンパク質の多様性に関する包括的な評価を行った。 実験の結果,提案した配列の良好な評価,高い多様性のスコア,およびRLが生物配列設計の有力な候補であることが確認された。 最後に、モジュール化されたオープンソース実装を、ほとんどのRLトレーニングループに簡単に組み込むことができ、報酬モデルを他のPLMに置き換えることをサポートし、この領域におけるさらなる研究を促進することができる。 全ての実験のコードは補足材料で提供される。

Protein sequence design, determined by amino acid sequences, are essential to protein engineering problems in drug discovery. Prior approaches have resorted to evolutionary strategies or Monte-Carlo methods for protein design, but often fail to exploit the structure of the combinatorial search space, to generalize to unseen sequences. In the context of discrete black box optimization over large search spaces, learning a mutation policy to generate novel sequences with reinforcement learning is appealing. Recent advances in protein language models (PLMs) trained on large corpora of protein sequences offer a potential solution to this problem by scoring proteins according to their biological plausibility (such as the TM-score). In this work, we propose to use PLMs as a reward function to generate new sequences. Yet the PLM can be computationally expensive to query due to its large size. To this end, we propose an alternative paradigm where optimization can be performed on scores from a smaller proxy model that is periodically finetuned, jointly while learning the mutation policy. We perform extensive experiments on various sequence lengths to benchmark RL-based approaches, and provide comprehensive evaluations along biological plausibility and diversity of the protein. Our experimental results include favorable evaluations of the proposed sequences, along with high diversity scores, demonstrating that RL is a strong candidate for biological sequence design. Finally, we provide a modular open source implementation can be easily integrated in most RL training loops, with support for replacing the reward model with other PLMs, to spur further research in this domain. The code for all experiments is provided in the supplementary material.
翻訳日:2024-07-04 13:56:35 公開日:2024-07-03
# コードを編集するとき、LLMが自分で編集する

Let the Code LLM Edit Itself When You Edit the Code ( http://arxiv.org/abs/2407.03157v1 )

ライセンス: Link先を確認
Zhenyu He, Jun Zhang, Shengjie Luo, Jingjing Xu, Zhi Zhang, Di He, (参考訳) 本研究では、開発者が既存のコードをリアルタイムで編集し、コードアシスタント(例えば、大きな言語モデル)に次のトークンや次の行をオンザフライで予測するように要求するコード生成の典型的なシナリオについて検討する。 一般的に、LLMは正確な予測を提供するために、KVキャッシュ全体を再エンコードする必要がある。 しかし、このプロセスは特にシーケンス長が長い場合、計算コストがかかる。 編集されたサブシーケンスを単純にエンコードして元のKVキャッシュに統合するだけで、時間的混乱の問題が解決し、パフォーマンスが大幅に悪化する。 本稿では、この効率性と精度のトレードオフを、PIE(Shaunderline{\textbf{Positional \textbf{I}ntegrity \textbf{E}ncoding})を導入することによって解決する。 回転位置符号化に基づいて、PIEはまず、時間的混乱をもたらすキーキャッシュ内の回転行列を除去し、次に正しい回転行列を再適用する。 このプロセスはトークン間の位置関係が正しいことを保証し、1ラウンドの行列乗法しか必要としない。 我々は,RepoBench-C-8kデータセットの広範な実験を通じて,1.3B,6.7B,33BパラメータのDeepSeek-Coderモデルを用いてPIEの有効性を検証する。 私たちの評価には、コード挿入、コード削除、複数箇所のコード編集という3つの実世界のコーディングタスクが含まれています。 その結果、PIEは、モデル性能をよく評価しながら、すべてのモデルサイズとタスクにわたる標準的な完全再計算手法と比較して、計算オーバーヘッドを85%以上削減することを示した。

In this work, we investigate a typical scenario in code generation where a developer edits existing code in real time and requests a code assistant, e.g., a large language model, to re-predict the next token or next line on the fly. Naively, the LLM needs to re-encode the entire KV cache to provide an accurate prediction. However, this process is computationally expensive, especially when the sequence length is long. Simply encoding the edited subsequence and integrating it to the original KV cache meets the temporal confusion problem, leading to significantly worse performance. We address this efficiency and accuracy trade-off by introducing \underline{\textbf{Positional \textbf{I}ntegrity \textbf{E}ncoding} (PIE). Building upon the rotary positional encoding, PIE first removes the rotary matrices in the Key cache that introduce temporal confusion and then reapplies the correct rotary matrices. This process ensures that positional relationships between tokens are correct and requires only a single round of matrix multiplication. We validate the effectiveness of PIE through extensive experiments on the RepoBench-C-8k dataset, utilizing DeepSeek-Coder models with 1.3B, 6.7B, and 33B parameters. Our evaluation includes three real-world coding tasks: code insertion, code deletion, and multi-place code editing. Results demonstrate that PIE reduces computational overhead by over 85% compared to the standard full recomputation approach across all model sizes and tasks while well approximating the model performance.
翻訳日:2024-07-04 13:56:35 公開日:2024-07-03
# SOS! オープンソースの大規模言語モデルに対するソフトプロンプト攻撃

SOS! Soft Prompt Attack Against Open-Source Large Language Models ( http://arxiv.org/abs/2407.03160v1 )

ライセンス: Link先を確認
Ziqing Yang, Michael Backes, Yang Zhang, Ahmed Salem, (参考訳) オープンソースの大規模言語モデル(LLM)は、カスタマイズ、微調整、自由な使用が可能なため、一般大衆と業界の両方で人気が高まっている。 しかし、一部のオープンソースLLMは使用前に承認を必要としており、サードパーティが容易にアクセスできるバージョンを公開している。 同様に、サードパーティはこれらのLSMの微調整または量子化された変種を公表している。 これらのバージョンは、アクセスの容易さと計算リソースの要求の低減により、特にユーザにとって魅力的である。 この傾向は、LLMの完全性とセキュリティを損なうことなく、トレーニングタイムアタックのリスクを高めている。 本研究では,計算負荷が低く,クリーンなデータやモデル重みの変更を必要とせず,モデルの有用性を維持できる新たなトレーニングタイムアタックであるSOSを提案する。 この攻撃は、バックドア攻撃、ジェイルブレイク攻撃、迅速な盗難攻撃など、さまざまなシナリオにおけるセキュリティ問題に対処する。 実験結果から, 提案した攻撃は全目標に対して有効であることが示唆された。 さらに、当社のSOSテクニックの反対側、すなわち著作権トークン(著作権トークン)を提示します。

Open-source large language models (LLMs) have become increasingly popular among both the general public and industry, as they can be customized, fine-tuned, and freely used. However, some open-source LLMs require approval before usage, which has led to third parties publishing their own easily accessible versions. Similarly, third parties have been publishing fine-tuned or quantized variants of these LLMs. These versions are particularly appealing to users because of their ease of access and reduced computational resource demands. This trend has increased the risk of training time attacks, compromising the integrity and security of LLMs. In this work, we present a new training time attack, SOS, which is designed to be low in computational demand and does not require clean data or modification of the model weights, thereby maintaining the model's utility intact. The attack addresses security issues in various scenarios, including the backdoor attack, jailbreak attack, and prompt stealing attack. Our experimental findings demonstrate that the proposed attack is effective across all evaluated targets. Furthermore, we present the other side of our SOS technique, namely the copyright token -- a novel technique that enables users to mark their copyrighted content and prevent models from using it.
翻訳日:2024-07-04 13:56:35 公開日:2024-07-03
# 量子ドットと共振器による電子-電子エネルギー移動のシミュレーション

Simulating electron-vibron energy transfer with quantum dots and resonators ( http://arxiv.org/abs/2407.03161v1 )

ライセンス: Link先を確認
Cecilie Hermansen, Mara Caltapanides, Volker Meden, Jens Paaske, (参考訳) ゲート可能な半導体量子ドット(QD)は、電子多体系のアナログ量子シミュレーションのための汎用的なプラットフォームを提供する。 特にQD配列は、小さな炭化水素の相互作用する$\pi$電子系の自然な表現を提供する。 本稿では,QDシミュレータを核自由度にまで拡張する可能性について検討する。 単一モードマイクロ波共振器をQDに容量的に結合させることにより分子振動モードを表現し、電圧バイアストリプル量子ドット(TQD)系から単一減衰共振器モードへのゲート可変エネルギー移動について検討する。 我々は、リンドブラッドマスター方程式とケルディシュグリーン関数の最小階摂動理論を用いて、QD集団の反転、対応する電荷およびエネルギー電流、および共振器光子数を決定する。 中心的な結果は、TQD電子系の分子軌道におけるゲート可変干渉効果から生じる、電荷電流における顕著な最小値とエネルギー移動の最大値との相互関係である。

Gateable semiconductor quantum dots (QDs) provide a versatile platform for analog quantum simulations of electronic many-body systems. In particular, QD arrays offer a natural representation of the interacting $\pi$-electron system of small hydrocarbons. Here we investigate the prospects for extending QD simulators to encompass also the nuclear degrees of freedom. We represent the molecular vibrational modes by single-mode microwave resonators coupled capacitively to the QDs and study the gate-tunable energy transfer from a voltage-biased triple quantum dot (TQD) system to a single damped resonator mode. We determine the QD population inversions, the corresponding charge and energy currents as well as the resonator photon number, using Lindblad master equations and lowest-order perturbation theory within Keldysh Green function formalism. Along the way, we discuss the merits and shortcomings of the two methods.A central result is the interrelation of a pronounced minimum in the charge current with a maximum in energy transfer, arising from a gate-tunable interference effect in the molecular orbitals of the TQD electron system.
翻訳日:2024-07-04 13:56:35 公開日:2024-07-03
# Bunny-VisionPro:Imitation Learningのためのリアルタイム双方向遠隔操作

Bunny-VisionPro: Real-Time Bimanual Dexterous Teleoperation for Imitation Learning ( http://arxiv.org/abs/2407.03162v1 )

ライセンス: Link先を確認
Runyu Ding, Yuzhe Qin, Jiyue Zhu, Chengzhe Jia, Shiqi Yang, Ruihan Yang, Xiaojuan Qi, Xiaolong Wang, (参考訳) 遠隔操作は人間のデモを集める上で重要なツールだが、ロボットを両手で操作することは依然として課題だ。 既存の遠隔操作システムは、複雑な操作のために両手を協調する複雑さを扱うのに苦労している。 本稿では,VRヘッドセットを活用したリアルタイム双方向デキスタラス遠隔操作システムであるBunny-VisionProを紹介する。 従来のビジョンベースの遠隔操作システムとは異なり、我々は新しい低コストデバイスを設計し、オペレーターに触覚フィードバックを提供し、没入性を高めた。 本システムは,革新的設計によるリアルタイム性能を維持しつつ,衝突や特異点回避を組み込むことで安全性を優先する。 Bunny-VisionProは、標準的なタスクスイートで以前のシステムよりも優れており、より高い成功率とタスク完了時間の短縮を実現している。 さらに、高品質な遠隔操作デモにより、下流での模倣学習性能が向上し、一般化性が向上する。 特に、Bunny-VisionProは、従来の作業ではめったに扱わなかった、多段階の長時間水平な操作タスクに挑戦する模倣学習を可能にする。 安全性とリアルタイム性能を優先しながら双方向操作を処理できるシステムの能力は、巧妙な操作と模倣学習を促進する強力なツールとなる。

Teleoperation is a crucial tool for collecting human demonstrations, but controlling robots with bimanual dexterous hands remains a challenge. Existing teleoperation systems struggle to handle the complexity of coordinating two hands for intricate manipulations. We introduce Bunny-VisionPro, a real-time bimanual dexterous teleoperation system that leverages a VR headset. Unlike previous vision-based teleoperation systems, we design novel low-cost devices to provide haptic feedback to the operator, enhancing immersion. Our system prioritizes safety by incorporating collision and singularity avoidance while maintaining real-time performance through innovative designs. Bunny-VisionPro outperforms prior systems on a standard task suite, achieving higher success rates and reduced task completion times. Moreover, the high-quality teleoperation demonstrations improve downstream imitation learning performance, leading to better generalizability. Notably, Bunny-VisionPro enables imitation learning with challenging multi-stage, long-horizon dexterous manipulation tasks, which have rarely been addressed in previous work. Our system's ability to handle bimanual manipulations while prioritizing safety and real-time performance makes it a powerful tool for advancing dexterous manipulation and imitation learning.
翻訳日:2024-07-04 13:46:50 公開日:2024-07-03
# 小児リストフラクチャー検出のためのYOLOv8のグローバルコンテキストモデリング

Global Context Modeling in YOLOv8 for Pediatric Wrist Fracture Detection ( http://arxiv.org/abs/2407.03163v1 )

ライセンス: Link先を確認
Rui-Yang Ju, Chun-Tse Chien, Chia-Min Lin, Jen-Shiun Chiang, (参考訳) 小児は日常的に手首を負傷することが多いが、骨折を負った放射線科医は外科治療の前にX線画像を分析し解釈する必要がある。 ディープラーニングの開発により、ニューラルネットワークモデルはコンピュータ支援診断(CAD)ツールとして機能し、医師や専門家の診断を支援することができる。 YOLOv8モデルは, 対象検出タスクにおいて良好な成功を収めたので, フラクチャー検出に応用されている。 Global Context(GC)ブロックは、グローバルコンテキストを軽量な方法で効果的にモデル化し、YOLOv8に組み込むことで、モデルパフォーマンスを大幅に改善する。 本稿では,GCブロックを用いたYOLOv8モデルの改良版であるYOLOv8+GCモデルを提案する。 実験結果から,提案したYOLOv8-GCモデルと比較すると,GRAZPEDWRI-DXデータセット上で0.5(mAP 50)の結合閾値の交差平均精度が63.58%から66.32%に向上し,SOTA(State-of-the-art)レベルが達成された。 この作業の実装コードはGitHubでhttps://github.com/RuiyangJu/YOLOv8_Global_Context_Fracture_Detectionで公開されている。

Children often suffer wrist injuries in daily life, while fracture injuring radiologists usually need to analyze and interpret X-ray images before surgical treatment by surgeons. The development of deep learning has enabled neural network models to work as computer-assisted diagnosis (CAD) tools to help doctors and experts in diagnosis. Since the YOLOv8 models have obtained the satisfactory success in object detection tasks, it has been applied to fracture detection. The Global Context (GC) block effectively models the global context in a lightweight way, and incorporating it into YOLOv8 can greatly improve the model performance. This paper proposes the YOLOv8+GC model for fracture detection, which is an improved version of the YOLOv8 model with the GC block. Experimental results demonstrate that compared to the original YOLOv8 model, the proposed YOLOv8-GC model increases the mean average precision calculated at intersection over union threshold of 0.5 (mAP 50) from 63.58% to 66.32% on the GRAZPEDWRI-DX dataset, achieving the state-of-the-art (SOTA) level. The implementation code for this work is available on GitHub at https://github.com/RuiyangJu/YOLOv8_Global_Context_Fracture_Detection.
翻訳日:2024-07-04 13:46:50 公開日:2024-07-03
# 境界積分によるマニフォールド表面の連続点配向

Consistent Point Orientation for Manifold Surfaces via Boundary Integration ( http://arxiv.org/abs/2407.03165v1 )

ライセンス: Link先を確認
Weizhou Liu, Xingce Wang, Haichuan Zhao, Xingfei Xue, Zhongke Wu, Xuequan Lu, Ying He, (参考訳) 本稿では,多様体表面から採取した点雲に対して,一様に一貫した正規分布を生成するための新しい手法を提案する。 グローバルに一貫した正規性を持つ点雲によって生成される一般化巻数(GWN)場が、ジャンプ境界条件を持つPDEの解であり、調和性を持ち、GWN場のディリクレエネルギーを境界面上の積分として定義できることを考えると、GWNのディリクレエネルギーから導かれる境界エネルギーを定式化する。 ランダムに向き付けられた正規項を持つ点雲を入力として、このエネルギーを最適化して、GWN場の大域的調和性を回復し、大域的に一貫した正規項を回復する。 実験により,本手法は最先端の手法より優れ,ノイズ,外れ値,複雑なトポロジ,細い構造に対する強靭性を示した。 我々のコードは \url{https://github.com/liuweizhou319/BIM} にある。

This paper introduces a new approach for generating globally consistent normals for point clouds sampled from manifold surfaces. Given that the generalized winding number (GWN) field generated by a point cloud with globally consistent normals is a solution to a PDE with jump boundary conditions and possesses harmonic properties, and the Dirichlet energy of the GWN field can be defined as an integral over the boundary surface, we formulate a boundary energy derived from the Dirichlet energy of the GWN. Taking as input a point cloud with randomly oriented normals, we optimize this energy to restore the global harmonicity of the GWN field, thereby recovering the globally consistent normals. Experiments show that our method outperforms state-of-the-art approaches, exhibiting enhanced robustness to noise, outliers, complex topologies, and thin structures. Our code can be found at \url{https://github.com/liuweizhou319/BIM}.
翻訳日:2024-07-04 13:46:50 公開日:2024-07-03
# LivePortrait: ストッチとリターゲット制御による効率的なポートレートアニメーション

LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control ( http://arxiv.org/abs/2407.03168v1 )

ライセンス: Link先を確認
Jianzhu Guo, Dingyun Zhang, Xiaoqiang Liu, Zhizhou Zhong, Yuan Zhang, Pengfei Wan, Di Zhang, (参考訳) ポートレートアニメーション(Portrait Animation)は、1つのソースイメージからライフライクな映像を合成することを目的としており、映像、音声、テキスト、世代から派生した動き(表情、頭ポーズなど)を用いて外観参照として利用する。 主流の拡散に基づく手法に従う代わりに、暗黙のキーポイントに基づくフレームワークの可能性を探求し、拡張し、計算効率と制御性を効果的にバランスさせる。 そこで我々はLivePortraitという動画駆動のポートレート・アニメーション・フレームワークを開発した。 生成品質と一般化能力を向上させるため、トレーニングデータを約6900万の高品質フレームにスケールアップし、画像とビデオの混合トレーニング戦略を採用し、ネットワークアーキテクチャをアップグレードし、より優れた動き変換と最適化の目標を設計する。 さらに,コンパクトな暗黙のキーポイントはブレンドサップの一種を効果的に表現することができ,その制御性を高めるために,最小限の計算オーバーヘッドを持つMLPを利用する縫合モジュールと2つの再ターゲティングモジュールを巧みに提案することを発見した。 実験により,拡散法と比較しても本フレームワークの有効性が示された。 生成速度は、PyTorchでRTX 4090 GPU上で12.8msに達する。 推論コードとモデルはhttps://github.com/KwaiVGI/LivePortraitで公開されている。

Portrait Animation aims to synthesize a lifelike video from a single source image, using it as an appearance reference, with motion (i.e., facial expressions and head pose) derived from a driving video, audio, text, or generation. Instead of following mainstream diffusion-based methods, we explore and extend the potential of the implicit-keypoint-based framework, which effectively balances computational efficiency and controllability. Building upon this, we develop a video-driven portrait animation framework named LivePortrait with a focus on better generalization, controllability, and efficiency for practical usage. To enhance the generation quality and generalization ability, we scale up the training data to about 69 million high-quality frames, adopt a mixed image-video training strategy, upgrade the network architecture, and design better motion transformation and optimization objectives. Additionally, we discover that compact implicit keypoints can effectively represent a kind of blendshapes and meticulously propose a stitching and two retargeting modules, which utilize a small MLP with negligible computational overhead, to enhance the controllability. Experimental results demonstrate the efficacy of our framework even compared to diffusion-based methods. The generation speed remarkably reaches 12.8ms on an RTX 4090 GPU with PyTorch. The inference code and models are available at https://github.com/KwaiVGI/LivePortrait
翻訳日:2024-07-04 13:46:50 公開日:2024-07-03
# 音声からテキストへの翻訳のためのデコーダのみの大規模言語モデルの検討

Investigating Decoder-only Large Language Models for Speech-to-text Translation ( http://arxiv.org/abs/2407.03169v1 )

ライセンス: Link先を確認
Chao-Wei Huang, Hui Lu, Hongyu Gong, Hirofumi Inaguma, Ilia Kulikov, Ruslan Mavlyutov, Sravya Popuri, (参考訳) 言語モデル(LLM)は、様々な領域にわたる例外的な推論能力、一般化可能性、および流布性で知られ、音声関連タスクを強化するための有望な道を示す。 本稿では,テキスト翻訳作業(S2TT)にデコーダのみのLLMを統合することに焦点を当てる。 我々は,LLMが直接符号化された音声表現を消費し,テキスト翻訳を生成することができるデコーダのみのアーキテクチャを提案する。 さらに,パラメータ効率の異なる微調整手法とタスク定式化の効果について検討した。 本モデルでは,プロプライエタリなデータを必要としないモデル間で,CoVoST 2およびFLEURSの最先端性能を実現する。 また,提案モデルの設計選択を検証し,LLMのS2TTへの統合について考察する。

Large language models (LLMs), known for their exceptional reasoning capabilities, generalizability, and fluency across diverse domains, present a promising avenue for enhancing speech-related tasks. In this paper, we focus on integrating decoder-only LLMs to the task of speech-to-text translation (S2TT). We propose a decoder-only architecture that enables the LLM to directly consume the encoded speech representation and generate the text translation. Additionally, we investigate the effects of different parameter-efficient fine-tuning techniques and task formulation. Our model achieves state-of-the-art performance on CoVoST 2 and FLEURS among models trained without proprietary data. We also conduct analyses to validate the design choices of our proposed model and bring insights to the integration of LLMs to S2TT.
翻訳日:2024-07-04 13:46:50 公開日:2024-07-03
# IMC 2024 Methods & Solutions レビュー

IMC 2024 Methods & Solutions Review ( http://arxiv.org/abs/2407.03172v1 )

ライセンス: Link先を確認
Shyam Gupta, Dhanisha Sharma, Songling Huang, (参考訳) 過去3年間、Kaggleは画像マッチングチャレンジ(Image Matching Challenge)を開催してきた。 このコンペティションは毎年、参加者による革新的で効果的な方法論の開発を促進する。 本稿では,1000人以上の参加者のうち,160人目のポジションを確保するため,私的リーダーボード上で0.153449のスコアを達成し,高度なアンサンブル手法を提案する。 さらに、コンペティションにおけるトップパフォーマンスチームによって採用されている既存の手法とテクニックの包括的なレビューを実施します。 我々のソリューションは、他の主要なアプローチからの洞察とともに、3D画像再構成の分野における継続的な進歩に寄与する。 この研究は、画像マッチングや再構築の課題に長けることを目指して、将来の参加者や研究者に貴重な知識を提供する。

For the past three years, Kaggle has been hosting the Image Matching Challenge, which focuses on solving a 3D image reconstruction problem using a collection of 2D images. Each year, this competition fosters the development of innovative and effective methodologies by its participants. In this paper, we introduce an advanced ensemble technique that we developed, achieving a score of 0.153449 on the private leaderboard and securing the 160th position out of over 1,000 participants. Additionally, we conduct a comprehensive review of existing methods and techniques employed by top-performing teams in the competition. Our solution, alongside the insights gathered from other leading approaches, contributes to the ongoing advancement in the field of 3D image reconstruction. This research provides valuable knowledge for future participants and researchers aiming to excel in similar image matching and reconstruction challenges.
翻訳日:2024-07-04 13:46:50 公開日:2024-07-03
# 変更検出のためのCNN-Transformer Fusion Networkの関連性

Relating CNN-Transformer Fusion Network for Change Detection ( http://arxiv.org/abs/2407.03178v1 )

ライセンス: Link先を確認
Yuhao Gao, Gensheng Pei, Mengmeng Sheng, Zeren Sun, Tao Chen, Yazhou Yao, (参考訳) ディープラーニング、特に畳み込みニューラルネットワーク(CNN)は、リモートセンシング(RS)変更検出(CD)に革命をもたらしたが、既存のアプローチでは、グローバルコンテキストの無視と不完全な変更学習のために重要な機能を欠いていることが多い。 さらに、トランスフォーマーネットワークは低レベルの詳細に苦しむ。 RCTNetはこれらの制限に対処し、早期融合バックボーンを導入して、早期に空間的特徴と時間的特徴の両方を活用する。 \textbf{(2)} 時間的表現を強化するクロスステージアグリゲーション (CSA) モジュール、デコーダにおける特徴抽出を充実させるマルチスケール・フィーチャーフュージョン (MSF) モジュール、そして、トランスフォーマを利用してグローバル情報と正確な変更検出を行うための詳細を詳細に記述したESA (Efficient Self-Deciphering Attention) モジュール。 大規模な実験では、従来のRS画像CD法よりもRCTNetの方が明確な優位性を示し、精度と計算コストの最適なバランスを示す。

While deep learning, particularly convolutional neural networks (CNNs), has revolutionized remote sensing (RS) change detection (CD), existing approaches often miss crucial features due to neglecting global context and incomplete change learning. Additionally, transformer networks struggle with low-level details. RCTNet addresses these limitations by introducing \textbf{(1)} an early fusion backbone to exploit both spatial and temporal features early on, \textbf{(2)} a Cross-Stage Aggregation (CSA) module for enhanced temporal representation, \textbf{(3)} a Multi-Scale Feature Fusion (MSF) module for enriched feature extraction in the decoder, and \textbf{(4)} an Efficient Self-deciphering Attention (ESA) module utilizing transformers to capture global information and fine-grained details for accurate change detection. Extensive experiments demonstrate RCTNet's clear superiority over traditional RS image CD methods, showing significant improvement and an optimal balance between accuracy and computational cost.
翻訳日:2024-07-04 13:46:50 公開日:2024-07-03
# 動きは注意に合う:ビデオモーションのプロンプト

Motion meets Attention: Video Motion Prompts ( http://arxiv.org/abs/2407.03179v1 )

ライセンス: Link先を確認
Qixiang Chen, Lei Wang, Piotr Koniusz, Tom Gedeon, (参考訳) ビデオには豊富な時空間情報が含まれている。 アクション認識などのタスクで使用される伝統的な動作抽出法は、しばしば正確な動作特徴よりも視覚的内容に依存している。 この現象は「ブラインドモーション抽出」挙動と呼ばれ、動き誘導手段の欠如により、興味ある動きを捉えるのに非効率であることが証明される。 近年,注意機構は視覚領域を効果的に強調することにより,多くのコンピュータビジョンタスクを強化している。 そこで本研究では,学習可能な傾きとシフトパラメータを持つ修正シグモイド関数を,フレーム差分マップから得られる動き信号を活性化・変調するアテンション機構として用いることを提案する。 このアプローチは、モーション関連ビデオコンテンツの処理を強化するアテンションマップのシーケンスを生成する。 注意マップの時間的連続性と平滑性を確保するため,重要な動きを保ちながら不要な動き(例えば雑音)を除去するために,ペアワイズ時間的注意変動正則化を適用した。 次に、各注目マップとオリジナルのビデオフレームの間にアダマール製品を実行し、時間とともに進化する関心の動きを強調します。 これらの強調された動き、いわゆるビデオモーションプロンプトは、その後、オリジナルのビデオフレームの代わりにモデルへの入力として使用される。 我々はこのプロセスをモーションプロンプト層として形式化し、正規化項をロス関数に組み込んで、より良いモーションプロンプトを学習する。 この層は、モデルとビデオデータの間のアダプタとして機能し、従来の「ブラインドモーション抽出」と関連する動きの抽出のギャップを埋める。

Videos contain rich spatio-temporal information. Traditional methods for extracting motion, used in tasks such as action recognition, often rely on visual contents rather than precise motion features. This phenomenon is referred to as 'blind motion extraction' behavior, which proves inefficient in capturing motions of interest due to a lack of motion-guided cues. Recently, attention mechanisms have enhanced many computer vision tasks by effectively highlighting salient visual areas. Inspired by this, we propose using a modified Sigmoid function with learnable slope and shift parameters as an attention mechanism to activate and modulate motion signals derived from frame differencing maps. This approach generates a sequence of attention maps that enhance the processing of motion-related video content. To ensure temporally continuity and smoothness of the attention maps, we apply pair-wise temporal attention variation regularization to remove unwanted motions (e.g., noise) while preserving important ones. We then perform Hadamard product between each pair of attention maps and the original video frames to highlight the evolving motions of interest over time. These highlighted motions, termed video motion prompts, are subsequently used as inputs to the model instead of the original video frames. We formalize this process as a motion prompt layer and incorporate the regularization term into the loss function to learn better motion prompts. This layer serves as an adapter between the model and the video data, bridging the gap between traditional 'blind motion extraction' and the extraction of relevant motions of interest.
翻訳日:2024-07-04 13:46:50 公開日:2024-07-03
# 大規模階層型集団合成のための多目的組合せ最適化フレームワーク

A multi-objective combinatorial optimisation framework for large scale hierarchical population synthesis ( http://arxiv.org/abs/2407.03180v1 )

ライセンス: Link先を確認
Imran Mahmood, Nicholas Bishop, Anisoara Calinescu, Michael Wooldridge, Ioannis Zachos, (参考訳) エージェントベースのシミュレーションでは、エージェントの合成集団は個人の構造、行動、相互作用を表現するために一般的に使用される。 しかし、実際の人口統計を正確に反映した合成人口を生成することは、特に大規模に実施する場合の課題である。 本稿では,大規模集団合成のための多目的組合せ最適化手法を提案する。 提案手法の有効性を, 実人口データから, 選択された地域に対する合成人口を生成し, 同時性表上で検証することで実証する。 提案手法は, 個人と世帯間の複雑な階層構造をサポートし, 人口に対してスケーラブルであり, 連続表復元誤差の最小化を実現する。 したがって、複雑な人口の動態をシミュレートするための政策立案者や研究者に有用なツールを提供する。

In agent-based simulations, synthetic populations of agents are commonly used to represent the structure, behaviour, and interactions of individuals. However, generating a synthetic population that accurately reflects real population statistics is a challenging task, particularly when performed at scale. In this paper, we propose a multi objective combinatorial optimisation technique for large scale population synthesis. We demonstrate the effectiveness of our approach by generating a synthetic population for selected regions and validating it on contingency tables from real population data. Our approach supports complex hierarchical structures between individuals and households, is scalable to large populations and achieves minimal contigency table reconstruction error. Hence, it provides a useful tool for policymakers and researchers for simulating the dynamics of complex populations.
翻訳日:2024-07-04 13:46:50 公開日:2024-07-03
# 思考の多様性を持つ微調整は言語モデルにおける自己補正を通して推論する

Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models ( http://arxiv.org/abs/2407.03181v1 )

ライセンス: Link先を確認
Haritz Puerto, Tilek Chubakov, Xiaodan Zhu, Harish Tayyar Madabushi, Iryna Gurevych, (参考訳) 中間推論ステップを生成するために大規模言語モデルを必要とすることは、パフォーマンスを高める効果的な方法であることが示されている。 実際、これらの中間的推論ステップのチューニングがモデル性能を向上させることが判明した。 本研究では,一つの推論ステップで解を生成する前に,複数の推論チェーンをモデルで比較することで,さらなる性能向上を実現する手法を提案する。 この手法を Divergent CoT (DCoT) と呼ぶ。 DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすいLLMの性能が向上することがわかった。 様々な推論タイプを必要とする幅広いタスクにまたがる厳密な実験を通して、DCoTの微調整はモデルファミリとスケール(1.3Bから70B)をまたいだCoTベースラインにおけるパフォーマンスを一貫して改善することを示した。 経験的評価と手動評価の組み合わせにより、これらの性能向上は、言語モデルにおける自己補正の実現を示唆する1つの推論ステップにおいて、複数の発散した推論連鎖を生成するモデルに由来することを示す。 私たちのコードとデータはhttps://github.com/UKPLab/arxiv2024-divergent-cot.comで公開されています。

Requiring a Large Language Model to generate intermediary reasoning steps has been shown to be an effective way of boosting performance. In fact, it has been found that instruction tuning on these intermediary reasoning steps improves model performance. In this work, we present a novel method of further improving performance by requiring models to compare multiple reasoning chains before generating a solution in a single inference step. We call this method Divergent CoT (DCoT). We find that instruction tuning on DCoT datasets boosts the performance of even smaller, and therefore more accessible, LLMs. Through a rigorous set of experiments spanning a wide range of tasks that require various reasoning types, we show that fine-tuning on DCoT consistently improves performance over the CoT baseline across model families and scales (1.3B to 70B). Through a combination of empirical and manual evaluation, we additionally show that these performance gains stem from models generating multiple divergent reasoning chains in a single inference step, indicative of the enabling of self-correction in language models. Our code and data are publicly available at https://github.com/UKPLab/arxiv2024-divergent-cot.
翻訳日:2024-07-04 13:46:50 公開日:2024-07-03
# 自動化システムにおける人工知能応用の形式モデル

A Formal Model for Artificial Intelligence Applications in Automation Systems ( http://arxiv.org/abs/2407.03183v1 )

ライセンス: Link先を確認
Marvin Schieseck, Philip Topalis, Lasse Reinpold, Felix Gehlhoff, Alexander Fay, (参考訳) 人工知能(AI)の自動化システムへの統合は、効率性を高め、現在未解決の既存の技術的課題に対処する可能性がある。 しかし、業界全体のAIの採用は、自動化システム、AIソフトウェア、プロダクションハードウェア、およびそれらの相互依存関係の複雑な構成に関する標準化されたドキュメントの欠如によって妨げられている。 本稿では,自動化システムにおけるAIアプリケーションの明確かつ構造化されたドキュメンテーションを提供するために,標準とオントロジーを用いた形式モデルを提案する。 自動化システム(AIAS)における人工知能の情報モデルは、オントロジー設計パターンを使用して、自動化システムとAIソフトウェアの様々な側面をマッピングしリンクする。 実例を通じて検証されたこのモデルは、ドキュメントのプラクティスを改善し、産業環境におけるAIの持続可能な実装を支援する上で、その効果を実証する。

The integration of Artificial Intelligence (AI) into automation systems has the potential to enhance efficiency and to address currently unsolved existing technical challenges. However, the industry-wide adoption of AI is hindered by the lack of standardized documentation for the complex compositions of automation systems, AI software, production hardware, and their interdependencies. This paper proposes a formal model using standards and ontologies to provide clear and structured documentation of AI applications in automation systems. The proposed information model for artificial intelligence in automation systems (AIAS) utilizes ontology design patterns to map and link various aspects of automation systems and AI software. Validated through a practical example, the model demonstrates its effectiveness in improving documentation practices and aiding the sustainable implementation of AI in industrial settings.
翻訳日:2024-07-04 13:46:50 公開日:2024-07-03
# 時系列予測のためのマルチリゾリューショントークン化と価格設定への応用

Multiple-Resolution Tokenization for Time Series Forecasting with an Application to Pricing ( http://arxiv.org/abs/2407.03185v1 )

ライセンス: Link先を確認
Egon Peršak, Miguel F. Anjos, Sebastian Lautz, Aleksandar Kolev, (参考訳) 本稿では,時系列のトークン化に着目した時系列予測のためのトランスフォーマーアーキテクチャを提案する。 我々のアーキテクチャは、利用可能なすべてのデータにまたがって、多くのスケールで効率的な表現を同時に学習することを目的としています。 このモデルには、複数の解像度を使用する区別された時系列パッチング形式、時間変化のある既知の変数のための多重解像度モジュール、クロスシリーズ情報をキャプチャするミキサーベースのモジュール、トークンの増加を考慮に入れたスケーリングが可能な新規な出力ヘッドなど、多くの新しいモジュールが含まれている。 我々は,このモデルを,大手小売店のマークダウンチームが直面している現実的な予測問題に適用する。 実験では,本モデルが社内モデルおよび既存のディープラーニングアーキテクチャよりも優れていた。

We propose a transformer architecture for time series forecasting with a focus on time series tokenisation and apply it to a real-world prediction problem from the pricing domain. Our architecture aims to learn effective representations at many scales across all available data simultaneously. The model contains a number of novel modules: a differentiated form of time series patching which employs multiple resolutions, a multiple-resolution module for time-varying known variables, a mixer-based module for capturing cross-series information, and a novel output head with favourable scaling to account for the increased number of tokens. We present an application of this model to a real world prediction problem faced by the markdown team at a very large retailer. On the experiments conducted our model outperforms in-house models and the selected existing deep learning architectures.
翻訳日:2024-07-04 13:46:50 公開日:2024-07-03
# リアルタイムデータ共有機構に基づく道路交通システムの全体像

Holistic view of the road transportation system based on real-time data sharing mechanism ( http://arxiv.org/abs/2407.03187v1 )

ライセンス: Link先を確認
Li Tao, Dong Xiang, Hao Junfeng, Yin Ping, Xu Xiaoxue, Lai Maokai, Li Yuan, Peng Ting, (参考訳) 従来の手動運転と単車駆動のインテリジェント運転は、周囲の車両の現在の運転状況と意図のリアルタイムかつ正確な取得に制限があるため、車両は互いに適切な安全な距離を維持するのが一般的である。 しかし、特に合併地域では事故が頻繁に発生し、一方、道路インフラの状況は包括的に把握することは困難である。 これらの制限は、道路容量のさらなる改善を制限するだけでなく、生活と財産の不可分な損失をもたらす。 このボトルネックを克服するために,道路利用者と管理者の双方が道路インフラのリアルタイムな運転意図や運転状況にタイムリーにアクセスできるように,リアルタイム共有機構に基づく道路交通システムの時空グローバルビューを構築した。

Traditional manual driving and single-vehicle-based intelligent driving have limitations in real-time and accurate acquisition of the current driving status and intentions of surrounding vehicles, leading to vehicles typically maintaining appropriate safe distances from each other. Yet, accidents still frequently occur, especially in merging areas; meanwhile, it is difficult to comprehensively obtain the conditions of road infrastructure. These limitations not only restrict the further improvement of road capacity but also result in irreparable losses of life and property. To overcome this bottleneck, this paper constructs a space-time global view of the road traffic system based on a real-time sharing mechanism, enabling both road users and managers to timely access the driving intentions of nearby vehicles and the real-time status of road infrastructure.
翻訳日:2024-07-04 13:46:50 公開日:2024-07-03
# MuDiT & MuSiT:記述音声生成における口語表現のアライメント

MuDiT & MuSiT: Alignment with Colloquial Expression in Description-to-Song Generation ( http://arxiv.org/abs/2407.03188v1 )

ライセンス: Link先を確認
Zihao Wang, Haoxuan Liu, Jiaxing Yu, Tao Zhang, Yan Liu, Kejun Zhang, (参考訳) 生成的AIと人間の芸術的プロセスの交わりが増す中、本研究では人間中心の自動作曲において、重要かつ探索の少ないアライメントの地形を探索する。 本稿では,生成した内容と人間の表現との整合性に着目した,口語記述音声生成の新しい課題を提案する。 この課題は,AIモデルにおける言語理解と聴覚表現のギャップを埋めることを目的としており,人間の聴覚的期待を正確に満たし,音楽的規範と構造的に整合する曲を作ることが究極の目標である。 現在のデータセットは、その狭い記述範囲、セマンティックギャップ、不正確さのために制限されている。 この領域におけるデータの不足を克服するため,CaiMD (Caichong Music Dataset) を提案する。 CaiMDはプロのミュージシャンとアマチュアの両方によって手動で注釈付けされ、多様な視点と口語的記述の包括的な理解を提供する。 専門家のアノテーションや、固有のバイアスを持つ自動生成のデータセットと異なり、CaiMDは、AI生成した音楽と幅広いユーザー要求の結果とを合わせるという私たちの目的に十分対応しています。 また,楽曲作成において効果的な人間・機械のアライメントを実現するために,MuDiT/MuSiTと呼ばれる革新的なシングルステージフレームワークを提案する。 このフレームワークは、口語と聴覚音楽の知覚の相互理解を達成するだけでなく、生成した曲がユーザの希望する結果と一致することを保証する。 MuDiT/MuSiTは、メロディ、ハーモニー、リズム、ボーカル、インスツルメンテーションなどの音楽コンポーネントをエンドツーエンドに生成するために、1つのDiT/SiTモデルを使用する。 このアプローチは、生成したすべての音楽成分間の調和した音素の結合性を確保し、人間の聴覚的期待とよりよく共鳴させる。

Amid the rising intersection of generative AI and human artistic processes, this study probes the critical yet less-explored terrain of alignment in human-centric automatic song composition. We propose a novel task of Colloquial Description-to-Song Generation, which focuses on aligning the generated content with colloquial human expressions. This task is aimed at bridging the gap between colloquial language understanding and auditory expression within an AI model, with the ultimate goal of creating songs that accurately satisfy human auditory expectations and structurally align with musical norms. Current datasets are limited due to their narrow descriptive scope, semantic gaps and inaccuracies. To overcome data scarcity in this domain, we present the Caichong Music Dataset (CaiMD). CaiMD is manually annotated by both professional musicians and amateurs, offering diverse perspectives and a comprehensive understanding of colloquial descriptions. Unlike existing datasets pre-set with expert annotations or auto-generated ones with inherent biases, CaiMD caters more sufficiently to our purpose of aligning AI-generated music with widespread user-desired results. Moreover, we propose an innovative single-stage framework called MuDiT/MuSiT for enabling effective human-machine alignment in song creation. This framework not only achieves cross-modal comprehension between colloquial language and auditory music perceptions but also ensures generated songs align with user-desired results. MuDiT/MuSiT employs one DiT/SiT model for end-to-end generation of musical components like melody, harmony, rhythm, vocals, and instrumentation. The approach ensures harmonious sonic cohesiveness amongst all generated musical components, facilitating better resonance with human auditory expectations.
翻訳日:2024-07-04 13:46:50 公開日:2024-07-03
# 強結合と電磁共振器によるプラズモニック触媒の制御

Controlling Plasmonic Catalysis via Strong Coupling with Electromagnetic Resonators ( http://arxiv.org/abs/2407.03191v1 )

ライセンス: Link先を確認
Jakub Fojt, Paul Erhart, Christian Schäfer, (参考訳) プラズモニック励起はフェムト秒以内に崩壊し、非熱的(しばしば「ホット」と呼ばれる)電荷担体を分子構造に注入し、それ以外は到達できない化学反応を起こさせる。 このレターでは、共振器構造とプラズモンナノ粒子との強い結合が、プラズモン励起エネルギーと近くの分子への電荷注入エネルギーとのスペクトルの重なりを制御できることを示す。 我々の原子論的な記述は、実時間密度汎関数理論をマクスウェルの方程式と放射-反応ポテンシャルを通して自己整合的に結合する。 共振器の制御により、非侵襲的にプラズモン触媒を増強し、触媒の劣化に動的に反応する追加のノブが提供される。

Plasmonic excitations decay within femtoseconds, leaving non-thermal (often referred to as "hot") charge carriers behind that can be injected into molecular structures to trigger chemical reactions that are otherwise out of reach -- a process known as plasmonic catalysis. In this Letter, we demonstrate that strong coupling between resonator structures and plasmonic nanoparticles can be used to control the spectral overlap between the plasmonic excitation energy and the charge injection energy into nearby molecules. Our atomistic description couples real-time density-functional theory self-consistently to Maxwell's equations via the radiation-reaction potential. Control over the resonator provides then an additional knob for non-intrusively enhancing plasmonic catalysis and dynamically reacting to deterioration of the catalyst -- a new facet of modern catalysis.
翻訳日:2024-07-04 13:46:50 公開日:2024-07-03
# CiteAssist: 自動プレプリント・サイテーションとBibTeX生成システム

CiteAssist: A System for Automated Preprint Citation and BibTeX Generation ( http://arxiv.org/abs/2407.03192v1 )

ライセンス: Link先を確認
Lars Benedikt Kaesberg, Terry Ruas, Jan Philip Wahle, Bela Gipp, (参考訳) CiteAssistは、書誌注釈のプロセスの合理化を図った、事前印刷のためのBibTeXエントリの自動生成システムである。 本システムでは、著者名、タイトル、出版日、キーワードなどのメタデータを抽出し、文書内で標準化されたアノテーションを作成する。 CiteAssistはPDFの最後にBibTeXの引用を自動で添付し、文書の最初のページにリンクして、他の研究者が記事の正しい引用に即座にアクセスできるようにする。 この方法は、プレプリントの公開やアクセスに使用されるリポジトリに関係なく、アノテーションがアクセス可能であることを保証することで、プラットフォームの柔軟性を促進する。 事前プリントがCiteAssistの外部で見られる場合でも、アノテーションは引き続き利用可能である。 さらに、このシステムは、抽出したキーワードに基づいた関連論文をプレプリントに追加し、研究者にさらなる読解のための関連研究に加え、追加の出版物を提供する。 研究者は、無償で公開されているWebインターフェースを通じて、事前プリントの組織と参照管理ワークフローを強化することができる。

We present CiteAssist, a system to automate the generation of BibTeX entries for preprints, streamlining the process of bibliographic annotation. Our system extracts metadata, such as author names, titles, publication dates, and keywords, to create standardized annotations within the document. CiteAssist automatically attaches the BibTeX citation to the end of a PDF and links it on the first page of the document so other researchers gain immediate access to the correct citation of the article. This method promotes platform flexibility by ensuring that annotations remain accessible regardless of the repository used to publish or access the preprint. The annotations remain available even if the preprint is viewed externally to CiteAssist. Additionally, the system adds relevant related papers based on extracted keywords to the preprint, providing researchers with additional publications besides those in related work for further reading. Researchers can enhance their preprints organization and reference management workflows through a free and publicly available web interface.
翻訳日:2024-07-04 13:37:05 公開日:2024-07-03
# 機械学習アンサンブルにおける予測不安定性

Prediction Instability in Machine Learning Ensembles ( http://arxiv.org/abs/2407.03194v1 )

ライセンス: Link先を確認
Jeremy Kedziora, (参考訳) 機械学習では、複数のモデルからの予測が集約される。 応用問題におけるアンサンブルの広範な使用と強力な性能にもかかわらず、アグリゲーションモデルの数学的性質や、そのようなモデルの安全で説明可能な使用に関する結果についてはほとんど知られていない。 本稿では,任意のアンサンブルが以下の予測不安定性の少なくとも1つの形式を示すことを示す定理を証明した。 基礎となるすべてのモデル間の合意を無視したり、基礎となるモデルが存在しない場合、その考えを変更したり、実際に予測することのないオプションを除外したりすることで、操作可能になります。 結果として、アンサンブルアグリゲーションの手順は、情報利用の利点とこれらの予測不安定性のリスクのバランスをとる必要がある。 この分析はまた、特定のアンサンブルアルゴリズムから予想される特定の形の予測不安定性、例えばランダムな森やxgboostのような一般的な樹木アンサンブルは、基本的な直感的な単調性や公正性に反する。

In machine learning ensembles predictions from multiple models are aggregated. Despite widespread use and strong performance of ensembles in applied problems little is known about the mathematical properties of aggregating models and associated consequences for safe, explainable use of such models. In this paper we prove a theorem that shows that any ensemble will exhibit at least one of the following forms of prediction instability. It will either ignore agreement among all underlying models, change its mind when none of the underlying models have done so, or be manipulable through inclusion or exclusion of options it would never actually predict. As a consequence, ensemble aggregation procedures will always need to balance the benefits of information use against the risk of these prediction instabilities. This analysis also sheds light on what specific forms of prediction instability to expect from particular ensemble algorithms; for example popular tree ensembles like random forest, or xgboost will violate basic, intuitive monotonicity and fairness properties.
翻訳日:2024-07-04 13:37:05 公開日:2024-07-03
# インクリメンタルガウス--超線形収束率を持つニュートン法

Incremental Gauss--Newton Methods with Superlinear Convergence Rates ( http://arxiv.org/abs/2407.03195v1 )

ライセンス: Link先を確認
Zhiling Zhou, Zhuanghua Liu, Chengchang Liu, Luo Luo, (参考訳) 本稿では,H\"古い連続ジャコビアンを用いた大規模非線形方程式の解法について述べる。 本稿では, 線形収束率のみを達成する既存手法より優れる新しいインクリメンタルガウス-ニュートン法(IGN)を導入する。 特に、有限サム構造を持つ非線形最小二乗法で問題を定式化し、各ラウンドにおける各成分の情報と漸進的に反復する。 また、より高速な超線形収束率を得るIGN法に対するミニバッチ拡張も提供する。 さらに,提案手法の利点を示す数値実験を行った。

This paper addresses the challenge of solving large-scale nonlinear equations with H\"older continuous Jacobians. We introduce a novel Incremental Gauss--Newton (IGN) method within explicit superlinear convergence rate, which outperforms existing methods that only achieve linear convergence rate. In particular, we formulate our problem by the nonlinear least squares with finite-sum structure, and our method incrementally iterates with the information of one component in each round. We also provide a mini-batch extension to our IGN method that obtains an even faster superlinear convergence rate. Furthermore, we conduct numerical experiments to show the advantages of the proposed methods.
翻訳日:2024-07-04 13:37:05 公開日:2024-07-03
# DyFADet: 時間的行動検出のための動的特徴集約

DyFADet: Dynamic Feature Aggregation for Temporal Action Detection ( http://arxiv.org/abs/2407.03197v1 )

ライセンス: Link先を確認
Le Yang, Ziwei Zheng, Yizeng Han, Hao Cheng, Shiji Song, Gao Huang, Fan Li, (参考訳) 近年提案されたニューラルネットワークに基づく時間行動検出(TAD)モデルは,共有重み検出ヘッドによって複雑なシーンから識別的表現を抽出し,様々な長さのアクションインスタンスをモデル化することに本質的に制限されている。 本稿では、動的ニューラルネットワークの成功に触発されて、異なるタイムスタンプでカーネル重みと受容場を同時に適応できる新しい動的特徴集約(DFA)モジュールを構築する。 DFAに基づいて、提案する動的エンコーダ層は、動作時間範囲内の時間的特徴を集約し、抽出した表現の識別性を保証する。 さらに、DFAを使用することで、動的TADヘッド(DyHead)の開発を支援し、ビデオからさまざまな範囲のアクションインスタンスを検出するために、調整されたパラメータと学習された受容フィールドで、マルチスケールの機能を適応的に集約する。 提案されたエンコーダ層とDyHeadにより、新しい動的TADモデルであるDyFADetは、HACS-Segment、THUMOS14、ActivityNet-1.3、Epic-Kitchen 100、Ego4D-Moment QueriesV1.0、FineActionなど、一連の挑戦的なTADベンチマークで有望なパフォーマンスを達成する。 コードはhttps://github.com/yangle15/DyFADet-pytorchにリリースされている。

Recent proposed neural network-based Temporal Action Detection (TAD) models are inherently limited to extracting the discriminative representations and modeling action instances with various lengths from complex scenes by shared-weights detection heads. Inspired by the successes in dynamic neural networks, in this paper, we build a novel dynamic feature aggregation (DFA) module that can simultaneously adapt kernel weights and receptive fields at different timestamps. Based on DFA, the proposed dynamic encoder layer aggregates the temporal features within the action time ranges and guarantees the discriminability of the extracted representations. Moreover, using DFA helps to develop a Dynamic TAD head (DyHead), which adaptively aggregates the multi-scale features with adjusted parameters and learned receptive fields better to detect the action instances with diverse ranges from videos. With the proposed encoder layer and DyHead, a new dynamic TAD model, DyFADet, achieves promising performance on a series of challenging TAD benchmarks, including HACS-Segment, THUMOS14, ActivityNet-1.3, Epic-Kitchen 100, Ego4D-Moment QueriesV1.0, and FineAction. Code is released to https://github.com/yangle15/DyFADet-pytorch.
翻訳日:2024-07-04 13:37:05 公開日:2024-07-03
# SegVG:ビジュアルグラウンドのためのオブジェクト境界ボックスをセグメンテーションに転送する

SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding ( http://arxiv.org/abs/2407.03200v1 )

ライセンス: Link先を確認
Weitai Kang, Gaowen Liu, Mubarak Shah, Yan Yan, (参考訳) Object Detectionとは異なり、Visual Groundingは各テキストイメージペアのバウンディングボックスを検出する。 各テキストイメージデータに対する1つのボックスは、疎い監視信号を提供する。 従来の研究は印象的な結果を得たが、そのパッシブなアノテーションの利用、すなわち回帰基底真理としてのボックスアノテーションの唯一の使用は、準最適性能をもたらす。 本稿では,ボックスレベルのアノテーションをセグメンテーション信号として転送する新しい手法であるSegVGについて述べる。 具体的には,マルチレイヤのマルチタスク・エンコーダ・デコーダをターゲットグラウンドとして提案し,各デコード層におけるボックスの回帰とセグメント化によってターゲットをグラウンド化する回帰クエリと多重セグメンテーションクエリを学習する。 このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。 さらに、バックボーンは通常、単調なタスクから学習した事前訓練されたパラメータによって初期化され、回帰とセグメンテーションの両方のクエリは静的に学習可能な埋め込みである。 この相違を緩和するために、三重注意機構によって同じ空間を共有するために、クエリ、テキスト、ビジョントークンを三角形に更新するトリプルアライメントモジュールを導入する。 広く使われている5つのデータセットに対する大規模な実験は、私たちの最先端(SOTA)のパフォーマンスを検証する。

Different from Object Detection, Visual Grounding deals with detecting a bounding box for each text-image pair. This one box for each text-image data provides sparse supervision signals. Although previous works achieve impressive results, their passive utilization of annotation, i.e. the sole use of the box annotation as regression ground truth, results in a suboptimal performance. In this paper, we present SegVG, a novel method transfers the box-level annotation as Segmentation signals to provide an additional pixel-level supervision for Visual Grounding. Specifically, we propose the Multi-layer Multi-task Encoder-Decoder as the target grounding stage, where we learn a regression query and multiple segmentation queries to ground the target by regression and segmentation of the box in each decoding layer, respectively. This approach allows us to iteratively exploit the annotation as signals for both box-level regression and pixel-level segmentation. Moreover, as the backbones are typically initialized by pretrained parameters learned from unimodal tasks and the queries for both regression and segmentation are static learnable embeddings, a domain discrepancy remains among these three types of features, which impairs subsequent target grounding. To mitigate this discrepancy, we introduce the Triple Alignment module, where the query, text, and vision tokens are triangularly updated to share the same space by triple attention mechanism. Extensive experiments on five widely used datasets validate our state-of-the-art (SOTA) performance.
翻訳日:2024-07-04 13:37:05 公開日:2024-07-03
# ハイブリッド量子系におけるマグノン非線形性による広帯域コヒーレントマイクロ波変換

Wideband Coherent Microwave Conversion via Magnon Nonlinearity in Hybrid Quantum System ( http://arxiv.org/abs/2407.03201v1 )

ライセンス: Link先を確認
Jiahao Wu, Jiacheng Liu, Zheyu Ren, Man Yin Leung, Wai Kuen Leung, Kin On Ho, Xiangrong Wang, Qiming Shao, Sen Yang, (参考訳) 周波数変換は光学およびエレクトロニクスの非線形系において広く実現された物理過程である。 新たな非線形プラットフォームとして、スピントロニクスデバイスはより強い周波数変換を実現する可能性がある。 本稿では、ダイヤモンド中の窒素空孔中心と磁性薄膜CoFeBを結合したハイブリッド量子システムにおけるマイクロ波周波数変換法を実証した。 我々は、0.1GHzから12GHzまでの変換帯域を実現し、最大$\mathrm{25^{th}}$オーダーの周波数変換を示し、この手法の周波数検出およびqubitsコヒーレント制御への応用をさらに表示する。 本手法は、非線形電気応答に基づく従来の周波数変換技術と異なり、スピントロニクスデバイスにおける非線形磁気応答を用いる。 磁場中における磁壁などの対称性の破れから生じる非線形性は, スピントロニクスデバイスとスピン量子ビットのハイブリッドシステムに適用でき, スピントロニクスデバイスの適用範囲を拡大し, 量子システムを結合するための有望なオンチッププラットフォームを提供することを示す。

Frequency conversion is a widely realized physical process in nonlinear systems of optics and electronics. As an emerging nonlinear platform, spintronic devices have the potential to achieve stronger frequency conversion. Here, we demonstrated a microwave frequency conversion method in a hybrid quantum system, integrating nitrogen-vacancy centers in diamond with magnetic thin film CoFeB. We achieve a conversion bandwidth ranging from 0.1 to 12GHz, presenting an up to $\mathrm{25^{th}}$ order frequency conversion and further display the application of this method for frequency detection and qubits coherent control. Distinct from traditional frequency conversion techniques based on nonlinear electric response, our approach employs nonlinear magnetic response in spintronic devices. The nonlinearity, originating from the symmetry breaking such as domain walls in magnetic films, presents that our method can be adapted to hybrid systems of other spintronic devices and spin qubits, expanding the application scope of spintronic devices and providing a promising on-chip platform for coupling quantum systems.
翻訳日:2024-07-04 13:37:05 公開日:2024-07-03
# クリフォード回路は時間依存変分原理を増大させる

Clifford Circuits Augmented Time-Dependent Variational Principle ( http://arxiv.org/abs/2407.03202v1 )

ライセンス: Link先を確認
Xiangjian Qian, Jiale Huang, Mingpu Qin, (参考訳) 最近提案された Clifford Circuits Augmented Matrix Product States (CA-MPS) (arXiv:2405.09217) は、Clifford Circuits でシームレスに密度行列再正規化グループを拡張する。 CA-MPSでは、安定化器からの絡み合いは、ゴッテマン・クニルの定理に従って容易に扱えるクリフォード回路に転送される。 結果として、MPSは非安定化剤の絡み合いにのみ対処する必要があるため、多体系の正確なシミュレーションに必要な結合次元と資源が大幅に削減される。 本研究では,時間進化シミュレーションのための時間依存変動原理(TDVP)の枠組みにCA-MPSを一般化する。 本稿では,各TDVPステップにおいて得られたMPSにクリフォード回路をDMRGと同様の2サイトスイーピングプロセスで適用し,MPSの絡み込みエントロピーを低減し,選択したクリフォード回路を用いてハミルトン回路を変換する。 CA-MPSと同様、クリフォード回路はハミルトニアンの項数を増やしないため、新しい手法ではオーバーヘッドが非常に小さい。 我々はこの手法を XXZ 鎖と2次元ハイゼンベルクモデルの両方で検証する。 その結果, クリフォード回路拡張TDVP法は, 時間発展過程における絡み合いのエントロピーを低減し, より長期にわたってシミュレーションの信頼性を高めることができることがわかった。 クリフォード回路を拡張した時間依存変分原理は、将来多体系の時間進化過程のシミュレーションに有用なツールを提供する。

The recently proposed Clifford Circuits Augmented Matrix Product States (CA-MPS) (arXiv:2405.09217) seamlessly augments Density Matrix Renormalization Group with Clifford circuits. In CA-MPS, the entanglement from stabilizers is transferred to the Clifford circuits which can be easily handled according to the Gottesman-Knill theorem. As a result, MPS needs only to deal with the non-stabilizer entanglement, which largely reduce the bond dimension and the resource required for the accurate simulation of many-body systems. In this work, we generalize CA-MPS to the framework of Time-Dependent Variational Principle (TDVP) for time evolution simulations. In this method, we apply Clifford circuits to the resulting MPS in each TDVP step with a two-site sweeping process similar as in DMRG, aiming at reducing the entanglement entropy in the MPS, and the Hamiltonian is transformed accordingly using the chosen Clifford circuits. Similar as in CA-MPS, the Clifford circuits doesn't increase the number of terms in the Hamiltonian which makes the overhead very small in the new method. We test this method in both XXZ chain and two dimensional Heisenberg model. The results show that the Clifford circuits augmented TDVP method can reduce the entanglement entropy in the time evolution process and hence makes the simulation reliable for longer time. The Clifford circuits augmented Time-Dependent Variational Principle provides a useful tool for the simulation of time evolution process of many-body systems in the future.
翻訳日:2024-07-04 13:37:05 公開日:2024-07-03
# TheoremLlama: 汎用LLMをLean4エキスパートに変える

TheoremLlama: Transforming General-Purpose LLMs into Lean4 Experts ( http://arxiv.org/abs/2407.03203v1 )

ライセンス: Link先を確認
Ruida Wang, Jipeng Zhang, Yizhen Jia, Rui Pan, Shizhe Diao, Renjie Pi, Tong Zhang, (参考訳) Leanのようなコンピュータで検証可能な形式言語を用いた数学的定理の証明は、数学的推論に大きな影響を及ぼす。 形式的定理証明の1つのアプローチは、自然言語(NL)の証明に基づいたLarge Language Models (LLM)を用いた完全証明を生成することである。 同様の手法はコード生成において有望な結果を示している。 しかし、現代のLLMのほとんどは、整列NLと形式言語(FL)の定理証明データが不足しているため、準最適性能を示す。 この不足は、公式な証明を構成する能力を完全に活用するLLMとテクニックを訓練するための方法論の質を損なう。 この課題に対処するため、本稿では、汎用LLMをトレーニングしてLean4エキスパートになるためのエンドツーエンドフレームワークである**TheoremLlama*を提案する。 このフレームワークは、NL-FL対応データセット生成方法、LLM形式定理証明器のためのトレーニングアプローチ、LLM Lean4証明記述のための技術を含む。 データセット生成手法を用いて、NL-FLアライメントとブートストラップ付きデータセットである*Open Bootstrapped Theorems*(OBT)を提供する。 このフレームワークの重要な革新は、NL証明をLean4コードに統合してデータセットをトレーニングするNL-FLブートストラップ方式である。 **TheoremLlama*フレームワークは、MiniF2F-ValidおよびTestデータセットでそれぞれ36.48%と33.61%の累積精度を達成し、GPT-4ベースラインの22.95%と25.41%を上回っている。 モデルチェックポイントと生成されたデータセットもオープンソースで公開しています。

Proving mathematical theorems using computer-verifiable formal languages like Lean significantly impacts mathematical reasoning. One approach to formal theorem proving involves generating complete proofs using Large Language Models (LLMs) based on Natural Language (NL) proofs. Similar methods have shown promising results in code generation. However, most modern LLMs exhibit suboptimal performance due to the scarcity of aligned NL and Formal Language (FL) theorem-proving data. This scarcity results in a paucity of methodologies for training LLMs and techniques to fully utilize their capabilities in composing formal proofs. To address the challenges, this paper proposes **TheoremLlama**, an end-to-end framework to train a general-purpose LLM to become a Lean4 expert. This framework encompasses NL-FL aligned dataset generation methods, training approaches for the LLM formal theorem prover, and techniques for LLM Lean4 proof writing. Using the dataset generation method, we provide *Open Bootstrapped Theorems* (OBT), an NL-FL aligned and bootstrapped dataset. A key innovation in this framework is the NL-FL bootstrapping method, where NL proofs are integrated into Lean4 code for training datasets, leveraging the NL reasoning ability of LLMs for formal reasoning. The **TheoremLlama** framework achieves cumulative accuracies of 36.48% and 33.61% on MiniF2F-Valid and Test datasets respectively, surpassing the GPT-4 baseline of 22.95% and 25.41%. We have also open-sourced our model checkpoints and generated dataset, and will soon make all the code publicly available.
翻訳日:2024-07-04 13:37:05 公開日:2024-07-03
# モノクラーRGBビデオからの表現型ガウス人アバター

Expressive Gaussian Human Avatars from Monocular RGB Video ( http://arxiv.org/abs/2407.03204v1 )

ライセンス: Link先を確認
Hezhen Hu, Zhiwen Fan, Tianhao Wu, Yihan Xi, Seoyoung Lee, Georgios Pavlakos, Zhangyang Wang, (参考訳) ニュアンセド表現性、特にきめ細かな手や表情を通しては、デジタル人間表現の現実性と活力を高めるのに重要である。 本研究では、単眼のRGBビデオから学んだ人間のアバターの表現性を調査することに注力する。 この目的のために,3次元ガウスモデルと表現的パラメトリック人間モデルSMPL-Xに基づいて細部を巧みに彫刻する乾燥可能な人間モデルであるEVAを紹介した。 表現力の向上に焦点をあてて、我々の研究は3つの重要な貢献をしている。 まず,実効的なアバター学習のために,SMPL-XモデルをRGBフレームに整合させることの重要性を強調した。 現行のSMPL-X予測手法の限界を認識し,プラグ・アンド・プレイ・モジュールを導入し,誤調整問題を著しく改善した。 第2に,各部位の粒度に応じて勾配閾値を適応的に調整するコンテキスト対応適応密度制御手法を提案する。 最後に,3次元ガウス学習の指針として,画素ごとの信頼度を予測するフィードバック機構を開発する。 2つのベンチマークでの大規模な実験は、特にきめ細かい手と顔の詳細について、定量的かつ質的に、我々のフレームワークの優位性を実証している。 プロジェクトのWebサイトは、 \url{https://eva human.github.io} にある。

Nuanced expressiveness, particularly through fine-grained hand and facial expressions, is pivotal for enhancing the realism and vitality of digital human representations. In this work, we focus on investigating the expressiveness of human avatars when learned from monocular RGB video; a setting that introduces new challenges in capturing and animating fine-grained details. To this end, we introduce EVA, a drivable human model that meticulously sculpts fine details based on 3D Gaussians and SMPL-X, an expressive parametric human model. Focused on enhancing expressiveness, our work makes three key contributions. First, we highlight the critical importance of aligning the SMPL-X model with RGB frames for effective avatar learning. Recognizing the limitations of current SMPL-X prediction methods for in-the-wild videos, we introduce a plug-and-play module that significantly ameliorates misalignment issues. Second, we propose a context-aware adaptive density control strategy, which is adaptively adjusting the gradient thresholds to accommodate the varied granularity across body parts. Last but not least, we develop a feedback mechanism that predicts per-pixel confidence to better guide the learning of 3D Gaussians. Extensive experiments on two benchmarks demonstrate the superiority of our framework both quantitatively and qualitatively, especially on the fine-grained hand and facial details. See the project website at \url{https://evahuman.github.io}
翻訳日:2024-07-04 13:37:05 公開日:2024-07-03
# 高品位指向の提案によるカテゴリー対応動的ラベルアサインメント

Category-Aware Dynamic Label Assignment with High-Quality Oriented Proposal ( http://arxiv.org/abs/2407.03205v1 )

ライセンス: Link先を確認
Mingkui Feng, Hancheng Yu, Xiaoyu Dang, Ming Zhou, (参考訳) 空中画像のオブジェクトは通常複雑な背景に埋め込まれ、任意の向きを示す。 任意のオブジェクト指向対象を表すためにオブジェクト指向境界ボックス(OBB)を用いる場合、角度の周期性は境界におけるラベル回帰値の不連続を招き、損失関数の急激なゆらぎを引き起こす。 この問題に対処するために、オブジェクト指向検出フレームワークに複素平面に基づく OBB 表現を導入し、三角損失関数を提案する。 さらに、複雑な背景環境の事前知識と空中画像における大きな物体の顕著な差異を利用して、コンバータRPNヘッドを構築し、角度情報を予測する。 提案した損失関数とコンバータRPNヘッドは,高品質な指向性の提案を共同で生成する。 予測されたカテゴリフィードバックに基づくカテゴリ対応動的ラベル代入を提案し,IoUのみに依存したラベル代入の制限に対処する。 この方法により、負のサンプル選択がより代表的になり、分類と回帰特性の整合性が確保される。 4つの現実的指向性検出データセットを用いて実験を行い、パラメータ調整と時間コストの最小化によるオブジェクト指向物体検出において優れた性能を示した。 具体的には、平均精度(mAP)スコアは平均82.02%、71.99%、69.87%、98.77%で、DOTA-v1.0、DOTA-v1.5、DIOR-R、HRSC2016の各データセットでそれぞれ達成された。

Objects in aerial images are typically embedded in complex backgrounds and exhibit arbitrary orientations. When employing oriented bounding boxes (OBB) to represent arbitrary oriented objects, the periodicity of angles could lead to discontinuities in label regression values at the boundaries, inducing abrupt fluctuations in the loss function. To address this problem, an OBB representation based on the complex plane is introduced in the oriented detection framework, and a trigonometric loss function is proposed. Moreover, leveraging prior knowledge of complex background environments and significant differences in large objects in aerial images, a conformer RPN head is constructed to predict angle information. The proposed loss function and conformer RPN head jointly generate high-quality oriented proposals. A category-aware dynamic label assignment based on predicted category feedback is proposed to address the limitations of solely relying on IoU for proposal label assignment. This method makes negative sample selection more representative, ensuring consistency between classification and regression features. Experiments were conducted on four realistic oriented detection datasets, and the results demonstrate superior performance in oriented object detection with minimal parameter tuning and time costs. Specifically, mean average precision (mAP) scores of 82.02%, 71.99%, 69.87%, and 98.77% were achieved on the DOTA-v1.0, DOTA-v1.5, DIOR-R, and HRSC2016 datasets, respectively.
翻訳日:2024-07-04 13:37:05 公開日:2024-07-03
# 監視ランダムクリフォード回路における三分割GHZエンタングルメント

Tripartite GHZ Entanglement in Monitored Random Clifford Circuits ( http://arxiv.org/abs/2407.03206v1 )

ライセンス: Link先を確認
Guanglei Xu, Yu-Xiang Zhang, (参考訳) 多数体の多部量子絡み合いはよく理解されていない。 ここでは、確率的単一量子射影測定でランダムなクリフォード回路によって生成された状態から抽出できる三部晶グリーンベルガー・ホルン・ザイリンガー状態(GHZ)の量を数値的に研究する。 この量が有限なGHZ絡み合い位相と、三分割絡みが存在しないGHZ自明位相を求める。 それらの間の遷移は測定によって引き起こされ、$p_c\approx 0.16$、パーティションによって引き起こされる。 我々は,GHZエンタングルメントを,量子インターネットの観点から理解可能な特定のレシエーションにおける測定によって拡張できることを見出した。 また,GHZエンタングルメントの成長に及ぼす測定値の影響についても検討した。

Multipartite quantum entanglement of a manybody is not well understood. Here we numerically study the amount of tripartite Greenberger-Horne-Zeilinger (GHZ) states that can be extracted from the state generated by random Clifford circuits with probabilistic single-qubit projective measurements. We find a GHZ-entangled phase where this amount is finite and a GHZ-trivial phase where no tripartite entanglement is available. The transition between them is either measurement-induced, at $p_c\approx 0.16$, or partition-induced when a party contains more than half of the qubits. We find that the GHZ entanglement can be enhanced by measurements in certain regimes, which could be understood from the perspective of quantum Internet. Effects of the measurements to the growth of GHZ entanglement are also studied.
翻訳日:2024-07-04 13:37:05 公開日:2024-07-03
# ロバスト性と臨界性によるAI制御システムと人的意思決定支援の組み合わせ

Combining AI Control Systems and Human Decision Support via Robustness and Criticality ( http://arxiv.org/abs/2407.03210v1 )

ライセンス: Link先を確認
Walt Woods, Alexander Grushin, Simon Khan, Alvaro Velasquez, (参考訳) AI対応の能力は、現実世界にデプロイされるために必要な成熟度レベルに達していますが、必ずしも正しいあるいは安全な決定を下すとは限らないのです。 これらの懸念に対処する1つの方法は、人間の決定と並行してAI制御システムを活用することであり、安全状況においてAI制御システムに依存し、重要な状況に対して人間の共同決定者を呼び出すことである。 逆説法(AE)を,MuZeroを含む最先端の強化学習フレームワークに拡張する。 基本エージェントアーキテクチャの複数の改良が提案されている。 この技術は、インテリジェントな意思決定ツールと、トレーニング/学習フレームワークの強化という、2つの応用を実証しています。 意思決定支援のコンテキストでは、AIが推奨する異なる決定のために変更する必要があるこれらのコンテキスト要因を強調することで、ユーザが正しい判断を下すのに役立つ。 敵対的説明のもう1つの利点として、学習したAI制御システムが敵のタンパリングに対する堅牢性を示すことを示す。 さらに、戦略的に類似したオートエンコーダ(SSA)を導入してAEを補完し、AIシステムで考慮されているすべての健全な要因を特定し、理解するのに役立つ。 トレーニング/学習フレームワークでは、この技術は人間のインタラクションを通じてAIの決定と説明の両方を改善することができる。 最後に、AI決定が人間の監視から最も恩恵を受けるかを特定するために、任意の時点における決定の臨界度に関する統計的に検証された分析に基づいて、この組み合わせされたシステムを我々の先行技術と結びつけます。

AI-enabled capabilities are reaching the requisite level of maturity to be deployed in the real world, yet do not always make correct or safe decisions. One way of addressing these concerns is to leverage AI control systems alongside and in support of human decisions, relying on the AI control system in safe situations while calling on a human co-decider for critical situations. We extend a methodology for adversarial explanations (AE) to state-of-the-art reinforcement learning frameworks, including MuZero. Multiple improvements to the base agent architecture are proposed. We demonstrate how this technology has two applications: for intelligent decision tools and to enhance training / learning frameworks. In a decision support context, adversarial explanations help a user make the correct decision by highlighting those contextual factors that would need to change for a different AI-recommended decision. As another benefit of adversarial explanations, we show that the learned AI control system demonstrates robustness against adversarial tampering. Additionally, we supplement AE by introducing strategically similar autoencoders (SSAs) to help users identify and understand all salient factors being considered by the AI system. In a training / learning framework, this technology can improve both the AI's decisions and explanations through human interaction. Finally, to identify when AI decisions would most benefit from human oversight, we tie this combined system to our prior art on statistically verified analyses of the criticality of decisions at any point in time.
翻訳日:2024-07-04 13:37:05 公開日:2024-07-03
# 量子化は多言語LLMにどのように影響するか?

How Does Quantization Affect Multilingual LLMs? ( http://arxiv.org/abs/2407.03211v1 )

ライセンス: Link先を確認
Kelly Marchisio, Saurabh Dash, Hongyu Chen, Dennis Aumiller, Ahmet Üstün, Sara Hooker, Sebastian Ruder, (参考訳) 量子化技術は、大規模な言語モデルの推論速度と展開を改善するために広く使われている。 幅広い研究機関が、英語のタスクに対する量子化LLMの影響を調べる一方で、言語間の量子化の効果を調査する者はいない。 量子化多言語 LLM の徹底的な解析を行い、言語間および様々なスケールでその性能に焦点をあてる。 自動ベンチマーク, LLM-as-a-Judge 法, 人的評価を用いて, 1) 量子化の有害な影響は人的評価において明らかであり, 1) 自動タスクにおける日本語の1.7%の平均低下は, 現実的なプロンプト上での人間の評価者による16.0%の減少に対応し, 2) 言語は量子化の影響を受け, 非ラテン語のスクリプト言語が最悪の影響を受け, (3) 数学的推論などの課題が急速に悪化する。 低計算量モデルを提供する能力は、NLP技術の国際的普及に欠かせないため、効率的なモデル評価基準として多言語性能を考慮すべきである。

Quantization techniques are widely used to improve inference speed and deployment of large language models. While a wide body of work examines the impact of quantized LLMs on English tasks, none have examined the effect of quantization across languages. We conduct a thorough analysis of quantized multilingual LLMs, focusing on their performance across languages and at varying scales. We use automatic benchmarks, LLM-as-a-Judge methods, and human evaluation, finding that (1) harmful effects of quantization are apparent in human evaluation, and automatic metrics severely underestimate the detriment: a 1.7% average drop in Japanese across automatic tasks corresponds to a 16.0% drop reported by human evaluators on realistic prompts; (2) languages are disparately affected by quantization, with non-Latin script languages impacted worst; and (3) challenging tasks such as mathematical reasoning degrade fastest. As the ability to serve low-compute models is critical for wide global adoption of NLP technologies, our results urge consideration of multilingual performance as a key evaluation criterion for efficient models.
翻訳日:2024-07-04 13:37:05 公開日:2024-07-03
# 変圧器を用いた視覚力学予測のための物体中心モデルにおける不整合表現の学習

Learning Disentangled Representation in Object-Centric Models for Visual Dynamics Prediction via Transformers ( http://arxiv.org/abs/2407.03216v1 )

ライセンス: Link先を確認
Sanket Gandhi, Atul, Samanyu Mahajan, Vishal Sharma, Rushil Gupta, Arnab Kumar Mondal, Parag Singla, (参考訳) 近年の研究では、オブジェクト中心の表現は、解釈可能性ももたらしながら、学習力学の精度を大幅に向上させることができることが示されている。 この研究では、このアイデアをさらに一歩進めて、「対象中心モデルにおける視覚力学予測の精度をさらに向上できるか? 我々の知る限りでは、静的な画像の場合、このような非絡み合った表現を学習しようとする試みはいくつかあるが、私たちの研究は、オブジェクトが持つ可能性のある属性の種類について具体的な仮定をすることなく、ビデオの一般的な設定でこれを実行しようとする最初の試みである。 私たちのアーキテクチャのキーとなるビルディングブロックは、複数のブロックが一緒にオブジェクトを構成するような {\em block} の概念です。 各ブロックは与えられた多数の学習可能な概念ベクトルの線形結合として表現され、学習過程において反復的に洗練される。 我々のモデルにおけるブロックは、密集したオブジェクト中心の表現を学ぶために、スロットの発見に類似したスタイルで、オブジェクトマスクに出席することで、教師なしの方法で発見される。 我々は、探索されたブロック上で変圧器を介して自己注意を用いて次の状態を予測することにより、視覚力学の発見をもたらす。 我々は,いくつかのベンチマーク2-Dと,アーキテクチャ(1)が意味論的意味のあるブロックを発見できることを実証した3Dデータセットを用いて,一連の実験を行い,(2)SOTAオブジェクト中心モデルと比較して動的予測の精度を向上させること,(3)特定の属性の組み合わせが訓練中に早期に見られないOOD設定において著しく向上することを示す。 本実験は,視覚力学予測のためのアンタングル表現の重要性を明らかにする。

Recent work has shown that object-centric representations can greatly help improve the accuracy of learning dynamics while also bringing interpretability. In this work, we take this idea one step further, ask the following question: "can learning disentangled representation further improve the accuracy of visual dynamics prediction in object-centric models?" While there has been some attempt to learn such disentangled representations for the case of static images \citep{nsb}, to the best of our knowledge, ours is the first work which tries to do this in a general setting for video, without making any specific assumptions about the kind of attributes that an object might have. The key building block of our architecture is the notion of a {\em block}, where several blocks together constitute an object. Each block is represented as a linear combination of a given number of learnable concept vectors, which is iteratively refined during the learning process. The blocks in our model are discovered in an unsupervised manner, by attending over object masks, in a style similar to discovery of slots \citep{slot_attention}, for learning a dense object-centric representation. We employ self-attention via transformers over the discovered blocks to predict the next state resulting in discovery of visual dynamics. We perform a series of experiments on several benchmark 2-D, and 3-D datasets demonstrating that our architecture (1) can discover semantically meaningful blocks (2) help improve accuracy of dynamics prediction compared to SOTA object-centric models (3) perform significantly better in OOD setting where the specific attribute combinations are not seen earlier during training. Our experiments highlight the importance discovery of disentangled representation for visual dynamics prediction.
翻訳日:2024-07-04 13:37:05 公開日:2024-07-03
# MHNet:静止状態fMRIを用いた神経発達障害診断のための多視点高次ネットワーク

MHNet: Multi-view High-order Network for Diagnosing Neurodevelopmental Disorders Using Resting-state fMRI ( http://arxiv.org/abs/2407.03217v1 )

ライセンス: Link先を確認
Yueyang Li, Weiming Zeng, Wenhao Dong, Luhui Cai, Lei Wang, Hongyu Chen, Hongjie Yan, Lingbin Bian, Nizhuan Wang, (参考訳) 背景: ディープラーニングモデルは、ASDやADHDのような神経発達障害(NDD)の診断において有望であることを示している。 しかし、多くのモデルはグラフニューラルネットワーク(GNN)を用いて単一レベル脳機能ネットワーク(BFN)を構築するか、rs-fMRIデータから局所的な情報抽出に空間畳み込みフィルタリングを用いる。 方法: NDD予測のためのrs-fMRIデータから得られた多面的BFNから階層的・高次的特徴を捉えるためのMHNet(Multi-view High-order Network)を導入する。 MHNet には Euclidean Space Features extract (ESFE) モジュールと Non-Euclidean Space Features extract (Non-ESFE) モジュールの2つのブランチがあり、次に NDD 識別のための Feature Fusion-based Classification (FFC) モジュールがある。 ESFEには、関数接続生成(FCG)モジュールと、ユークリッド空間のBFNから局所的および高次特徴を抽出する高次畳み込みニューラルネットワーク(HCNN)モジュールが含まれている。 非ESFEは、ジェネリックインターネットのような脳階層ネットワーク生成(G-IBHN-G)モジュールと、非ユークリッド空間における位相的および高次特徴をキャプチャする高階グラフニューラルネットワーク(HGNN)モジュールで構成される。 結果: 3つの公開データセットの実験によると、MHNetはAAL1とBrainnetome Atlasテンプレートの両方を使用して最先端のメソッドより優れている。 大規模なアブレーション研究により、MHNetの優位性と、マルチビューfMRI情報と高次特徴を用いた有効性が確認された。 我々の研究は、より洗練された階層型ネットワークを構築するためのアトラスオプションを提供し、主要な脳領域とNDDの関係を説明する。 結論:MHNetはユークリッド空間と非ユークリッド空間の両方からの多視点特徴学習を活用し,BFNからの高次情報を取り入れ,NDD分類性能を向上させる。

Background: Deep learning models have shown promise in diagnosing neurodevelopmental disorders (NDD) like ASD and ADHD. However, many models either use graph neural networks (GNN) to construct single-level brain functional networks (BFNs) or employ spatial convolution filtering for local information extraction from rs-fMRI data, often neglecting high-order features crucial for NDD classification. Methods: We introduce a Multi-view High-order Network (MHNet) to capture hierarchical and high-order features from multi-view BFNs derived from rs-fMRI data for NDD prediction. MHNet has two branches: the Euclidean Space Features Extraction (ESFE) module and the Non-Euclidean Space Features Extraction (Non-ESFE) module, followed by a Feature Fusion-based Classification (FFC) module for NDD identification. ESFE includes a Functional Connectivity Generation (FCG) module and a High-order Convolutional Neural Network (HCNN) module to extract local and high-order features from BFNs in Euclidean space. Non-ESFE comprises a Generic Internet-like Brain Hierarchical Network Generation (G-IBHN-G) module and a High-order Graph Neural Network (HGNN) module to capture topological and high-order features in non-Euclidean space. Results: Experiments on three public datasets show that MHNet outperforms state-of-the-art methods using both AAL1 and Brainnetome Atlas templates. Extensive ablation studies confirm the superiority of MHNet and the effectiveness of using multi-view fMRI information and high-order features. Our study also offers atlas options for constructing more sophisticated hierarchical networks and explains the association between key brain regions and NDD. Conclusion: MHNet leverages multi-view feature learning from both Euclidean and non-Euclidean spaces, incorporating high-order information from BFNs to enhance NDD classification performance.
翻訳日:2024-07-04 13:37:05 公開日:2024-07-03
# ゼロG環境における不確実浮体プラットフォームのPPOに基づく動的制御

PPO-based Dynamic Control of Uncertain Floating Platforms in the Zero-G Environment ( http://arxiv.org/abs/2407.03224v1 )

ライセンス: Link先を確認
Mahya Ramezani, M. Amin Alandihallaj, Andreas M. Hein, (参考訳) 宇宙探査の分野では、浮遊プラットフォームは科学調査や技術進歩において重要な役割を担っている。 しかし、これらのプラットフォームをゼロ重力環境で制御することは、不確実性や乱れなど、ユニークな課題をもたらす。 本稿では、ルクセンブルク大学のゼロ重力実験室(Zero-G Lab)において、PPOとモデル予測制御(MPC)を組み合わせた革新的なアプローチを提案する。 このアプローチは、PPOの強化学習力とMPCの精度を活用して、浮遊プラットフォームの複雑な制御ダイナミクスをナビゲートする。 従来の制御手法とは異なり、このPPO-MPCアプローチはMPC予測から学習し、モデル化されていない力学や乱れに適応し、ゼロ重力環境に合わせた弾力性のある制御フレームワークをもたらす。 Zero-G Lab のシミュレーションと実験は、PPO エージェントの適応性を示し、このアプローチを検証する。 この研究は、宇宙探査の進歩を約束するゼロ重力環境における浮体プラットフォーム制御の新しい可能性を開く。

In the field of space exploration, floating platforms play a crucial role in scientific investigations and technological advancements. However, controlling these platforms in zero-gravity environments presents unique challenges, including uncertainties and disturbances. This paper introduces an innovative approach that combines Proximal Policy Optimization (PPO) with Model Predictive Control (MPC) in the zero-gravity laboratory (Zero-G Lab) at the University of Luxembourg. This approach leverages PPO's reinforcement learning power and MPC's precision to navigate the complex control dynamics of floating platforms. Unlike traditional control methods, this PPO-MPC approach learns from MPC predictions, adapting to unmodeled dynamics and disturbances, resulting in a resilient control framework tailored to the zero-gravity environment. Simulations and experiments in the Zero-G Lab validate this approach, showcasing the adaptability of the PPO agent. This research opens new possibilities for controlling floating platforms in zero-gravity settings, promising advancements in space exploration.
翻訳日:2024-07-04 13:27:21 公開日:2024-07-03
# ASTベースのランク付けとスキーマプルーニングによる検索強化テキスト-to-SQLの改善

Improving Retrieval-augmented Text-to-SQL with AST-based Ranking and Schema Pruning ( http://arxiv.org/abs/2407.03227v1 )

ライセンス: Link先を確認
Zhili Shen, Pavlos Vougiouklis, Chenxin Diao, Kaustubh Vyas, Yuanyi Ji, Jeff Z. Pan, (参考訳) 我々は,大規模言語モデルの観点から,テキストからSQLへのセマンティックパーシングに注目した。 商用データベーススキーマのサイズやビジネスインテリジェンスソリューションの展開可能性に関わる課題から,入力データベース情報を動的に取得し,抽象構文木を用いてテキスト内学習の例を少数選択する手法を提案する。 さらに、並列セマンティックパーサが$\textit{approximated}$バージョンのSQLクエリを生成できる範囲を調査し、検索をサポートする。 我々は5億ドル未満のパラメータからなるモデルを極端に適用し、極めて効率的な近似器として機能し、並列化された方法でスキーマを処理できるように拡張する。 セマンティック解析のためのモノリンガルとクロスランガルのベンチマークにアプローチを適用し、最先端のベースラインよりも改善したことを示す。 総合的な実験は、この検索強化世代設定に関わるモジュールの貢献を強調し、今後の研究の興味深い方向性を明らかにしている。

We focus on Text-to-SQL semantic parsing from the perspective of Large Language Models. Motivated by challenges related to the size of commercial database schemata and the deployability of business intelligence solutions, we propose an approach that dynamically retrieves input database information and uses abstract syntax trees to select few-shot examples for in-context learning. Furthermore, we investigate the extent to which an in-parallel semantic parser can be leveraged for generating $\textit{approximated}$ versions of the expected SQL queries, to support our retrieval. We take this approach to the extreme--we adapt a model consisting of less than $500$M parameters, to act as an extremely efficient approximator, enhancing it with the ability to process schemata in a parallelised manner. We apply our approach to monolingual and cross-lingual benchmarks for semantic parsing, showing improvements over state-of-the-art baselines. Comprehensive experiments highlight the contribution of modules involved in this retrieval-augmented generation setting, revealing interesting directions for future work.
翻訳日:2024-07-04 13:27:21 公開日:2024-07-03
# LLMアライメントを破る単一文字摂動

Single Character Perturbations Break LLM Alignment ( http://arxiv.org/abs/2407.03232v1 )

ライセンス: Link先を確認
Leon Lin, Hannah Brown, Kenji Kawaguchi, Michael Shieh, (参考訳) LLMがセンシティブでヒューマン対応的な設定でデプロイされる場合、安全でない、バイアスのある、あるいはプライバシーに違反するアウトプットを出力しないことが重要です。 このため、モデルには「爆弾の作り方を教える」といった安全でないプロンプトへの答えを拒否するよう訓練され、指示されている。 これらのセーフガードにもかかわらず、モデル入力の端にスペースを付加するだけで、モデル防御を壊すことが可能である。 8つのオープンソースモデルの研究において、これはモデルの大半が非常に高い成功率で有害なアウトプットを生成するのに十分な攻撃であることを示した。 トークン化されたトレーニングデータに単一空間が存在する状況は、入力された時にリストを生成することを奨励し、安全でない要求に応答しないようにトレーニング信号をオーバーライドする。 本研究は、現在のモデルアライメントの脆弱な状態を強調し、より堅牢なアライメント手法を開発することの重要性を促進するものである。 コードとデータはhttps://github.com/hannah-aught/space_ attack.comから入手できる。

When LLMs are deployed in sensitive, human-facing settings, it is crucial that they do not output unsafe, biased, or privacy-violating outputs. For this reason, models are both trained and instructed to refuse to answer unsafe prompts such as "Tell me how to build a bomb." We find that, despite these safeguards, it is possible to break model defenses simply by appending a space to the end of a model's input. In a study of eight open-source models, we demonstrate that this acts as a strong enough attack to cause the majority of models to generate harmful outputs with very high success rates. We examine the causes of this behavior, finding that the contexts in which single spaces occur in tokenized training data encourage models to generate lists when prompted, overriding training signals to refuse to answer unsafe requests. Our findings underscore the fragile state of current model alignment and promote the importance of developing more robust alignment methods. Code and data will be available at https://github.com/hannah-aught/space_attack.
翻訳日:2024-07-04 13:27:21 公開日:2024-07-03
# LLMの敵攻撃に対する防御としての自己評価

Self-Evaluation as a Defense Against Adversarial Attacks on LLMs ( http://arxiv.org/abs/2407.03234v1 )

ライセンス: Link先を確認
Hannah Brown, Leon Lin, Kenji Kawaguchi, Michael Shieh, (参考訳) LLMがセンシティブでヒューマン対応的な設定でデプロイされる場合、安全でない、バイアスのある、あるいはプライバシーに違反するアウトプットを出力しないことが重要です。 このため、モデルには「爆弾の作り方を教える」といった安全でないプロンプトへの答えを拒否するよう訓練され、指示されている。 これらのセーフガードにもかかわらず、モデル入力の端にスペースを付加するだけで、モデル防御を壊すことが可能である。 8つのオープンソースモデルの研究において、これはモデルの大半が非常に高い成功率で有害なアウトプットを生成するのに十分な攻撃であることを示した。 トークン化されたトレーニングデータに単一空間が存在する状況は、入力された時にリストを生成することを奨励し、安全でない要求に応答しないようにトレーニング信号をオーバーライドする。 本研究は、現在のモデルアライメントの脆弱な状態を強調し、より堅牢なアライメント手法を開発することの重要性を促進するものである。 コードとデータはhttps://github.com/Linlt-leon/Adversarial-Alignments.comで公開される。

When LLMs are deployed in sensitive, human-facing settings, it is crucial that they do not output unsafe, biased, or privacy-violating outputs. For this reason, models are both trained and instructed to refuse to answer unsafe prompts such as "Tell me how to build a bomb." We find that, despite these safeguards, it is possible to break model defenses simply by appending a space to the end of a model's input. In a study of eight open-source models, we demonstrate that this acts as a strong enough attack to cause the majority of models to generate harmful outputs with very high success rates. We examine the causes of this behavior, finding that the contexts in which single spaces occur in tokenized training data encourage models to generate lists when prompted, overriding training signals to refuse to answer unsafe requests. Our findings underscore the fragile state of current model alignment and promote the importance of developing more robust alignment methods. Code and data will be made available at https://github.com/Linlt-leon/Adversarial-Alignments.
翻訳日:2024-07-04 13:27:21 公開日:2024-07-03
# CATT:文字ベースのアラビア・タシュキール変換器

CATT: Character-based Arabic Tashkeel Transformer ( http://arxiv.org/abs/2407.03236v1 )

ライセンス: Link先を確認
Faris Alasmary, Orjuwan Zaafarani, Ahmad Ghannam, (参考訳) タシュケル (Tashkeel) は、曖昧さを排除し、その欠如による誤解釈のリスクを最小限にすることで、アラビア語テキストの理解を大幅に強化する。 アラビア文字処理、特にテキスト音声翻訳や機械翻訳などの応用において重要な役割を担っている。 本稿では,ATDモデルのトレーニングに新たなアプローチを提案する。 まず、予め訓練された文字ベースBERTから初期化したエンコーダオンリーとエンコーダデコーダの2つのトランスを微調整した。 そして、最良のモデルの性能を高めるためにノイズ・スチューデント・アプローチを適用した。 我々は、WikiNewsとCATTデータセットという2つの手動ラベル付きベンチマークデータセットを使用して、11の商用およびオープンソースモデルと共にモデルを評価した。 以上の結果から,本モデルがWikiNews と CATT でそれぞれ 30.83 % と 35.21 % の相対的ダイアクリティカルエラー率 (DERs) で評価された全てのモデルを上回る結果を得た。 さらに,本モデルでは,CATTデータセットのGPT-4-turboを9.36\%の相対DDERで上回る性能を示した。 私たちはCATTモデルとベンチマークデータセットをオープンソースとして公開しています。

Tashkeel, or Arabic Text Diacritization (ATD), greatly enhances the comprehension of Arabic text by removing ambiguity and minimizing the risk of misinterpretations caused by its absence. It plays a crucial role in improving Arabic text processing, particularly in applications such as text-to-speech and machine translation. This paper introduces a new approach to training ATD models. First, we finetuned two transformers, encoder-only and encoder-decoder, that were initialized from a pretrained character-based BERT. Then, we applied the Noisy-Student approach to boost the performance of the best model. We evaluated our models alongside 11 commercial and open-source models using two manually labeled benchmark datasets: WikiNews and our CATT dataset. Our findings show that our top model surpasses all evaluated models by relative Diacritic Error Rates (DERs) of 30.83\% and 35.21\% on WikiNews and CATT, respectively, achieving state-of-the-art in ATD. In addition, we show that our model outperforms GPT-4-turbo on CATT dataset by a relative DER of 9.36\%. We open-source our CATT models and benchmark dataset for the research community\footnote{https://github.com/abjadai/catt}.
翻訳日:2024-07-04 13:27:21 公開日:2024-07-03
# ユーティリティの再考:実生活シナリオにおける合成モビリティデータ生成アルゴリズムの限界を明らかにする

Reconsidering utility: unveiling the limitations of synthetic mobility data generation algorithms in real-life scenarios ( http://arxiv.org/abs/2407.03237v1 )

ライセンス: Link先を確認
Alexandra Kapp, Helena Mihaljević, (参考訳) 近年,合成モビリティデータ生成のためのモデルの開発が急増している。 これらのモデルは、潜在的なアプリケーションに関する高いユーティリティと柔軟性を確保しながら、プライバシを保護しながらデータの共有を容易にすることを目的としています。 しかし、現在の実用性評価手法は、実生活における要件を完全に説明できない。 実世界の応用性の観点から,差分プライバシ(DP)保証の具体化と無関係の5つの最先端合成手法の有用性を評価した。 具体的には,GPSによるタクシーの走行などの細かな都市運動を符号化するいわゆる旅行データに着目した。 このようなデータは、道路ネットワークレベルでの下流タスクには特に有用である。 したがって、私たちの最初のステップは、合成データのマッチングを適切にマッピングし、その結果のトリップとOpenStreetMapで実装されたルーティングアルゴリズムで生成されたトリップとを比較し、効率的でプライバシーに優しいベースラインとして機能する。 5つの評価モデルのうち、1つは妥当な計算時間内にデータを生成することができず、もう1つはマップマッチングの要件を満たすためにあまりに多くのジャンプを生成する。 残りの3つのモデルは空間分布を維持するのにある程度成功した。 しかしながら、すべてのモデルは、合理的な旅行距離を持つ測地位置の有意義なシーケンスを生成し、交差点での交通の流れを正確にモデル化するのに苦労する。 旅行データは,時間的情報などの空間分布を超えた様々な特徴を包含しており,これら全てはこれらのモデルによって破棄されていることに留意する必要がある。 その結果, 現在の合成モデルでは, 実用性と柔軟性が期待できないことが示唆された。

In recent years, there has been a surge in the development of models for the generation of synthetic mobility data. These models aim to facilitate the sharing of data while safeguarding privacy, all while ensuring high utility and flexibility regarding potential applications. However, current utility evaluation methods fail to fully account for real-life requirements. We evaluate the utility of five state-of-the-art synthesis approaches, each with and without the incorporation of differential privacy (DP) guarantees, in terms of real-world applicability. Specifically, we focus on so-called trip data that encode fine granular urban movements such as GPS-tracked taxi rides. Such data prove particularly valuable for downstream tasks at the road network level. Thus, our initial step involves appropriately map matching the synthetic data and subsequently comparing the resulting trips with those generated by the routing algorithm implemented in OpenStreetMap, which serves as an efficient and privacy-friendly baseline. Out of the five evaluated models, one fails to produce data within reasonable computation time and another generates too many jumps to meet the requirements for map matching. The remaining three models succeed to a certain degree in maintaining spatial distribution, one even with DP guarantees. However, all models struggle to produce meaningful sequences of geo-locations with reasonable trip lengths and to model traffic flow at intersections accurately. It is important to note that trip data encompasses various relevant characteristics beyond spatial distribution, such as temporal information, all of which are discarded by these models. Consequently, our results imply that current synthesis models fall short in their promise of high utility and flexibility.
翻訳日:2024-07-04 13:27:21 公開日:2024-07-03
# 測定に基づく量子オットーエンジンにおける作業の準確率分布

Quasi-probability distribution of work in a measurement-based quantum Otto engine ( http://arxiv.org/abs/2407.03238v1 )

ライセンス: Link先を確認
Chayan Purkait, Shubhrangshu Dasgupta, Asoka Biswas, (参考訳) 本研究では, 量子非選択的測定をエンジンの燃料として用いる, 測定に基づく量子オットーエンジンの作業統計を, 結合スピン作業システム(WS)を用いて検討する。 WSはスピン間異方性相互作用の存在下で、ユニタリ作業抽出段階の開始時にエネルギー固有基底に量子コヒーレンスを示す。 確率的作業の特定の値の確率は負であり、位相空間で見られる準確率分布に類似していることを示す。 これは量子コヒーレンスによって促進される干渉項に起因する。 さらに,コヒーレンスは有限時間で平均的な作業を改善することができることを確認した。 次に,2つの熱浴間での作業分布と標準QOEを比較した。 量子コヒーレンスがないため、標準的なQOEでは確率的作業の確率は負にはならない。

We study the work statistics of a measurement-based quantum Otto engine, where quantum non-selective measurements are used to fuel the engine, in a coupled spin working system (WS). The WS exhibits quantum coherence in the energy eigenbasis at the beginning of a unitary work extraction stage in presence of inter-spin anisotropic interaction. We demonstrate that the probability of certain values of stochastic work can be negative, rendering itself akin to the quasi-probability distribution found in phase space. This can be attributed to the interference terms facilitated by quantum coherence. Additionally, we establish that coherence can improve the average work in finite time. Subsequently, we compare the work distribution with a standard QOE operating between two heat baths. We find that, because of the absence of quantum coherence, the probability of stochastic work cannot be negative in a standard QOE.
翻訳日:2024-07-04 13:27:21 公開日:2024-07-03
# 残留Beylkin-Coifman-Rokhlinニューラルネットワークを用いた顕微鏡デコンボリューションの逆問題の解法

Solving the inverse problem of microscopy deconvolution with a residual Beylkin-Coifman-Rokhlin neural network ( http://arxiv.org/abs/2407.03239v1 )

ライセンス: Link先を確認
Rui Li, Mikhail Kudryashev, Artur Yakimovich, (参考訳) 光顕微鏡(LM)における光学デコンボリューション(英: Optic deconvolution)とは、画像から物体の詳細を復元し、サンプルの基礎的真実を明らかにすることを指す。 LMの従来の明示的な手法は、画像取得時にポイントスプレッド関数(PSF)に依存する。 しかし、これらのアプローチは、不正確なPSFモデルとノイズアーティファクトのためにしばしば失敗し、全体の修復品質を損なう。 本稿では,逆問題として光学デコンボリューションにアプローチした。 そこで,Beylkin,Coifman,Rokhlin (BCR) が導入した非標準形式圧縮方式により,光デコンボリューションを近似する革新的物理インフォームニューラルネットワークであるMulti-Stage Residual-BCR Net (m-rBCR) を提案した。 我々は、ImageNetとBioSRの2つのシミュレーション顕微鏡データセット、実際のdSTORM顕微鏡画像、および実際の広視野顕微鏡画像の4つの顕微鏡データセット上でm-rBCRモデルを検証した。 明示的なデコンボリューション法(例えばRichardson-Lucy)や他の最先端NNモデル(U-Net、DDPM、CARE、DnCNN、ESRGAN、RCAN、Noss2Noise、MPRNet、MIMO-U-Net)とは対照的に、m-rBCRモデルは2つの実際の顕微鏡データセットとシミュレーションされたBioSRデータセットにおいてPSNRとSSIMによる他の候補よりも優れた性能を示している。 シミュレーションされたImageNetデータセットでは、m-rBCRがMIMO-U-Netに次いで第2位である。 光学物理学のバックボーンにより、m-rBCRはトレーニング可能なパラメータをより良い性能で利用する(MIMO-U-Netのベンチマークの約30倍からESRGANの約210倍まで)。 これにより、m-rBCRは短いランタイム(MIMO-U-Netの約3倍、DDPMの約300倍)を達成することができる。 要約すると、我々のモデルは、物理制約を利用して専門性指向のNN候補において、潜在的に冗長なパラメータを著しく削減し、優れた性能で高い効率を実現した。

Optic deconvolution in light microscopy (LM) refers to recovering the object details from images, revealing the ground truth of samples. Traditional explicit methods in LM rely on the point spread function (PSF) during image acquisition. Yet, these approaches often fall short due to inaccurate PSF models and noise artifacts, hampering the overall restoration quality. In this paper, we approached the optic deconvolution as an inverse problem. Motivated by the nonstandard-form compression scheme introduced by Beylkin, Coifman, and Rokhlin (BCR), we proposed an innovative physics-informed neural network Multi-Stage Residual-BCR Net (m-rBCR) to approximate the optic deconvolution. We validated the m-rBCR model on four microscopy datasets - two simulated microscopy datasets from ImageNet and BioSR, real dSTORM microscopy images, and real widefield microscopy images. In contrast to the explicit deconvolution methods (e.g. Richardson-Lucy) and other state-of-the-art NN models (U-Net, DDPM, CARE, DnCNN, ESRGAN, RCAN, Noise2Noise, MPRNet, and MIMO-U-Net), the m-rBCR model demonstrates superior performance to other candidates by PSNR and SSIM in two real microscopy datasets and the simulated BioSR dataset. In the simulated ImageNet dataset, m-rBCR ranks the second-best place (right after MIMO-U-Net). With the backbone from the optical physics, m-rBCR exploits the trainable parameters with better performances (from ~30 times fewer than the benchmark MIMO-U-Net to ~210 times than ESRGAN). This enables m-rBCR to achieve a shorter runtime (from ~3 times faster than MIMO-U-Net to ~300 times faster than DDPM). To summarize, by leveraging physics constraints our model reduced potentially redundant parameters significantly in expertise-oriented NN candidates and achieved high efficiency with superior performance.
翻訳日:2024-07-04 13:27:21 公開日:2024-07-03
# Cyclic Refiner:多視点3D検出・追跡のためのオブジェクト認識時間表現学習

Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and Tracking ( http://arxiv.org/abs/2407.03240v1 )

ライセンス: Link先を確認
Mingzhe Guo, Zhipeng Zhang, Liping Jing, Yuan He, Ke Wang, Heng Fan, (参考訳) マルチビュー3次元検出・追跡タスクのための統合オブジェクト認識時間学習フレームワークを提案する。 近年の多視点認識手法における時間的融合戦略の有効性は,過去のフレームにおける乱れや背景の散らばりによって弱まる可能性があることを観察し,多視点表現学習の堅牢性を改善するための循環学習機構を提案する。 本質的には、モデル予測(例えば、オブジェクトの位置とサイズ)から画像およびBEV特徴へ情報を伝達する後方ブリッジを構築し、通常の推論で円を形成する。 後方修正後、過去のフレームにおける対象非関連領域の応答が抑制され、将来のフレームを汚染するリスクが減少し、時間融合の物体認識能力が向上する。 さらに、循環学習モデルに基づくトラッキングのためのオブジェクト認識アソシエイト戦略を調整する。 循環学習モデルは、洗練された特徴を提供するだけでなく、トラックレットアソシエーションのためのより細かい手がかり(例えば、スケールレベル)を提供する。 提案したサイクル学習手法とアソシエイトモジュールは、新しく統一されたマルチタスクフレームワークに寄与する。 nuScenes の実験により,提案モデルでは,検出および追跡評価の両方において,異なる設計(高密度クエリベースの BEVFormer,スパースクエリベースの SparseBEV と LSSベースの BEVDet4D )のベースラインよりも一貫した性能向上が得られた。

We propose a unified object-aware temporal learning framework for multi-view 3D detection and tracking tasks. Having observed that the efficacy of the temporal fusion strategy in recent multi-view perception methods may be weakened by distractors and background clutters in historical frames, we propose a cyclic learning mechanism to improve the robustness of multi-view representation learning. The essence is constructing a backward bridge to propagate information from model predictions (e.g., object locations and sizes) to image and BEV features, which forms a circle with regular inference. After backward refinement, the responses of target-irrelevant regions in historical frames would be suppressed, decreasing the risk of polluting future frames and improving the object awareness ability of temporal fusion. We further tailor an object-aware association strategy for tracking based on the cyclic learning model. The cyclic learning model not only provides refined features, but also delivers finer clues (e.g., scale level) for tracklet association. The proposed cycle learning method and association module together contribute a novel and unified multi-task framework. Experiments on nuScenes show that the proposed model achieves consistent performance gains over baselines of different designs (i.e., dense query-based BEVFormer, sparse query-based SparseBEV and LSS-based BEVDet4D) on both detection and tracking evaluation.
翻訳日:2024-07-04 13:27:21 公開日:2024-07-03
# 原始受容データを用いた宇宙探査ロボットの不確実性を考慮した地形分類

Terrain Classification Enhanced with Uncertainty for Space Exploration Robots from Proprioceptive Data ( http://arxiv.org/abs/2407.03241v1 )

ライセンス: Link先を確認
Mariela De Lucas Álvarez, Jichen Guo, Raul Domínguez, Matias Valdenegro-Toro, (参考訳) 地形分類は宇宙探査において重要な課題であり、予測不可能な環境は視力などの外部受容センサーのみを用いて観測することが困難である。 ニューラルネットワークの分類器の実装は高いパフォーマンスを持つが、透明性が欠如しているため信頼できないと見なすことができる。 本稿では,地層分類における不確実性定量化を用いたニューラルネットワークの提案により,この問題に対処する。 入力としてプロプリセプティブデータのみを使用して時系列対応アーキテクチャにおいて,モンテカルロ・ドロップアウト,DropConnect,Flipoutによるニューラルネットワークを実現する。 ハイパバンドを用いたベイズ最適化を用いて,高パラメータ最適化を行い,信頼性の高い地形分類のための最適モデルを求める。

Terrain Classification is an essential task in space exploration, where unpredictable environments are difficult to observe using only exteroceptive sensors such as vision. Implementing Neural Network classifiers can have high performance but can be deemed untrustworthy as they lack transparency, which makes them unreliable for taking high-stakes decisions during mission planning. We address this by proposing Neural Networks with Uncertainty Quantification in Terrain Classification. We enable our Neural Networks with Monte Carlo Dropout, DropConnect, and Flipout in time series-capable architectures using only proprioceptive data as input. We use Bayesian Optimization with Hyperband for efficient hyperparameter optimization to find optimal models for trustworthy terrain classification.
翻訳日:2024-07-04 13:27:21 公開日:2024-07-03
# 意識駆動型制約バランシングによる視覚的グラウンドリング

Visual Grounding with Attention-Driven Constraint Balancing ( http://arxiv.org/abs/2407.03243v1 )

ライセンス: Link先を確認
Weitai Kang, Luowei Zhou, Junyi Wu, Changchang Sun, Yan Yan, (参考訳) オブジェクト検出とは異なり、ビジュアルグラウンドタスクは複雑な自由形式言語で記述されたオブジェクトの検出を必要とする。 このような複雑な意味表現と視覚表現を同時にモデル化するために、最近の最先端研究ではトランスフォーマーモデルを用いて両方のモダリティから特徴を融合させ、さらに視覚的特徴を修飾して言語表現と整合し、無関係な冗長情報を除去する様々なモジュールを導入している。 しかし、それらの損失関数は、まだ共通のオブジェクト検出損失を採用しており、境界ボックスの回帰出力のみを支配しており、上記の目的のために完全に最適化することができない。 この問題に対処するため,本論文ではまず,変圧器モデルにおける注意機構を解析する。 これに基づいて,言語関連領域における視覚的特徴の振舞いを最適化する,AttBalance(AttDriven Constraint Balancing)という新しいフレームワークを提案する。 実験結果から,本手法は優れた改善をもたらすことが示された。 具体的には、4つの異なるベンチマークで評価された5つの異なるモデルに対して一定の改善が達成される。 さらに,本手法をQRNetに組み込むことで,最先端のパフォーマンスを実現する。

Unlike Object Detection, Visual Grounding task necessitates the detection of an object described by complex free-form language. To simultaneously model such complex semantic and visual representations, recent state-of-the-art studies adopt transformer-based models to fuse features from both modalities, further introducing various modules that modulate visual features to align with the language expressions and eliminate the irrelevant redundant information. However, their loss function, still adopting common Object Detection losses, solely governs the bounding box regression output, failing to fully optimize for the above objectives. To tackle this problem, in this paper, we first analyze the attention mechanisms of transformer-based models. Building upon this, we further propose a novel framework named Attention-Driven Constraint Balancing (AttBalance) to optimize the behavior of visual features within language-relevant regions. Extensive experimental results show that our method brings impressive improvements. Specifically, we achieve constant improvements over five different models evaluated on four different benchmarks. Moreover, we attain a new state-of-the-art performance by integrating our method into QRNet.
翻訳日:2024-07-04 13:27:21 公開日:2024-07-03
# TieBot: 実-実-実-実-実-実-実-のアプローチを通じて,視覚的なデモからTieを結び付けることを学ぶ

TieBot: Learning to Knot a Tie from Visual Demonstration through a Real-to-Sim-to-Real Approach ( http://arxiv.org/abs/2407.03245v1 )

ライセンス: Link先を確認
Weikun Peng, Jun Lv, Yuwei Zeng, Haonan Chen, Siheng Zhao, Jicheng Sun, Cewu Lu, Lin Shao, (参考訳) ネクタイ編み作業は、タイの高変形と長水平操作により非常に困難である。 この研究は、ロボットがネクタイを結びつくことを学べるように、視覚的なデモシステムからリアルタイムに学習するTieBotを紹介している。 実演ビデオからネクタイのメッシュ列を推定する階層的特徴マッチング手法を提案する。 これらの推定メッシュをサブゴールとして使用することにより,特権情報を用いて教師の方針を学習する。 そして,教師の方針を模倣して,点雲観測による学生政策を学習する。 最後に、我々のパイプラインは、学習されたポリシーが実世界の実行に適用されたときに残留ポリシーを学習し、Sim2Realのギャップを軽減します。 シミュレーションと実世界におけるTieBotの有効性を実証する。 実世界の実験では、デュアルアームロボットがネクタイを結び、10回の試験で50%の成功率を達成した。 ビデオは $\href{https://tiebots.github.io/}{\text{website}}$.com で見ることができます。

The tie-knotting task is highly challenging due to the tie's high deformation and long-horizon manipulation actions. This work presents TieBot, a Real-to-Sim-to-Real learning from visual demonstration system for the robots to learn to knot a tie. We introduce the Hierarchical Feature Matching approach to estimate a sequence of tie's meshes from the demonstration video. With these estimated meshes used as subgoals, we first learn a teacher policy using privileged information. Then, we learn a student policy with point cloud observation by imitating teacher policy. Lastly, our pipeline learns a residual policy when the learned policy is applied to real-world execution, mitigating the Sim2Real gap. We demonstrate the effectiveness of TieBot in simulation and the real world. In the real-world experiment, a dual-arm robot successfully knots a tie, achieving 50% success rate among 10 trials. Videos can be found on our $\href{https://tiebots.github.io/}{\text{website}}$.
翻訳日:2024-07-04 13:27:21 公開日:2024-07-03
# プログラマブル量子シミュレータにおける量子粗大化と集団ダイナミクス

Quantum coarsening and collective dynamics on a programmable quantum simulator ( http://arxiv.org/abs/2407.03249v1 )

ライセンス: Link先を確認
Tom Manovitz, Sophie H. Li, Sepehr Ebadi, Rhine Samajdar, Alexandra A. Geim, Simon J. Evered, Dolev Bluvstein, Hengyun Zhou, Nazli Uğur Köylüoğlu, Johannes Feldmeier, Pavel E. Dolgirev, Nishad Maskara, Marcin Kalinowski, Subir Sachdev, David A. Huse, Markus Greiner, Vladan Vuletić, Mikhail D. Lukin, (参考訳) 非平衡多体系の集合量子力学を理解することは、量子科学において顕著な課題である。 特に、量子ゆらぎによって駆動される力学は、物質 \cite{altman2023quantum} 、基本高エネルギー過程 \cite{bauer2023highenergy} 、量子メトロジー \cite{degen2017sensing, li2023scrambling} 、量子アルゴリズム \cite{ebadi2022quantum} の生成において重要である。 ここでは、Rydberg原子配列に基づくプログラマブル量子シミュレータを用いて、(2+1)Dイジング量子相転移の集団力学を実験的に研究する。 量子臨界点を越えた後、反強磁性秩序領域を粗くすることで相関の段階的な成長を観測する。 順序付き領域の進化を決定的に準備・追従することにより、粗い領域は領域境界の曲率によって駆動され、量子臨界点に近接して力学が加速されることが分かる。 我々はこれらの現象を定量的に探索し、さらに振幅(ヒッグス)モード \cite{pekker2015amplitude} に対応する秩序パラメータの長寿命振動を観測する。 これらの観測は、強い相関量子系と非平衡量子過程における創発的集団力学にユニークな視点を与える。

Understanding the collective quantum dynamics of nonequilibrium many-body systems is an outstanding challenge in quantum science. In particular, dynamics driven by quantum fluctuations are important for the formation of exotic quantum phases of matter \cite{altman2023quantum}, fundamental high-energy processes \cite{bauer2023highenergy}, quantum metrology \cite{degen2017sensing, li2023scrambling}, and quantum algorithms \cite{ebadi2022quantum}. Here, we use a programmable quantum simulator based on Rydberg atom arrays to experimentally study collective dynamics across a (2+1)D Ising quantum phase transition. After crossing the quantum critical point, we observe a gradual growth of correlations through coarsening of antiferromagnetically ordered domains~\cite{Samajdar2024}. By deterministically preparing and following the evolution of ordered domains, we show that the coarsening is driven by the curvature of domain boundaries, and find that the dynamics accelerate with proximity to the quantum critical point. We quantitatively explore these phenomena and further observe long-lived oscillations of the order parameter, corresponding to an amplitude (Higgs) mode \cite{pekker2015amplitude}. These observations offer a unique viewpoint into emergent collective dynamics in strongly correlated quantum systems and nonequilibrium quantum processes.
翻訳日:2024-07-04 13:27:21 公開日:2024-07-03
# ビッグデータが実際に低ランクである場合、あるいは特定の関数生成行列のエントリワイズ近似

When big data actually are low-rank, or entrywise approximation of certain function-generated matrices ( http://arxiv.org/abs/2407.03250v1 )

ライセンス: Link先を確認
Stanislav Budzinskiy, (参考訳) この記事は、2$m$次元変数の滑らかな関数をサンプリングすることによって生成される行列の低ランク近似に関するものである。 我々は、特定の分析関数のクラスに対して、そのような行列は$m$に依存しないランクの正確なエントリーワイズ近似を許容する、という文献の議論に反論する。 この議論を支持するために提示された数値結果について理論的に説明し、$n \times n$ 関数生成行列が階数 $\varepsilon$ のエントリーワイド誤差で近似できる関数の3つのより狭いクラスを記述し、階数 $\mathcal{O}(\log(n) \varepsilon^{-2} \mathrm{polylog}(\varepsilon^{-1})$ は次元 $m$ とは独立である。 i) 2つの変数の内積の関数 (ii)変数間の2乗ユークリッド距離の関数と (iii)シフト不変正定核。 我々は、この議論を、それらの$m$次元変数の多線型積の関数で生成されるテンソルの低ランクテンソルトレイン近似に拡張する。 本稿では、トランスニューラルネットワークにおける低ランクの注目度近似の文脈における結果について論じる。

The article concerns low-rank approximation of matrices generated by sampling a smooth function of two $m$-dimensional variables. We refute an argument made in the literature that, for a specific class of analytic functions, such matrices admit accurate entrywise approximation of rank that is independent of $m$. We provide a theoretical explanation of the numerical results presented in support of this argument, describing three narrower classes of functions for which $n \times n$ function-generated matrices can be approximated within an entrywise error of order $\varepsilon$ with rank $\mathcal{O}(\log(n) \varepsilon^{-2} \mathrm{polylog}(\varepsilon^{-1}))$ that is independent of the dimension $m$: (i) functions of the inner product of the two variables, (ii) functions of the squared Euclidean distance between the variables, and (iii) shift-invariant positive-definite kernels. We extend our argument to low-rank tensor-train approximation of tensors generated with functions of the multi-linear product of their $m$-dimensional variables. We discuss our results in the context of low-rank approximation of attention in transformer neural networks.
翻訳日:2024-07-04 13:27:21 公開日:2024-07-03
# ACTRESS:半教師付き視覚接地のためのアクティブリトレーニング

ACTRESS: Active Retraining for Semi-supervised Visual Grounding ( http://arxiv.org/abs/2407.03251v1 )

ライセンス: Link先を確認
Weitai Kang, Mengxue Qu, Yunchao Wei, Yan Yan, (参考訳) Semi-Supervised Visual Grounding (SSVG)は、マルチモデル理解を必要とするスパースラベル付きデータの新たな課題である。 前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。 しかしこのアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。 これらのパイプラインは、リージョンの提案やフォアグラウンドのバイナリ分類なしに結果を直接後退させ、信頼スコアがないためにRefTeacherに適合するのに適さない。 さらに、教師と学生の入力の幾何学的差異は、異なるデータ拡張から生じるものであり、注意に基づく制約の中で自然のミスアライメントを引き起こす。 本稿では,SSVGフレームワークの互換性を確立するために,アクティブ・リトレーニング手法を提案する。 当初は、検出信頼性を公開するために、追加の量子化検出ヘッドを組み込むことで、モデルが強化される。 これに基づいて、ACTRESSはアクティブサンプリング戦略と選択的再訓練戦略から構成される。 アクティブサンプリング戦略は、信頼度、ロバスト性、信頼の3つの重要な側面を評価し、ラベルなしデータの利用を最適化することで、高品質な擬似ラベルを反復的に選択する。 選択的再訓練戦略は、特定のパラメータの周期的再初期化によってモデルを再訓練し、モデルが局所的なミニマから逃れるのを容易にする。 大規模な実験は、広く使用されているベンチマークデータセットにおいて、私たちの優れたパフォーマンスを示しています。

Semi-Supervised Visual Grounding (SSVG) is a new challenge for its sparse labeled data with the need for multimodel understanding. A previous study, RefTeacher, makes the first attempt to tackle this task by adopting the teacher-student framework to provide pseudo confidence supervision and attention-based supervision. However, this approach is incompatible with current state-of-the-art visual grounding models, which follow the Transformer-based pipeline. These pipelines directly regress results without region proposals or foreground binary classification, rendering them unsuitable for fitting in RefTeacher due to the absence of confidence scores. Furthermore, the geometric difference in teacher and student inputs, stemming from different data augmentations, induces natural misalignment in attention-based constraints. To establish a compatible SSVG framework, our paper proposes the ACTive REtraining approach for Semi-Supervised Visual Grounding, abbreviated as ACTRESS. Initially, the model is enhanced by incorporating an additional quantized detection head to expose its detection confidence. Building upon this, ACTRESS consists of an active sampling strategy and a selective retraining strategy. The active sampling strategy iteratively selects high-quality pseudo labels by evaluating three crucial aspects: Faithfulness, Robustness, and Confidence, optimizing the utilization of unlabeled data. The selective retraining strategy retrains the model with periodic re-initialization of specific parameters, facilitating the model's escape from local minima. Extensive experiments demonstrates our superior performance on widely-used benchmark datasets.
翻訳日:2024-07-04 13:27:21 公開日:2024-07-03
# STF: 限定データによるトピック分類のための文変換器ファインチューニング

STF: Sentence Transformer Fine-Tuning For Topic Categorization With Limited Data ( http://arxiv.org/abs/2407.03253v1 )

ライセンス: Link先を確認
Kheir Eddine Daouadi, Yaakoub Boualleg, Oussama Guehairia, (参考訳) 今日では、ツイートからトピックを分類する研究が注目されている。 これらの研究により、異なる分類体系が提案されている。 それでも、ラベル付きデータの量が少ないため、パフォーマンスの指標が低いため、大きな課題に直面しています。 本研究では,事前学習したセンテンス変換器モデルを利用したトピック検出システムであるSentence Transformers Fine-tuning (STF)を提案する。 さらに, トピック分類タスクのSTFパラメータを微調整し, 最適な性能を実現するために, パラメータ感度分析を行った。 2つのベンチマークデータセットの実験により,(1)提案したSTFは,ツイートトピックを効果的に分類し,最新の最先端のアプローチより優れていること,(2)提案したSTFは大量のラベル付きツイートを必要とせず,精度が向上することを示した。 我々の主な貢献は、事前訓練された文変換言語モデルを適用することで、ツイートトピック分類における有望な結果の達成である。

Nowadays, topic classification from tweets attracts considerable research attention. Different classification systems have been suggested thanks to these research efforts. Nevertheless, they face major challenges owing to low performance metrics due to the limited amount of labeled data. We propose Sentence Transformers Fine-tuning (STF), a topic detection system that leverages pretrained Sentence Transformers models and fine-tuning to classify topics from tweets accurately. Moreover, extensive parameter sensitivity analyses were conducted to finetune STF parameters for our topic classification task to achieve the best performance results. Experiments on two benchmark datasets demonstrated that (1) the proposed STF can be effectively used for classifying tweet topics and outperforms the latest state-of-the-art approaches, and (2) the proposed STF does not require a huge amount of labeled tweets to achieve good accuracy, which is a limitation of many state-of-the-art approaches. Our main contribution is the achievement of promising results in tweet topic classification by applying pretrained sentence transformers language models.
翻訳日:2024-07-04 13:17:22 公開日:2024-07-03
# 選挙人とその構成員はどの程度似ているか : オンラインソーシャルネットワークによる定量的証拠

How Similar Are Elected Politicians and Their Constituents? Quantitative Evidence From Online Social Network ( http://arxiv.org/abs/2407.03255v1 )

ライセンス: Link先を確認
Waleed Iqbal, Gareth Tyson, Ignacio Castro, (参考訳) 政治家は投票する政治家とどの程度似ているのか。 これは民主的な代表の中心にある重要な問題であり、政治的不満やポピュリズムが高まりつつあるときに特に関係している。 この質問に答えるために、選出された政治家とその構成員のオンライン談話を比較する。 私たちは2年半(2020年9月~2023年2月)の米国と英国の選挙区レベルのデータセットを集めています。 (i)選挙で選出された政治家(英国議会議員595人、米国下院議員433人)のTwitterタイムライン(560万ツイート) (ii) 選挙区のNextdoorポスト(21.8万ポスト)(98.4%、英国91.5%)。 選出された政治家は、選挙区が右派か左派かに関わらず、その構成員と内容やスタイルで等しく類似する傾向にある。 選挙人の勝利の大きさと選挙区の収入水準は、微妙なイメージを示している。 選挙人の勝利が狭まるほど、そのスタイルはより類似し、内容が異なってくる。 選挙区の収入が低いほど、その内容はより類似している。 スタイルの面では、貧しい選挙区は、より類似した感情を持ち、より異質な心理的テキスト特性を持つ傾向がある(すなわち、LIWCカテゴリで測定される)。

How similar are politicians to those who vote for them? This is a critical question at the heart of democratic representation and particularly relevant at times when political dissatisfaction and populism are on the rise. To answer this question we compare the online discourse of elected politicians and their constituents. We collect a two and a half years (September 2020 - February 2023) constituency-level dataset for USA and UK that includes: (i) the Twitter timelines (5.6 Million tweets) of elected political representatives (595 UK Members of Parliament and 433 USA Representatives), (ii) the Nextdoor posts (21.8 Million posts) of the constituency (98.4% USA and 91.5% UK constituencies). We find that elected politicians tend to be equally similar to their constituents in terms of content and style regardless of whether a constituency elects a right or left-wing politician. The size of the electoral victory and the level of income of a constituency shows a nuanced picture. The narrower the electoral victory, the more similar the style and the more dissimilar the content is. The lower the income of a constituency, the more similar the content is. In terms of style, poorer constituencies tend to have a more similar sentiment and more dissimilar psychological text traits (i.e. measured with LIWC categories).
翻訳日:2024-07-04 13:17:22 公開日:2024-07-03
# 最近の隣り合わせの成分分析:2年後の深部タブラルベースライン

Modern Neighborhood Components Analysis: A Deep Tabular Baseline Two Decades Later ( http://arxiv.org/abs/2407.03257v1 )

ライセンス: Link先を確認
Han-Jia Ye, Huai-Hong Yin, De-Chuan Zhan, (参考訳) 様々な分野におけるディープラーニングの成功の高まりは、従来の木に基づく手法と比較して、深層モデルが有望な結果を示した表型データへの適用を調査するきっかけとなっている。 本稿では,2004年に導入された古典的な表形式予測手法であるNorborhood Component Analysis (NCA)を再検討する。 学習目的の調整や深層学習アーキテクチャの統合といった微調整により,NAAの性能が大幅に向上し,最新の深層表形式モデルを上回ることが確認された。 さらに,提案するModernNCAの効率性と予測精度を向上する確率的隣人サンプリング戦略を導入する。 大規模な実験により、我々のModernNCAは、様々な表型データセットの分類と回帰タスクの両方において最先端の結果を達成し、ツリーベースおよび他の深い表型モデルよりも優れ、トレーニング時間とモデルサイズも減少することを示した。

The growing success of deep learning in various domains has prompted investigations into its application to tabular data, where deep models have shown promising results compared to traditional tree-based methods. In this paper, we revisit Neighborhood Component Analysis (NCA), a classic tabular prediction method introduced in 2004, designed to learn a linear projection that captures semantic similarities between instances. We find that minor modifications, such as adjustments to the learning objectives and the integration of deep learning architectures, significantly enhance NCA's performance, enabling it to surpass most modern deep tabular models. Additionally, we introduce a stochastic neighbor sampling strategy that improves both the efficiency and predictive accuracy of our proposed ModernNCA -- sampling only a subset of neighbors during training, while utilizing the entire neighborhood during inference. Extensive experiments demonstrate that our ModernNCA achieves state-of-the-art results in both classification and regression tasks across various tabular datasets, outperforming both tree-based and other deep tabular models, while also reducing training time and model size.
翻訳日:2024-07-04 13:17:22 公開日:2024-07-03
# ニューラル演算子を用いた磁気ヒステリシスモデリング

Magnetic Hysteresis Modeling with Neural Operators ( http://arxiv.org/abs/2407.03261v1 )

ライセンス: Link先を確認
Abhishek Chandra, Bram Daniels, Mitrofan Curti, Koen Tiels, Elena A. Lomonova, (参考訳) ヒステリシスモデリングは、磁気デバイスの振る舞いを理解するために重要であり、最適な設計を容易にする。 ヒステリシスをモデル化するための階層的深層学習に基づく手法は、新しい入力磁場への一般化における課題に直面している。 本稿では、磁場間のマッピングを学習することにより、磁気ヒステリシスを示す構成法則をモデル化するためのニューラルネットワークの提案により、一般化の課題に対処する。 特に、2つの著名なニューラル演算子(ディープオペレータネットワークとフーリエニューラル演算子)は、新しい一階反転曲線とマイナーループを予測するために使用される。 さらに、磁気ヒステリシスの速度非依存特性を組み込むために、トレーニング中に使用するものと異なるサンプリングレートで物質応答を予測するために、速度非依存のフーリエニューラル演算子を提案する。 提案する数値実験により, ニューラル演算子は効率よく磁気ヒステリシスをモデル化し, 様々な測定値において従来のニューラルリカレント法より優れ, 新たな磁場への一般化を示す。 この知見は、様々な磁気条件下でヒステリシスをモデル化するために神経演算子を使用することの利点を強調し、磁気材料ベースのデバイスを特徴づけることの重要性を強調した。

Hysteresis modeling is crucial to comprehend the behavior of magnetic devices, facilitating optimal designs. Hitherto, deep learning-based methods employed to model hysteresis, face challenges in generalizing to novel input magnetic fields. This paper addresses the generalization challenge by proposing neural operators for modeling constitutive laws that exhibit magnetic hysteresis by learning a mapping between magnetic fields. In particular, two prominent neural operators -- deep operator network and Fourier neural operator -- are employed to predict novel first-order reversal curves and minor loops, where novel means they are not used to train the model. In addition, a rate-independent Fourier neural operator is proposed to predict material responses at sampling rates different from those used during training to incorporate the rate-independent characteristics of magnetic hysteresis. The presented numerical experiments demonstrate that neural operators efficiently model magnetic hysteresis, outperforming the traditional neural recurrent methods on various metrics and generalizing to novel magnetic fields. The findings emphasize the advantages of using neural operators for modeling hysteresis under varying magnetic conditions, underscoring their importance in characterizing magnetic material based devices.
翻訳日:2024-07-04 13:17:22 公開日:2024-07-03
# $\ell_p$ 部分空間近似のほぼ線形スカラー化

Nearly Linear Sparsification of $\ell_p$ Subspace Approximation ( http://arxiv.org/abs/2407.03262v1 )

ライセンス: Link先を確認
David P. Woodruff, Taisuke Yasuda, (参考訳) $\ell_p$ 部分空間近似問題(英: $\ell_p$ subspace approximation problem)は、主成分解析(英: principal component analysis)(p = 2$)、中心超平面問題(英: center hyperplane problem)(p = \infty$)を一般化するNPハード低階近似問題である。 この問題のNPハードネスに対処する一般的なアプローチは、入力点の小さな重み付き部分集合である強いコアセットを計算することであり、これは、通常、小さな定数$\varepsilon$に対して、$1+\varepsilon)$相対誤差に対して、すべての$k$-次元部分空間のコストを同時に近似するものである。 p<2$および$\tilde O(k^{p/2})\mathrm{poly}(\varepsilon^{-1})$ for $p>2$。 以前の構成では、同じサイズ境界に達したが、原点の変更によるコアセットを作成した(SW18, FKW21] か、原点のコアセットを作成したが、コアセットサイズ [HV20, WY23] の$\mathrm{poly}(k)$因子を失った。 我々の手法は、オフライン設定と同様のバウンダリを持つ$\ell_p$サブスペース近似に対して、最初のほぼ最適のオンライン強コアセットをもたらし、[WY23]の問題を解決する。 以前のすべてのアプローチは、元の点を変更することを許されたとしても、この設定で$\mathrm{poly}(k)$因子を失う。

The $\ell_p$ subspace approximation problem is an NP-hard low rank approximation problem that generalizes the median hyperplane problem ($p = 1$), principal component analysis ($p = 2$), and the center hyperplane problem ($p = \infty$). A popular approach to cope with the NP-hardness of this problem is to compute a strong coreset, which is a small weighted subset of the input points which simultaneously approximates the cost of every $k$-dimensional subspace, typically to $(1+\varepsilon)$ relative error for a small constant $\varepsilon$. We obtain the first algorithm for constructing a strong coreset for $\ell_p$ subspace approximation with a nearly optimal dependence on the rank parameter $k$, obtaining a nearly linear bound of $\tilde O(k)\mathrm{poly}(\varepsilon^{-1})$ for $p<2$ and $\tilde O(k^{p/2})\mathrm{poly}(\varepsilon^{-1})$ for $p>2$. Prior constructions either achieved a similar size bound but produced a coreset with a modification of the original points [SW18, FKW21], or produced a coreset of the original points but lost $\mathrm{poly}(k)$ factors in the coreset size [HV20, WY23]. Our techniques also lead to the first nearly optimal online strong coresets for $\ell_p$ subspace approximation with similar bounds as the offline setting, resolving a problem of [WY23]. All prior approaches lose $\mathrm{poly}(k)$ factors in this setting, even when allowed to modify the original points.
翻訳日:2024-07-04 13:17:22 公開日:2024-07-03
# 3次元シーン理解のための統一フレームワーク

A Unified Framework for 3D Scene Understanding ( http://arxiv.org/abs/2407.03263v1 )

ライセンス: Link先を確認
Wei Xu, Chunsheng Shi, Sifan Tu, Xin Zhou, Dingkang Liang, Xiang Bai, (参考訳) UniSeg3Dは、単一モデル内でのパノプト、セマンティック、インスタンス、インタラクティブ、参照、オープン語彙セマンティックセマンティックセマンティクスタスクを実現する統合された3Dセマンティクスフレームワークである。 従来の3Dセグメンテーションアプローチは、特定のタスクに特化しており、3Dシーンの理解をタスク固有の視点に限定する。 対照的に,提案手法は6つのタスクを同一のTransformerで処理された統一表現に統一する。 タスク間の知識共有を促進するため、総合的な3Dシーン理解を促進する。 マルチタスク統合を活用するために,タスク接続を活用して性能を向上させる。 具体的には,異なるタスク間でタスク固有の知識を伝達するための知識蒸留法と対照的な学習法を設計する。 タスク間の知識共有によって、私たちのUniSeg3Dはより強力になります。 ScanNet20、ScanRefer、ScanNet200を含む3つのベンチマークの実験では、UniSeg3Dは個々のタスクに特化している場合でも、現在のSOTAメソッドより一貫して優れていることが示されている。 UniSeg3Dがしっかりとした統一されたベースラインとして機能し、将来の仕事を促すことを願っています。 コードはhttps://dk-liang.github.io/UniSeg3D/で入手できる。

We propose UniSeg3D, a unified 3D segmentation framework that achieves panoptic, semantic, instance, interactive, referring, and open-vocabulary semantic segmentation tasks within a single model. Most previous 3D segmentation approaches are specialized for a specific task, thereby limiting their understanding of 3D scenes to a task-specific perspective. In contrast, the proposed method unifies six tasks into unified representations processed by the same Transformer. It facilitates inter-task knowledge sharing and, therefore, promotes comprehensive 3D scene understanding. To take advantage of multi-task unification, we enhance the performance by leveraging task connections. Specifically, we design a knowledge distillation method and a contrastive learning method to transfer task-specific knowledge across different tasks. Benefiting from extensive inter-task knowledge sharing, our UniSeg3D becomes more powerful. Experiments on three benchmarks, including the ScanNet20, ScanRefer, and ScanNet200, demonstrate that the UniSeg3D consistently outperforms current SOTA methods, even those specialized for individual tasks. We hope UniSeg3D can serve as a solid unified baseline and inspire future work. The code will be available at https://dk-liang.github.io/UniSeg3D/.
翻訳日:2024-07-04 13:17:22 公開日:2024-07-03
# スマートグリッドAMIにおける電力過負荷検出のための異常ベースフレームワーク

Anomaly-based Framework for Detecting Power Overloading Cyberattacks in Smart Grid AMI ( http://arxiv.org/abs/2407.03264v1 )

ライセンス: Link先を確認
Abdelaziz Amara Korba, Nouredine Tamani, Yacine Ghamri-Doudane, Nour El Islem karabadji, (参考訳) Advanced Metering Infrastructure (AMI)は、スマートグリッドの重要なコンポーネントの1つです。 請求書と電力消費を管理するインタラクティブなサービスを提供しているが、サイバー攻撃のための新しいベクターも導入している。 電力過負荷による破壊的かつ深刻な影響は、スマートグリッドAMIに及んでいるが、文献の研究で対処されているものはほとんどない。 本稿では,回帰決定木に基づく2段階異常検出フレームワークを提案する。 導入した検出手法は、エネルギー消費の規則性と予測可能性を利用して、地区全体とその内の各世帯の基準消費パターンを構築する。 参照消費パターンを使用することで、攻撃者の戦略によらず、サイバー攻撃の電力過負荷を検出することができる。 エネルギー消費負荷の2段階連続モニタリングにより、サイバー攻撃の効率的かつ早期検出が可能になる。 アイルランドの500人の顧客を対象とした,実世界の公用エネルギー消費データセットに関する広範な実験を行った。 生データからエネルギー消費パターンを学習するための関連属性を抽出した。 評価の結果,提案手法は検出率が高く,誤警報率も低く,既存手法と比較して優れた性能を示した。

The Advanced Metering Infrastructure (AMI) is one of the key components of the smart grid. It provides interactive services for managing billing and electricity consumption, but it also introduces new vectors for cyberattacks. Although, the devastating and severe impact of power overloading cyberattacks on smart grid AMI, few researches in the literature have addressed them. In the present paper, we propose a two-level anomaly detection framework based on regression decision trees. The introduced detection approach leverages the regularity and predictability of energy consumption to build reference consumption patterns for the whole neighborhood and each household within it. Using a reference consumption pattern enables detecting power overloading cyberattacks regardless of the attacker's strategy as they cause a drastic change in the consumption pattern. The continuous two-level monitoring of energy consumption load allows efficient and early detection of cyberattacks. We carried out an extensive experiment on a real-world publicly available energy consumption dataset of 500 customers in Ireland. We extracted, from the raw data, the relevant attributes for training the energy consumption patterns. The evaluation shows that our approach achieves a high detection rate, a low false alarm rate, and superior performances compared to existing solutions.
翻訳日:2024-07-04 13:17:22 公開日:2024-07-03
# 量子ニューラルネットワークは単純性バイアスを持つか?

Do Quantum Neural Networks have Simplicity Bias? ( http://arxiv.org/abs/2407.03266v1 )

ライセンス: Link先を確認
Jessica Pointing, (参考訳) ディープニューラルネットワーク(DNN)の成功の1つの仮説は、それらが非常に表現力が高く、多くの問題に適用可能であり、単純で、単純さのバイアスとして知られるソリューションに対して強い帰納バイアスを持つことである。 本研究では、量子ニューラルネットワーク(QNN)の帰納バイアスと表現性について検討し、その性能をDNNと比較する方法を提供する。 以上の結果から,ある種のQNNでは単純さの偏りが認められるが,この種のQNNはQNNの表現性を制限することが証明された。 また,QNNに高い表現性を持たせることは可能であるが,誘導バイアスや誘導バイアスが乏しいため,DNNと比較して一般化性能が低下することが示唆された。 我々は,QNNの表現性を意図的に制限することで,人工的(制限された)帰納バイアスを生成できることを実証した。 我々の結果はバイアス-表現力のトレードオフを示唆している。 我々の結論は、これらのQNNは、DNNと比較して誘導バイアスが低いか、あるいは表現性が低いため、私たちが調査したQNNは一般的にはDNNに対して優位に立たない、ということです。

One hypothesis for the success of deep neural networks (DNNs) is that they are highly expressive, which enables them to be applied to many problems, and they have a strong inductive bias towards solutions that are simple, known as simplicity bias, which allows them to generalise well on unseen data because most real-world data is structured (i.e. simple). In this work, we explore the inductive bias and expressivity of quantum neural networks (QNNs), which gives us a way to compare their performance to those of DNNs. Our results show that it is possible to have simplicity bias with certain QNNs, but we prove that this type of QNN limits the expressivity of the QNN. We also show that it is possible to have QNNs with high expressivity, but they either have no inductive bias or a poor inductive bias and result in a worse generalisation performance compared to DNNs. We demonstrate that an artificial (restricted) inductive bias can be produced by intentionally restricting the expressivity of a QNN. Our results suggest a bias-expressivity tradeoff. Our conclusion is that the QNNs we studied can not generally offer an advantage over DNNs, because these QNNs either have a poor inductive bias or poor expressivity compared to DNNs.
翻訳日:2024-07-04 13:17:22 公開日:2024-07-03
# コンピュータビジョンとビジュアル・セミオティックスによる大規模顔画像アーカイブの計算観察

For a semiotic AI: Bridging computer vision and visual semiotics for computational observation of large scale facial image archives ( http://arxiv.org/abs/2407.03268v1 )

ライセンス: Link先を確認
Lia Morra, Antonio Santangelo, Pietro Basci, Luca Piano, Fabio Garcea, Fabrizio Lamberti, Massimo Leone, (参考訳) ソーシャルネットワークは、人間の顔や身体のイメージの認知的、感情的、実用的価値が間違いなく変化しているデジタル世界を作り出している。 しかし、デジタル人文科学の研究者たちは、これらの現象を大規模に研究するには不適当であることが多い。 本研究は、ソーシャルメディアプラットフォームにおける画像の社会的・文化的影響を大規模に調査するフレームワークであるFRESCO(Face Representation in E-Societies through Computational Observation)を提示する。 FRESCOは、画像を最先端のコンピュータビジョン技術を用いて数値変数と分類変数に分解し、視覚的記号論の原理と整合する。 このフレームワークは、線や色のような基本的な視覚的特徴を含むプラスティックレベル、特定の実体や概念を表す図形レベル、特にオブザーバーとオブザーバーの視点を構築することに焦点を当てた啓示レベルという3つのレベルにまたがる画像を分析する。 これらのレベルは、画像内のより深い物語層を識別するために分析される。 実験によりFRESCOの信頼性と実用性を確認し,その一貫性と精度を2つの公開データセットで評価する。 次に,FRESCOスコア(FRESCOスコア)を導入する。これはフレームワークの出力から派生したもので,画像内容の類似度を信頼性の高い尺度として機能する。

Social networks are creating a digital world in which the cognitive, emotional, and pragmatic value of the imagery of human faces and bodies is arguably changing. However, researchers in the digital humanities are often ill-equipped to study these phenomena at scale. This work presents FRESCO (Face Representation in E-Societies through Computational Observation), a framework designed to explore the socio-cultural implications of images on social media platforms at scale. FRESCO deconstructs images into numerical and categorical variables using state-of-the-art computer vision techniques, aligning with the principles of visual semiotics. The framework analyzes images across three levels: the plastic level, encompassing fundamental visual features like lines and colors; the figurative level, representing specific entities or concepts; and the enunciation level, which focuses particularly on constructing the point of view of the spectator and observer. These levels are analyzed to discern deeper narrative layers within the imagery. Experimental validation confirms the reliability and utility of FRESCO, and we assess its consistency and precision across two public datasets. Subsequently, we introduce the FRESCO score, a metric derived from the framework's output that serves as a reliable measure of similarity in image content.
翻訳日:2024-07-04 13:17:22 公開日:2024-07-03
# 格子・門・曲線:ロゼッタ石としてのGKP符号

Lattices, Gates, and Curves: GKP codes as a Rosetta stone ( http://arxiv.org/abs/2407.03270v1 )

ライセンス: Link先を確認
Jonathan Conrad, Ansgar G. Burchards, Steven T. Flammia, (参考訳) Gottesman-Kitaev-Preskill (GKP)符号は超伝導共振器、光光子、閉じ込められたイオンなどの量子調和振動子系においてフォールトトレラント量子計算を実装するための有望な候補である。 GKP符号の論理的クリフォード演算はガウス演算のみを用いて耐障害的に実装できることが知られている。 本稿では、GKP Clifford ゲートが対応するGKP格子のシンプレクティック自己同型としてどのように生じるかを説明し、適切な属 $n$曲面の写像類群とどのように同一視されるかを示す。 この対応はGKP符号に対するトポロジカルなフォールトトレランスの解釈を導入し、GKP符号(格子)とそのクリフォードゲートと代数曲線の間の接続を動機付け、深く探求する。 単一モードのGKP符号に対して、楕円曲線のモジュライ空間を持つすべてのGKP符号の空間を、トレフ結び目が取り除かれた3つの球によって与えられるものとし、対応する曲線上のレベル構造の選択から自由の論理次数がどのように生じるかを説明する。 我々は、クリフォードゲートの実装が、すべてのGKP符号の空間上のホモトピー非自明ループとどのように対応するかについて議論し、モジュラーラデマッハ函数がそのようなループによって実装された特定のクリフォードゲートに対して位相不変量を記述することを示す。 最後に、GKP符号の普遍的なファミリを構築し、GKP符号に対してGottesman と Zhang が提案したように、ファイバーバンドルの耐障害性を明確に構築する方法を示す。 この対応を理解するために、我々はGKP符号とそのモジュライ空間に関する一般幾何学的幾何学的視点を導入する。

Gottesman-Kitaev-Preskill (GKP) codes are a promising candidate for implementing fault tolerant quantum computation in quantum harmonic oscillator systems such as superconducting resonators, optical photons and trapped ions, and in recent years theoretical and experimental evidence for their utility has steadily grown. It is known that logical Clifford operations on GKP codes can be implemented fault tolerantly using only Gaussian operations, and several theoretical investigations have illuminated their general structure. In this work, we explain how GKP Clifford gates arise as symplectic automorphisms of the corresponding GKP lattice and show how they are identified with the mapping class group of suitable genus $n$ surfaces. This correspondence introduces a topological interpretation of fault tolerance for GKP codes and motivates the connection between GKP codes (lattices), their Clifford gates, and algebraic curves, which we explore in depth. For a single-mode GKP code, we identify the space of all GKP codes with the moduli space of elliptic curves, given by the three sphere with a trefoil knot removed, and explain how logical degrees of freedom arise from the choice of a level structure on the corresponding curves. We discuss how the implementation of Clifford gates corresponds to homotopically nontrivial loops on the space of all GKP codes and show that the modular Rademacher function describes a topological invariant for certain Clifford gates implemented by such loops. Finally, we construct a universal family of GKP codes and show how it gives rise to an explicit construction of fiber bundle fault tolerance as proposed by Gottesman and Zhang for the GKP code. On our path towards understanding this correspondence, we introduce a general algebraic geometric perspective on GKP codes and their moduli spaces, which uncovers a map towards many possible routes of future research.
翻訳日:2024-07-04 13:17:22 公開日:2024-07-03
# 局所観測装置のスクランブルダイナミクスの指標としての時間次相関器のグローバルアウト

Global Out of Time Order Correlators as a Signature of Scrambling Dynamics of Local Observables ( http://arxiv.org/abs/2407.03273v1 )

ライセンス: Link先を確認
Fabricio S. Lozano-Negro, Claudia M. Sánchez, Ana K. Chattah, Gonzalo A. Álvarez, Horacio M. Pastawski, (参考訳) OTOC(Out-of-Time-Order Correlators)は、量子情報スクランブルのプロキシとして機能し、ローカルに格納された情報が量子系の多体自由度を越えて分散し、局所的なプローブにはアクセスできないプロセスを指す。 情報スクランブルを探索するためのOTOCの最も実験的な実装は、時間反転進化を通じてLoschmidtエコーやMultiple Quantum Coherencesのような技術を用いて、大域的な観測値に基づく間接的な測定に依存している。 本稿では、NMR実験の文脈において、OTOCとグローバル・ローカル・オブザーバブルの直接接続を確立する。 我々は、多体ハミルトンと長距離相互作用を用いて、スピンリング系の励起ダイナミクスを8から16スピンで評価し、両方の大きさの進化の差を定量化するために数値解析を行う。 我々の分析では、大域エコーを局所エコーとクロスコントリビューションの和に分解し、局所的および大域的OTOCへと導いた。 その結果、初期過渡期の後、局所OTOCがグローバルな期間を決定することが示唆された。 等価性を確認するため、システムサイズが大きくなるにつれて、局所と大域のOTOCと変動の差が無視される。 この挙動は、いくつかの実験で高度に相互作用する系やカオス系で観察されたものと一致している。

Out-of-Time-Order Correlators (OTOCs) serve as a proxy for quantum information scrambling, which refers to the process where information stored locally disperses across the many-body degrees of freedom in a quantum system, rendering it inaccessible to local probes. Most experimental implementations of OTOCs to probe information scrambling rely on indirect measurements based on global observables, using techniques such as Loschmidt echoes and Multiple Quantum Coherences, via time reversal evolutions. In this article, we establish a direct connection between OTOCs with global and local observables in the context of NMR experiments, where the observable is the total magnetization of the system. We conduct a numerical analysis to quantify the differences in the evolution of both magnitudes, evaluating the excitation dynamics in spin ring systems with 8 to 16 spins, using a many-body Hamiltonian and long-range interactions. Our analysis decomposes the global echo into a sum of local echoes and cross-contributions, leading to local and global OTOCs. The results indicate that, after an initial transient period, local OTOCs determine the global ones. To confirm the equivalence, we observe that the difference between local and global OTOCs, as well as their fluctuations, becomes negligible as the system size increases. This behavior aligns with that observed in highly interacting or chaotic systems in several experiments.
翻訳日:2024-07-04 13:17:22 公開日:2024-07-03
# インクリメンタル機械翻訳システムによる自動メトリクスの評価

Evaluating Automatic Metrics with Incremental Machine Translation Systems ( http://arxiv.org/abs/2407.03277v1 )

ライセンス: Link先を確認
Guojun Wu, Shay B. Cohen, Rico Sennrich, (参考訳) 商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。 ヒトのA/Bテストは一般的に使用されるため、商用システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。 本研究は、MTメトリックス研究におけるいくつかの過去の知見を確認し、測定値評価のためのテストベッドとしてデータセットの価値を実証する。 私たちはhttps://github.com/gjwubyron/Evoでコードを公開しています。

We introduce a dataset comprising commercial machine translations, gathered weekly over six years across 12 translation directions. Since human A/B testing is commonly used, we assume commercial systems improve over time, which enables us to evaluate machine translation (MT) metrics based on their preference for more recent translations. Our study confirms several previous findings in MT metrics research and demonstrates the dataset's value as a testbed for metric evaluation. We release our code at https://github.com/gjwubyron/Evo
翻訳日:2024-07-04 13:17:22 公開日:2024-07-03
# LLM内務省、幻覚のリスクを調査-調査

LLM Internal States Reveal Hallucination Risk Faced With a Query ( http://arxiv.org/abs/2407.03282v1 )

ライセンス: Link先を確認
Ziwei Ji, Delong Chen, Etsuko Ishii, Samuel Cahyawijaya, Yejin Bang, Bryan Wilie, Pascale Fung, (参考訳) 大言語モデル(LLM)の幻覚問題は、その信頼性と信頼性を著しく制限する。 人間は、クエリに直面したとき、私たちが知らないことを認識できる自己認識プロセスを持っています。 そこで本研究では, LLM が応答発生前の幻覚リスクを推定できるかどうかを考察した。 我々は、LLMの内部メカニズムを、トレーニングデータソースと、700以上のデータセットにまたがる15の多様な自然言語生成(NLG)タスクの両方で広く分析する。 LLMの内部状態は、トレーニングデータでクエリを見たかどうかを示し、LLM内部状態は、クエリについて幻覚するかどうかを示す。 我々の研究は、不確実性と幻覚リスクのLLM知覚において重要な役割を果たす特定のニューロン、活性化層、トークンを探索する。 確率推定器により, LLM自己評価を利用して, 平均幻覚推定精度84.32\%を達成する。

The hallucination problem of Large Language Models (LLMs) significantly limits their reliability and trustworthiness. Humans have a self-awareness process that allows us to recognize what we don't know when faced with queries. Inspired by this, our paper investigates whether LLMs can estimate their own hallucination risk before response generation. We analyze the internal mechanisms of LLMs broadly both in terms of training data sources and across 15 diverse Natural Language Generation (NLG) tasks, spanning over 700 datasets. Our empirical analysis reveals two key insights: (1) LLM internal states indicate whether they have seen the query in training data or not; and (2) LLM internal states show they are likely to hallucinate or not regarding the query. Our study explores particular neurons, activation layers, and tokens that play a crucial role in the LLM perception of uncertainty and hallucination risk. By a probing estimator, we leverage LLM self-assessment, achieving an average hallucination estimation accuracy of 84.32\% at run time.
翻訳日:2024-07-04 13:17:22 公開日:2024-07-03
# B Specificationsから$\{log$\}$ Forgramsへ

From B Specifications to $\{log$\}$ Forgrams ( http://arxiv.org/abs/2407.03283v1 )

ライセンス: Link先を確認
Maximiliano Cristiá, (参考訳) このクラスでは、学生がどのようにB仕様を$\{log$\}$ forgramsに変換できるか、これらのforgramをどのように実行し、どのようにいくつかのプロパティを検証できるかを学ぶことができる。

In this class notes students can learn how B specifications can be translated into $\{log$\}$ forgrams, how these forgrams can be executed and how they can be proved to verify some properties.
翻訳日:2024-07-04 13:17:22 公開日:2024-07-03
# 個人別分散平均推定のための相関プライバシメカニズム

Correlated Privacy Mechanisms for Differentially Private Distributed Mean Estimation ( http://arxiv.org/abs/2407.03289v1 )

ライセンス: Link先を確認
Sajani Vithana, Viveck R. Cadambe, Flavio P. Calmon, Haewon Jeong, (参考訳) 差分的プライベート分散平均推定(DP-DME)は、プライバシ保護フェデレーション学習における基本的なビルディングブロックであり、中央サーバは、$(\epsilon,\delta)$-DPを確保しながら、$n$ユーザが保持する$d$次元ベクトルの平均を推定する。 ローカルディファレンシャルプライバシ(LDP)とセキュアアグリゲーション(SecAgg)を備えた分散DPは、信頼できないサーバでDP-DME設定で使用されるDPの最も一般的な概念である。 LDPは、ドロップアウト、ユーザの衝突、悪意のあるサーバー攻撃に対して強力なレジリエンスを提供するが、実用性に乏しい。 対照的に、SecAggベースのDP-DMEは、DMEのLDPよりも$O(n)$ユーティリティゲインを達成するが、通信と計算のオーバーヘッドの増加と、ドロップアウトや悪意のある攻撃を処理する複雑なマルチラウンドプロトコルを必要とする。 本研究では,DPと分散DPのギャップにまたがる新しいDP-DME機構であるCorDP-DMEを提案する。 CorDP-DMEは相関したガウスノイズに基づいており、SecAggベースのアプローチの完全な条件付きプライバシ保証のないDPを保証する。 我々は,CorDP-DMEの情報理論解析を行い,任意のプライバシパラメータの下での実用性に関する理論的保証と,ユーザしきい値のドロップアウト/コンピュレーションを導出する。 その結果、(反)ガウス的DPメカニズムは、(敵対的条件下であっても)LDPと比較して平均推定タスクの有用性を著しく向上し、分散DPと比較して、ドロップアウトやアタックに対するレジリエンスが向上することを示した。

Differentially private distributed mean estimation (DP-DME) is a fundamental building block in privacy-preserving federated learning, where a central server estimates the mean of $d$-dimensional vectors held by $n$ users while ensuring $(\epsilon,\delta)$-DP. Local differential privacy (LDP) and distributed DP with secure aggregation (SecAgg) are the most common notions of DP used in DP-DME settings with an untrusted server. LDP provides strong resilience to dropouts, colluding users, and malicious server attacks, but suffers from poor utility. In contrast, SecAgg-based DP-DME achieves an $O(n)$ utility gain over LDP in DME, but requires increased communication and computation overheads and complex multi-round protocols to handle dropouts and malicious attacks. In this work, we propose CorDP-DME, a novel DP-DME mechanism that spans the gap between DME with LDP and distributed DP, offering a favorable balance between utility and resilience to dropout and collusion. CorDP-DME is based on correlated Gaussian noise, ensuring DP without the perfect conditional privacy guarantees of SecAgg-based approaches. We provide an information-theoretic analysis of CorDP-DME, and derive theoretical guarantees for utility under any given privacy parameters and dropout/colluding user thresholds. Our results demonstrate that (anti) correlated Gaussian DP mechanisms can significantly improve utility in mean estimation tasks compared to LDP -- even in adversarial settings -- while maintaining better resilience to dropouts and attacks compared to distributed DP.
翻訳日:2024-07-04 13:17:22 公開日:2024-07-03
# VCHAR:生成表現を用いた可変駆動型複合人間活動認識フレームワーク

VCHAR:Variance-Driven Complex Human Activity Recognition framework with Generative Representation ( http://arxiv.org/abs/2407.03291v1 )

ライセンス: Link先を確認
Yuan Sun, Navid Salami Pargoo, Taqiya Ehsan, Zhao Zhang Jorge Ortiz, (参考訳) 複雑なヒューマンアクティビティ認識(CHAR)は、ユビキタスコンピューティング、特にスマート環境における重要な課題である。 既存の研究は通常、原子活動と複雑な活動の両方を綿密にラベル付けする必要がある。 これまでのほとんどの研究は、原子活動の正確なラベル付けを行うデータセットや、実世界の環境では非現実的なシーケンスアプローチに重点を置いてきた。それに対して、我々は、原子活動のアウトプットを指定された間隔の分布として扱う新しいフレームワークであるVCHAR(Variance-Driven Complex Human Activity Recognition)を紹介した。 生成方法論を活用することで、VCHARは、ビデオベースの説明を通じて複雑なアクティビティ分類の背後にある理由を解明する。 VCHARは、原子活動の正確な時間的・シーケンシャルなラベル付けを必要とせず、複雑な活動認識の精度を高めることを示す。 さらに、ユーザ研究により、VCHARの説明は既存の手法よりも理解しやすいことが確認され、非専門家の間での複雑な活動認識のより広範な理解が促進される。

Complex human activity recognition (CHAR) remains a pivotal challenge within ubiquitous computing, especially in the context of smart environments. Existing studies typically require meticulous labeling of both atomic and complex activities, a task that is labor-intensive and prone to errors due to the scarcity and inaccuracies of available datasets. Most prior research has focused on datasets that either precisely label atomic activities or, at minimum, their sequence approaches that are often impractical in real world settings.In response, we introduce VCHAR (Variance-Driven Complex Human Activity Recognition), a novel framework that treats the outputs of atomic activities as a distribution over specified intervals. Leveraging generative methodologies, VCHAR elucidates the reasoning behind complex activity classifications through video-based explanations, accessible to users without prior machine learning expertise. Our evaluation across three publicly available datasets demonstrates that VCHAR enhances the accuracy of complex activity recognition without necessitating precise temporal or sequential labeling of atomic activities. Furthermore, user studies confirm that VCHAR's explanations are more intelligible compared to existing methods, facilitating a broader understanding of complex activity recognition among non-experts.
翻訳日:2024-07-04 13:05:47 公開日:2024-07-03
# バイオメカニクスによる非剛性医用画像登録とその非線形弾性と非線形弾性による逆材料特性推定

Biomechanics-informed Non-rigid Medical Image Registration and its Inverse Material Property Estimation with Linear and Nonlinear Elasticity ( http://arxiv.org/abs/2407.03292v1 )

ライセンス: Link先を確認
Zhe Min, Zachary M. C. Baum, Shaheer U. Saeed, Mark Emberton, Dean C. Barratt, Zeike A. Taylor, Yipeng Hu, (参考訳) 本稿では,生体力学的制約のない医用画像登録と軟組織材料特性の正確な同定を物理インフォームドニューラルネットワーク(PINN)を用いて検討した。 複素非線形弾性理論を利用して、満たすべき生体力学的制約の物理法則を表す偏微分方程式(PDE)を正式に確立し、登録タスクと識別タスクをそれぞれ、PINNの下での逆(すなわちパラメータ推定)問題として前方(すなわちPDEのデータ駆動解)として扱う。 2つのネット構成(例えば Cfg1 と Cfg2)も線形および非線形物理モデルで比較されている。 前立腺癌生検の臨床例から、変形しないMRI画像と変形したMR画像のペアを用いて、2つの実験が実施された。 私たちの貢献は以下の通り要約される。 1) PINNを用いた学習型生体機械制約非剛性登録アルゴリズムを開発し, 非線形バージョンに線形弾性を一般化した。 2) 非線形弾性は点偏差ベクトルの計算において線形モデルに対して統計的に有意な意味を示さないが, それらの利点は有限要素計算(FE)を用いた特定の患者に依存している可能性がある。 3) 逆パラメータ推定問題の定式化と解法は, PINNを用いた登録とパラメータ識別の連立最適化方式により実現した。

This paper investigates both biomechanical-constrained non-rigid medical image registrations and accurate identifications of material properties for soft tissues, using physics-informed neural networks (PINNs). The complex nonlinear elasticity theory is leveraged to formally establish the partial differential equations (PDEs) representing physics laws of biomechanical constraints that need to be satisfied, with which registration and identification tasks are treated as forward (i.e., data-driven solutions of PDEs) and inverse (i.e., parameter estimation) problems under PINNs respectively. Two net configurations (i.e., Cfg1 and Cfg2) have also been compared for both linear and nonlinear physics model. Two sets of experiments have been conducted, using pairs of undeformed and deformed MR images from clinical cases of prostate cancer biopsy. Our contributions are summarised as follows. 1) We developed a learning-based biomechanical-constrained non-rigid registration algorithm using PINNs, where linear elasticity is generalised to the nonlinear version. 2) We demonstrated extensively that nonlinear elasticity shows no statistical significance against linear models in computing point-wise displacement vectors but their respective benefits may depend on specific patients, with finite-element (FE) computed ground-truth. 3) We formulated and solved the inverse parameter estimation problem, under the joint optimisation scheme of registration and parameter identification using PINNs, whose solutions can be accurately found by locating saddle points.
翻訳日:2024-07-04 13:05:47 公開日:2024-07-03
# 二次計画問題のクラスに対する頂点交換法

Vertex Exchange Method for a Class of Quadratic Programming Problems ( http://arxiv.org/abs/2407.03294v1 )

ライセンス: Link先を確認
Ling Liang, Kim-Chuan Toh, Haizhao Yang, (参考訳) 一般化された単純性制約の下での強凸二次プログラムの解法として頂点交換法を提案する。 提案アルゴリズムの厳密な収束解析を行い,制約付き凸最適化のいくつかの重要なクラスを解く上で,その重要な役割を実証する。 アルゴリズムを実行するための実現可能な初期点を得るために、一般化された単純点への投影を計算するための高効率半平滑なニュートン法を提示し、解析する。 提案アルゴリズムの優れた実用性能は, 広範囲な数値実験によって実証された。 理論的および数値的な結果は、検討されたモデルと提案したアルゴリズムの潜在的応用をさらに動機づける。

A vertex exchange method is proposed for solving the strongly convex quadratic program subject to the generalized simplex constraint. We conduct rigorous convergence analysis for the proposed algorithm and demonstrate its essential roles in solving some important classes of constrained convex optimization. To get a feasible initial point to execute the algorithm, we also present and analyze a highly efficient semismooth Newton method for computing the projection onto the generalized simplex. The excellent practical performance of the proposed algorithms is demonstrated by a set of extensive numerical experiments. Our theoretical and numerical results further motivate the potential applications of the considered model and the proposed algorithms.
翻訳日:2024-07-04 13:05:47 公開日:2024-07-03
# 拡散訓練における騒音スケジュールの改善

Improved Noise Schedule for Diffusion Training ( http://arxiv.org/abs/2407.03297v1 )

ライセンス: Link先を確認
Tiankai Hang, Shuyang Gu, (参考訳) 拡散モデルは視覚信号を生成するデファクト選択として現れている。 しかし、様々なレベルのノイズを予測するために単一のモデルをトレーニングすることは、多くの反復を必要とし、かなりの計算コストを発生させる、重大な課題をもたらす。 損失重み付け戦略設計やアーキテクチャの洗練といった様々なアプローチが、収束を早めるために導入されている。 本研究では,拡散モデルの訓練を改善するため,ノイズスケジュールを設計するための新しい手法を提案する。 我々の重要な洞察は、信号対雑音比(logSNR)の対数サンプリングの重要性は、理論上は修正ノイズスケジュールと等価であり、サンプル周波数を$\log \text{SNR}=0$で増加させる場合のトレーニング効率に特に有益であるということである。 我々は,標準のコサインスケジュールよりもノイズスケジュールの方が優れていることを実証的に示す。 さらに、ImageNetベンチマークにおけるノイズスケジュール設計の利点を強調し、設計したスケジュールは、常に異なる予測ターゲットの恩恵を受けることを示す。

Diffusion models have emerged as the de facto choice for generating visual signals. However, training a single model to predict noise across various levels poses significant challenges, necessitating numerous iterations and incurring significant computational costs. Various approaches, such as loss weighting strategy design and architectural refinements, have been introduced to expedite convergence. In this study, we propose a novel approach to design the noise schedule for enhancing the training of diffusion models. Our key insight is that the importance sampling of the logarithm of the Signal-to-Noise ratio (logSNR), theoretically equivalent to a modified noise schedule, is particularly beneficial for training efficiency when increasing the sample frequency around $\log \text{SNR}=0$. We empirically demonstrate the superiority of our noise schedule over the standard cosine schedule. Furthermore, we highlight the advantages of our noise schedule design on the ImageNet benchmark, showing that the designed schedule consistently benefits different prediction targets.
翻訳日:2024-07-04 13:05:47 公開日:2024-07-03
# DisCo-Diff: 離散遅延による連続拡散モデルの強化

DisCo-Diff: Enhancing Continuous Diffusion Models with Discrete Latents ( http://arxiv.org/abs/2407.03300v1 )

ライセンス: Link先を確認
Yilun Xu, Gabriele Corso, Tommi Jaakkola, Arash Vahdat, Karsten Kreis, (参考訳) 拡散モデル(DM)は、生成学習に革命をもたらした。 彼らは拡散過程を利用して、データを単純なガウス分布にエンコードする。 しかし、複雑で潜在的に多モードなデータ分布を単一の連続ガウス分布に符号化することは、必然的に困難な学習問題である。 本稿では,離散型潜伏変数の導入により,離散型連続潜伏変数拡散モデル(Disco-Diff)を提案する。 学習可能な離散ラテントでDMを拡張し、エンコーダで推論し、DMとエンコーダをエンドツーエンドで訓練する。 DisCo-Diffはトレーニング済みのネットワークに依存しておらず、フレームワークを普遍的に適用することができる。 離散潜水器は、DMの生成ODEの曲率を小さくすることで、DMの複雑なノイズ-データマッピングの学習を著しく単純化する。 追加の自己回帰変換器は離散潜在変数の分布をモデル化するが、これはDisCo-Diffが小さなコードブックを持つ離散変数をほとんど必要としないため単純なステップである。 玩具データ, 画像合成タスク, 分子ドッキングに関するDisCo-Diffの検証を行い, 離散潜水剤の導入によりモデル性能が一貫した改善が得られた。 例えば、DisCo-DiffはODEサンプルでクラス条件のImageNet-64/128データセットで最先端のFIDスコアを達成している。

Diffusion models (DMs) have revolutionized generative learning. They utilize a diffusion process to encode data into a simple Gaussian distribution. However, encoding a complex, potentially multimodal data distribution into a single continuous Gaussian distribution arguably represents an unnecessarily challenging learning problem. We propose Discrete-Continuous Latent Variable Diffusion Models (DisCo-Diff) to simplify this task by introducing complementary discrete latent variables. We augment DMs with learnable discrete latents, inferred with an encoder, and train DM and encoder end-to-end. DisCo-Diff does not rely on pre-trained networks, making the framework universally applicable. The discrete latents significantly simplify learning the DM's complex noise-to-data mapping by reducing the curvature of the DM's generative ODE. An additional autoregressive transformer models the distribution of the discrete latents, a simple step because DisCo-Diff requires only few discrete variables with small codebooks. We validate DisCo-Diff on toy data, several image synthesis tasks as well as molecular docking, and find that introducing discrete latents consistently improves model performance. For example, DisCo-Diff achieves state-of-the-art FID scores on class-conditioned ImageNet-64/128 datasets with ODE sampler.
翻訳日:2024-07-04 13:05:47 公開日:2024-07-03
# 深層学習に基づく創発的コミュニケーションの応用

A Review of the Applications of Deep Learning-Based Emergent Communication ( http://arxiv.org/abs/2407.03302v1 )

ライセンス: Link先を確認
Brendon Boldt, David Mortensen, (参考訳) 創発的コミュニケーション(英: Emergent communication)または創発的言語(英: emergent language)は、深層多エージェント強化学習環境において、人間の言語に似たコミュニケーションシステムがどのように出現するかを研究する研究分野である。 言語のような複雑な行動の出現を複製する可能性は、強い直感的な魅力を持つが、そのような研究が他の科学、技術、工学の分野に適用できるという明確な概念でこれを補完する必要がある。 本稿では,機械学習,自然言語処理,言語学,認知科学における創発的コミュニケーション研究の応用を包括的にレビューする。 それぞれのアプリケーションには、そのスコープの説明、それに対応するための創発的コミュニケーションのユニークな役割の解説、アプリケーションに向けた現存する文献の要約、短期研究の方向性に関する簡単な勧告が記載されている。

Emergent communication, or emergent language, is the field of research which studies how human language-like communication systems emerge de novo in deep multi-agent reinforcement learning environments. The possibilities of replicating the emergence of a complex behavior like language have strong intuitive appeal, yet it is necessary to complement this with clear notions of how such research can be applicable to other fields of science, technology, and engineering. This paper comprehensively reviews the applications of emergent communication research across machine learning, natural language processing, linguistics, and cognitive science. Each application is illustrated with a description of its scope, an explication of emergent communication's unique role in addressing it, a summary of the extant literature working towards the application, and brief recommendations for near-term research directions.
翻訳日:2024-07-04 13:05:47 公開日:2024-07-03
# インド人によるスマートシティの監視がリアルタイムに

Smart City Surveillance Unveiling Indian Person Attributes in Real Time ( http://arxiv.org/abs/2407.03305v1 )

ライセンス: Link先を確認
Shubham Kale, Shashank Sharma, Abhilash Khuntia, (参考訳) このプロジェクトは、人々の属性をリアルタイムで識別し分析できる、インドの都市のためのスマート監視システムの構築に焦点を当てている。 人工知能や機械学習などの高度な技術を使って、システムは上半身の色、身に着けているもの、装着しているアクセサリー、ヘッドギアなどの属性を認識し、市内に設置されたカメラを通して行動を分析する。

This project focuses on creating a smart surveillance system for Indian cities that can identify and analyze people's attributes in real time. Using advanced technologies like artificial intelligence and machine learning, the system can recognize attributes such as upper body color, what the person is wearing, accessories they are wearing, headgear, etc., and analyze behavior through cameras installed around the city.
翻訳日:2024-07-04 13:05:47 公開日:2024-07-03
# HoloHisto: 4K解像度シーケンストークン化によるエンドツーエンドギガピクセルWSIセグメンテーション

HoloHisto: End-to-end Gigapixel WSI Segmentation with 4K Resolution Sequential Tokenization ( http://arxiv.org/abs/2407.03307v1 )

ライセンス: Link先を確認
Yucheng Tang, Yufan He, Vishwesh Nath, Pengfeig Guo, Ruining Deng, Tianyuan Yao, Quan Liu, Can Cui, Mengmeng Yin, Ziyue Xu, Holger Roth, Daguang Xu, Haichun Yang, Yuankai Huo, (参考訳) デジタル病理学において、ディープラーニングに基づくイメージセグメンテーションの伝統的な方法は、2段階のプロセスを含む: 最初は、高解像度のスライド画像(WSI)を小さなパッチ(例えば、256x256, 512x512, 1024x1024)に分割し、その後、それらを元のスケールに再構築する。 この方法は、WSIの複雑な詳細と広範囲のスコープを捉えるのに苦労することが多い。 本稿では,ギガピクセルWSIの最大解像度が80,000$\times$70,000ピクセルを超えるエンドツーエンドのセグメンテーションを実現するために,HoloHisto(HoloHisto)セグメンテーション法を提案する。 HoloHistoがWSIセグメンテーションのパラダイムをエンドツーエンドの学習スタイルに根本的にシフト 1)高次視覚情報包摂・効率的な処理のための4K解像度ベースパッチ 2) 文脈関係を適切にモデル化し、4K入力からリッチな情報を効率的にモデル化する新しいシーケンシャルトークン化機構。 我々の知る限り、HoloHistoはギガピクセル分解能WSIセグメンテーションの最初の全体的アプローチを示し、完全なWSIとそれに対応するギガピクセルマスクの直接I/Oをサポートする。 HoloHistoプラットフォームでは、超高解像度のランダム4Kサンプルを公開し、標準的な2Dおよび3Dパッチの31倍と10倍のピクセルを処理能力の向上のために提供します。 高速な4K解像度高密度予測を実現するために,事前学習した画像トークン化器を用いて,画像特徴を離散トークングリッドにグループ化する。 本研究チームは, マウス全腎からWSIレベルの糸球体セグメンテーションを用いた新しい腎病理画像セグメンテーション(KPIs)データセットを作製した。 結果から,HoloHisto-4Kは従来の最先端モデルよりも顕著な性能向上を実現している。

In digital pathology, the traditional method for deep learning-based image segmentation typically involves a two-stage process: initially segmenting high-resolution whole slide images (WSI) into smaller patches (e.g., 256x256, 512x512, 1024x1024) and subsequently reconstructing them to their original scale. This method often struggles to capture the complex details and vast scope of WSIs. In this paper, we propose the holistic histopathology (HoloHisto) segmentation method to achieve end-to-end segmentation on gigapixel WSIs, whose maximum resolution is above 80,000$\times$70,000 pixels. HoloHisto fundamentally shifts the paradigm of WSI segmentation to an end-to-end learning fashion with 1) a large (4K) resolution base patch for elevated visual information inclusion and efficient processing, and 2) a novel sequential tokenization mechanism to properly model the contextual relationships and efficiently model the rich information from the 4K input. To our best knowledge, HoloHisto presents the first holistic approach for gigapixel resolution WSI segmentation, supporting direct I/O of complete WSI and their corresponding gigapixel masks. Under the HoloHisto platform, we unveil a random 4K sampler that transcends ultra-high resolution, delivering 31 and 10 times more pixels than standard 2D and 3D patches, respectively, for advancing computational capabilities. To facilitate efficient 4K resolution dense prediction, we leverage sequential tokenization, utilizing a pre-trained image tokenizer to group image features into a discrete token grid. To assess the performance, our team curated a new kidney pathology image segmentation (KPIs) dataset with WSI-level glomeruli segmentation from whole mouse kidneys. From the results, HoloHisto-4K delivers remarkable performance gains over previous state-of-the-art models.
翻訳日:2024-07-04 13:05:47 公開日:2024-07-03
# 最適化深層学習法による陽子共鳴周波数に基づく磁気共鳴温度測定

Accelerated Proton Resonance Frequency-based Magnetic Resonance Thermometry by Optimized Deep Learning Method ( http://arxiv.org/abs/2407.03308v1 )

ライセンス: Link先を確認
Sijie Xu, Shenyan Zong, Chang-Sheng Mei, Guofeng Shen, Yueran Zhao, He Wang, (参考訳) プロトン共鳴周波数(PRF)に基づくMR熱測定は集束超音波(FUS)熱アブレーション療法に不可欠である。 本研究の目的は, 動的MR温度マップ再構成における時間分解能の向上である。 トレーニング最適化手法と5つの古典的ニューラルネットワークを2次元および4次元のアンダーサンプリングk空間データに適用し、温度マップを再構成した。 強化されたトレーニングモジュールには、オフライン/オンラインデータ拡張、知識蒸留、振幅相分離損失関数が含まれていた。 加熱実験はファントムおよび生体外組織のFUSトランスデューサを用いて行った。 これらのデータは,加速手順を模倣するために手動でアンダーサンプル化され,再建モデルを得るために本手法で訓練された。 さらに、リアルタイムのパフォーマンスと温度の精度を評価するために、数十以上のテストデータセットが別々に取得された。 1.9と3.7の加速係数は2倍と4倍のk空間アンダーサンプリング戦略で発見され、ResUNetベースのディープラーニング再構成は非常に良好に行われた。 2倍の加速シナリオでは、温度マップのRMSEは、ファントムおよび生体外試験データセット上で0.888度と1.145度という値を提供した。 43°C等温線を囲む温度領域のDICE値は0.809であり,Bland-Altman 分析では-0.253°Cの偏差がプラス2.16°Cであった。 アンダーサンプリングでは,これらの評価値は約10%減少した。 本研究は,深層学習に基づく再建が,臨床FUS熱療法におけるMRサーモメトリーの精度と効率を著しく向上することを示した。

Proton resonance frequency (PRF) based MR thermometry is essential for focused ultrasound (FUS) thermal ablation therapies. This work aims to enhance temporal resolution in dynamic MR temperature map reconstruction using an improved deep learning method. The training-optimized methods and five classical neural networks were applied on the 2-fold and 4-fold under-sampling k-space data to reconstruct the temperature maps. The enhanced training modules included offline/online data augmentations, knowledge distillation, and the amplitude-phase decoupling loss function. The heating experiments were performed by a FUS transducer on phantom and ex vivo tissues, respectively. These data were manually under-sampled to imitate acceleration procedures and trained in our method to get the reconstruction model. The additional dozen or so testing datasets were separately obtained for evaluating the real-time performance and temperature accuracy. Acceleration factors of 1.9 and 3.7 were found for 2 times and 4 times k-space under-sampling strategies and the ResUNet-based deep learning reconstruction performed exceptionally well. In 2-fold acceleration scenario, the RMSE of temperature map patches provided the values of 0.888 degree centigrade and 1.145 degree centigrade on phantom and ex vivo testing datasets. The DICE value of temperature areas enclosed by 43 degree centigrade isotherm was 0.809, and the Bland-Altman analysis showed a bias of -0.253 degree centigrade with the apart of plus or minus 2.16 degree centigrade. In 4 times under-sampling case, these evaluating values decreased by approximately 10%. This study demonstrates that deep learning-based reconstruction can significantly enhance the accuracy and efficiency of MR thermometry for clinical FUS thermal therapies.
翻訳日:2024-07-04 13:05:47 公開日:2024-07-03
# チューリングプログラムを用いた普遍長一般化

Universal Length Generalization with Turing Programs ( http://arxiv.org/abs/2407.03310v1 )

ライセンス: Link先を確認
Kaiying Hou, David Brandfonbrener, Sham Kakade, Samy Jelassi, Eran Malach, (参考訳) 長さ一般化は、短いトレーニングシーケンスから長いテストシーケンスへの外挿が可能であり、現在の大規模言語モデルの課題である。 以前の作業では、長さの一般化を実現するためにいくつかのアーキテクチャやデータフォーマットの変更が提案されていたが、これらの提案は典型的には限られたタスクに適用される。 従来のスクラッチパッドとCoT(Chain-of-Thought)技術に基づいて,アルゴリズムタスクをチューリングマシンの計算を模倣するステップに分解する新しいCoT戦略であるTuring Programsを提案する。 このフレームワークは、任意のアルゴリズム的タスクに対応できるため、普遍的であり、最小限の変更でコンテキストからテキストをコピーするだけでよい。 チューリングプログラムを用いることで,加法,乗算,文脈内SGDといったアルゴリズム上のタスクに対して,ロバストな長さの一般化が得られることを示す。 次に,確率的チューリングプログラムにおいて,トランスフォーマーが長さ一般化を実現することを実証し,任意のアルゴリズムタスクに対して長さ一般化が可能であることを示唆する。 最後に、任意のチューリングマシンをシミュレートするシンプルな RASP (Weiss et al ) プログラムを構築して、トランスフォーマーがチューリングプログラムを実装できることを理論的に証明する。

Length generalization refers to the ability to extrapolate from short training sequences to long test sequences and is a challenge for current large language models. While prior work has proposed some architecture or data format changes to achieve length generalization, these proposals typically apply to a limited set of tasks. Building on prior scratchpad and Chain-of-Thought (CoT) techniques, we propose Turing Programs, a novel CoT strategy that decomposes an algorithmic task into steps mimicking the computation of a Turing Machine. This framework is both universal, as it can accommodate any algorithmic task, and simple, requiring only copying text from the context with small modifications. We show that by using Turing Programs, we obtain robust length generalization on a range of algorithmic tasks: addition, multiplication and in-context SGD. We then demonstrate that transformers achieve length generalization on random Turing Programs, suggesting that length generalization is possible for any algorithmic task. Finally, we theoretically prove that transformers can implement Turing Programs, constructing a simple RASP (Weiss et al.) program that simulates an arbitrary Turing machine.
翻訳日:2024-07-04 13:05:47 公開日:2024-07-03
# 反省やデモを伴わない学習事例からのバリューペナライズされた補助制御

Value-Penalized Auxiliary Control from Examples for Learning without Rewards or Demonstrations ( http://arxiv.org/abs/2407.03311v1 )

ライセンス: Link先を確認
Trevor Ablett, Bryan Chan, Jayce Haoran Wang, Jonathan Kelly, (参考訳) 成功例から学ぶことは、強化学習への魅力的なアプローチであり、手作りの報酬関数や完全な専門家-実証軌道の欠点の多くを排除している。 しかし、例のみから学ぶことで、特に複雑なタスクにおいて、探索の課題が劇的に増加する。 本研究は,実例(VPACE)からの有償補助制御を導入し,計画された補助制御と補助タスクの例を追加することで,実例に基づく探索を著しく改善する。 さらに、政策値の推定値が理論上の限界を超えるような値校正問題を、成功したデータに基づいて特定する。 補助的なタスクを学習することで悪化するこの問題を、上記のレベルの値ペナルティを追加することで解決する。 3つのシミュレーション環境と1つの実際のロボット操作環境,21のタスクにまたがって,本手法が学習効率を大幅に向上することを示す。 ビデオ、コード、データセットはhttps://papers.starslab.ca/vpace.comで入手できる。

Learning from examples of success is an appealing approach to reinforcement learning that eliminates many of the disadvantages of using hand-crafted reward functions or full expert-demonstration trajectories, both of which can be difficult to acquire, biased, or suboptimal. However, learning from examples alone dramatically increases the exploration challenge, especially for complex tasks. This work introduces value-penalized auxiliary control from examples (VPACE); we significantly improve exploration in example-based control by adding scheduled auxiliary control and examples of auxiliary tasks. Furthermore, we identify a value-calibration problem, where policy value estimates can exceed their theoretical limits based on successful data. We resolve this problem, which is exacerbated by learning auxiliary tasks, through the addition of an above-success-level value penalty. Across three simulated and one real robotic manipulation environment, and 21 different main tasks, we show that our approach substantially improves learning efficiency. Videos, code, and datasets are available at https://papers.starslab.ca/vpace.
翻訳日:2024-07-04 13:05:47 公開日:2024-07-03
# BACON:幻覚を緩和するBag-of-Concept GraphでVLMをスーパーチャージ

BACON: Supercharge Your VLM with Bag-of-Concept Graph to Mitigate Hallucinations ( http://arxiv.org/abs/2407.03314v1 )

ライセンス: Link先を確認
Zhantao Yang, Ruili Feng, Keyu Yan, Huangji Wang, Zhicai Wang, Shangwen Zhu, Han Zhang, Jie Xiao, Pingyu Wu, Kai Zhu, Jixuan Chen, Chen-Wei Xie, Chaojie Mao, Yue Yang, Hongyang Zhang, Yu Liu, Fan Cheng, (参考訳) 本稿では,Bag-of-Concept Graph(BACON)を用いて,視覚言語モデル(VLM)の特権を味わう言語能力に制限のあるギフトモデルを提案し,検出,視覚的質問応答(VQA),画像生成などの下流タスクを促進させる。 物理的な世界の視覚シーンはオブジェクト間の複雑な関係で構成されているため、BACONはアノテーションを基本的な最小要素に分解し、それらをグラフ構造に提示する。 要素的スタイルは理解が容易であり、構造的構成は難しい位置を解放する。 注意深いプロンプトデザインは、パブリックなVLMとセグメンテーション手法の助けを借りてBACONキャプションを生んだ。 このようにして、100Kの注釈付き画像からなるデータセットを収集し、BACONを正確に生成し、プロンプトをBACONフォーマットに変換し、BACONのスタイルでシナリオを想定し、対話的な対話を通じてBACON内の要素を動的に修正するなど、優れた機能を持つVLMを実現する。 検出、VQA、画像生成タスクを含む幅広い代表的な実験では、BACONをライフラインとして、以前のアウト・オブ・リーチタスクを達成するか、現在の最先端ソリューションで優れていると伝えています。

This paper presents Bag-of-Concept Graph (BACON) to gift models with limited linguistic abilities to taste the privilege of Vision Language Models (VLMs) and boost downstream tasks such as detection, visual question answering (VQA), and image generation. Since the visual scenes in physical worlds are structured with complex relations between objects, BACON breaks down annotations into basic minimum elements and presents them in a graph structure. Element-wise style enables easy understanding, and structural composition liberates difficult locating. Careful prompt design births the BACON captions with the help of public-available VLMs and segmentation methods. In this way, we gather a dataset with 100K annotated images, which endow VLMs with remarkable capabilities, such as accurately generating BACON, transforming prompts into BACON format, envisioning scenarios in the style of BACONr, and dynamically modifying elements within BACON through interactive dialogue and more. Wide representative experiments, including detection, VQA, and image generation tasks, tell BACON as a lifeline to achieve previous out-of-reach tasks or excel in their current cutting-edge solutions.
翻訳日:2024-07-04 13:05:47 公開日:2024-07-03
# 量子力学臨界は熱力学エントロピー生成を加速させる

Quantum dynamical criticality speeds up thermodynamic entropy production ( http://arxiv.org/abs/2407.03315v1 )

ライセンス: Link先を確認
Andesson B. Nascimento, Lucas C. Céleri, (参考訳) 量子相転移の熱力学は長い間研究の豊富な領域であり、多くの洞察を与え、この重要な現象の理解を深めてきた。 この理論の枠組みは、量子相転移が平衡で起こるため、特によく発達してきた。 しかし、動的量子相転移(DQPTs)と呼ばれるその力学的な相似性は、従来の熱力学ツールが適用できない平衡外で行われる。 本研究では, この領域において, エントロピー生成の幾何学的視点を通して, 熱力学の第2法則に動的臨界性を結合することにより, 進展する。 我々の発見は、他の最近の発展とともに、動的臨界がシステムを非常に複雑な力学へと導くことを示唆し、熱化への道のりを示唆している。

The thermodynamics of quantum phase transitions has long been a rich area of research, providing numerous insights and enhancing our understanding of this important phenomenon. This theoretical framework has been well-developed specially because quantum phase transitions occur at equilibrium. However, its dynamical counterpart, known as dynamical quantum phase transitions (DQPTs), takes place out-of-equilibrium, where conventional thermodynamic tools are inapplicable. In this work, we make progress in this area by connecting dynamical criticality to the second law of thermodynamics through a geometric perspective on entropy production. Our findings, along with other recent developments, suggest that dynamical criticality can lead the system to highly complex dynamics, indicating a possible pathway to thermalization.
翻訳日:2024-07-04 13:05:47 公開日:2024-07-03
# InternLM-XComposer-2.5:長期入力と出力をサポートする多言語多言語モデル

InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output ( http://arxiv.org/abs/2407.03320v1 )

ライセンス: Link先を確認
Pan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, Songyang Zhang, Wenwei Zhang, Yining Li, Yang Gao, Peng Sun, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Hang Yan, Conghui He, Xingcheng Zhang, Kai Chen, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang, (参考訳) InternLM-XComposer-2.5(IXC-2.5)を提案する。 IXC-2.5は、様々なテキストイメージの理解と合成アプリケーションに優れ、7B LLMバックエンドでGPT-4Vレベルの能力を達成する。 24Kインターリーブされた画像テキストコンテキストでトレーニングされ、RoPE外挿により96Kの長いコンテキストにシームレスに拡張できる。 この長いコンテキストの能力により、IXC-2.5は広範囲の入力および出力コンテキストを必要とするタスクを最適化できる。 以前の2.0バージョンと比較して、InternLM-XComposer-2.5は、(1)超高分解能理解、(2)ファイングラインドビデオ理解、(3)マルチトゥルンマルチイメージ対話の3つの大きなアップグレードを特徴としている。 IXC-2.5は,テキスト画像合成にLoRAパラメータを付加した2つの魅力的なアプリケーションに拡張する。 IXC-2.5は28のベンチマークで評価され、16のベンチマークで既存のオープンソースの最先端モデルを上回っている。 また16のタスクでGPT-4VやGemini Proを上回り、競合する。 InternLM-XComposer-2.5はhttps://github.com/InternLM/InternLM-XComposerで公開されている。

We present InternLM-XComposer-2.5 (IXC-2.5), a versatile large-vision language model that supports long-contextual input and output. IXC-2.5 excels in various text-image comprehension and composition applications, achieving GPT-4V level capabilities with merely 7B LLM backend. Trained with 24K interleaved image-text contexts, it can seamlessly extend to 96K long contexts via RoPE extrapolation. This long-context capability allows IXC-2.5 to excel in tasks requiring extensive input and output contexts. Compared to its previous 2.0 version, InternLM-XComposer-2.5 features three major upgrades in vision-language comprehension: (1) Ultra-High Resolution Understanding, (2) Fine-Grained Video Understanding, and (3) Multi-Turn Multi-Image Dialogue. In addition to comprehension, IXC-2.5 extends to two compelling applications using extra LoRA parameters for text-image composition: (1) Crafting Webpages and (2) Composing High-Quality Text-Image Articles. IXC-2.5 has been evaluated on 28 benchmarks, outperforming existing open-source state-of-the-art models on 16 benchmarks. It also surpasses or competes closely with GPT-4V and Gemini Pro on 16 key tasks. The InternLM-XComposer-2.5 is publicly available at https://github.com/InternLM/InternLM-XComposer.
翻訳日:2024-07-04 13:05:47 公開日:2024-07-03
# Planetarium: 構造化計画言語へのテキスト翻訳のための厳格なベンチマーク

Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages ( http://arxiv.org/abs/2407.03321v1 )

ライセンス: Link先を確認
Max Zuo, Francisco Piedrahita Velez, Xiaochen Li, Michael L. Littman, Stephen H. Bach, (参考訳) 最近の多くの研究は、計画問題に言語モデルを用いている。 計画課題の自然言語記述を,計画領域定義言語(PDDL)などの構造化計画言語に翻訳することに焦点を当てた研究の1行である。 このアプローチは有望だが、生成したPDDLコードの品質を正確に測定することは、依然として重大な課題である。 まず、生成したPDDLコードを計画立案者を用いて評価し、その問題が計画者によって解決できるかどうかを確認する。 この方法は、言語モデルがタスクの自然言語記述と一致しない有効なPDDLコードを生成するため、不十分である。 第2に、既存の評価セットは、しばしば、基礎的な真理PDDLによく似た計画タスクの自然言語記述を持ち、課題の軽減を図っている。 このギャップを埋めるために、計画タスクの自然言語記述からPDDLコードを生成する言語モデルの能力を評価するために設計されたベンチマークである \benchmarkName を導入する。 まず,言語モデルが生成するPDDL符号の正しさを,基底真理PDDLと柔軟に比較して厳密に評価するPDDL同値アルゴリズムを作成する。 次に、13のタスクにまたがる132,037ドルのテキスト-PDDLペアのデータセットを、さまざまな難易度で提示する。 最後に、このタスクの複雑さを明らかにするために、いくつかのAPIアクセスおよびオープンウェイト言語モデルを評価する。 例えば、GPT-4oが生成したPDDL問題記述の87.6.%$は構文解析可能であり、82.2.%$は有効であるが、意味論的に正しいのは35.1.%$のみであり、この問題に対するより厳密なベンチマークの必要性を強調している。

Many recent works have explored using language models for planning problems. One line of research focuses on translating natural language descriptions of planning tasks into structured planning languages, such as the planning domain definition language (PDDL). While this approach is promising, accurately measuring the quality of generated PDDL code continues to pose significant challenges. First, generated PDDL code is typically evaluated using planning validators that check whether the problem can be solved with a planner. This method is insufficient because a language model might generate valid PDDL code that does not align with the natural language description of the task. Second, existing evaluation sets often have natural language descriptions of the planning task that closely resemble the ground truth PDDL, reducing the challenge of the task. To bridge this gap, we introduce \benchmarkName, a benchmark designed to evaluate language models' ability to generate PDDL code from natural language descriptions of planning tasks. We begin by creating a PDDL equivalence algorithm that rigorously evaluates the correctness of PDDL code generated by language models by flexibly comparing it against a ground truth PDDL. Then, we present a dataset of $132,037$ text-to-PDDL pairs across 13 different tasks, with varying levels of difficulty. Finally, we evaluate several API-access and open-weight language models that reveal this task's complexity. For example, $87.6\%$ of the PDDL problem descriptions generated by GPT-4o are syntactically parseable, $82.2\%$ are valid, solve-able problems, but only $35.1\%$ are semantically correct, highlighting the need for a more rigorous benchmark for this problem.
翻訳日:2024-07-04 13:05:47 公開日:2024-07-03
# HRDE:中国における健康騒音の検出と説明可能性のための検索型大規模言語モデル

HRDE: Retrieval-Augmented Large Language Models for Chinese Health Rumor Detection and Explainability ( http://arxiv.org/abs/2407.00668v2 )

ライセンス: Link先を確認
Yanfang Chen, Ding Chen, Shichao Song, Simin Niu, Hanyu Wang, Zeyun Tang, Feiyu Xiong, Zhiyu Li, (参考訳) 人々が健康を優先するようになり、インターネット上での健康情報の普及のスピードと広さも増している。 同時に、偽の健康情報(健康に関する噂)が本物のコンテンツと混同されることは、公衆衛生にとって大きな脅威となる。 しかし、中国の健康噂に関する現在の研究には、大規模な、公開され、オープンソースの健康噂情報のデータセットや、効果的で信頼性の高い噂検出方法がまだ欠けている。 本稿では、一般的な健康関連質問のWebスクレイピングと一連のデータ処理手順を通じて、1100万件の健康関連噂(HealthRCN)を含むデータセットを構築することで、このギャップに対処する。 HealthRCNは中国の健康情報に関する噂の最大のデータセットだ。 本データセットに基づいて,中国における健康噂の検出と説明可能性 (HRDE) のための検索強化された大規模言語モデルを提案する。 このモデルは、検索した関連情報を活用し、入力された健康情報が噂であるかどうかを正確に判定し、説明応答を提供し、ユーザの健康情報の信頼性検証を効果的に支援する。 評価実験では,複数のモデルを比較し,GPT-4-1106-Previewを含むHRDEが,噂検出精度と回答品質ですべてを上回る結果を得た。 HRDEの平均精度は91.04%、F1スコアは91.58%であった。

As people increasingly prioritize their health, the speed and breadth of health information dissemination on the internet have also grown. At the same time, the presence of false health information (health rumors) intermingled with genuine content poses a significant potential threat to public health. However, current research on Chinese health rumors still lacks a large-scale, public, and open-source dataset of health rumor information, as well as effective and reliable rumor detection methods. This paper addresses this gap by constructing a dataset containing 1.12 million health-related rumors (HealthRCN) through web scraping of common health-related questions and a series of data processing steps. HealthRCN is the largest known dataset of Chinese health information rumors to date. Based on this dataset, we propose retrieval-augmented large language models for Chinese health rumor detection and explainability (HRDE). This model leverages retrieved relevant information to accurately determine whether the input health information is a rumor and provides explanatory responses, effectively aiding users in verifying the authenticity of health information. In evaluation experiments, we compared multiple models and found that HRDE outperformed them all, including GPT-4-1106-Preview, in rumor detection accuracy and answer quality. HRDE achieved an average accuracy of 91.04% and an F1 score of 91.58%.
翻訳日:2024-07-04 12:55:43 公開日:2024-07-03
# 安全制約を考慮したオフラインマルチエージェント強化学習のための拡散モデル

Diffusion Models for Offline Multi-agent Reinforcement Learning with Safety Constraints ( http://arxiv.org/abs/2407.00741v2 )

ライセンス: Link先を確認
Jianuo Huang, (参考訳) 近年のMARL(Multi-agent Reinforcement Learning)の進歩により、その応用は様々な安全クリティカルなシナリオにまで拡張されている。 しかし,ほとんどの手法はオンライン学習に重点を置いており,実際の環境に配置した場合にかなりのリスクが生じる。 この課題に対処するために、MARLパラダイムに拡散モデルを統合する革新的なフレームワークを導入する。 このアプローチは、協調動作をモデル化しながらリスク軽減を通じて、複数のエージェントが取るべき行動の安全性を特に向上させる。 我々のフレームワークは、予測軌道生成のための拡散モデルによって強化された、分散実行による集中訓練(CTDE)アーキテクチャに基礎を置いている。 さらに、運用上の安全性をさらに確保するために、特殊なアルゴリズムを組み込んだ。 DSRLベンチマークを用いて,ベースラインに対するモデルの評価を行った。 実験結果から, 本モデルは厳密な安全制約に固執するだけでなく, 既存の手法と比較して優れた性能が得られることが示された。 このことは、現実世界のアプリケーションにおけるMARLの安全性と有効性向上における我々のアプローチの可能性を浮き彫りにしている。

In recent advancements in Multi-agent Reinforcement Learning (MARL), its application has extended to various safety-critical scenarios. However, most methods focus on online learning, which presents substantial risks when deployed in real-world settings. Addressing this challenge, we introduce an innovative framework integrating diffusion models within the MARL paradigm. This approach notably enhances the safety of actions taken by multiple agents through risk mitigation while modeling coordinated action. Our framework is grounded in the Centralized Training with Decentralized Execution (CTDE) architecture, augmented by a Diffusion Model for prediction trajectory generation. Additionally, we incorporate a specialized algorithm to further ensure operational safety. We evaluate our model against baselines on the DSRL benchmark. Experiment results demonstrate that our model not only adheres to stringent safety constraints but also achieves superior performance compared to existing methodologies. This underscores the potential of our approach in advancing the safety and efficacy of MARL in real-world applications.
翻訳日:2024-07-04 12:55:43 公開日:2024-07-03
# データ依存レギュレット解析によるメモリ制約を考慮したオンラインカーネル選択の学習可能性

Learnability in Online Kernel Selection with Memory Constraint via Data-dependent Regret Analysis ( http://arxiv.org/abs/2407.00916v2 )

ライセンス: Link先を確認
Junfan Li, Shizhong Liao, (参考訳) 本稿では,オンラインカーネル選択法の基本的問題であるオンラインカーネル選択について,カーネル選択とオンライン予測手順のメモリが固定予算に制限されるメモリ制約を用いて検討する。 重要な疑問は、オンライン学習可能性、メモリ制約、データ複雑さの内在的な関係は何か、ということです。 これに対し,2つのデータ複雑度に依存するデータ依存上界 – カーネルアライメントと競合仮説の累積損失 – を提供することにより,異なる結果を示す。我々は,2種類のロス関数に対してデータ依存上界を与えるアルゴリズムフレームワークを提案する。ヒンジロス関数の場合,アルゴリズムは,カーネルアライメントに依存する期待上界を達成する。スムーズなロス関数の場合,アルゴリズムは,競合仮説の累積損失に依存する高確率上界を達成する。 最後に、ベンチマークデータセット上でアルゴリズムの予測性能を実証的に検証する。

Online kernel selection is a fundamental problem of online kernel methods.In this paper,we study online kernel selection with memory constraint in which the memory of kernel selection and online prediction procedures is limited to a fixed budget. An essential question is what is the intrinsic relationship among online learnability, memory constraint, and data complexity? To answer the question,it is necessary to show the trade-offs between regret and memory constraint.Previous work gives a worst-case lower bound depending on the data size,and shows learning is impossible within a small memory constraint.In contrast, we present distinct results by offering data-dependent upper bounds that rely on two data complexities:kernel alignment and the cumulative losses of competitive hypothesis.We propose an algorithmic framework giving data-dependent upper bounds for two types of loss functions.For the hinge loss function,our algorithm achieves an expected upper bound depending on kernel alignment.For smooth loss functions,our algorithm achieves a high-probability upper bound depending on the cumulative losses of competitive hypothesis.We also prove a matching lower bound for smooth loss functions.Our results show that if the two data complexities are sub-linear,then learning is possible within a small memory constraint.Our algorithmic framework depends on a new buffer maintaining framework and a reduction from online kernel selection to prediction with expert advice. Finally,we empirically verify the prediction performance of our algorithms on benchmark datasets.
翻訳日:2024-07-04 12:55:43 公開日:2024-07-03
# FairMedFM:医療イメージング基礎モデルのためのフェアネスベンチマーク

FairMedFM: Fairness Benchmarking for Medical Imaging Foundation Models ( http://arxiv.org/abs/2407.00983v2 )

ライセンス: Link先を確認
Ruinan Jin, Zikang Xu, Yuan Zhong, Qiongsong Yao, Qi Dou, S. Kevin Zhou, Xiaoxiao Li, (参考訳) 医療における基礎モデル(FM)の出現は、自動分類とセグメンテーションタスクを通じて医療診断を強化する前例のない機会を提供する。 しかし、これらのモデルは、特に医療応用における多様で過小評価されている人口に適用する場合に、その公平性に関する重要な懸念を提起する。 現在、医療画像におけるFMの公平性を評価・理解するために、包括的なベンチマーク、標準化されたパイプライン、そして容易に適応可能なライブラリが欠如しており、多様な患者集団の公平な結果を保証するソリューションを策定・実装する上で大きな課題となっている。 このギャップを埋めるために、医療画像におけるFM研究のためのフェアネスベンチマークであるFairMedFMを導入し、FairMedFMは17の人気のある医療画像データセットと統合され、様々なモダリティ、次元、感度特性を含む。 ゼロショット学習、線形探索、パラメータ効率のよい微調整、様々な下流タスク、分類とセグメンテーションなど、広く使われている20のFMを探索する。 総括分析により,複数の視点から評価指標の公平性を評価するとともに,バイアスの存在,異なるFM上でのユーティリティフェアネスのトレードオフ,FMに関わらず同一データセット上での一貫性の相違,既存の不公平性軽減手法の限定的有効性を明らかにした。 FairMedFMのプロジェクトページと、拡張可能な機能とアプリケーションをサポートするオープンソースコードベースのチェックアウト。

The advent of foundation models (FMs) in healthcare offers unprecedented opportunities to enhance medical diagnostics through automated classification and segmentation tasks. However, these models also raise significant concerns about their fairness, especially when applied to diverse and underrepresented populations in healthcare applications. Currently, there is a lack of comprehensive benchmarks, standardized pipelines, and easily adaptable libraries to evaluate and understand the fairness performance of FMs in medical imaging, leading to considerable challenges in formulating and implementing solutions that ensure equitable outcomes across diverse patient populations. To fill this gap, we introduce FairMedFM, a fairness benchmark for FM research in medical imaging.FairMedFM integrates with 17 popular medical imaging datasets, encompassing different modalities, dimensionalities, and sensitive attributes. It explores 20 widely used FMs, with various usages such as zero-shot learning, linear probing, parameter-efficient fine-tuning, and prompting in various downstream tasks -- classification and segmentation. Our exhaustive analysis evaluates the fairness performance over different evaluation metrics from multiple perspectives, revealing the existence of bias, varied utility-fairness trade-offs on different FMs, consistent disparities on the same datasets regardless FMs, and limited effectiveness of existing unfairness mitigation methods. Checkout FairMedFM's project page and open-sourced codebase, which supports extendible functionalities and applications as well as inclusive for studies on FMs in medical imaging over the long term.
翻訳日:2024-07-04 12:55:43 公開日:2024-07-03
# Swish-T : ニューラルネットワーク性能向上のためのTanh Biasを用いたSwish Activationの強化

Swish-T : Enhancing Swish Activation with Tanh Bias for Improved Neural Network Performance ( http://arxiv.org/abs/2407.01012v3 )

ライセンス: Link先を確認
Youngmin Seo, Jinha Kim, Unsang Park, (参考訳) 既存の非単調活性化関数 Swish の強化である Swish-T family を提案する。 Swish-T は元の Swish 関数に Tanh バイアスを加えることで定義される。 この修正によってSwish-Tの亜種が生成され、それぞれ異なるタスクに優れ、アプリケーションコンテキストに応じて特定の利点を示すように設計されている。 タンのバイアスは、最初のトレーニング段階でより広い負の値を受け入れることができ、元のスウィッシュよりもスムーズな非単調曲線を提供する。 最終的に、Swish-T$_{\textbf{C}}$関数を提案するが、Swish-TとSwish-T$_{\textbf{B}}$は、Swish-T$_{\textbf{C}}$の副産物である。 さらに,非パラメトリック関数としてSwish-T$_{\textbf{C}}$を使用することで高い性能が得られることを示す。 Swish-Tファミリーの優位性は、MNIST、Fashion MNIST、SVHN、CIFAR-10、CIFAR-100など、様々なモデルやベンチマークデータセットで実証されている。 コードはhttps://github.com/ictseoyoungmin/Swish-T-pytorchで公開されている。

We propose the Swish-T family, an enhancement of the existing non-monotonic activation function Swish. Swish-T is defined by adding a Tanh bias to the original Swish function. This modification creates a family of Swish-T variants, each designed to excel in different tasks, showcasing specific advantages depending on the application context. The Tanh bias allows for broader acceptance of negative values during initial training stages, offering a smoother non-monotonic curve than the original Swish. We ultimately propose the Swish-T$_{\textbf{C}}$ function, while Swish-T and Swish-T$_{\textbf{B}}$, byproducts of Swish-T$_{\textbf{C}}$, also demonstrate satisfactory performance. Furthermore, our ablation study shows that using Swish-T$_{\textbf{C}}$ as a non-parametric function can still achieve high performance. The superiority of the Swish-T family has been empirically demonstrated across various models and benchmark datasets, including MNIST, Fashion MNIST, SVHN, CIFAR-10, and CIFAR-100. The code is publicly available at https://github.com/ictseoyoungmin/Swish-T-pytorch.
翻訳日:2024-07-04 12:55:43 公開日:2024-07-03
# FRoG:大規模言語モデルにおける一般化量子化器のファジィ推論の評価

FRoG: Evaluating Fuzzy Reasoning of Generalized Quantifiers in Large Language Models ( http://arxiv.org/abs/2407.01046v2 )

ライセンス: Link先を確認
Yiyuan Li, Shichao Sun, Pengfei Liu, (参考訳) ファジィ推論は、日常の文脈で不正確な情報が頻繁に使われるため、不可欠である。 しかし、そのような推論を扱うための現在の大規模言語モデル(LLM)の能力は、いまだにほとんど変化がない。 本稿では,ファジィ推論のための新しいベンチマークFRoGを紹介する。 実験の結果, ファジィ推論はLSMにとって重要な課題であり続けていることが明らかとなった。 さらに、推論を強化するために設計された既存の手法は、ファジィ論理を含むタスクの性能を一貫して改善しないことがわかった。 さらに,本研究の結果は,FRoG上でのLDMの逆スケーリング効果を示す。 興味深いことに、強い数学的推論スキルが必ずしもベンチマークの成功を示すものではないことも示している。

Fuzzy reasoning is vital due to the frequent use of imprecise information in daily contexts. However, the ability of current large language models (LLMs) to handle such reasoning remains largely uncharted. In this paper, we introduce a new benchmark, FRoG, for fuzzy reasoning, featuring real-world mathematical word problems that incorporate generalized quantifiers. Our experimental findings reveal that fuzzy reasoning continues to pose significant challenges for LLMs. Moreover, we find that existing methods designed to enhance reasoning do not consistently improve performance in tasks involving fuzzy logic. Additionally, our results show an inverse scaling effect in the performance of LLMs on FRoG. Interestingly, we also demonstrate that strong mathematical reasoning skills are not necessarily indicative of success on our benchmark.
翻訳日:2024-07-04 12:55:43 公開日:2024-07-03
# Face4RAG:中国語における検索増強世代のための実環境整合性評価

Face4RAG: Factual Consistency Evaluation for Retrieval Augmented Generation in Chinese ( http://arxiv.org/abs/2407.01080v2 )

ライセンス: Link先を確認
Yunqi Xu, Tianchi Cai, Jiyan Jiang, Xierui Song, (参考訳) 従来の検索型拡張世代(RAG)における事実整合性エラーの一般的な問題は、FCE(Factual Consistency Evaluation)の研究を動機付けている。 先に提案した様々なFCE手法にもかかわらず、これらの手法は特定のLarge Language Models (LLMs) によって生成されたデータセットに基づいて評価される。 包括的なベンチマークがなければ、これらのFCEメソッドが、異なるエラー分布を持つ他のLLM上でどのように機能するか、さらには、他のLLMによって生成されたエラータイプを検出するのに失敗する可能性があるため、まだ探索されていない。 このギャップを埋めるために、本論文では、基礎となるLLMに依存しないRAGのための、最初の総合的な FCE ベンチマーク \emph{Face4RAG} を提案する。 本ベンチマークは, 事実整合性エラーを念頭に設計した合成データセットと, 6つの LLM を用いて構築された実世界のデータセットから構成し, 特定のエラータイプや実世界のエラー分布に対するFCE法の評価を可能にする。 提案するベンチマークでは,既存のFCE手法が論理的誤りを検出できないことを発見した。 この問題を解決するために,論理保存型解解分解法とファクト論理型FCEの2つの新しい設計法である 'emph{L-Face4RAG} を提案する。 大規模な実験により、L-Face4RAGは、もともと動機付けられたRAGタスクを超えて、広範囲のタスクにおいて、現実的不整合検出の手法を大幅に上回っていることが示された。 ベンチマークと提案手法の両方が公開されている。 https://huggingface.co/datasets/yq27/Face4RAG}\label{link_face4rag}}

The prevailing issue of factual inconsistency errors in conventional Retrieval Augmented Generation (RAG) motivates the study of Factual Consistency Evaluation (FCE). Despite the various FCE methods proposed earlier, these methods are evaluated on datasets generated by specific Large Language Models (LLMs). Without a comprehensive benchmark, it remains unexplored how these FCE methods perform on other LLMs with different error distributions or even unseen error types, as these methods may fail to detect the error types generated by other LLMs. To fill this gap, in this paper, we propose the first comprehensive FCE benchmark \emph{Face4RAG} for RAG independent of the underlying LLM. Our benchmark consists of a synthetic dataset built upon a carefully designed typology for factuality inconsistency error and a real-world dataset constructed from six commonly used LLMs, enabling evaluation of FCE methods on specific error types or real-world error distributions. On the proposed benchmark, we discover the failure of existing FCE methods to detect the logical fallacy, which refers to a mismatch of logic structures between the answer and the retrieved reference. To fix this issue, we further propose a new method called \emph{L-Face4RAG} with two novel designs of logic-preserving answer decomposition and fact-logic FCE. Extensive experiments show L-Face4RAG substantially outperforms previous methods for factual inconsistency detection on a wide range of tasks, notably beyond the RAG task from which it is originally motivated. Both the benchmark and our proposed method are publicly available.\footnote{\url{https://huggingface.co/datasets/yq27/Face4RAG}\label{link_face4rag}}
翻訳日:2024-07-04 12:55:43 公開日:2024-07-03
# uDistil-Whisper:大規模擬似ラベリングによる知識蒸留のためのラベルフリーデータフィルタリング

uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation via Large-Scale Pseudo Labelling ( http://arxiv.org/abs/2407.01257v2 )

ライセンス: Link先を確認
Abdul Waheed, Karima Kadaoui, Muhammad Abdul-Mageed, (参考訳) 擬似ラベルを用いたWhisperの知識を小型モデルに蒸留する最近の研究は、そのサイズを最大50%減らすとともに、有望な性能を示している。 これにより、小型で効率的で専用のモデルが得られる。 しかし、擬似ラベルからの蒸留の重要なステップは、高品質な予測をフィルタリングし、訓練中にのみ使用することである。 このステップでは、プロセス全体を監督する悪い例を比較、フィルタリングするために、基礎的な真実が必要です。 それに加えて、蒸留プロセスは大量のデータを必要とするため、低リソース環境でモデルを消耗する能力は制限される。 この課題に対処するため、蒸留のための教師なしまたはラベルなしのフレームワークを提案し、ラベル付きデータの要求を完全に排除する。 実験の結果,WERでは教師モデルよりも5~7ポイント優れていたことがわかった。 さらに、私たちのモデルは、同様の教師付きデータフィルタリング設定と同等かそれ以上です。 データをスケールする場合、当社のモデルはゼロショットモデルや教師付きモデルよりも大幅に優れています。 ラベル付きデータを用いることなく,大きなWhisperモデルを比較的小さなモデルに蒸留できることを実証した。 我々の蒸留モデルは,教師モデルと同等以上の性能を維持しながら,25~50%の計算とメモリ効率が向上した。

Recent work on distilling Whisper's knowledge into small models using pseudo-labels shows promising performance while reducing the size by up to 50\%. This results in small, efficient, and dedicated models. However, a critical step of distillation from pseudo-labels involves filtering high-quality predictions and using only those during training. This step requires ground truth to compare and filter bad examples making the whole process supervised. In addition to that, the distillation process requires a large amount of data thereby limiting the ability to distil models in low-resource settings. To address this challenge, we propose an unsupervised or label-free framework for distillation, thus eliminating the requirement for labeled data altogether. Through experimentation, we show that our best-distilled models outperform the teacher model by 5-7 points in terms of WER. Additionally, our models are on par with or better than similar supervised data filtering setup. When we scale the data, our models significantly outperform all zero-shot and supervised models. We demonstrate that it is possible to distill large Whisper models into relatively small models without using any labeled data. Our distilled models are 25-50\% more compute and memory efficient while maintaining performance equal to or better than the teacher model.
翻訳日:2024-07-04 12:55:43 公開日:2024-07-03
# トークン操作による分類器のプライバシー保護

Protecting Privacy in Classifiers by Token Manipulation ( http://arxiv.org/abs/2407.01334v2 )

ライセンス: Link先を確認
Re'em Harel, Yair Elboher, Yuval Pinter, (参考訳) 言語モデルをリモートサービスとして使用するには、信頼できないプロバイダにプライベート情報を送信する必要がある。 さらに、潜在的な盗聴者はメッセージを傍受し、情報を公開することができる。 本研究では,テキスト操作のレベルにおいて,このようなデータ露出を回避する可能性について検討する。 本稿では,テキスト分類モデルに焦点をあて,さまざまなトークンマッピングやコンテキスト化操作機能を調べて,元のテキストを検索不能にしつつ,分類器の精度を維持できるかどうかを確かめる。 いくつかのトークンマッピング関数の実装は簡単で簡単ですが、ダウンストリームタスクのパフォーマンスに大きな影響を与えます。 比較すると、文脈化された操作はパフォーマンスを改善する。

Using language models as a remote service entails sending private information to an untrusted provider. In addition, potential eavesdroppers can intercept the messages, thereby exposing the information. In this work, we explore the prospects of avoiding such data exposure at the level of text manipulation. We focus on text classification models, examining various token mapping and contextualized manipulation functions in order to see whether classifier accuracy may be maintained while keeping the original text unrecoverable. We find that although some token mapping functions are easy and straightforward to implement, they heavily influence performance on the downstream task, and via a sophisticated attacker can be reconstructed. In comparison, the contextualized manipulation provides an improvement in performance.
翻訳日:2024-07-04 12:55:43 公開日:2024-07-03
# ブロックチェーンのパフォーマンスを最大化する - 並列性と依存性管理による競合トランザクションの緩和

Maximizing Blockchain Performance: Mitigating Conflicting Transactions through Parallelism and Dependency Management ( http://arxiv.org/abs/2407.01426v2 )

ライセンス: Link先を確認
Faisal Haque Bappy, Tarannum Shaila Zaman, Md Sajidul Islam Sajid, Mir Mehedi Ahsan Pritom, Tariqul Islam, (参考訳) ブロックチェーンは最初、暗号通貨の領域で人気を得たが、その普及は従来のアプリケーションを超えて拡大し、データセキュリティの強化が求められている。 セキュアなネットワークを提供するにもかかわらず、ブロックチェーンには、レイテンシの高さ、スループットの低下、トランザクション障害の増加など、ある種のトレードオフがある。 これらの課題に寄与する重要な問題は、一般に"contention"と呼ばれる、"conflicting transaction"の不正な管理である。 ブロックチェーン内のいくつかの保留中のトランザクションが互いに衝突すると、競合状態になる。 この状況はネットワーク遅延を悪化させ、システムリソースの浪費につながります。 この問題への対応として、トランザクション並列処理とインテリジェントな依存性マネージャを統合した、ブロックチェーンネットワーク内の競合するトランザクションの発生を低減するための、新たなブロックチェーンスキームを提案する。 有効性と効率に関して、実験的な結果から、当社のスキームはトランザクションの競合による課題を軽減するだけでなく、トランザクションの成功率、スループット、レイテンシを高めるために、既存の並列および非並列のHyperledger Fabricブロックチェーンネットワークよりも優れています。 Hyperledger Fabricとの統合は、現実世界のアプリケーションにおけるブロックチェーンネットワークの全体的なパフォーマンスと安定性を改善するための、有望なソリューションのようです。

While blockchains initially gained popularity in the realm of cryptocurrencies, their widespread adoption is expanding beyond conventional applications, driven by the imperative need for enhanced data security. Despite providing a secure network, blockchains come with certain tradeoffs, including high latency, lower throughput, and an increased number of transaction failures. A pivotal issue contributing to these challenges is the improper management of "conflicting transactions", commonly referred to as "contention". When a number of pending transactions within a blockchain collide with each other, this results in a state of contention. This situation worsens network latency, leads to the wastage of system resources, and ultimately contributes to reduced throughput and higher transaction failures. In response to this issue, in this work, we present a novel blockchain scheme that integrates transaction parallelism and an intelligent dependency manager aiming to reduce the occurrence of conflicting transactions within blockchain networks. In terms of effectiveness and efficiency, experimental results show that our scheme not only mitigates the challenges posed by conflicting transactions, but also outperforms both existing parallel and non-parallel Hyperledger Fabric blockchain networks achieving higher transaction success rate, throughput, and latency. The integration of our scheme with Hyperledger Fabric appears to be a promising solution for improving the overall performance and stability of blockchain networks in real-world applications.
翻訳日:2024-07-04 12:55:43 公開日:2024-07-03
# ディープニューラルネットワークを用いたユニバーサル量子トモグラフィ

Universal Quantum Tomography With Deep Neural Networks ( http://arxiv.org/abs/2407.01734v2 )

ライセンス: Link先を確認
Nhan T. Luu, Thang C. Truong, (参考訳) 量子状態トモグラフィー(quantum state tomography)は、量子技術の多くの応用に欠かせない量子系の状態を特徴づける重要な技術である。 近年、量子状態トモグラフィーの効率性と精度を高めるためにニューラルネットワークを活用することへの関心が高まっている。 それでも、それらの多くは混合量子状態を含んでおらず、これは純粋状態が実際的な状況では一般的ではないからである。 本稿では,純粋かつ混合な量子状態トモグラフィーのための2つのニューラルネットワークベースのアプローチを提案する。 提案手法は,実験データから混合量子状態の再構成を行なえることを示す。 我々の研究は、量子状態トモグラフィーを革新し、量子技術の発展を促進するニューラルネットワークの可能性を強調している。

Quantum state tomography is a crucial technique for characterizing the state of a quantum system, which is essential for many applications in quantum technologies. In recent years, there has been growing interest in leveraging neural networks to enhance the efficiency and accuracy of quantum state tomography. Still, many of them did not include mixed quantum state, since pure states are arguably less common in practical situations. In this research paper, we present two neural networks based approach for both pure and mixed quantum state tomography: Restricted Feature Based Neural Network and Mixed States Conditional Generative Adversarial Network, evaluate its effectiveness in comparison to existing neural based methods. We demonstrate that our proposed methods can achieve state-of-the-art results in reconstructing mixed quantum states from experimental data. Our work highlights the potential of neural networks in revolutionizing quantum state tomography and facilitating the development of quantum technologies.
翻訳日:2024-07-04 12:55:43 公開日:2024-07-03
# メタラーニングによる大規模無線システムの最適化

Meta-Learning Based Optimization for Large Scale Wireless Systems ( http://arxiv.org/abs/2407.01823v2 )

ライセンス: Link先を確認
Rafael Cerna Loli, Bruno Clerckx, (参考訳) 無線システムの最適化アルゴリズムは、その性能と効率を改善する上で、基本的な役割を果たす。 しかし,従来の最適化アルゴリズムの複雑性は,無線システムにおける送信アンテナ数や通信ユーザ数の増加とともに指数関数的に増加することが知られている。 したがって、大規模なシステムでは、これらの最適化アルゴリズムの天文学的に大きな複雑さは、それらの使用を禁止し、最適化された条件下での大規模無線システムの性能評価を妨げている。 この制限を克服するため、この研究は教師なしメタラーニングに基づくアプローチを用いて、複雑さを大幅に低減して非凸最適化を直接実行することを提案する。 提案したメタラーニングベースソリューションの有効性を実証するため,次の3つの新興6G技術の総和レート(SR)最大化問題として,階層的レート分割多重アクセス(H-RSMA),統合センシング通信(ISAC),対角的再構成可能な知的表面(BD-RIS)を提案する。 数値的な結果から,提案したメタラーニングに基づく最適化フレームワークは,性能の最適化に成功し,また,検討された3つの6G技術に対して,大規模システムにおける運用の未知の側面を明らかにすることができることを示した。

Optimization algorithms for wireless systems play a fundamental role in improving their performance and efficiency. However, it is known that the complexity of conventional optimization algorithms in the literature often exponentially increases with the number of transmit antennas and communication users in the wireless system. Therefore, in the large scale regime, the astronomically large complexity of these optimization algorithms prohibits their use and prevents assessing large scale wireless systems performance under optimized conditions. To overcome this limitation, this work proposes instead the use of an unsupervised meta-learning based approach to directly perform non-convex optimization at significantly reduced complexity. To demonstrate the effectiveness of the proposed meta-learning based solution, the sum-rate (SR) maximization problem for the following three emerging 6G technologies is contemplated: hierarchical rate-splitting multiple access (H-RSMA), integrated sensing and communication (ISAC), and beyond-diagonal reconfigurable intelligent surfaces (BD-RIS). Through numerical results, it is demonstrated that the proposed meta-learning based optimization framework is able to successfully optimize the performance and also reveal unknown aspects of the operation in the large scale regime for the considered three 6G technologies.
翻訳日:2024-07-04 12:55:43 公開日:2024-07-03
# Meerkat: 空間と時間のグラウンド化のためのオーディオビジュアル大言語モデル

Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time ( http://arxiv.org/abs/2407.01851v2 )

ライセンス: Link先を確認
Sanjoy Chowdhury, Sayan Nag, Subhrajyoti Dasgupta, Jun Chen, Mohamed Elhoseiny, Ruohan Gao, Dinesh Manocha, (参考訳) 近年のMLLM(Multi-modal LLM)の研究は、大規模言語モデルのテキストベースタスクにおける卓越した能力を活用して、視覚やオーディオなどの他のモダリティに拡張している。 しかし、これらの方向の進歩は、主に、音声・視覚のセマンティクスの粗い理解だけを必要とするタスクに焦点が当てられている。 本稿では,空間的にも時間的にも,画像と音声のきめ細かい理解を具備した音声視覚LLMであるMeerkatについて紹介する。 最適なトランスポートに基づく新しいモダリティアライメントモジュールと、オーディオと視覚の一貫性を強制するクロスアテンションモジュールにより、Meerkatは、オーディオ参照画像グラウンド、画像ガイド付きオーディオの時間的ローカライゼーション、オーディオと視覚の事実チェックといった課題に取り組むことができる。 さらに,オープンソースデータセットから収集した3Mインストラクションチューニングサンプルを含む大規模データセットAVFITを慎重にキュレートし,難易度の高い5つのタスクを統合するMeerkatBenchを紹介した。 我々は、これらの下流タスクすべてにおいて、37.12%の相対的な改善で最先端のパフォーマンスを達成する。

Leveraging Large Language Models' remarkable proficiency in text-based tasks, recent works on Multi-modal LLMs (MLLMs) extend them to other modalities like vision and audio. However, the progress in these directions has been mostly focused on tasks that only require a coarse-grained understanding of the audio-visual semantics. We present Meerkat, an audio-visual LLM equipped with a fine-grained understanding of image and audio both spatially and temporally. With a new modality alignment module based on optimal transport and a cross-attention module that enforces audio-visual consistency, Meerkat can tackle challenging tasks such as audio referred image grounding, image guided audio temporal localization, and audio-visual fact-checking. Moreover, we carefully curate a large dataset AVFIT that comprises 3M instruction tuning samples collected from open-source datasets, and introduce MeerkatBench that unifies five challenging audio-visual tasks. We achieve state-of-the-art performance on all these downstream tasks with a relative improvement of up to 37.12%.
翻訳日:2024-07-04 12:55:43 公開日:2024-07-03
# MG-Verilog:LLM支援ベリログ生成の強化を目指して

MG-Verilog: Multi-grained Dataset Towards Enhanced LLM-assisted Verilog Generation ( http://arxiv.org/abs/2407.01910v2 )

ライセンス: Link先を確認
Yongan Zhang, Zhongzhi Yu, Yonggan Fu, Cheng Wan, Yingyan Celine Lin, (参考訳) 大規模言語モデル(LLM)は、ドメイン固有の膨大なデータをカプセル化することによって、ハードウェア設計プロセスの合理化を約束している。 さらに、自然言語命令を通じて設計プロセスと対話できるため、ハードウェア設計が開発者にとってより使いやすくなります。 しかし、ハードウェア設計においてLLMを効果的に活用するには、推論中にドメイン固有のデータ(例えば、コンテキスト内学習、微調整、事前学習)を提供する必要がある。 残念ながら、既存の公開ハードウェアデータセットはサイズ、複雑さ、詳細に制限されることが多く、ハードウェア設計タスクにおけるLLMの有効性を妨げている。 この問題に対処するために,我々はまず,LCM支援ハードウェア設計を効果的に強化できる高品質なハードウェアデータセットを作成するための基準セットを提案する。 これらの基準に基づき,様々な詳細レベルの記述と対応するコードサンプルを包含する多言語Verilog(MG-Verilog)データセットを提案する。 より広範なハードウェアデザインコミュニティに利益をもたらすため、特定のプロジェクトのニーズを満たすために、データセットのアクセス、統合、拡張を容易にするオープンソースのインフラストラクチャを開発しました。 さらに,複雑性と細部が異なるMG-Verilogデータセットの可能性を完全に活用するために,バランスの取れた微調整方式を導入する。 このスキームは、データセットが提供するさまざまな詳細レベルを活用するためのユニークなユースケースとして機能する。 大規模な実験により,提案したデータセットと微調整方式はハードウェア設計タスクにおけるLCMの性能を一貫して改善することが示された。

Large Language Models (LLMs) have recently shown promise in streamlining hardware design processes by encapsulating vast amounts of domain-specific data. In addition, they allow users to interact with the design processes through natural language instructions, thus making hardware design more accessible to developers. However, effectively leveraging LLMs in hardware design necessitates providing domain-specific data during inference (e.g., through in-context learning), fine-tuning, or pre-training. Unfortunately, existing publicly available hardware datasets are often limited in size, complexity, or detail, which hinders the effectiveness of LLMs in hardware design tasks. To address this issue, we first propose a set of criteria for creating high-quality hardware datasets that can effectively enhance LLM-assisted hardware design. Based on these criteria, we propose a Multi-Grained-Verilog (MG-Verilog) dataset, which encompasses descriptions at various levels of detail and corresponding code samples. To benefit the broader hardware design community, we have developed an open-source infrastructure that facilitates easy access, integration, and extension of the dataset to meet specific project needs. Furthermore, to fully exploit the potential of the MG-Verilog dataset, which varies in complexity and detail, we introduce a balanced fine-tuning scheme. This scheme serves as a unique use case to leverage the diverse levels of detail provided by the dataset. Extensive experiments demonstrate that the proposed dataset and fine-tuning scheme consistently improve the performance of LLMs in hardware design tasks.
翻訳日:2024-07-04 12:55:43 公開日:2024-07-03
# メモリカーネル結合理論:高次モーメントからの時間相関関数

Memory Kernel Coupling Theory: Obtain Time Correlation Function from Higher-order Moments ( http://arxiv.org/abs/2407.01923v2 )

ライセンス: Link先を確認
Wei Liu, Yu Su, Yao Wang, Wenjie Dou, (参考訳) 動的オブザーバブルはしばしば時間相関関数(TCF)によって記述される。 しかし、複雑な量子系のTCFを効率的に計算することは大きな課題であり、一般にシステムの完全な力学を解く必要がある。 このレターは、TCKを評価する一般的な形式であるメモリカーネル結合理論(MKCT)を提示する。 MKCTは、TCKのメモリカーネル形式に基づいている。 我々の理論はさらにメモリカーネルを補助カーネルに分解する。 補助核の急激な崩壊により、結合した運動方程式を高精度に切り離すことができる。 特に、高次モーメントのみがTCFを得るための入力として十分である。 この定式化は一般的なものであるが、典型的な開量子系(スピンボソンモデル)の数値的な実演を行う。

Dynamical observables can often be described by time correlation functions (TCFs). However, efficiently calculating TCFs for complex quantum systems is a significant challenge, which generally requires solving the full dynamics of the systems. This Letter presents the memory kernel coupling theory (MKCT), a general formalism for evaluating TCFs. The MKCT builds upon Mori's memory kernel formalism for TCFs. Our theory further decomposes the memory kernel into auxiliary kernels. Rapid decay of auxiliary kernels allows us to truncate the coupled equations of motion with high accuracy. Notably, only higher-order moments are sufficient as the input for obtaining TCFs. While this formalism is general, we carry out the numerical demonstration for a typical open quantum system--the spin-boson model.
翻訳日:2024-07-04 12:55:43 公開日:2024-07-03
# 深部画像を用いたトリグリセリドの化学シフトエンコーディングに基づく二重結合定量

Chemical Shift Encoding based Double Bonds Quantification in Triglycerides using Deep Image Prior ( http://arxiv.org/abs/2407.01926v2 )

ライセンス: Link先を確認
Chaoxing Huang, Ziqiang Yu, Zijian Gao, Qiuyi Shen, Queenie Chan, Vincent Wai-Sun Wong, Winnie Chiu-Wing Chu, Weitian Chen, (参考訳) 本研究では,Deep Image Prior (DIP) を用いた深層学習による化学シフト符号化多面勾配エコー画像からのトリグリセリド二重結合の定量化について検討した。 信号制約に基づいたコスト関数を用いて、ニューラルネットワークを1つのデータセットで反復的に更新する。 本法はファントム実験と生体内スキャンを用いて検証した。 結果は測定値と基準二重結合値の密接な一致を示し、ファントム実験によりピアソン相関係数は 0.96 (p = .0005) となった。 In vivoでは皮下脂肪が良好であった。 Deep Image Priorは, 化学シフト型多面体MRIから二重結合および脂肪酸含有量を定量化できる可能性が示唆された。

This study evaluated a deep learning-based method using Deep Image Prior (DIP) to quantify triglyceride double bonds from chemical-shift encoded multi-echo gradient echo images without network training. We employed a cost function based on signal constraints to iteratively update the neural network on a single dataset. The method was validated using phantom experiments and in vivo scans. Results showed close alignment between measured and reference double bond values, with phantom experiments yielding a Pearson correlation coefficient of 0.96 (p = .0005). In vivo results demonstrated good agreement in subcutaneous fat. We conclude that Deep Image Prior shows feasibility for quantifying double bonds and fatty acid content from chemical-shift encoded multi-echo MRI.
翻訳日:2024-07-04 12:45:59 公開日:2024-07-03
# 新しいクラス発見のための自己協力的知識蒸留

Self-Cooperation Knowledge Distillation for Novel Class Discovery ( http://arxiv.org/abs/2407.01930v2 )

ライセンス: Link先を確認
Yuzheng Wang, Zhaoyu Chen, Dingkang Yang, Yunquan Sun, Lizhe Qi, (参考訳) 新たなクラス発見(NCD)は、既知のクラスについて既に学んだ知識を活用することで、ラベルのないセットで未知のクラスと新しいクラスを発見することを目的としている。 既存の作業は、インスタンスレベルまたはクラスレベルの知識表現に焦点を当て、パフォーマンス改善を達成するために共有表現空間を構築します。 しかし、長い間無視されてきた問題は、既知のクラスと新しいクラスのサンプルの潜在的に不均衡な数であり、モデルを支配的なクラスへと押し上げている。 したがって、これらの手法は、既知の授業のレビューと新しい授業の発見の間の困難なトレードオフに悩まされる。 本研究は, 自己協調知識蒸留法 (SCKD) を用いて, 評価と発見の両方に, 各トレーニングサンプル(既知の, 新規, ラベル付, ラベル付, 未ラベル付のいずれにおいても) を利用する方法を提案する。 具体的には、既知のクラスと新しいクラスのモデルの特徴表現を用いて、2つの非結合表現空間を構築する。 空間的相互情報を用いて,2つの特徴表現空間からモデル学習を促進する自己協調学習を設計する。 6つのデータセットに対する大規模な実験により、我々の手法は、最先端のパフォーマンスを達成し、大幅な性能向上を達成できることを示した。

Novel Class Discovery (NCD) aims to discover unknown and novel classes in an unlabeled set by leveraging knowledge already learned about known classes. Existing works focus on instance-level or class-level knowledge representation and build a shared representation space to achieve performance improvements. However, a long-neglected issue is the potential imbalanced number of samples from known and novel classes, pushing the model towards dominant classes. Therefore, these methods suffer from a challenging trade-off between reviewing known classes and discovering novel classes. Based on this observation, we propose a Self-Cooperation Knowledge Distillation (SCKD) method to utilize each training sample (whether known or novel, labeled or unlabeled) for both review and discovery. Specifically, the model's feature representations of known and novel classes are used to construct two disjoint representation spaces. Through spatial mutual information, we design a self-cooperation learning to encourage model learning from the two feature representation spaces from itself. Extensive experiments on six datasets demonstrate that our method can achieve significant performance improvements, achieving state-of-the-art performance.
翻訳日:2024-07-04 12:45:59 公開日:2024-07-03
# 法的判断予測のためのLLMにおける識別的推論

Enabling Discriminative Reasoning in LLMs for Legal Judgment Prediction ( http://arxiv.org/abs/2407.01964v2 )

ライセンス: Link先を確認
Chenlong Deng, Kelong Mao, Yuyao Zhang, Zhicheng Dou, (参考訳) 司法効率を高めるためには法的判断の予測が不可欠である。 本研究では,既存の大規模言語モデル (LLM) が,ケースの複雑さを理解し,類似の電荷を区別することの難しさから,この領域で性能が低下していることを明らかにする。 有効な法的判断予測にLLMを適用するために,人間の司法的推論に触発されたAsk-Discriminate-Predict(ADAPT)推論の枠組みを導入する。 ADAPTは、ケース事実を分解し、潜在的な電荷を識別し、最終的な判断を予測する。 我々は,多タスク合成軌道の微調整によりLLMをさらに強化し,ADAPTフレームワークの法定判定精度と効率を向上させる。 広範に使われている2つのデータセットで実施された大規模な実験は、特に複雑で紛らわしい電荷を扱う場合、法的な判断の予測において、我々のフレームワークの優れた性能を示す。

Legal judgment prediction is essential for enhancing judicial efficiency. In this work, we identify that existing large language models (LLMs) underperform in this domain due to challenges in understanding case complexities and distinguishing between similar charges. To adapt LLMs for effective legal judgment prediction, we introduce the Ask-Discriminate-Predict (ADAPT) reasoning framework inspired by human judicial reasoning. ADAPT involves decomposing case facts, discriminating among potential charges, and predicting the final judgment. We further enhance LLMs through fine-tuning with multi-task synthetic trajectories to improve legal judgment prediction accuracy and efficiency under our ADAPT framework. Extensive experiments conducted on two widely-used datasets demonstrate the superior performance of our framework in legal judgment prediction, particularly when dealing with complex and confusing charges.
翻訳日:2024-07-04 12:45:59 公開日:2024-07-03
# ViG-Bias:ビジュアルなバイアス発見と緩和

ViG-Bias: Visually Grounded Bias Discovery and Mitigation ( http://arxiv.org/abs/2407.01996v2 )

ライセンス: Link先を確認
Badr-Eddine Marani, Mohamed Hanini, Nihitha Malayarukil, Stergios Christodoulidis, Maria Vakalopoulou, Enzo Ferrante, (参考訳) 批判的な意思決定プロセスにおける機械学習モデルの拡散は、バイアス発見と緩和戦略の必要性を浮き彫りにした。 バイアスのあるシステムの背後にある理由を特定するのは簡単ではない。 標準的なアプローチは、事前に定義されたデータサンプルのサブグループでモデルパフォーマンスを分析することで実行されるバイアス監査に頼っている。 しかし、視覚認識システムの障害モードを定義する特定の属性をa-prioriで知ることは必ずしも不可能である。 近年のアプローチでは, 大規模な視覚言語モデルを用いて, クロスモーダルな埋め込みの抽出とテキスト記述の生成を可能とし, 特定のモデルが不十分な部分群を特徴付ける手法が提案されている。 本研究では、視覚的説明(例えば、GradCAMなどの手法で生成したヒートマップ)を取り入れることで、そのようなバイアス発見や緩和フレームワークの性能を高めることができると論じる。 この目的のために、我々はVisually Grounded Bias Discovery and Mitigation (ViG-Bias)を紹介した。 我々の総合的な評価は、ビジュアルな説明を取り入れることで、CelebA、Waterbirds、NICO++など、いくつかの挑戦的なデータセットをまたいだDOMINO、FACTS、Bias-to-Textといった既存のテクニックが強化されることを示している。

The proliferation of machine learning models in critical decision making processes has underscored the need for bias discovery and mitigation strategies. Identifying the reasons behind a biased system is not straightforward, since in many occasions they are associated with hidden spurious correlations which are not easy to spot. Standard approaches rely on bias audits performed by analyzing model performance in pre-defined subgroups of data samples, usually characterized by common attributes like gender or ethnicity when it comes to people, or other specific attributes defining semantically coherent groups of images. However, it is not always possible to know a-priori the specific attributes defining the failure modes of visual recognition systems. Recent approaches propose to discover these groups by leveraging large vision language models, which enable the extraction of cross-modal embeddings and the generation of textual descriptions to characterize the subgroups where a certain model is underperforming. In this work, we argue that incorporating visual explanations (e.g. heatmaps generated via GradCAM or other approaches) can boost the performance of such bias discovery and mitigation frameworks. To this end, we introduce Visually Grounded Bias Discovery and Mitigation (ViG-Bias), a simple yet effective technique which can be integrated to a variety of existing frameworks to improve both, discovery and mitigation performance. Our comprehensive evaluation shows that incorporating visual explanations enhances existing techniques like DOMINO, FACTS and Bias-to-Text, across several challenging datasets, including CelebA, Waterbirds, and NICO++.
翻訳日:2024-07-04 12:45:59 公開日:2024-07-03
# 単光子強結合限界におけるパラメトリック光-物質相互作用

Parametric Light-Matter Interaction in the Single-Photon Strong Coupling Limit ( http://arxiv.org/abs/2407.02024v2 )

ライセンス: Link先を確認
C. A. Potts, R. C. Dekker, S. Deve, E. W. Strijbis, G. A. Steele, (参考訳) 共振器間のパラメトリック結合は、例えば空洞光学において、線形共振器の特別な測定精度と制御を可能にしている。 このレベルの制御は、強いサイドバンドドライブを使用することで可能となり、相互作用を線形化しながら結合率を高めた。 本稿では,1つの線形マイクロ波空洞を超伝導トランスモン量子ビットに置き換えるパラメトリック結合マイクロ波回路の新たなパラダイムを示す。 本システムは,光-圧力相互作用のマイクロ波アナログであるトランスモン量子ビットと高線形マイクロ波共振器との光-圧力結合を利用する。 強いサイドバンド駆動を適用すると、オンデマンドで非線形のJaynes-Cummingsが線形共振器と相互作用する。 また, 単一光子結合率を全崩壊速度より桁違いに大きくし, デバイスを単一光子結合系に配置する。 この光子-圧力Jaynes-Cummings相互作用の実証は、新しい光子-圧力量子情報処理ハードウェアの開発の道を開くものであり、この新しいプラットフォームを機械共振器で対向させることで、将来量子重力のエキゾチックなテストを可能にする。

Parametric coupling between harmonic oscillators has enabled exquisite measurement precision and control of linear resonators, being extensively studied, for example, in cavity optomechanics. This level of control has been made possible by using strong sideband drives, enhancing the coupling rate while also linearizing the interaction. In this article, we demonstrate a new paradigm of parametrically coupled microwave circuits replacing one linear microwave cavity with a superconducting transmon qubit. Our system utilizes photon-pressure coupling between the transmon qubit and a highly linear microwave resonator, a microwave analog of the radiation-pressure interaction. Applying a strong sideband drive results in an on-demand, non-linear Jaynes-Cummings interaction with the linear resonator. We also observe a single-photon coupling rate an order of magnitude larger than all decay rates, placing the device in the single-photon strong coupling regime. This demonstration of photon-pressure Jaynes-Cummings interactions paves the way for developing novel photon-pressure quantum information processing hardware and will enable exotic tests of quantum gravity in the future by interfacing this new platform with mechanical resonators.
翻訳日:2024-07-04 12:45:59 公開日:2024-07-03
# カメラ-LiDARクロスモダリティ歩行認識

Camera-LiDAR Cross-modality Gait Recognition ( http://arxiv.org/abs/2407.02038v2 )

ライセンス: Link先を確認
Wenxuan Guo, Yingping Liang, Zhiyu Pan, Ziheng Xi, Jianjiang Feng, Jie Zhou, (参考訳) 歩行認識は重要な生体認証技術である。 カメラによる歩行認識は、研究分野と産業分野の両方に広く応用されている。 LiDARに基づく歩行認識も、3D構造情報の提供により、近年進化し始めている。 しかし、特定のアプリケーションでは、LiDARがうまく機能する低照度環境や長距離認識シナリオなど、カメラは人を認識することができない。 一方、LiDARシステムのデプロイメントコストと複雑さは、より広範なアプリケーションを制限する。 したがって,カメラとLiDAR間のクロスモダリティ歩行認識を幅広い用途で検討することが不可欠である。 そこで本研究では,カメラとLiDAR,すなわちCL-Gait間の最初のモダリティ間歩行認識フレームワークを提案する。 両方のモダリティを組み込むために2ストリームネットワークを採用している。 これは、3Dデータと2Dデータとの固有なマッチングにより、重要なモダリティの相違を示すため、困難な認識課題となる。 両モードの特徴空間,すなわちカメラシルエットとLiDAR点の特徴空間を整列するために,モダリティの相違を緩和するための対照的な事前学習戦略を提案する。 プレトレーニングのためのペアカメラ-LiDARデータの欠如を補うため,大規模にデータを生成する戦略も導入する。 この戦略は、単一のRGB画像と仮想カメラから推定される単眼深度を利用して、対照的な事前学習のための擬似点雲を生成する。 広汎な実験により、モダリティの歩行認識は非常に困難であるが、提案したモデルと事前学習戦略への可能性と実現可能性を含んでいることが示された。 私たちの知る限りでは、これはモダリティ間の歩行認識に対処する最初の試みである。

Gait recognition is a crucial biometric identification technique. Camera-based gait recognition has been widely applied in both research and industrial fields. LiDAR-based gait recognition has also begun to evolve most recently, due to the provision of 3D structural information. However, in certain applications, cameras fail to recognize persons, such as in low-light environments and long-distance recognition scenarios, where LiDARs work well. On the other hand, the deployment cost and complexity of LiDAR systems limit its wider application. Therefore, it is essential to consider cross-modality gait recognition between cameras and LiDARs for a broader range of applications. In this work, we propose the first cross-modality gait recognition framework between Camera and LiDAR, namely CL-Gait. It employs a two-stream network for feature embedding of both modalities. This poses a challenging recognition task due to the inherent matching between 3D and 2D data, exhibiting significant modality discrepancy. To align the feature spaces of the two modalities, i.e., camera silhouettes and LiDAR points, we propose a contrastive pre-training strategy to mitigate modality discrepancy. To make up for the absence of paired camera-LiDAR data for pre-training, we also introduce a strategy for generating data on a large scale. This strategy utilizes monocular depth estimated from single RGB images and virtual cameras to generate pseudo point clouds for contrastive pre-training. Extensive experiments show that the cross-modality gait recognition is very challenging but still contains potential and feasibility with our proposed model and pre-training strategy. To the best of our knowledge, this is the first work to address cross-modality gait recognition.
翻訳日:2024-07-04 12:45:59 公開日:2024-07-03
# スパースSSP:スパースビュー透過光画像からの3次元細胞内構造予測

SparseSSP: 3D Subcellular Structure Prediction from Sparse-View Transmitted Light Images ( http://arxiv.org/abs/2407.02159v2 )

ライセンス: Link先を確認
Jintu Zheng, Yi Ding, Qizhe Liu, Yi Cao, Ying Hu, Zenan Wang, (参考訳) 従来の蛍光染色は、生きた細胞に対して光毒性があり、遅く、高価であるため、透過光(TL)画像からの細胞構造予測(SSP)は、ラベルフリーで、高速で、低コストな代替品として現れている。 しかし、既存のアプローチでは、1対1のボクセルレベルの密度予測に3Dネットワークを使用しており、これは頻繁かつ時間を要するZ軸イメージングプロセスを必要とする。 さらに、3D畳み込みは必然的に大きな計算とGPUメモリオーバーヘッドにつながる。 そこで本研究では, 3次元トポロジに頼らずに, 対象ボクセル格子内の蛍光強度を効率的に予測する効率的なフレームワークSparseSSPを提案する。 特に、SparseSSPは以前の作業に2つの重要な改善を施している。 まず、SparseSSPは1対多のボクセルマッピングパラダイムを導入し、スパースTLスライスによって細胞内構造を再構築する。 次に,Z軸情報をチャネル特徴に折り畳むハイブリッド次元トポロジーを提案し,低計算コストで2次元ネットワーク層がSSPに取り組むことを可能にする。 本研究は,SparseSSPの様々なスパース画像比における有効性と有効性を検証するための広範囲な実験を行い,本手法は純粋な3次元トポロジと比較して高い性能を実現する。 SparseSSPは、以前の高密度なSSP(つまり、画像の数は87.5%まで減少する)と比較して、画像の周波数を減少させる。

Traditional fluorescence staining is phototoxic to live cells, slow, and expensive; thus, the subcellular structure prediction (SSP) from transmitted light (TL) images is emerging as a label-free, faster, low-cost alternative. However, existing approaches utilize 3D networks for one-to-one voxel level dense prediction, which necessitates a frequent and time-consuming Z-axis imaging process. Moreover, 3D convolutions inevitably lead to significant computation and GPU memory overhead. Therefore, we propose an efficient framework, SparseSSP, predicting fluorescent intensities within the target voxel grid in an efficient paradigm instead of relying entirely on 3D topologies. In particular, SparseSSP makes two pivotal improvements to prior works. First, SparseSSP introduces a one-to-many voxel mapping paradigm, which permits the sparse TL slices to reconstruct the subcellular structure. Secondly, we propose a hybrid dimensions topology, which folds the Z-axis information into channel features, enabling the 2D network layers to tackle SSP under low computational cost. We conduct extensive experiments to validate the effectiveness and advantages of SparseSSP on diverse sparse imaging ratios, and our approach achieves a leading performance compared to pure 3D topologies. SparseSSP reduces imaging frequencies compared to previous dense-view SSP (i.e., the number of imaging is reduced up to 87.5% at most), which is significant in visualizing rapid biological dynamics on low-cost devices and samples.
翻訳日:2024-07-04 12:45:59 公開日:2024-07-03
# BeNeRF: 単一Blurry画像とイベントストリームからのニューラルラジアンス場

BeNeRF: Neural Radiance Fields from a Single Blurry Image and Event Stream ( http://arxiv.org/abs/2407.02174v2 )

ライセンス: Link先を確認
Wenpu Li, Pian Wan, Peng Wang, Jinghang Li, Yi Zhou, Peidong Liu, (参考訳) 視覚シーンのニューラルな暗黙の表現は、コンピュータビジョンとグラフィックスの最近の研究で多くの注目を集めている。 従来の手法では、画像の集合から3Dシーンの表現を再構築する方法に焦点が当てられていた。 本研究では,1つのぼやけた画像とそれに対応するイベントストリームからニューラル放射場(NeRF)を復元する可能性を示す。 カメラの動きをSE(3)空間の立方体B-Splineでモデル化する。 そして、立方体B−スプラインから補間された6−DoFポーズが与えられたとき、3Dシーン表現から、ぼやけた画像と、時間間隔内での明るさ変化の両方を合成することができる。 提案手法は,COLMAPから予め計算したカメラポーズを使わずに,合成データと実測値の違いを最小化することにより,暗黙的なニューラルシーン表現とカメラ動作の回復を両立させることができる。 提案手法を合成データと実データの両方を用いて評価する。 実験結果から,学習したNeRF画像から高画質のぼやけた画像が得られることがわかった。 コードとデータはhttps://github.com/WU-CVGL/BeNeRF.comで公開されている。

Neural implicit representation of visual scenes has attracted a lot of attention in recent research of computer vision and graphics. Most prior methods focus on how to reconstruct 3D scene representation from a set of images. In this work, we demonstrate the possibility to recover the neural radiance fields (NeRF) from a single blurry image and its corresponding event stream. We model the camera motion with a cubic B-Spline in SE(3) space. Both the blurry image and the brightness change within a time interval, can then be synthesized from the 3D scene representation given the 6-DoF poses interpolated from the cubic B-Spline. Our method can jointly learn both the implicit neural scene representation and recover the camera motion by minimizing the differences between the synthesized data and the real measurements without pre-computed camera poses from COLMAP. We evaluate the proposed method with both synthetic and real datasets. The experimental results demonstrate that we are able to render view-consistent latent sharp images from the learned NeRF and bring a blurry image alive in high quality. Code and data are available at https://github.com/WU-CVGL/BeNeRF.
翻訳日:2024-07-04 12:45:59 公開日:2024-07-03
# 医用画像分類のためのフェデレート蒸留 : 信頼できるコンピュータ支援診断を目指して

Federated Distillation for Medical Image Classification: Towards Trustworthy Computer-Aided Diagnosis ( http://arxiv.org/abs/2407.02261v2 )

ライセンス: Link先を確認
Sufen Ren, Yule Hu, Shengchao Chen, Guanjun Wang, (参考訳) 医用画像分類はコンピュータ支援臨床診断において重要な役割を担っている。 深層学習技術は効率を大幅に向上しコストを削減したが、医療画像データのプライバシーに敏感な性質は集中ストレージとモデルトレーニングを複雑にしている。 さらに、低リソースの医療組織は、データとモデルスケールの増加による通信のオーバーヘッドと効率に関する課題に直面しています。 本稿では,これらの問題に対処するためのフェデレーション学習に基づく,新たなプライバシ保護型医用画像分類フレームワークであるFedMICを提案する。 このフレームワークにより、医療機関はグローバルな知識とローカルな知識の両方から学ぶことができ、統計的不均一性にもかかわらず、プライベートデータの局所的な表現を高めることができる。 多様なデータ分布を持つ組織向けにカスタマイズされたモデルを提供し、通信オーバーヘッドを最小限にし、パフォーマンスを損なうことなく効率を向上する。 FedMICは資源制約条件下での堅牢性と実用性を向上させる。 従来の医用画像分類作業において,4つの公開医用画像データセットを用いてFedMICの有効性を実証した。

Medical image classification plays a crucial role in computer-aided clinical diagnosis. While deep learning techniques have significantly enhanced efficiency and reduced costs, the privacy-sensitive nature of medical imaging data complicates centralized storage and model training. Furthermore, low-resource healthcare organizations face challenges related to communication overhead and efficiency due to increasing data and model scales. This paper proposes a novel privacy-preserving medical image classification framework based on federated learning to address these issues, named FedMIC. The framework enables healthcare organizations to learn from both global and local knowledge, enhancing local representation of private data despite statistical heterogeneity. It provides customized models for organizations with diverse data distributions while minimizing communication overhead and improving efficiency without compromising performance. Our FedMIC enhances robustness and practical applicability under resource-constrained conditions. We demonstrate FedMIC's effectiveness using four public medical image datasets for classical medical image classification tasks.
翻訳日:2024-07-04 12:45:59 公開日:2024-07-03
# SOAF:Scene Occlusion-aware Neural Acoustic Field

SOAF: Scene Occlusion-aware Neural Acoustic Field ( http://arxiv.org/abs/2407.02264v2 )

ライセンス: Link先を確認
Huiyu Gao, Jiahao Ma, David Ahmedt-Aristizabal, Chuong Nguyen, Miaomiao Liu, (参考訳) 本稿では,屋内シーンにおける任意の軌跡に沿った新規な映像合成の課題に対処する。 既存の手法では、部屋形状、特に音の伝搬に対する壁閉塞の影響を見落とし、マルチルーム環境では精度が低下する。 そこで本研究では,Scene Occlusion-aware Acoustic Field (SOAF) と呼ばれる新しい手法を提案する。 提案手法は,距離対応パラメトリック音波伝搬モデルを用いて音場前処理を行い,入力映像から学習したシーンの透過率に基づいて変換する。 本研究では、Fibonacci Sphereを用いて、受信機を中心にした局所音場から特徴を抽出し、方向認識型アテンション機構により、新しいビューのためのバイノーラルオーディオを生成する。 実データセット RWAVS と合成データセット SoundSpaces の大規模な実験により,本手法は音声生成における従来の最先端技術よりも優れていたことを示す。 プロジェクトページ:https://github.com/huiyu-gao/SOAF/。

This paper tackles the problem of novel view audio-visual synthesis along an arbitrary trajectory in an indoor scene, given the audio-video recordings from other known trajectories of the scene. Existing methods often overlook the effect of room geometry, particularly wall occlusion to sound propagation, making them less accurate in multi-room environments. In this work, we propose a new approach called Scene Occlusion-aware Acoustic Field (SOAF) for accurate sound generation. Our approach derives a prior for sound energy field using distance-aware parametric sound-propagation modelling and then transforms it based on scene transmittance learned from the input video. We extract features from the local acoustic field centred around the receiver using a Fibonacci Sphere to generate binaural audio for novel views with a direction-aware attention mechanism. Extensive experiments on the real dataset RWAVS and the synthetic dataset SoundSpaces demonstrate that our method outperforms previous state-of-the-art techniques in audio generation. Project page: https://github.com/huiyu-gao/SOAF/.
翻訳日:2024-07-04 12:45:59 公開日:2024-07-03
# FedIA : 異種アノテーション完全性を伴う医用画像のフェデレーション

FedIA: Federated Medical Image Segmentation with Heterogeneous Annotation Completeness ( http://arxiv.org/abs/2407.02280v2 )

ライセンス: Link先を確認
Yangyang Xiang, Nannan Wu, Li Yu, Xin Yang, Kwang-Ting Cheng, Zengqiang Yan, (参考訳) フェデレーテッド・ラーニングは、特にプライバシーの懸念が高まる中で、医療画像セグメンテーションの魅力的なパラダイムとして登場した。 しかし、既存の研究のほとんどは、クライアント間のアノテーションの統一性と完全性に関する比較的厳密な仮定に依存している。 これとは対照的に,本論文では医療実践における課題として,不完全アノテーションを取り上げている。 このようなアノテーションは、誤ってラベル付けされたピクセルを導入することができ、教師付き学習におけるニューラルネットワークのパフォーマンスを損なう可能性がある。 この問題に対処するため,FedIAという新しいソリューションを紹介した。 我々の洞察は、不完全アノテーションをノイズの多いデータ(低品質データ)として概念化し、その悪影響を軽減することである。 まず、設計されたインジケータを使用して、クライアントレベルでアノテーションの完全性を評価することから始めます。 その後、より包括的なアノテーションでクライアントの影響を高め、不完全なアノテーションに対する修正を実装し、モデルが正確なデータに基づいてトレーニングされることを保証する。 提案手法の有効性は,2つの医用画像セグメント化データセットにおいて優れた性能を示し,既存のソリューションよりも優れていた。 コードはhttps://github.com/HUSTxyy/FedIAで入手できる。

Federated learning has emerged as a compelling paradigm for medical image segmentation, particularly in light of increasing privacy concerns. However, most of the existing research relies on relatively stringent assumptions regarding the uniformity and completeness of annotations across clients. Contrary to this, this paper highlights a prevalent challenge in medical practice: incomplete annotations. Such annotations can introduce incorrectly labeled pixels, potentially undermining the performance of neural networks in supervised learning. To tackle this issue, we introduce a novel solution, named FedIA. Our insight is to conceptualize incomplete annotations as noisy data (i.e., low-quality data), with a focus on mitigating their adverse effects. We begin by evaluating the completeness of annotations at the client level using a designed indicator. Subsequently, we enhance the influence of clients with more comprehensive annotations and implement corrections for incomplete ones, thereby ensuring that models are trained on accurate data. Our method's effectiveness is validated through its superior performance on two extensively used medical image segmentation datasets, outperforming existing solutions. The code is available at https://github.com/HUSTxyy/FedIA.
翻訳日:2024-07-04 12:45:59 公開日:2024-07-03
# スポーツにおけるビデオフレーム補間のためのイベントベースカメラの検討

Investigating Event-Based Cameras for Video Frame Interpolation in Sports ( http://arxiv.org/abs/2407.02370v2 )

ライセンス: Link先を確認
Antoine Deckyvere, Anthony Cioppa, Silvio Giancola, Bernard Ghanem, Marc Van Droogenbroeck, (参考訳) スローモーションのリプレイは、スポーツゲームにおける重要な瞬間について、スリルのある視点を提供し、新鮮な視覚体験を提供する。 しかし、スローモーション映像の撮影は通常、ハイテクで高価なカメラとインフラを必要とする。 ディープラーニングビデオフレーム補間(VFI)技術は、通常のカメラフィードから高速な映像を生成することができる有望な道として登場した。 さらに、イベントベースのカメラの利用は、フレーム間の貴重な動き情報を提供し、VFI性能をさらに向上させるため、近年注目されている。 本研究では,スポーツスローモーションビデオを生成するイベントベースVFIモデルについて,初めて検討する。 特に,スポーツ映像を撮影するためのRGBとイベントベースカメラを含むバイカメラ記録装置の設計と実装を行い,両カメラの時間的整列と空間的登録を行う。 実験により,市販のイベントベースVFIモデルであるTimeLensが,スポーツビデオのスローモーション映像を効果的に生成できることが実証された。 この最初の調査は、スポーツのスローモーションコンテンツを制作するイベントベースのカメラの実用性を強調し、この領域における将来の研究の基盤となる。

Slow-motion replays provide a thrilling perspective on pivotal moments within sports games, offering a fresh and captivating visual experience. However, capturing slow-motion footage typically demands high-tech, expensive cameras and infrastructures. Deep learning Video Frame Interpolation (VFI) techniques have emerged as a promising avenue, capable of generating high-speed footage from regular camera feeds. Moreover, the utilization of event-based cameras has recently gathered attention as they provide valuable motion information between frames, further enhancing the VFI performances. In this work, we present a first investigation of event-based VFI models for generating sports slow-motion videos. Particularly, we design and implement a bi-camera recording setup, including an RGB and an event-based camera to capture sports videos, to temporally align and spatially register both cameras. Our experimental validation demonstrates that TimeLens, an off-the-shelf event-based VFI model, can effectively generate slow-motion footage for sports videos. This first investigation underscores the practical utility of event-based cameras in producing sports slow-motion content and lays the groundwork for future research endeavors in this domain.
翻訳日:2024-07-04 12:45:59 公開日:2024-07-03
# Tinyオブジェクト検出のための類似距離に基づくラベルアサインメント

Similarity Distance-Based Label Assignment for Tiny Object Detection ( http://arxiv.org/abs/2407.02394v2 )

ライセンス: Link先を確認
Shuohao Shi, Qiang Fang, Tong Zhao, Xin Xu, (参考訳) 微妙な物体検出は、限られた物体の大きさと情報の不足により、コンピュータビジョンにおいて最も困難なタスクの1つになりつつある。 ラベル割り当て戦略は、オブジェクト検出の精度に影響を与える重要な要素である。 小さなオブジェクトに対する効果的なラベル割り当て戦略はいくつかあるが、多くの場合、正のサンプル数を増やすために境界ボックスに対する感度を低下させ、固定されたハイパーパラメータを設定する必要がある。 しかし、より陽性なサンプルは必ずしもより良い検出結果をもたらすとは限らないが、実際、過剰な陽性なサンプルはより偽陽性をもたらす可能性がある。 本稿では,ボックス間の類似性を評価するためのSimity Distance (SimD) という,シンプルだが効果的な戦略を提案する。 提案した戦略は、位置と形状の類似性だけでなく、ハイパーパラメータを適応的に学習することで、データセット内のさまざまなデータセットやさまざまなオブジェクトサイズに適応できるようにする。 我々のアプローチは、ラベル割り当てやNon Maximum Suppression(NMS)のために、IoUの代わりに一般的なアンカーベースの検出器に簡単に適用できる。 4つの主流となる小さなオブジェクト検出データセットに対する大規模な実験では、特に1.8のAPポイントと4.1のAPポイントがAI-TODの最先端の競合に比べて非常に高い性能を示した。 コードは: \url{https://github.com/cszzshi/SimD}.comで入手できる。

Tiny object detection is becoming one of the most challenging tasks in computer vision because of the limited object size and lack of information. The label assignment strategy is a key factor affecting the accuracy of object detection. Although there are some effective label assignment strategies for tiny objects, most of them focus on reducing the sensitivity to the bounding boxes to increase the number of positive samples and have some fixed hyperparameters need to set. However, more positive samples may not necessarily lead to better detection results, in fact, excessive positive samples may lead to more false positives. In this paper, we introduce a simple but effective strategy named the Similarity Distance (SimD) to evaluate the similarity between bounding boxes. This proposed strategy not only considers both location and shape similarity but also learns hyperparameters adaptively, ensuring that it can adapt to different datasets and various object sizes in a dataset. Our approach can be simply applied in common anchor-based detectors in place of the IoU for label assignment and Non Maximum Suppression (NMS). Extensive experiments on four mainstream tiny object detection datasets demonstrate superior performance of our method, especially, 1.8 AP points and 4.1 AP points of very tiny higher than the state-of-the-art competitors on AI-TOD. Code is available at: \url{https://github.com/cszzshi/SimD}.
翻訳日:2024-07-04 12:45:59 公開日:2024-07-03
# ビデオ透かし:ビデオベースのLLMによる(認可されていない)アノテーションからビデオを保護

Video Watermarking: Safeguarding Your Video from (Unauthorized) Annotations by Video-based LLMs ( http://arxiv.org/abs/2407.02411v2 )

ライセンス: Link先を確認
Jinmin Li, Kuofeng Gao, Yang Bai, Jingyun Zhang, Shu-Tao Xia, (参考訳) ビデオベースのLarge Language Models(LLM)の出現により、ビデオ理解が大幅に向上した。 しかし、ビデオは認可なしでもより簡単に注釈を付けることができるため、データ保護に関するいくつかの安全上の懸念も持ち上がっている。 本稿では,ビデオ・ウォーターマーキング(ビデオ・ウォーターマーキング)について紹介する。ビデオ・ウォーターマーキング(ビデオ・ウォーターマーキング)とは,特にビデオの内容や記述について,特定のクエリに応答して,ビデオの無許可アノテーションからビデオを保護する手法である。 マルチモーダルなフローベース損失を伴うキービデオフレームに透かしを挿入することで,ビデオによるLLMの誤用を防止しつつ,視聴体験を保ち得る。 ビデオ透かしは、様々なビデオベースのLLMによるビデオの理解性を著しく低下させ、ステルスとロバスト性の両方を実証する。 本手法は,ビデオコンテンツ保護のソリューションを提供し,その完全性と機密性を確保する。

The advent of video-based Large Language Models (LLMs) has significantly enhanced video understanding. However, it has also raised some safety concerns regarding data protection, as videos can be more easily annotated, even without authorization. This paper introduces Video Watermarking, a novel technique to protect videos from unauthorized annotations by such video-based LLMs, especially concerning the video content and description, in response to specific queries. By imperceptibly embedding watermarks into key video frames with multi-modal flow-based losses, our method preserves the viewing experience while preventing misuse by video-based LLMs. Extensive experiments show that Video Watermarking significantly reduces the comprehensibility of videos with various video-based LLMs, demonstrating both stealth and robustness. In essence, our method provides a solution for securing video content, ensuring its integrity and confidentiality in the face of evolving video-based LLMs technologies.
翻訳日:2024-07-04 12:45:59 公開日:2024-07-03
# PWM:大規模世界モデルによる政策学習

PWM: Policy Learning with Large World Models ( http://arxiv.org/abs/2407.02466v2 )

ライセンス: Link先を確認
Ignat Georgiev, Varun Giridhar, Nicklas Hansen, Animesh Garg, (参考訳) 強化学習(RL)は複雑なタスクにおいて印象的な結果を得たが、異なる実施形態を持つマルチタスク設定に苦戦している。 世界モデルは環境のシミュレーションを学習することでスケーラビリティを提供するが、非効率な勾配のない最適化手法に頼っていることが多い。 大規模多タスク世界モデルから連続制御ポリシを学習する新しいモデルベースRLアルゴリズムである,大規模世界モデルを用いたポリシ学習(PWM)を導入する。 オフラインデータ上で世界モデルを事前学習し、一階勾配ポリシー学習に使用することにより、PWMは最大152のアクション次元のタスクを効果的に解決し、地上構造力学を用いた手法より優れる。 さらに、PWMは80タスク設定にスケールし、高価なオンラインプランニングを必要とせずに、既存のベースラインよりも最大27%高い報酬を達成する。 可視化とコードはhttps://www.imgeorgiev.com/pwmで公開されている。

Reinforcement Learning (RL) has achieved impressive results on complex tasks but struggles in multi-task settings with different embodiments. World models offer scalability by learning a simulation of the environment, yet they often rely on inefficient gradient-free optimization methods. We introduce Policy learning with large World Models (PWM), a novel model-based RL algorithm that learns continuous control policies from large multi-task world models. By pre-training the world model on offline data and using it for first-order gradient policy learning, PWM effectively solves tasks with up to 152 action dimensions and outperforms methods using ground-truth dynamics. Additionally, PWM scales to an 80-task setting, achieving up to 27% higher rewards than existing baselines without the need for expensive online planning. Visualizations and code available at https://www.imgeorgiev.com/pwm
翻訳日:2024-07-04 12:45:59 公開日:2024-07-03