このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240806となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 衛星SARの合同画像デノイズ化と拡張
Joint Image De-noising and Enhancement for Satellite-Based SAR ( http://arxiv.org/abs/2408.12671v1 ) ライセンス: Link先を確認 | Shahrokh Hamidi, | (参考訳) 合成開口レーダ(SAR)データから再構成した画像は、乗算ノイズと低コントラストレベルに悩まされる。
これらの2つの要因は、SAR画像の品質に大きな影響を与え、処理されたデータから貴重な情報を抽出する試みを防ぐ。
SAR画像の分野でこれらの効果を緩和する必要性は非常に重要である。
そこで本稿では,上記の課題に対処し,これらの欠点を同時に対処する手法を提案する。
実際、ノイズ除去とコントラスト強化のプロセスを統一されたアルゴリズムに組み合わせる。
コントラスト限定適応ヒストグラム等化(CLAHE)技術に基づいて画像強調を行う。
提案アルゴリズムの検証は、欧州宇宙機関のESS-2衛星から収集したデータに基づいて、ストリップマップモードで動作する実験結果によって行われる。
The reconstructed images from the Synthetic Aperture Radar (SAR) data suffer from multiplicative noise as well as low contrast level. These two factors impact the quality of the SAR images significantly and prevent any attempt to extract valuable information from the processed data. The necessity for mitigating these effects in the field of SAR imaging is of high importance. Therefore, in this paper, we address the aforementioned issues and propose a technique to handle these shortcomings simultaneously. In fact, we combine the de-noising and contrast enhancement processes into a unified algorithm. The image enhancement is performed based on the Contrast Limited Adaptive Histogram Equalization (CLAHE) technique. The verification of the proposed algorithm is performed by experimental results based on the data that has been collected from the European Space Agency's ERS-2 satellite which operates in strip-map mode. | 翻訳日:2024-09-01 17:02:13 公開日:2024-08-06 |
# スマートメータデータを用いたメモリベース変圧器を用いたオンライン電気自動車充電検出
Online Electric Vehicle Charging Detection Based on Memory-based Transformer using Smart Meter Data ( http://arxiv.org/abs/2408.11828v1 ) ライセンス: Link先を確認 | Ammar Mansoor Kamoona, Hui Song, Mahdi Jalili, Hao Wang, Reza Razzaghi, Xinghuo Yu, | (参考訳) 電気自動車(EV)の普及は、グリッドオペレーターとインフラに固有の課題をもたらし、これらの車両のグリッドへの統合を効果的に管理する必要がある。
配電網のより良い計画と管理のための配電網オペレーター(DNO)にはEVの充電の同定が不可欠である。
1つの重要な側面は、グリッド内のEV充電の存在を正確に識別する能力である。
バック・ザ・メーター・デバイスから得られるスマート・メーター・リーダーを用いた電気自動車の充電識別は、既存の電力網へのEVの統合を効果的に管理する上で難しい課題である。
EVと非EVデータによる不均衡問題に対処する必要のある既存の教師付きモデルとは異なり,我々は,ストリーミングスマートメーターからEVの充電を検出するために,リアルタイム(オンライン)に動作可能な新しい教師なしメモリベーストランス (M-TR) を提案する。
拡張グローバル時間窓からのM-TRエンコーダと、限定時間枠(ローカルウィンドウ)に集中するM-TRデコーダを併用して、スマートメーターデータの微細な特性を捉えるために、粗大な歴史的情報を動的に活用する。
M-TRは、EVの充電プロファイルに関する事前の知識を必要とせず、非EVユーザの実際の消費電力データのみを必要としない異常検出技術に基づいている。
さらに,本モデルでは,伝達学習のパワーを活用している。
M-TRは様々な最先端の手法と比較され、他の教師なし学習モデルよりも優れている。
このモデルは、1分間のスマートレコードに対して1.2秒の優れた実行時間で実行できる。
The growing popularity of Electric Vehicles (EVs) poses unique challenges for grid operators and infrastructure, which requires effectively managing these vehicles' integration into the grid. Identification of EVs charging is essential to electricity Distribution Network Operators (DNOs) for better planning and managing the distribution grid. One critical aspect is the ability to accurately identify the presence of EV charging in the grid. EV charging identification using smart meter readings obtained from behind-the-meter devices is a challenging task that enables effective managing the integration of EVs into the existing power grid. Different from the existing supervised models that require addressing the imbalance problem caused by EVs and non-EVs data, we propose a novel unsupervised memory-based transformer (M-TR) that can run in real-time (online) to detect EVs charging from a streaming smart meter. It dynamically leverages coarse-scale historical information using an M-TR encoder from an extended global temporal window, in conjunction with an M-TR decoder that concentrates on a limited time frame, local window, aiming to capture the fine-scale characteristics of the smart meter data. The M-TR is based on an anomaly detection technique that does not require any prior knowledge about EVs charging profiles, nor it does only require real power consumption data of non-EV users. In addition, the proposed model leverages the power of transfer learning. The M-TR is compared with different state-of-the-art methods and performs better than other unsupervised learning models. The model can run with an excellent execution time of 1.2 sec. for 1-minute smart recordings. | 翻訳日:2024-08-25 14:01:15 公開日:2024-08-06 |
# FAKER:リアルタイムビデオ識別のための人間のキーポイント抽出によるフルボディ匿名化
FAKER: Full-body Anonymization with Human Keypoint Extraction for Real-time Video Deidentification ( http://arxiv.org/abs/2408.11829v1 ) ライセンス: Link先を確認 | Byunghyun Ban, Hyoseok Lee, | (参考訳) 現代デジタル時代には、個人情報の保護が最重要課題となっている。
メディア産業の指数的な成長は、ビデオ映像で捉えた個人の匿名化に関する懸念を高めている。
ぼやけたり、ピクセル化といった従来の手法が一般的であるが、近年の進歩により、映像中の顔を再描画するための生成的敵ネットワーク(GAN)が導入されている。
本研究では,ビデオ中の個人をリアルタイムに完全匿名化するために,より小さなモデルを用いた新しいアプローチを提案する。
肌の色、衣服、アクセサリー、体形などの個人識別情報を効果的に除去するのに失敗する従来の手法とは異なり、本手法はこれらすべての詳細を効果的に消去する。
さらに、ポーズ推定アルゴリズムを利用して、個人の位置、動き、姿勢に関する情報を正確に表現する。
このアルゴリズムは、様々な産業環境にインストールされたCCTVやIPカメラシステムにシームレスに統合され、リアルタイムに機能し、フルボディの匿名化技術の普及を促進する。
In the contemporary digital era, protection of personal information has become a paramount issue. The exponential growth of the media industry has heightened concerns regarding the anonymization of individuals captured in video footage. Traditional methods, such as blurring or pixelation, are commonly employed, while recent advancements have introduced generative adversarial networks (GAN) to redraw faces in videos. In this study, we propose a novel approach that employs a significantly smaller model to achieve real-time full-body anonymization of individuals in videos. Unlike conventional techniques that often fail to effectively remove personal identification information such as skin color, clothing, accessories, and body shape while our method successfully eradicates all such details. Furthermore, by leveraging pose estimation algorithms, our approach accurately represents information regarding individuals' positions, movements, and postures. This algorithm can be seamlessly integrated into CCTV or IP camera systems installed in various industrial settings, functioning in real-time and thus facilitating the widespread adoption of full-body anonymization technology. | 翻訳日:2024-08-25 14:01:15 公開日:2024-08-06 |
# OpenFactCheck: LLMのファクチュアリティ評価のための統一フレームワーク
OpenFactCheck: A Unified Framework for Factuality Evaluation of LLMs ( http://arxiv.org/abs/2408.11832v1 ) ライセンス: Link先を確認 | Hasan Iqbal, Yuxia Wang, Minghan Wang, Georgi Georgiev, Jiahui Geng, Iryna Gurevych, Preslav Nakov, | (参考訳) 様々な現実世界のアプリケーションにまたがる大規模言語モデル(LLM)の利用が増加し、LLMが幻覚しているように、アウトプットの実際の正確性をチェックするための自動ツールが求められている。
自由形式のオープンドメイン応答の事実性を評価する必要があるため、これは難しい。
この話題について多くの研究が行われてきたが、異なる論文では異なる評価ベンチマークと測定方法を使用しているため、将来の進歩を比べることは困難である。
これらの問題を緩和するため、私たちは3つのモジュールを持つ統一フレームワークであるOpenFactCheckを開発しました。
(i)RESPONSEEVALは、自動事実確認システムを容易にカスタマイズし、そのシステムを用いて入力文書中のすべてのクレームの事実性を評価することができる。
二 LLMの全体的事実性を評価する LLMEVAL 及び
三 自動事実確認システムを評価するためのモジュール、CECKEREVAL
OpenFactCheckはオープンソース(https://github.com/hasaniqbal777/openfactcheck)で、Pythonライブラリ(https://pypi.org/project/openfactcheck/)として、Webサービス(https://huggingface.co/spaces/hasaniqbal777/OpenFactCheck)として公開されている。
システムを記述するビデオはhttps://youtu.be/-i9VKL0HleIで公開されている。
The increased use of large language models (LLMs) across a variety of real-world applications calls for automatic tools to check the factual accuracy of their outputs, as LLMs often hallucinate. This is difficult as it requires assessing the factuality of free-form open-domain responses. While there has been a lot of research on this topic, different papers use different evaluation benchmarks and measures, which makes them hard to compare and hampers future progress. To mitigate these issues, we developed OpenFactCheck, a unified framework, with three modules: (i) RESPONSEEVAL, which allows users to easily customize an automatic fact-checking system and to assess the factuality of all claims in an input document using that system, (ii) LLMEVAL, which assesses the overall factuality of an LLM, and (iii) CHECKEREVAL, a module to evaluate automatic fact-checking systems. OpenFactCheck is open-sourced (https://github.com/hasaniqbal777/openfactcheck) and publicly released as a Python library (https://pypi.org/project/openfactcheck/) and also as a web service (https://huggingface.co/spaces/hasaniqbal777/OpenFactCheck). A video describing the system is available at https://youtu.be/-i9VKL0HleI. | 翻訳日:2024-08-25 14:01:15 公開日:2024-08-06 |
# SCREENER: 定量的MRIにおけるタスク固有実験設計のための一般的なフレームワーク
SCREENER: A general framework for task-specific experiment design in quantitative MRI ( http://arxiv.org/abs/2408.11834v1 ) ライセンス: Link先を確認 | Tianshu Zheng, Zican Wang, Timothy Bray, Daniel C. Alexander, Dan Wu, Hui Zhang, | (参考訳) 定量的磁気共鳴イメージング (qMRI) は, 診断からステージング, 治療モニタリングに至るまで, 様々な臨床業務に用いられている。
しかし、最適な取得プロトコルを識別するqMRIの実験設計では、下流タスクの特定の要求を考慮せずに、最も正確なパラメータ推定を行うことに焦点が当てられている。
本稿では,定量的MRIにおけるタスク固有実験設計のための一般的なフレームワークであるSCREENERを提案する。
SCREENERはタスク固有の目的を取り入れ,DRL(Deep-Reinforcement-learning)に基づく最適化戦略を用いて最適なプロトコルを求める。
この枠組みを説明するために,骨内不整脈(IVIM)モデルを用いた拡散MRIデータを用いて骨髄の炎症状態の分類を行う。
その結果,SCREENERは従来のアドホックやSNR条件下での最適化プロトコルよりも優れており,バイナリ分類タスクでは67%から89%,マルチクラス分類タスクでは46%から59%に大きく向上した。
さらに、この改善はSNRに対して堅牢であることを示す。
最後に、DRLに基づく最適化手法の利点を実証し、トレーニングに使用されていないSNRの準最適プロトコルのゼロショット発見を可能にする。
結論として、SCREENERは、クリニックにおいてより広範なqMRIの取り込みを可能にする可能性がある。
Quantitative magnetic resonance imaging (qMRI) is increasingly investigated for use in a variety of clinical tasks from diagnosis, through staging, to treatment monitoring. However, experiment design in qMRI, the identification of the optimal acquisition protocols, has been focused on obtaining the most precise parameter estimations, with no regard for the specific requirements of downstream tasks. Here we propose SCREENER: A general framework for task-specific experiment design in quantitative MRI. SCREENER incorporates a task-specific objective and seeks the optimal protocol with a deep-reinforcement-learning (DRL) based optimization strategy. To illustrate this framework, we employ a task of classifying the inflammation status of bone marrow using diffusion MRI data with intravoxel incoherent motion (IVIM) modelling. Results demonstrate SCREENER outperforms previous ad hoc and optimized protocols under clinical signal-to-noise ratio (SNR) conditions, achieving significant improvement, both in binary classification tasks, e.g. from 67% to 89%, and in a multi-class classification task, from 46% to 59%. Additionally, we show this improvement is robust to the SNR. Lastly, we demonstrate the advantage of DRL-based optimization strategy, enabling zero-shot discovery of near-optimal protocols for a range of SNRs not used in training. In conclusion, SCREENER has the potential to enable wider uptake of qMRI in the clinic. | 翻訳日:2024-08-25 14:01:15 公開日:2024-08-06 |
# 群集モニタリングのための非構造高密度群集シーンの解析
Analysis of Unstructured High-Density Crowded Scenes for Crowd Monitoring ( http://arxiv.org/abs/2408.11836v1 ) ライセンス: Link先を確認 | Alexandre Matov, | (参考訳) 我々は,人群集の組織的動きを検出する自動システムの開発に興味がある。
コンピュータビジョンアルゴリズムは、混雑したシーンのビデオから情報を抽出し、組織的な動きをしている個人のグループを自動的に検出し追跡する。
本システムでは,ランダムに移動する物体の背景に対する組織的コホートの検出が可能であり,CCTVで撮影された動きの開始から1秒未満の3~4コホート内で,組織的コホートにおける参加者数,動きの速度と方向をリアルタイムで推定することができる。
我々は,この状況下で,1フレームあたり最大4万個のオブジェクトを含む生体細胞データを用いて予備解析を行い,これを100倍まで数値的に拡張して公衆安全に適用する。
我々は、既存のビデオカメラのインフラを活用して、スポーツスタジアムなどの公共施設内外で撮影された画像シーケンスを分析し、重要なイベントを解析するための、画像データセットのオンザフライ取得と、使い易いデータ駆動ソフトウェアシステムの展開をめざす。
その他の有望なユーザは、政治集会、市民と野生生物の組織、セキュリティ会社、軍隊の組織である。
脅威を呈するアクティビティと、脅威を呈しないアクティビティを区別できる分類方法を実装することにより、ソフトウェアの性能を最適化する。
We are interested in developing an automated system for detection of organized movements in human crowds. Computer vision algorithms can extract information from videos of crowded scenes and automatically detect and track groups of individuals undergoing organized motion, which represents an anomalous behavior in the context of conflict aversion. Our system can detect organized cohorts against the background of randomly moving objects and we can estimate the number of participants in an organized cohort, the speed and direction of motion in real time, within three to four video frames, which is less than one second from the onset of motion captured on a CCTV. We have performed preliminary analysis in this context in biological cell data containing up to four thousand objects per frame and will extend this numerically to a hundred-fold for public safety applications. We envisage using the existing infrastructure of video cameras for acquiring image datasets on-the-fly and deploying an easy-to-use data-driven software system for parsing of significant events by analyzing image sequences taken inside and outside of sports stadiums or other public venues. Other prospective users are organizers of political rallies, civic and wildlife organizations, security firms, and the military. We will optimize the performance of the software by implementing a classification method able to distinguish between activities posing a threat and those not posing a threat. | 翻訳日:2024-08-25 14:01:15 公開日:2024-08-06 |
# MicroXercise:遠隔理学療法のためのマイクロレベル比較および説明可能なシステム
MicroXercise: A Micro-Level Comparative and Explainable System for Remote Physical Therapy ( http://arxiv.org/abs/2408.11837v1 ) ライセンス: Link先を確認 | Hanchen David Wang, Nibraas Khan, Anna Chen, Nilanjan Sarkar, Pamela Wisniewski, Meiyi Ma, | (参考訳) 最近の全世界の推計では、24億人の個人がリハビリテーションの恩恵を受ける健康状態を持っている。
在宅理学療法(PT)は、インタラクティブなフィードバックと、セラピストや患者に有意義な観察を提供する上で、大きな課題に直面している。
このギャップを埋めるために、マイクロXerciseは、マイクロモーション分析とウェアラブルセンサーを統合し、セラピストや患者にビデオ、テキスト、スコアなどの総合的なフィードバックインターフェースを提供する。
重要なのは、多次元動的時間ウォーピング(DTW)と属性に基づく説明可能な手法を使用して、既存のディープラーニングニューラルネットワークを分析してエクササイズの粒度が高いことに重点を置いていることだ。
このシナジスティックなアプローチは、PTにおける重要な微妙さと動きを正確に強調するために入力サイズにマッチした出力を提供することで、複雑なAI分析を明確で行動可能なフィードバックに変換する。
これらのマイクロモーションを安定性や動きの範囲など、さまざまな指標で強調することにより、MicroXerciseはエンドユーザに対するフィードバックの理解と関連性を大幅に向上させる。
比較パフォーマンス指標は、FMI(Feature Mutual Information)とContinuityの39%と42%の改善など、従来の手法よりも効果を高く評価している。
MicroXerciseは、技術的に進歩し直感的に役立つソリューションを提供し、患者のケアと成果を高める。
Recent global estimates suggest that as many as 2.41 billion individuals have health conditions that would benefit from rehabilitation services. Home-based Physical Therapy (PT) faces significant challenges in providing interactive feedback and meaningful observation for therapists and patients. To fill this gap, we present MicroXercise, which integrates micro-motion analysis with wearable sensors, providing therapists and patients with a comprehensive feedback interface, including video, text, and scores. Crucially, it employs multi-dimensional Dynamic Time Warping (DTW) and attribution-based explainable methods to analyze the existing deep learning neural networks in monitoring exercises, focusing on a high granularity of exercise. This synergistic approach is pivotal, providing output matching the input size to precisely highlight critical subtleties and movements in PT, thus transforming complex AI analysis into clear, actionable feedback. By highlighting these micro-motions in different metrics, such as stability and range of motion, MicroXercise significantly enhances the understanding and relevance of feedback for end-users. Comparative performance metrics underscore its effectiveness over traditional methods, such as a 39% and 42% improvement in Feature Mutual Information (FMI) and Continuity. MicroXercise is a step ahead in home-based physical therapy, providing a technologically advanced and intuitively helpful solution to enhance patient care and outcomes. | 翻訳日:2024-08-25 14:01:15 公開日:2024-08-06 |
# FLASH:RAGによるソーシャルネットワークにおける高度なクエリ処理のためのフェデレーション学習型LLM
FLASH: Federated Learning-Based LLMs for Advanced Query Processing in Social Networks through RAG ( http://arxiv.org/abs/2408.05242v1 ) ライセンス: Link先を確認 | Sai Puppala, Ismail Hossain, Md Jahangir Alam, Sajedul Talukder, | (参考訳) 本稿では,フェデレートラーニング GPT による個人化チャットボットシステムを通じて,ソーシャルネットワーク情報検索とユーザエンゲージメントの新たなアプローチを提案する。
このシステムは、ユーザー投稿、マルチメディアコンテンツ、トレンドニュースを含む多様なソーシャルメディアデータソースをシームレスに集約し、キュレートするように設計されている。
フェデレートラーニング技術を活用することで、GPTモデルは分散データソースに基づいてトレーニングされ、プライバシとセキュリティを確保しながら、パーソナライズされた洞察とレコメンデーションを提供する。
ユーザーは直感的なインターフェイスでチャットボットと対話し、ソーシャルメディアのトレンドやユーザー生成コンテンツに関するカスタマイズされた情報やリアルタイムのアップデートにアクセスする。
システムの革新的なアーキテクチャは、入力ファイルの効率的な処理、メタデータによるテキストデータの解析と強化、高度な言語モデルによる関連する質問と回答の生成を可能にする。
多様なソーシャルネットワーク情報への対話的アクセスを容易にすることによって、このパーソナライズされたチャットボットシステムは、ソーシャルメディアのコミュニケーションと知識の普及において、大きな進歩を見せている。
Our paper introduces a novel approach to social network information retrieval and user engagement through a personalized chatbot system empowered by Federated Learning GPT. The system is designed to seamlessly aggregate and curate diverse social media data sources, including user posts, multimedia content, and trending news. Leveraging Federated Learning techniques, the GPT model is trained on decentralized data sources to ensure privacy and security while providing personalized insights and recommendations. Users interact with the chatbot through an intuitive interface, accessing tailored information and real-time updates on social media trends and user-generated content. The system's innovative architecture enables efficient processing of input files, parsing and enriching text data with metadata, and generating relevant questions and answers using advanced language models. By facilitating interactive access to a wealth of social network information, this personalized chatbot system represents a significant advancement in social media communication and knowledge dissemination. | 翻訳日:2024-08-13 19:54:11 公開日:2024-08-06 |
# Citekit: 大規模言語モデルCitation生成のためのモジュールツールキット
Citekit: A Modular Toolkit for Large Language Model Citation Generation ( http://arxiv.org/abs/2408.04662v1 ) ライセンス: Link先を確認 | Jiajun Shen, Tong Zhou, Suifeng Zhao, Yubo Chen, Kang Liu, | (参考訳) 質問応答(QA)タスクにおける引用を生成するためのLLM(Large Language Models)は,LCMが外部参照を利用して回答を生成する場合の応答の妥当性を高めることを目的とした,新たなパラダイムである。
しかし、現在、異なる引用生成手法を標準化し、適切に比較するための統一されたフレームワークが存在しないため、異なる方法の再現や包括的な評価が困難である。
上記の問題に対処するため,既存の引用生成手法の実装と評価を容易にするオープンソースかつモジュール化されたツールキットである \name を導入するとともに,LCM 出力における引用品質向上のための新しいアプローチの開発を促進する。
このツールは拡張性が高く、4つのメインモジュールと14のコンポーネントを使用してパイプラインを構築し、既存のメソッドや革新的な設計を評価することができる。
現状のLLMと11の励振生成ベースラインを用いた実験では,解答精度と励振品質の改善,および粒度向上の課題として,異なるモジュールの強さが示された。
本稿では, 成分の有効性を解析し, 解答精度と引用品質のバランスをとる自己RAG \snippetを提案する。
Citekitはhttps://github.com/SjJ1017/Citekit.comで公開されている。
Enabling Large Language Models (LLMs) to generate citations in Question-Answering (QA) tasks is an emerging paradigm aimed at enhancing the verifiability of their responses when LLMs are utilizing external references to generate an answer. However, there is currently no unified framework to standardize and fairly compare different citation generation methods, leading to difficulties in reproducing different methods and a comprehensive assessment. To cope with the problems above, we introduce \name, an open-source and modular toolkit designed to facilitate the implementation and evaluation of existing citation generation methods, while also fostering the development of new approaches to improve citation quality in LLM outputs. This tool is highly extensible, allowing users to utilize 4 main modules and 14 components to construct a pipeline, evaluating an existing method or innovative designs. Our experiments with two state-of-the-art LLMs and 11 citation generation baselines demonstrate varying strengths of different modules in answer accuracy and citation quality improvement, as well as the challenge of enhancing granularity. Based on our analysis of the effectiveness of components, we propose a new method, self-RAG \snippet, obtaining a balanced answer accuracy and citation quality. Citekit is released at https://github.com/SjJ1017/Citekit. | 翻訳日:2024-08-12 17:39:53 公開日:2024-08-06 |
# Dopamin: ドメイン・ポスト・トレーニングとマルチレベル・レイヤ・アグリゲーションによるトランスフォーマーによるコメント分類
Dopamin: Transformer-based Comment Classifiers through Domain Post-Training and Multi-level Layer Aggregation ( http://arxiv.org/abs/2408.04663v1 ) ライセンス: Link先を確認 | Nam Le Hai, Nghi D. Q. Bui, | (参考訳) コードコメントは、ソースコードを理解するための重要な情報を提供する。
開発者は関数やクラスの全体的な目的を理解し、バグや技術的負債を特定するのに役立つ。
しかし、多くのコメントが無意味であり、反生産的である。
結果として、これらのコメントを特定の目的のために自動的にフィルタリングすることが重要である。
本稿では,この問題を解決するためのトランスフォーマーベースのツールであるDopaminを紹介する。
提案モデルは,複数の言語にまたがる共通カテゴリの知識共有だけでなく,コメント表現の改善によるコメント分類における堅牢な性能向上にも寄与する。
結果として、STACCベースラインを平均的なF1スコアでNLBSE'24ツールコンペティションデータセットで3%上回り、実用的な使用に匹敵する推論時間を維持している。
ソースコードはhttps://github.com/FSoft-AI4Code/Dopamin.comで公開されている。
Code comments provide important information for understanding the source code. They can help developers understand the overall purpose of a function or class, as well as identify bugs and technical debt. However, an overabundance of comments is meaningless and counterproductive. As a result, it is critical to automatically filter out these comments for specific purposes. In this paper, we present Dopamin, a Transformer-based tool for dealing with this issue. Our model excels not only in presenting knowledge sharing of common categories across multiple languages, but also in achieving robust performance in comment classification by improving comment representation. As a result, it outperforms the STACC baseline by 3% on the NLBSE'24 Tool Competition dataset in terms of average F1-score, while maintaining a comparable inference time for practical use. The source code is publicity available at https://github.com/FSoft-AI4Code/Dopamin. | 翻訳日:2024-08-12 17:39:53 公開日:2024-08-06 |
# LVLM(Large Vision-Language Models)における言語コントラストデコーディング(LCD)による幻覚の緩和
Mitigating Hallucinations in Large Vision-Language Models (LVLMs) via Language-Contrastive Decoding (LCD) ( http://arxiv.org/abs/2408.04664v1 ) ライセンス: Link先を確認 | Avshalom Manevich, Reut Tsarfaty, | (参考訳) Large Vision-Language Models (LVLM) は、画像入力とテキスト入力の両方の処理を容易にし、AI機能を拡張したLarge Language Models (LLM)の拡張である。
しかし、LVLMはテキストキューや学習対象の共起バイアスに依存するため、オブジェクト幻覚に苦しむ。
ほとんどの研究はこれらの幻覚を定量化しているが、緩和戦略はまだ不足している。
本研究では,LLM分布信頼度に基づいてLVLM出力を調整するLanguage Contrastive Decoding (LCD)アルゴリズムを提案する。
先行LVLMにおけるLCDの利点を実証し,POPE F1スコアの最大4パーセント改善,COCO検証セットのCHAIRスコアの最大36パーセント削減,キャプション品質スコアの改善を図った。
本手法は,複雑な後処理や再学習を必要とせず,LVLMを効果的に改善し,異なるモデルに容易に適用できる。
本研究は,LVLM固有の復号アルゴリズムのさらなる探索の可能性を明らかにするものである。
Large Vision-Language Models (LVLMs) are an extension of Large Language Models (LLMs) that facilitate processing both image and text inputs, expanding AI capabilities. However, LVLMs struggle with object hallucinations due to their reliance on text cues and learned object co-occurrence biases. While most research quantifies these hallucinations, mitigation strategies are still lacking. Our study introduces a Language Contrastive Decoding (LCD) algorithm that adjusts LVLM outputs based on LLM distribution confidence levels, effectively reducing object hallucinations. We demonstrate the advantages of LCD in leading LVLMs, showing up to %4 improvement in POPE F1 scores and up to %36 reduction in CHAIR scores on the COCO validation set, while also improving captioning quality scores. Our method effectively improves LVLMs without needing complex post-processing or retraining, and is easily applicable to different models. Our findings highlight the potential of further exploration of LVLM-specific decoding algorithms. | 翻訳日:2024-08-12 17:39:53 公開日:2024-08-06 |
# Few-Shot Demonstrations を用いたLLMに基づくMOFs合成条件抽出
LLM-based MOFs Synthesis Condition Extraction using Few-Shot Demonstrations ( http://arxiv.org/abs/2408.04665v1 ) ライセンス: Link先を確認 | Lei Shi, Zhimeng Liu, Yi Yang, Weize Wu, Yuyang Zhang, Hongbo Zhang, Jing Lin, Siyu Wu, Zihan Chen, Ruiming Li, Nan Wang, Zipeng Liu, Huobin Tan, Hongyi Gao, Yue Zhang, Ge Wang, | (参考訳) 文学テキストからの金属有機フレームワーク(MOF)合成条件の抽出は、望ましい機能を持つ新しいMOFの論理設計には困難だが重要な課題である。
最近の大規模言語モデル(LLM)の出現は、この長年にわたる問題に対する破壊的な新しい解決策を提供し、最近の研究は、MOFの文献から正しい条件を抽出する際の90%以上のF1を報告している。
本稿では, LLMを用いた既存の合成抽出手法のほとんどが, ゼロショット学習に留まっており, 専門知識の欠如により, 抽出性能の低下とアプリケーション性能の低下につながる可能性があることを論じる。
この研究は、LLM合成条件抽出のための数発の文脈内学習パラダイムを開拓し、最適化する。
まず,人間とAIの合同データキュレーションプロセスを提案する。
第2に、検索拡張生成(RAG)技術に基づくBM25アルゴリズムを適用し、各MOFの抽出に対して数発のデモを適応的に選択する。
84,898個のよく定義されたMOFからランダムにサンプリングされたデータセットにおいて、提案手法はGPT-4モデルを用いたネイティブゼロショットLLMよりもはるかに高いF1性能(0.93対0.81,+14.8%)を達成する。
提案手法は, 実世界の材料実験によりさらに検証され, ベースラインゼロショットLDMと比較して, 提案手法はMOFs構造推論性能(R^2)を平均29.4%向上させる。
The extraction of Metal-Organic Frameworks (MOFs) synthesis conditions from literature text has been challenging but crucial for the logical design of new MOFs with desirable functionality. The recent advent of large language models (LLMs) provides disruptively new solution to this long-standing problem and latest researches have reported over 90% F1 in extracting correct conditions from MOFs literature. We argue in this paper that most existing synthesis extraction practices with LLMs stay with the primitive zero-shot learning, which could lead to downgraded extraction and application performance due to the lack of specialized knowledge. This work pioneers and optimizes the few-shot in-context learning paradigm for LLM extraction of material synthesis conditions. First, we propose a human-AI joint data curation process to secure high-quality ground-truth demonstrations for few-shot learning. Second, we apply a BM25 algorithm based on the retrieval-augmented generation (RAG) technique to adaptively select few-shot demonstrations for each MOF's extraction. Over a dataset randomly sampled from 84,898 well-defined MOFs, the proposed few-shot method achieves much higher average F1 performance (0.93 vs. 0.81, +14.8%) than the native zero-shot LLM using the same GPT-4 model, under fully automatic evaluation that are more objective than the previous human evaluation. The proposed method is further validated through real-world material experiments: compared with the baseline zero-shot LLM, the proposed few-shot approach increases the MOFs structural inference performance (R^2) by 29.4% in average. | 翻訳日:2024-08-12 17:39:53 公開日:2024-08-06 |
# LLMは次のToken Predictorsではない
LLMs are Not Just Next Token Predictors ( http://arxiv.org/abs/2408.04666v1 ) ライセンス: Link先を確認 | Stephen M. Downes, Patrick Forber, Alex Grzankowski, | (参考訳) LLMは、次のトークン予測目標を持つ確率勾配降下による言語学習の統計モデルである。
AIモデラーの間で一般的な見解を示す: LLMは次のトークン予測器に過ぎない。
LLMは次のトークン予測を用いて設計され、このタスクの成功に基づいてトレーニングされていますが、次のトークン予測器への還元はLLMを短く販売する、というのが私たちの見解です。
さらに、このような削減に携わる際に失われるLCMの挙動や能力について、重要な説明がある。
これを引き出すため、遺伝子の観点から進化と発達を説明する生物学におけるかつての著名な研究プログラムと類似する。
LLMs are statistical models of language learning through stochastic gradient descent with a next token prediction objective. Prompting a popular view among AI modelers: LLMs are just next token predictors. While LLMs are engineered using next token prediction, and trained based on their success at this task, our view is that a reduction to just next token predictor sells LLMs short. Moreover, there are important explanations of LLM behavior and capabilities that are lost when we engage in this kind of reduction. In order to draw this out, we will make an analogy with a once prominent research program in biology explaining evolution and development from the gene's eye view. | 翻訳日:2024-08-12 17:39:53 公開日:2024-08-06 |
# LLMの安定性:いくつかのサプライズを伴う詳細な分析
LLM Stability: A detailed analysis with some surprises ( http://arxiv.org/abs/2408.04667v1 ) ライセンス: Link先を確認 | Berk Atil, Alexa Chittams, Liseng Fu, Ferhan Ture, Lixinyu Xu, Breck Baldwin, | (参考訳) 我々のほぼ魔法のLSMの関連する性質は、全く同じ入力と決定論的ハイパーパラメータから得られる結果の変化である。
AIは常に、トレーニングデータ以外の入力から特定のノイズレベルを持つが、私たちは一般的に、特定の入力に対して決定論的結果を得た。
ほとんどのLLM実践者は「知る限りで」いるが、現在のLLMの安定性を定量化しようとする作業には気づいていない。
紙を書いて書くのに退屈すぎるので、誰も問題に手を染めていないのではないでしょうか。
しかし、私たちはそれを実行し、いくつかのサプライズがあります。
どんなサプライズですか?
評価されたLSMは、生の出力レベルでは決定論的であり、解析された出力/入出力レベルでは決定論的であるが、同じデータ入力を持つ5回の再実行において100%安定であることはめったにない。
LLMの精度の変動は通常分布しない。
安定性はタスクによって異なる。
A concerning property of our nearly magical LLMs involves the variation of results given the exact same input and deterministic hyper-parameters. While AI has always had a certain level of noisiness from inputs outside of training data, we have generally had deterministic results for any particular input; that is no longer true. While most LLM practitioners are "in the know", we are unaware of any work that attempts to quantify current LLM stability. We suspect no one has taken the trouble because it is just too boring a paper to execute and write. But we have done it and there are some surprises. What kinds of surprises? The evaluated LLMs are rarely deterministic at the raw output level; they are much more deterministic at the parsed output/answer level but still rarely 100% stable across 5 re-runs with same data input. LLM accuracy variation is not normally distributed. Stability varies based on task. | 翻訳日:2024-08-12 17:39:53 公開日:2024-08-06 |
# OpenAI開発者の挑戦に関する実証的研究
An Empirical Study on Challenges for OpenAI Developers ( http://arxiv.org/abs/2408.05002v1 ) ライセンス: Link先を確認 | Xiang Chen, Chaoyang Gao, Chunyang Chen, Guangbei Zhang, Yong Liu, | (参考訳) ChatGPTのリリースにより、OpenAIは大規模な言語モデルにおけるリーダーシップを強化した。
同時にOpenAIは、デベロッパーに高度な技術とリソース(APIサービスなど)を提供し、様々なアプリケーションでイノベーションと開発を推進します。
このイニシアチブは技術進歩を促進し、開発者がこれらの技術を適用する際の課題をさらに探求し、解決するよう促す。
従来のソフトウェア開発プラクティスとは対照的に、OpenAIの開発では、設計、実装、デプロイメントにおいてAI開発者にとって新たな課題が導入されている。
これらの課題はさまざまな領域(プロンプト、プラグイン、APIなど)にまたがっており、開発者は大きな言語モデル開発に特有の独自の方法論や考慮をナビゲートする必要がある。
しかし、我々の知る限りでは、これらの課題は過去の実証研究では十分に研究されていない。
このギャップを埋めるために、OpenAI開発者が直面している課題を理解するための、初めての包括的な研究を紹介する。
具体的には、人気のあるOpenAI開発者フォーラムから29,075の質問をクロールして分析します。
私たちはまず彼らの人気と難しさを調べます。
2,364の質問を手動で分析した後、OpenAI開発者が直面している課題の分類を構築した。
この分類に基づいて、開発者やOpenAI組織を含むOpenAI関連のステークホルダに対して、一連の発見と行動可能な意味を要約する。
With the release of ChatGPT, OpenAI has reinforced its leadership in large language models. Simultaneously, OpenAI offers developers advanced technologies and resources (such as API services), driving innovation and development in various applications. This initiative promotes technological advancement and inspires developers to further explore and address the challenges of applying these technologies. In contrast to traditional software development practices, OpenAI's development introduces new challenges for AI developers in design, implementation, and deployment. These challenges span different areas (such as prompts, plugins, and APIs), requiring developers to navigate unique methodologies and considerations specific to large language model development. However, to the best of our knowledge, these challenges have not been thoroughly investigated in previous empirical studies. To fill this gap, we present the first comprehensive study on understanding the challenges faced by OpenAI developers. Specifically, we crawl and analyze 29,075 relevant questions from a popular OpenAI developer forum. We first examine their popularity and difficulty. After manually analyzing 2,364 sampled questions, we construct a taxonomy of challenges faced by OpenAI developers. Based on this taxonomy, we summarize a set of findings and actionable implications for OpenAI-related stakeholders, including developers and the OpenAI organization. | 翻訳日:2024-08-12 15:56:59 公開日:2024-08-06 |
# LumiGauss:2Dガウススプレイティングによる高忠実な屋外リライティング
LumiGauss: High-Fidelity Outdoor Relighting with 2D Gaussian Splatting ( http://arxiv.org/abs/2408.04474v1 ) ライセンス: Link先を確認 | Joanna Kaleta, Kacper Kania, Tomasz Trzcinski, Marek Kowalski, | (参考訳) 制約のない写真コレクションを使って幾何学から光を分離することは、非常に難しい。
複雑な3Dアセットを作るには、手作業で何日もかかるからだ。
多くの先行研究がこの問題に対処しようと試みており、しばしば出力の忠実さを犠牲にして、そのような手法の実用性に疑問を呈している。
LumiGaussは,2次元ガウススプラッティングによるシーンの3次元再構成と環境照明を実現する技術である。
提案手法は高品質なシーン再構成を実現し,新しい環境マップ下でのリアルな照明合成を実現する。
また,球面調和特性を利用して,屋外シーンに共通する影の質を高める手法を提案する。
提案手法は,ゲームエンジンとのシームレスな統合を可能にし,高速な事前計算ラジオアンス転送を実現する。
提案手法をNeRF-OSRデータセット上で検証し,ベースライン法よりも優れた性能を示す。
さらに、LumiGaussは、新しい環境マップを適用する際に、リアルな画像を合成することができる。
Decoupling lighting from geometry using unconstrained photo collections is notoriously challenging. Solving it would benefit many users, as creating complex 3D assets takes days of manual labor. Many previous works have attempted to address this issue, often at the expense of output fidelity, which questions the practicality of such methods. We introduce LumiGauss, a technique that tackles 3D reconstruction of scenes and environmental lighting through 2D Gaussian Splatting. Our approach yields high-quality scene reconstructions and enables realistic lighting synthesis under novel environment maps. We also propose a method for enhancing the quality of shadows, common in outdoor scenes, by exploiting spherical harmonics properties. Our approach facilitates seamless integration with game engines and enables the use of fast precomputed radiance transfer. We validate our method on the NeRF-OSR dataset, demonstrating superior performance over baseline methods. Moreover, LumiGauss can synthesize realistic images when applying novel environment maps. | 翻訳日:2024-08-09 15:28:24 公開日:2024-08-06 |
# 各種ネットワーク設定における高調波セキュアマルチパーティ計算
High-Throughput Secure Multiparty Computation with an Honest Majority in Various Network Settings ( http://arxiv.org/abs/2206.03776v8 ) ライセンス: Link先を確認 | Christopher Harth-Kitzerow, Ajith Suresh, Yonqing Wang, Hossein Yalame, Georg Carle, Murali Annavaram, | (参考訳) 本研究では, 半正直なセキュアな3次元計算(3PC) と悪意のある4次元計算(4PC) のためのリング上の新しいプロトコルを提案する。
既存のほとんどの研究は、全体的な通信の複雑さを改善することに重点を置いているが、ネットワークの不均一性や計算の複雑さといった課題は、実際にはMPCの性能に影響を及ぼす。
我々のプロトコルは、性能が大幅に低下することなく、パーティ間の複数の弱いネットワークリンクを任意に許容することで、これらの問題に対処する。
さらに、関連する作業に比べてゲート毎の基本命令の最大半分を必要とすることで、計算の複雑さを著しく低減する。
これらの改善により、均質なネットワーク設定における最先端プロトコルのスループットが最大2倍に向上し、さらに異質な設定におけるパフォーマンスが向上した。
当社のプロトコルは,3PCで3要素,4PCで5要素を必要としながら,乗算あたりの通信の複雑さを最もよく知られたものに保ちます。
高スループットに最適化されたオープンソースのC++フレームワークで、最先端プロトコル(Replicated 3PC, ASTRA, Fantastic Four, Tetrad)とともに、当社のプロトコルを実装しました。
実装された6つの3PCおよび4PCプロトコルのうち5つは、25Gbit/sのLAN環境において、毎秒10億以上の32ビット乗算または32億のANDゲートを達成する。
MP-SPDZ、ABY3、MPyC、MOTIONといった既存のフレームワークを2~3桁で上回っている。
In this work, we present novel protocols over rings for semi-honest secure three-party computation (3PC) and malicious four-party computation (4PC) with one corruption. While most existing works focus on improving total communication complexity, challenges such as network heterogeneity and computational complexity, which impact MPC performance in practice, remain underexplored. Our protocols address these issues by tolerating multiple arbitrarily weak network links between parties without any substantial decrease in performance. Additionally, they significantly reduce computational complexity by requiring up to half the number of basic instructions per gate compared to related work. These improvements lead to up to twice the throughput of state-of-the-art protocols in homogeneous network settings and even larger performance improvements in heterogeneous settings. These advantages come at no additional cost: Our protocols maintain the best-known total communication complexity per multiplication, requiring 3 elements for 3PC and 5 elements for 4PC. We implemented our protocols alongside several state-of-the-art protocols (Replicated 3PC, ASTRA, Fantastic Four, Tetrad) in a novel open-source C++ framework optimized for high throughput. Five out of six implemented 3PC and 4PC protocols achieve more than one billion 32-bit multiplications or over 32 billion AND gates per second using our implementation in a 25 Gbit/s LAN environment. This represents the highest throughput achieved in 3PC and 4PC so far, outperforming existing frameworks like MP-SPDZ, ABY3, MPyC, and MOTION by two to three orders of magnitude. | 翻訳日:2024-08-08 18:42:56 公開日:2024-08-06 |
# BASED: 神経放射場を用いた束調整型内視鏡的ダイナミックビデオ再構成
BASED: Bundle-Adjusting Surgical Endoscopic Dynamic Video Reconstruction using Neural Radiance Fields ( http://arxiv.org/abs/2309.15329v2 ) ライセンス: Link先を確認 | Shreya Saha, Zekai Liang, Shan Lin, Jingpei Lu, Michael Yip, Sainan Liu, | (参考訳) 内視鏡的映像からの変形可能なシーンの再構成は、術中ナビゲーション、外科的視覚知覚、ロボット手術など多くの応用において重要である。
これは、最小侵襲手術のための自律的なロボット介入を実現するための基本的な要件である。
しかし、この領域の以前のアプローチはモジュラーの性質によって制限されており、特定のカメラやシーン設定に限られていた。
我々の研究はNeural Radiance Fields(NeRF)アプローチを採用して、時間とともに動的かつ変形可能なシーンの3D暗黙表現を学習し、さらに未知のカメラのポーズで撮影する。
本稿では,ロボット手術の内視鏡的手術シーンについて述べる。
この研究は、既知のカメラポーズの制約を取り除き、シーンの静的部分に依存する最先端の非構造的動的シーン再構築技術の欠点を克服する。
いくつかの実験データセットを通じて,多様なカメラやシーン設定に適応するための提案モデルの汎用性を実証し,現在および将来の手術システムに対するその可能性を示す。
Reconstruction of deformable scenes from endoscopic videos is important for many applications such as intraoperative navigation, surgical visual perception, and robotic surgery. It is a foundational requirement for realizing autonomous robotic interventions for minimally invasive surgery. However, previous approaches in this domain have been limited by their modular nature and are confined to specific camera and scene settings. Our work adopts the Neural Radiance Fields (NeRF) approach to learning 3D implicit representations of scenes that are both dynamic and deformable over time, and furthermore with unknown camera poses. We demonstrate this approach on endoscopic surgical scenes from robotic surgery. This work removes the constraints of known camera poses and overcomes the drawbacks of the state-of-the-art unstructured dynamic scene reconstruction technique, which relies on the static part of the scene for accurate reconstruction. Through several experimental datasets, we demonstrate the versatility of our proposed model to adapt to diverse camera and scene settings, and show its promise for both current and future robotic surgical systems. | 翻訳日:2024-08-08 18:23:43 公開日:2024-08-06 |
# プランニングトークンを用いた言語モデル推論の指導
Guiding Language Model Reasoning with Planning Tokens ( http://arxiv.org/abs/2310.05707v4 ) ライセンス: Link先を確認 | Xinyi Wang, Lucas Caccia, Oleksiy Ostapenko, Xingdi Yuan, William Yang Wang, Alessandro Sordoni, | (参考訳) 大規模言語モデル(LLM)は、最近、チェーン・オブ・ソート(CoT)推論のような複雑な推論タスクを実行する能力において、かなりの関心を集めている。
しかし、この能力を強化する既存のアプローチのほとんどは、モデルが推論能力を持つという構造的側面を無視しながら、データ駆動の手法に大きく依存しています。
より構造的なCoTステップの生成を促進するため、我々は、LMが各推論ステップの開始時に計画トークンを生成し、直感的に現在のステップの高レベルプランとして機能し、それらの埋め込みをモデルパラメータに追加する階層的生成方式を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
提案手法の有効性を、3つの異なるLLMに適用し、3つの数学語問題データセットと1つのマルチホップQAデータセットに対して、標準的な微調整ベースラインに対して顕著な精度向上を示す。
Large language models (LLMs) have recently attracted considerable interest for their ability to perform complex reasoning tasks, such as chain-of-thought (CoT) reasoning. However, most of the existing approaches to enhance this ability rely heavily on data-driven methods, while neglecting the structural aspects of the model's reasoning capacity. To encourage a more structural generation of CoT steps, we propose a hierarchical generation scheme: we let the LM generate a planning token at the start of each reasoning step, intuitively serving as a high-level plan of the current step, and add their embeddings to the model parameters. Our approach requires a negligible increase in trainable parameters (0.001%) and can be applied through either full fine-tuning or a more parameter-efficient scheme. We demonstrate our method's effectiveness by applying it to three different LLMs, showing notable accuracy improvements across three math word problem datasets and one multihop QA dataset with respect to standard fine-tuning baselines. | 翻訳日:2024-08-08 18:23:43 公開日:2024-08-06 |
# 量子プロセッサにおける絡み合いダイナミクスの量子シミュレーション
Quantum simulation of entanglement dynamics in a quantum processor ( http://arxiv.org/abs/2311.15973v2 ) ライセンス: Link先を確認 | C. Inzulza, S. Saavedra-Pino, F. Albarrán-Arriagada, P. Roman, J. C. Retamal, | (参考訳) 我々は,IBM量子プロセッサに5量子ビットプロトコルを実装し,シミュレーション環境下での2量子ビット系における絡み合いのダイナミクスを研究する。
具体的には、2つのキュービットがメインシステムを表し、もう1つのキュービットが環境として機能する。
さらに、量子エンタングルメントを推定するために補助量子ビットを用いる。
具体的には、IBM 127量子ビット量子プロセッサ \textit{ibm$\_$brisbane} 上に同時に実装された異なる初期条件に対する突然の死亡と突然の絡み合いの誕生を観察する。
主系量子ビットと環境量子ビットの量子絡み合いの進化は、同じ量子デバイスでN=10$以上の独立実験を平均化する。
実験データでは, 現在の量子プロセッサのノイズ特性が, 突然の死亡や突然の絡み合いの発生を示す時間変化を生じさせるような, システムおよび環境量子ビットにおける絡み合いと絡み合いのシグネチャが示される。
この研究は、量子情報の基本的な概念をテストするために、現在のノイズ量子デバイスの有用性を示す。
We implement a five-qubit protocol in IBM quantum processors to study entanglement dynamics in a two qubit system in the presence of a simulated environment. Specifically, two qubits represent the main system, while another two qubits serve as the environment. Additionally, we employ an auxiliary qubit to estimate the quantum entanglement. Specifically, we observe the sudden death and sudden birth of entanglement for different inital conditions that were simultaneously implemented on the IBM 127-qubit quantum processor \textit{ibm$\_$brisbane}. We obtain the quantum entanglement evolution of the main system qubits and the environment qubits averaging over $N=10$ independent experiments in the same quantum device. Our experimental data shows the entanglement and disentanglement signatures in system and enviroment qubits, where the noisy nature of current quantum processors produce a shift on times signaling sudden death or sudden birth of entanglement. This work takes relevance showing the usefulness of current noisy quantum devices to test fundamental concepts in quantum information. | 翻訳日:2024-08-08 18:13:59 公開日:2024-08-06 |
# 制約付きブロック-リーマン最適化におけるブロック偏極最小化の収束と複雑性
Convergence and complexity of block majorization-minimization for constrained block-Riemannian optimization ( http://arxiv.org/abs/2312.10330v2 ) ライセンス: Link先を確認 | Yuchen Li, Laura Balzano, Deanna Needell, Hanbaek Lyu, | (参考訳) BMM(Block Majorization-minimization)は、非凸最適化のための単純な反復アルゴリズムであり、各ブロック座標における目的関数の最大化サロゲートを逐次最小化し、他のブロック座標を固定する。
滑らかな非凸対象を最小化するBMMアルゴリズムの族を考えると、各パラメータブロックはリーマン多様体の部分集合内で制約される。
このアルゴリズムは定常点の集合に漸近的に収束し、$\widetilde{O}(\epsilon^{-2})$ iterations 内で $\epsilon$-stationary point を得る。
特に、複素結果の仮定はユークリッド多様体がユークリッド多様体あるいはスティーフェル多様体の積であるときに完全にユークリッドである。
我々の一般的な分析は、リーマン的制約を持つ幅広いアルゴリズムに適用できる:リーマン的MM、ブロック予測勾配降下、楽観的推定、測地的制約付き部分空間追跡、頑健なPCA、リーマンCP辞書学習。
我々は,このアルゴリズムがリーマン設定に適用された標準ユークリッドアルゴリズムよりも高速に収束することを実験的に検証した。
Block majorization-minimization (BMM) is a simple iterative algorithm for nonconvex optimization that sequentially minimizes a majorizing surrogate of the objective function in each block coordinate while the other block coordinates are held fixed. We consider a family of BMM algorithms for minimizing smooth nonconvex objectives, where each parameter block is constrained within a subset of a Riemannian manifold. We establish that this algorithm converges asymptotically to the set of stationary points, and attains an $\epsilon$-stationary point within $\widetilde{O}(\epsilon^{-2})$ iterations. In particular, the assumptions for our complexity results are completely Euclidean when the underlying manifold is a product of Euclidean or Stiefel manifolds, although our analysis makes explicit use of the Riemannian geometry. Our general analysis applies to a wide range of algorithms with Riemannian constraints: Riemannian MM, block projected gradient descent, optimistic likelihood estimation, geodesically constrained subspace tracking, robust PCA, and Riemannian CP-dictionary-learning. We experimentally validate that our algorithm converges faster than standard Euclidean algorithms applied to the Riemannian setting. | 翻訳日:2024-08-08 18:13:59 公開日:2024-08-06 |
# SAFE-SIM:拡散制御可能なアドバータを用いた安全臨界閉ループ交通シミュレーション
SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries ( http://arxiv.org/abs/2401.00391v3 ) ライセンス: Link先を確認 | Wei-Jer Chang, Francesco Pittaluga, Masayoshi Tomizuka, Wei Zhan, Manmohan Chandraker, | (参考訳) 自動運転車計画アルゴリズムの性能を評価するには、長距離安全クリティカルな交通シナリオをシミュレートする必要がある。
しかし、そのようなシナリオを生成する従来の手法は、制御可能性やリアリズムの観点からは不足することが多く、エージェント相互作用のダイナミクスも無視する。
これらの制約に対処するために,新しい拡散制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを導入する。
私たちのアプローチには2つの異なる利点があります。
1)現実世界の状況をよく反映した現実的な長距離安全クリティカルなシナリオを創出し、
2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供。
我々は,拡散モデルの認知過程における敵の言葉による安全クリティカルなシナリオをシミュレートする新しい手法を開発し,現場のすべてのエージェントが反応的かつ現実的な行動を示す一方で,敵のエージェントがもっともらしい操作でプランナーに挑戦することを可能にする。
さらに,行動の現実性を維持しつつ,対立エージェントの衝突タイプや攻撃性といったシナリオの重要な側面をユーザが制御できるような,新たな誘導目標と部分拡散プロセスを提案する。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
これらの結果は、拡散モデルが安全クリティカルでインタラクティブな交通シミュレーションのための堅牢で汎用的な基盤を提供し、より広い自律運転環境にその実用性を広げていることを裏付けている。
プロジェクトウェブサイト:https://safe-sim.github.io/.com
Evaluating the performance of autonomous vehicle planning algorithms necessitates simulating long-tail safety-critical traffic scenarios. However, traditional methods for generating such scenarios often fall short in terms of controllability and realism; they also neglect the dynamics of agent interactions. To address these limitations, we introduce SAFE-SIM, a novel diffusion-based controllable closed-loop safety-critical simulation framework. Our approach yields two distinct advantages: 1) generating realistic long-tail safety-critical scenarios that closely reflect real-world conditions, and 2) providing controllable adversarial behavior for more comprehensive and interactive evaluations. We develop a novel approach to simulate safety-critical scenarios through an adversarial term in the denoising process of diffusion models, which allows an adversarial agent to challenge a planner with plausible maneuvers while all agents in the scene exhibit reactive and realistic behaviors. Furthermore, we propose novel guidance objectives and a partial diffusion process that enables users to control key aspects of the scenarios, such as the collision type and aggressiveness of the adversarial agent, while maintaining the realism of the behavior. We validate our framework empirically using the nuScenes and nuPlan datasets across multiple planners, demonstrating improvements in both realism and controllability. These findings affirm that diffusion models provide a robust and versatile foundation for safety-critical, interactive traffic simulation, extending their utility across the broader autonomous driving landscape. Project website: https://safe-sim.github.io/. | 翻訳日:2024-08-08 18:13:59 公開日:2024-08-06 |
# I am a Strange Dataset: Metalinguistic Tests for Language Models
I am a Strange Dataset: Metalinguistic Tests for Language Models ( http://arxiv.org/abs/2401.05300v2 ) ライセンス: Link先を確認 | Tristan Thrush, Jared Moore, Miguel Monares, Christopher Potts, Douwe Kiela, | (参考訳) メタリング主義的自己参照(この論文には6つのセクションがある)を含むステートメントは、多くの領域で一般的である。
現在の大規模言語モデル(LLM)はそのような言語を扱えるだろうか?
本稿では,この問題に対処するための新しいデータセットである"I am a Strange Dataset"を提案する。
生成と検証の2つのサブタスクがある。
世代では、モデルが「この文の最後尾の単語は」(正しい継続が"is"である)などの文を継続する。
検証において、モデルは「この文の最後尾の単語は文である」といった文の真理を判断する(偽)。
また、モデルがメタプログラミング言語を全く扱えるかどうかを探索することで、メインデータセットを補完する、最小限のメタプログラミング的非自己参照例も提供します。
データセットは専門家によって手作りされ、専門家でないアノテーションによって検証される。
各種のオープンソースLLM(7Bから70Bのパラメータ)と,APIによるクローズドソースLLMをテストする。
モデルスケールは安定的に改善されているものの、すべてのモデルがサブタスクと非自己参照メタプログラミング制御データの両方でほぼ偶然に実行されます。
GPT 4は、偶然よりもずっと良く動作する唯一のモデルであり、まだ60%の範囲でしかなく、訓練されていない人間のアノテータは89-93%の範囲で良いスコアを得ています。
データセットと評価ツールキットはhttps://github.com/TristanThrush/i-am-a-strange-datasetで入手できる。
Statements involving metalinguistic self-reference ("This paper has six sections.") are prevalent in many domains. Can current large language models (LLMs) handle such language? In this paper, we present "I am a Strange Dataset", a new dataset for addressing this question. There are two subtasks: generation and verification. In generation, models continue statements like "The penultimate word in this sentence is" (where a correct continuation is "is"). In verification, models judge the truth of statements like "The penultimate word in this sentence is sentence." (false). We also provide minimally different metalinguistic non-self-reference examples to complement the main dataset by probing for whether models can handle metalinguistic language at all. The dataset is hand-crafted by experts and validated by non-expert annotators. We test a variety of open-source LLMs (7B to 70B parameters) as well as closed-source LLMs through APIs. All models perform close to chance across both subtasks and even on the non-self-referential metalinguistic control data, though we find some steady improvement with model scale. GPT 4 is the only model to consistently do significantly better than chance, and it is still only in the 60% range, while our untrained human annotators score well in the 89-93% range. The dataset and evaluation toolkit are available at https://github.com/TristanThrush/i-am-a-strange-dataset. | 翻訳日:2024-08-08 18:13:59 公開日:2024-08-06 |
# SpecSTG:確率的時空間トラフィック予測のための高速スペクトル拡散フレームワーク
SpecSTG: A Fast Spectral Diffusion Framework for Probabilistic Spatio-Temporal Traffic Forecasting ( http://arxiv.org/abs/2401.08119v3 ) ライセンス: Link先を確認 | Lequan Lin, Dai Shi, Andi Han, Junbin Gao, | (参考訳) 時空間グラフ(STG)学習の重要な応用である交通予測は、伝統的に正確な点推定のための決定論的モデルに依存してきた。
しかし、これらのモデルは将来の不確実性を定量化するには至っていない。
近年、このギャップを埋めるために多くの確率的手法、特に拡散モデルの変種が提案されている。
しかし、既存の拡散法は、将来の時系列を生成する際に個別のセンサを別々に扱うのが一般的であり、確率論的学習プロセスにおける空間情報の限られた使用法となる。
本研究では,交通データに固有の空間依存性と系統的パターンをよりよく活用する新しいスペクトル拡散フレームワークであるSpecSTGを提案する。
具体的には,学習過程を空間情報に富んだスペクトル領域に変換することによって,未来時系列のフーリエ表現を生成する。
さらに,Fourier入力用に設計された高速スペクトルグラフ畳み込みを導入し,既存のモデルに付随する計算負担を軽減する。
最先端技術と比較すると、SpecSTGはポイント推定において最大8%の改善を達成し、将来の不確実性を定量化する上で最大0.78%の改善を達成している。
さらに、SpecSTGのトレーニングと検証の速度は、STG予測のための最も効率的な既存の拡散法の3.33倍である。
SpecSTGのソースコードはhttps://anonymous.4open.science/r/SpecSTGで入手できる。
Traffic forecasting, a crucial application of spatio-temporal graph (STG) learning, has traditionally relied on deterministic models for accurate point estimations. Yet, these models fall short of quantifying future uncertainties. Recently, many probabilistic methods, especially variants of diffusion models, have been proposed to fill this gap. However, existing diffusion methods typically deal with individual sensors separately when generating future time series, resulting in limited usage of spatial information in the probabilistic learning process. In this work, we propose SpecSTG, a novel spectral diffusion framework, to better leverage spatial dependencies and systematic patterns inherent in traffic data. More specifically, our method generates the Fourier representation of future time series, transforming the learning process into the spectral domain enriched with spatial information. Additionally, our approach incorporates a fast spectral graph convolution designed for Fourier input, alleviating the computational burden associated with existing models. Compared with state-of-the-arts, SpecSTG achieves up to 8% improvements on point estimations and up to 0.78% improvements on quantifying future uncertainties. Furthermore, SpecSTG's training and validation speed is 3.33X of the most efficient existing diffusion method for STG forecasting. The source code for SpecSTG is available at https://anonymous.4open.science/r/SpecSTG. | 翻訳日:2024-08-08 18:13:59 公開日:2024-08-06 |
# 行動予測のためのテキスト入力モーダリティの有効性について
On the Efficacy of Text-Based Input Modalities for Action Anticipation ( http://arxiv.org/abs/2401.12972v2 ) ライセンス: Link先を確認 | Apoorva Beedu, Karan Samel, Irfan Essa, | (参考訳) 将来の行動を予測することは、潜在的な将来の行動の多様性と規模のために非常に難しい課題である。
各モダリティは、モデルから学ぶための多様かつしばしば相補的なコンテキストを提供することができる。
従来のマルチモーダル手法では,映像や音声などのモダリティからの情報を活用するが,アクションやオブジェクトのテキスト記述が,環境とその内容に関する追加の文脈的手がかりを提供することによって,より正確なアクション予測に結びつくかを検討する。
本稿ではマルチモーダル・コントラスト・予測変換器(M-CAT)を提案する。
まず、モデルがビデオクリップを将来のアクションの説明に合わせることを学習し、その後、将来のアクションを予測するために微調整する。
既存の手法と比較して、M-CATは2種類のテキスト入力から追加のコンテキストを学習する利点がある。
実験により,EpicKitchensデータセットの従来の手法よりも優れていることを示すとともに,アクションやオブジェクトの簡単なテキスト記述を用いることで,より効果的なアクション予測が可能になることを示す。
さらに,テキストから得られた対象情報と行動情報の影響について検討し,広範囲にわたる改善を行う。
Anticipating future actions is a highly challenging task due to the diversity and scale of potential future actions; yet, information from different modalities help narrow down plausible action choices. Each modality can provide diverse and often complementary context for the model to learn from. While previous multi-modal methods leverage information from modalities such as video and audio, we primarily explore how text descriptions of actions and objects can also lead to more accurate action anticipation by providing additional contextual cues, e.g., about the environment and its contents. We propose a Multi-modal Contrastive Anticipative Transformer (M-CAT), a video transformer architecture that jointly learns from multi-modal features and text descriptions of actions and objects. We train our model in two stages, where the model first learns to align video clips with descriptions of future actions, and is subsequently fine-tuned to predict future actions. Compared to existing methods, M-CAT has the advantage of learning additional context from two types of text inputs: rich descriptions of future actions during pre-training, and, text descriptions for detected objects and actions during modality feature fusion. Through extensive experimental evaluation, we demonstrate that our model outperforms previous methods on the EpicKitchens datasets, and show that using simple text descriptions of actions and objects aid in more effective action anticipation. In addition, we examine the impact of object and action information obtained via text, and perform extensive ablations. | 翻訳日:2024-08-08 18:02:16 公開日:2024-08-06 |
# AmbigNLG: NLGの指導におけるタスクの曖昧さに対処する
AmbigNLG: Addressing Task Ambiguity in Instruction for NLG ( http://arxiv.org/abs/2402.17717v2 ) ライセンス: Link先を確認 | Ayana Niwa, Hayate Iso, | (参考訳) 本研究では,自然言語生成(NLG)タスクにおけるタスク曖昧性の課題に対処するための新しいタスクであるAmbigNLGを紹介する。
自然言語インタラクションによる幅広いタスクの理解と実行において,LLM(Large Language Models)が持つ印象的な能力にもかかわらず,それらの性能は実世界の命令の曖昧さによって著しく損なわれている。
これを解決するため、AmbigNLGはこうした曖昧さを識別し緩和し、ユーザー期待に合うように指示を洗練することを目指している。
2500のインスタンスからなるデータセットであるAmbigSNI-NLGを導入し、指示のあいまいさを分類・注釈するあいまいさ分類法を開発した。
提案手法はテキスト生成品質の大幅な向上を示し,NLGタスクにおけるLLM性能向上における明瞭かつ具体的な命令の重要性を強調した。
In this study, we introduce AmbigNLG, a new task designed to tackle the challenge of task ambiguity in instructions for Natural Language Generation (NLG) tasks. Despite the impressive capabilities of Large Language Models (LLMs) in understanding and executing a wide range of tasks through natural language interaction, their performance is significantly hindered by the ambiguity present in real-world instructions. To address this, AmbigNLG seeks to identify and mitigate such ambiguities, aiming to refine instructions to match user expectations better. We introduce a dataset, AmbigSNI-NLG, consisting of 2,500 instances, and develop an ambiguity taxonomy for categorizing and annotating instruction ambiguities. Our approach demonstrates substantial improvements in text generation quality, highlighting the critical role of clear and specific instructions in enhancing LLM performance in NLG tasks. | 翻訳日:2024-08-08 18:02:16 公開日:2024-08-06 |
# CardioGenAI:hERGの信頼性を低減するための再エンジニアリングのための機械学習ベースのフレームワーク
CardioGenAI: A Machine Learning-Based Framework for Re-Engineering Drugs for Reduced hERG Liability ( http://arxiv.org/abs/2403.07632v3 ) ライセンス: Link先を確認 | Gregory W. Kyro, Matthew T. Martin, Eric D. Watt, Victor S. Batista, | (参考訳) hERGイオンチャネル阻害とそれに続くQT間隔延長の関連は、Torsade de Pointesのようなarrythmiasの発達にとって重要な危険因子であり、in vitroのhERG活性だけでは、他の有望な薬物候補の開発を終わらせるのに十分である。
したがって、医薬品開発の初期段階においてhERG活性化合物を同定する先進的な方法を開発することや、hERGの信頼性を低下させ、標的の有効性を保った再設計された化合物を提案することは、非常に興味深いことである。
本研究は,HERG活性を低下させるため,開発用および市販用両方の薬物を再設計する機械学習ベースのフレームワークであるCardioGenAIについて紹介する。
このフレームワークは、hERGチャネルの活性を予測するための新しい最先端の識別モデルと、hERGチャネルの遮断によって引き起こされる不整脈性電位を調節する可能性から、電圧ゲート型NaV1.5およびCaV1.2チャネルに対する活性を含む。
我々は、hERGチャネルに高い親和性を示すFDA認可の抗精神病薬であるピモジドに完全な枠組みを適用し、100の精製候補を生成した。
この化合物はピモジドと同じ種類の薬物(ジフェニルメタン)であり、薬理活性は類似しているが、hERGに700倍以上の弱い結合を示す。
本手法は,hERG関連の安全性上の懸念から停止した医薬品開発プログラムを救済する手段として,hERGの障害を示す化合物に効果的に適用できると考えられる。
分子仮説生成のためのCardioGenAIフレームワークをドラッグ発見ワークフローに統合するためのソフトウェアをオープンソースにしました。
The link between in vitro hERG ion channel inhibition and subsequent in vivo QT interval prolongation, a critical risk factor for the development of arrythmias such as Torsade de Pointes, is so well established that in vitro hERG activity alone is often sufficient to end the development of an otherwise promising drug candidate. It is therefore of tremendous interest to develop advanced methods for identifying hERG-active compounds in the early stages of drug development, as well as for proposing redesigned compounds with reduced hERG liability and preserved on-target potency. In this work, we present CardioGenAI, a machine learning-based framework for re-engineering both developmental and commercially available drugs for reduced hERG activity while preserving their pharmacological activity. The framework incorporates novel state-of-the-art discriminative models for predicting hERG channel activity, as well as activity against the voltage-gated NaV1.5 and CaV1.2 channels due to their potential implications in modulating the arrhythmogenic potential induced by hERG channel blockade. We applied the complete framework to pimozide, an FDA-approved antipsychotic agent that demonstrates high affinity to the hERG channel, and generated 100 refined candidates. Remarkably, among the candidates is fluspirilene, a compound which is of the same class of drugs (diphenylmethanes) as pimozide and therefore has similar pharmacological activity, yet exhibits over 700-fold weaker binding to hERG. We envision that this method can effectively be applied to developmental compounds exhibiting hERG liabilities to provide a means of rescuing drug development programs that have stalled due to hERG-related safety concerns. We have made all of our software open-source to facilitate integration of the CardioGenAI framework for molecular hypothesis generation into drug discovery workflows. | 翻訳日:2024-08-08 18:02:16 公開日:2024-08-06 |
# 大規模言語モデルはロボットのルーティングを解けるか?
Can Large Language Models Solve Robot Routing? ( http://arxiv.org/abs/2403.10795v2 ) ライセンス: Link先を確認 | Zhehui Huang, Guangyao Shi, Gaurav S. Sukhatme, | (参考訳) ルーティング問題は、検査、監視、カバレッジといったタスクを含むモバイルロボティクスで一般的である。
目的や制約によっては、これらの問題はトラベリングセールスマン問題(TSP)の変種に還元されることが多い。
本稿では,Large Language Models (LLMs) の可能性を探り,自然言語で記述されたタスクからロボット経路の生成へとパイプライン全体を置き換える。
単一ロボットとマルチロボットの両方の設定において、8つの変種にまたがる80のユニークなロボットルーティング問題を持つデータセットを構築することにより、ロボットルーティングにおけるLLMの性能を体系的に検討する。
我々は, 1 つの試行, 自己デバッグ, 自己検証による自己デバッグ, 数学的定式化, 擬似コード, 関連研究論文など, 3 つのフレームワークによる LLM の評価を行った。
その結果,自己デバッグと自己検証の両方が,最適性ギャップを著しく低下させることなく,成功率を高めることが明らかとなった。
文脈が最適性ギャップを減少させるが、成功率を著しく低下させ、文脈が常に成功率を改善したり、最適性ギャップを減少させたりしないため、擬似コードおよび関連する研究論文を提供する。
我々は,ロボット経路問題の解法において,重要な課題を特定し,LLM性能を高めるための今後の方向性を提案する。
私たちのソースコードはプロジェクトのWebサイト(https://sites.google.com/view/words-to-routes/)で公開されています。
Routing problems are common in mobile robotics, encompassing tasks such as inspection, surveillance, and coverage. Depending on the objective and constraints, these problems often reduce to variants of the Traveling Salesman Problem (TSP), with solutions traditionally derived by translating high-level objectives into an optimization formulation and using modern solvers to arrive at a solution. Here, we explore the potential of Large Language Models (LLMs) to replace the entire pipeline from tasks described in natural language to the generation of robot routes. We systematically investigate the performance of LLMs in robot routing by constructing a dataset with 80 unique robot routing problems across 8 variants in both single and multi-robot settings. We evaluate LLMs through three frameworks: single attempt, self-debugging, and self-debugging with self-verification and various contexts, including mathematical formulations, pseudo-code, and related research papers. Our findings reveal that both self-debugging and self-verification enhance success rates without significantly lowering the optimality gap. We observe context-sensitive behavior - providing mathematical formulations as context decreases the optimality gap but significantly decreases success rates and providing pseudo-code and related research papers as context does not consistently improve success rates or decrease the optimality gap. We identify key challenges and propose future directions to enhance LLM performance in solving robot routing problems. Our source code is available on the project website: https://sites.google.com/view/words-to-routes/. | 翻訳日:2024-08-08 17:50:17 公開日:2024-08-06 |
# 安全移動ロボットナビゲーションのための強化PPOによる深層強化学習
Deep Reinforcement Learning with Enhanced PPO for Safe Mobile Robot Navigation ( http://arxiv.org/abs/2405.16266v2 ) ライセンス: Link先を確認 | Hamid Taheri, Seyed Rasoul Hosseini, Mohammad Ali Nekoui, | (参考訳) 移動ロボットには衝突のない運動が不可欠である。
車輪付きロボットによる衝突のない効率的なナビゲーションには、優れたナビゲーション動作を得るためには、専門家によるパラメータチューニングが必要である。
本研究では,複雑な環境下での自律走行のための移動ロボットの訓練における深層強化学習の適用について検討する。
このロボットは、LiDARセンサデータとディープニューラルネットワークを用いて、障害物を回避しつつ、特定の目標に向かって誘導する制御信号を生成する。
本稿では,ガゼボシミュレーション環境における2つの強化学習アルゴリズム(Deep Deterministic Policy Gradient)と近似ポリシ最適化(proximal Policy Optimization)を採用する。
この研究は、アルゴリズムの有効性を改善するために、よく設計された報酬関数を伴って、性能を向上させるために、プロキシポリシー最適化アルゴリズムに強化されたニューラルネットワーク構造を導入している。
障害物のない環境と障害物のない環境の両方で実施した実験結果は,提案手法の有効性を裏付けるものである。
この研究は、深層強化学習の応用を通じて、複雑な環境における自律ロボット技術の進歩に大きく貢献する。
Collision-free motion is essential for mobile robots. Most approaches to collision-free and efficient navigation with wheeled robots require parameter tuning by experts to obtain good navigation behavior. This study investigates the application of deep reinforcement learning to train a mobile robot for autonomous navigation in a complex environment. The robot utilizes LiDAR sensor data and a deep neural network to generate control signals guiding it toward a specified target while avoiding obstacles. We employ two reinforcement learning algorithms in the Gazebo simulation environment: Deep Deterministic Policy Gradient and proximal policy optimization. The study introduces an enhanced neural network structure in the Proximal Policy Optimization algorithm to boost performance, accompanied by a well-designed reward function to improve algorithm efficacy. Experimental results conducted in both obstacle and obstacle-free environments underscore the effectiveness of the proposed approach. This research significantly contributes to the advancement of autonomous robotics in complex environments through the application of deep reinforcement learning. | 翻訳日:2024-08-08 17:50:17 公開日:2024-08-06 |
# 地上・地下施設におけるトランスモン量子ビットの放射効果評価
Evaluating radiation impact on transmon qubits in above and underground facilities ( http://arxiv.org/abs/2405.18355v2 ) ライセンス: Link先を確認 | Francesco De Dominicis, Tanay Roy, Ambra Mariani, Mustafa Bal, Nicola Casali, Ivan Colantoni, Francesco Crisa, Angelo Cruciani, Fernando Ferroni, Dounia L Helis, Lorenzo Pagnanini, Valerio Pettinacci, Roman Pilipenko, Stefano Pirro, Andrei Puiu, Alexander Romanenko, Marco Vignati, David v Zanten, Shaojiang Zhu, Anna Grassellino, Laura Cardani, | (参考訳) 超伝導量子ビットは、宇宙線や周囲の放射能によって引き起こされる急激なエネルギー蓄積に敏感である。
これまでの研究は、宇宙線による時間と距離による相関効果の解明に重点を置いてきた。
本研究では,Fermilab SQMS地上施設および深部地下グラン・サッソ研究所(INFN-LNGS)で最初に測定されたトランスモン量子ビットの応答を直接比較した。
地上および地下施設で約80マイクロ秒の平均量子ビット寿命T$_1$を観測した。
次に, 高速減衰検出プロトコルを適用し, 高コヒーレンス量子ビットの地上特性と比較し, 放射と固有雑音によるトリガ事象の時間構造, 感度, 相対速度について検討した。
変動活動のガンマ源を用いて、最小背景放射の環境において、異なるレベルの放射線に対する量子ビットの応答を校正する。
その結果、クォービットは強いガンマ源に反応し、粒子の衝突を検出することが可能であることが示唆された。
しかし,これらのサファイアおよびニオブ系トランスモン量子ビットに対する放射誘起現象の差は観測されていない。
これらの事象の大部分は放射関係ではなく、現代のトランモン量子ビットにおける単一量子ビット誤差をはるかに支配している他のノイズ源によるものであると結論付けている。
Superconducting qubits can be sensitive to abrupt energy deposits caused by cosmic rays and ambient radioactivity. Previous studies have focused on understanding possible correlated effects over time and distance due to cosmic rays. In this study, for the first time, we directly compare the response of a transmon qubit measured initially at the Fermilab SQMS above-ground facilities and then at the deep underground Gran Sasso Laboratory (INFN-LNGS, Italy). We observe same average qubit lifetime T$_1$ of roughly 80 microseconds at above and underground facilities. We then apply a fast decay detection protocol and investigate the time structure, sensitivity and relative rates of triggered events due to radiation versus intrinsic noise, comparing above and underground performance of several high-coherence qubits. Using gamma sources of variable activity we calibrate the response of the qubit to different levels of radiation in an environment with minimal background radiation. Results indicate that qubits respond to a strong gamma source and it is possible to detect particle impacts. However, when comparing above and underground results, we do not observe a difference in radiation induced-like events for these sapphire and niobium-based transmon qubits. We conclude that the majority of these events are not radiation related and to be attributed to other noise sources which by far dominate single qubit errors in modern transmon qubits. | 翻訳日:2024-08-08 17:50:17 公開日:2024-08-06 |
# B$^α$ゲートの特性と実装
Characteristics and Implementation of B$^α$ Gates ( http://arxiv.org/abs/2405.19913v2 ) ライセンス: Link先を確認 | M. Karthick Selvan, S. Balakrishnan, | (参考訳) 本稿では,B$^{\alpha}$ Gatesの特性について述べる。
B$^{\alpha}$ gate の2つの応用により生成される2量子ゲートの条件を提供する。
イオントラップ系にB$^{\alpha}$ Gatesを実装する実験手法を提案する。
このスキームでは、単一の振動モードのみがスピン-スピン結合に寄与すると仮定する。
このスキームは、イオントラップ系におけるXY型相互作用を実現するための、最近提案されたスキームの拡張である。
このスキームの実装が成功すると、B$^{\alpha}$ gatesはイオントラップ量子コンピュータの量子計算に利用できる。
In this brief report, we discuss the characteristics of B$^{\alpha}$ gates. We provide the conditions for the two-qubit gates generated by two applications of a B$^{\alpha}$ gate. We propose an experimental scheme to implement B$^{\alpha}$ gates in ion-trap system. In this scheme, we assume that only a single vibrational mode contributes to spin-spin coupling. This scheme is an extension of a recently proposed scheme to realize XY-type interaction in ion-trap system. With the successful implementation of this scheme, B$^{\alpha}$ gates can be used for doing quantum computation in ion-trap quantum computers. | 翻訳日:2024-08-08 17:50:17 公開日:2024-08-06 |
# 局所構造を用いた自己監督深度推定の再検討
Revisit Self-supervised Depth Estimation with Local Structure-from-Motion ( http://arxiv.org/abs/2407.19166v2 ) ライセンス: Link先を確認 | Shengjie Zhu, Xiaoming Liu, | (参考訳) 自己教師付き深度推定とSfM(Structure-from-Motion)の両方がRGBビデオからシーン深度を復元する。
同様の目的を共有しながらも、2つのアプローチは切り離されている。
自己超越的バックプロパゲート損失の以前の研究は、隣接するフレーム内で定義された。
この研究は、学習スルーロスの代わりに、局所的なSfMを実行することで代替のスキームを提案する。
まず、RGBまたはRGB-D画像の校正により、深度マップとペアワイド対応マップを推定するために深度・対応推定器を用いる。
そして、新しいバンドル-RANSAC調整アルゴリズムは、カメラポーズと深度マップの1つの深さ調整を共同で最適化する。
最後に、カメラのポーズを修正し、ニューラルネットワークを使わずにNeRFを用いて、密接な三角測量と幾何的検証を行う。
ポス、深さ調整、三角形のスパース深度は私たちの出力です。
初めて、SoTAが監督する深度と対応モデルに既に利点がある5ドルフレームの自己超越を示す。
プロジェクトページはリンクで保持されている(https://shngjz.github.io/SSfM.github.io/)。
Both self-supervised depth estimation and Structure-from-Motion (SfM) recover scene depth from RGB videos. Despite sharing a similar objective, the two approaches are disconnected. Prior works of self-supervision backpropagate losses defined within immediate neighboring frames. Instead of learning-through-loss, this work proposes an alternative scheme by performing local SfM. First, with calibrated RGB or RGB-D images, we employ a depth and correspondence estimator to infer depthmaps and pair-wise correspondence maps. Then, a novel bundle-RANSAC-adjustment algorithm jointly optimizes camera poses and one depth adjustment for each depthmap. Finally, we fix camera poses and employ a NeRF, however, without a neural network, for dense triangulation and geometric verification. Poses, depth adjustments, and triangulated sparse depths are our outputs. For the first time, we show self-supervision within $5$ frames already benefits SoTA supervised depth and correspondence models. The project page is held in the link (https://shngjz.github.io/SSfM.github.io/). | 翻訳日:2024-08-08 17:40:15 公開日:2024-08-06 |
# 森林火災リスク評価における木型検出の強化:UAV画像のための多段階的アプローチと森林火災リスク評価フレームワークによる色符号化
Enhancing Tree Type Detection in Forest Fire Risk Assessment: Multi-Stage Approach and Color Encoding with Forest Fire Risk Evaluation Framework for UAV Imagery ( http://arxiv.org/abs/2407.19184v2 ) ライセンス: Link先を確認 | Jinda Zhang, | (参考訳) 森林火災は世界中の生態系、経済、人間の健康に重大な脅威をもたらす。
森林火災の早期発見と評価は, 効果的な管理・保全に不可欠である。
高度なコンピュータビジョンアルゴリズムを備えた無人航空機(UAV)は森林火災の検出と評価に有望なソリューションを提供する。
本稿では,UAVと多段階物体検出アルゴリズムを用いた森林火災リスク評価フレームワークを最適化する。
本稿では,Faster R-CNN,Grid R-CNN,Sparse R-CNN,Cascade R-CNN,Dynamic R-CNN,Libra R-CNN 検出器の採用など,従来のフレームワークの改良について紹介する。
カナダ,ブリティッシュコロンビア州の各地域の航空画像画像を用いて,これらの拡張を評価する。
本研究は,森林火災リスク評価の精度向上に有効な多段階検出器と最適化の有効性を示すものである。
本研究は,UAVによる森林火災検知・評価システムの高度化に寄与し,持続的森林管理・保全活動の効率化と効率化に寄与する。
Forest fires pose a significant threat to ecosystems, economies, and human health worldwide. Early detection and assessment of forest fires are crucial for effective management and conservation efforts. Unmanned Aerial Vehicles (UAVs) equipped with advanced computer vision algorithms offer a promising solution for forest fire detection and assessment. In this paper, we optimize an integrated forest fire risk assessment framework using UAVs and multi-stage object detection algorithms. We introduce improvements to our previous framework, including the adoption of Faster R-CNN, Grid R-CNN, Sparse R-CNN, Cascade R-CNN, Dynamic R-CNN, and Libra R-CNN detectors, and explore optimizations such as CBAM for attention enhancement, random erasing for preprocessing, and different color space representations. We evaluate these enhancements through extensive experimentation using aerial image footage from various regions in British Columbia, Canada. Our findings demonstrate the effectiveness of multi-stage detectors and optimizations in improving the accuracy of forest fire risk assessment. This research contributes to the advancement of UAV-based forest fire detection and assessment systems, enhancing their efficiency and effectiveness in supporting sustainable forest management and conservation efforts. | 翻訳日:2024-08-08 17:40:15 公開日:2024-08-06 |
# Diffie-Hellmanの写真:VoWiFiの商用展開のキー交換
Diffie-Hellman Picture Show: Key Exchange Stories from Commercial VoWiFi Deployments ( http://arxiv.org/abs/2407.19556v2 ) ライセンス: Link先を確認 | Gabriel Karl Gegenhuber, Florian Holzbauer, Philipp Frenzel, Edgar Weippl, Adrian Dabrowski, | (参考訳) Voice over Wi-Fi (VoWiFi)は、IPsecトンネルを使用して、加入者の携帯電話(User Equipment, UE)からインターネット接続エンドポイントであるEvolved Packet Data Gateway (ePDG)を介して、Mobile Network Operator(MNO)コアネットワークにIPベースの電話を配信する。
IPsecトンネルはフェーズで設定される。
第1フェーズは暗号アルゴリズムとパラメータを交渉し、インターネット鍵交換プロトコルを介して鍵交換を行い、第2フェーズ(上記の暗号化で保護されている)は認証を行う。
安全でないキー交換は、後段とデータのセキュリティと機密性を危険にさらす。
本稿では、携帯電話や世界中の商用ネットワークで見られるフェーズ1設定と実装について分析する。
UE側では、大手メーカーの最近の5Gベースバンドチップセットを特定しました。
MNO側では、13のオペレーター(推定1億4000万人の加入者数)を3大陸で特定しましたが、すべて同じグローバルな10個のプライベートキーセットを使用しており、ランダムに提供しています。
これらの秘密鍵は、すべてのオペレーターのVoWiFiユーザーの共有鍵の解読を可能にする。
これらのオペレーターは共通のメーカーからコアネットワークをデプロイした。
Voice over Wi-Fi (VoWiFi) uses a series of IPsec tunnels to deliver IP-based telephony from the subscriber's phone (User Equipment, UE) into the Mobile Network Operator's (MNO) core network via an Internet-facing endpoint, the Evolved Packet Data Gateway (ePDG). IPsec tunnels are set up in phases. The first phase negotiates the cryptographic algorithm and parameters and performs a key exchange via the Internet Key Exchange protocol, while the second phase (protected by the above-established encryption) performs the authentication. An insecure key exchange would jeopardize the later stages and the data's security and confidentiality. In this paper, we analyze the phase 1 settings and implementations as they are found in phones as well as in commercially deployed networks worldwide. On the UE side, we identified a recent 5G baseband chipset from a major manufacturer that allows for fallback to weak, unannounced modes and verified it experimentally. On the MNO side -- among others -- we identified 13 operators (totaling an estimated 140 million subscribers) on three continents that all use the same globally static set of ten private keys, serving them at random. Those not-so-private keys allow the decryption of the shared keys of every VoWiFi user of all those operators. All these operators deployed their core network from one common manufacturer. | 翻訳日:2024-08-08 17:40:15 公開日:2024-08-06 |
# ボゾン量子準結晶における低エネルギー励起
Low energy excitations in bosonic quantum quasicrystals ( http://arxiv.org/abs/2407.21230v3 ) ライセンス: Link先を確認 | Alejandro Mendoza-Coto, Mariano Bonifacio, Francesco Piazza, | (参考訳) ボゾン自己組織量子準結晶に対する低エネルギー有効作用の第一原理について述べる。
一般化された弾性法は、ゴールドストーンモードの適切な記述に必要な位相および対応する共役密度-自由度を適切に保持する。
ドデカゴナルおよびデカゴナル準結晶構造では、音の等方的な速度で、集合的長手および横方向の励起が得られる。
一方、八角形構造では、音速と音速の次数の結合は、後者と凝縮音モードのハイブリッド化につながり、縦・横成分の集合励起と異方性音速を生成する。
最後に、量子準結晶相を制限する低密度および高密度相転移における各励起モードの運命について論じる。
We present the first principles construction of the low-energy effective action for bosonic self-organized quantum quasicrystals. Our generalized elasticity approach retains the appropriate number of phase- and corresponding conjugate density- degrees-of-freedom required for a proper description of the Goldstone modes. For the dodecagonal and decagonal quasicrystal structures we obtain collective longitudinal and transversal excitations with an isotropic speed of sound. Meanwhile, for the octagonal structure, the coupling between phononic and phasonic degrees of freedom leads in turn to hybridization of the latter with the condensate sound mode, producing collective excitations with a longitudinal and transversal component, and an anisotropic speed of sound. Finally, we discuss the fate of each excitation mode at the low and high density phase transitions limiting the quantum quasicrystal phase. | 翻訳日:2024-08-08 17:40:15 公開日:2024-08-06 |
# テンソル加速器のLCM支援コンパイル
LLM-Aided Compilation for Tensor Accelerators ( http://arxiv.org/abs/2408.03408v1 ) ライセンス: Link先を確認 | Charles Hong, Sahil Bhatia, Altan Haan, Shengjun Kris Dong, Dima Nikiforov, Alvin Cheung, Yakun Sophia Shao, | (参考訳) ハードウェアアクセラレータ、特にテンソル処理のアクセラレータは、多くの潜在的なアプリケーションドメインを持っている。
しかし現時点では、ディープラーニング以外のほとんどのドメインをサポートするためのソフトウェアインフラストラクチャが欠如している。
さらに、アプリケーションレベルとハードウェアレベルの変更を反映するように簡単に更新できるコンパイラは、よりアジャイルな開発と、アクセラレータの設計スペースの探索を可能にし、ハードウェア設計者がより近くから最適のパフォーマンスを実現することができる。
本研究では,大規模な言語モデル(LLM)を用いて,そのようなコンパイラを構築する方法について論じる。
具体的には、GPT-4がGemminiアクセラレーターへのコード変換において高いパスレートを達成することを実証し、より小さく、よりLLMフレンドリーなステップに翻訳を分解するテクニックを試作する。
さらに,LLMを利用してハードウェア最適化コードを生成するための2フェーズワークフローを提案する。
Hardware accelerators, in particular accelerators for tensor processing, have many potential application domains. However, they currently lack the software infrastructure to support the majority of domains outside of deep learning. Furthermore, a compiler that can easily be updated to reflect changes at both application and hardware levels would enable more agile development and design space exploration of accelerators, allowing hardware designers to realize closer-to-optimal performance. In this work, we discuss how large language models (LLMs) could be leveraged to build such a compiler. Specifically, we demonstrate the ability of GPT-4 to achieve high pass rates in translating code to the Gemmini accelerator, and prototype a technique for decomposing translation into smaller, more LLM-friendly steps. Additionally, we propose a 2-phase workflow for utilizing LLMs to generate hardware-optimized code. | 翻訳日:2024-08-08 17:40:15 公開日:2024-08-06 |
# TVDニューラルネットワークの閉鎖と乱流燃焼への応用
A TVD neural network closure and application to turbulent combustion ( http://arxiv.org/abs/2408.03413v1 ) ライセンス: Link先を確認 | Seung Won Suh, Jonathan F MacArt, Luke N Olson, Jonathan B Freund, | (参考訳) トレーニングニューラルネットワーク(NN)は、支配方程式を閉じるための魅力的な特徴を持っているが、追加の制約がない場合には、物理的な現実から逸脱することができる。
NNの定式化は、溶液の有界性や陽性性に反する刺激発振を防止するために導入される。
離散化方程式に機械学習のクロージャとして組み込まれ、双曲的保存法に対する総変量減少法(TVD)法に触発されて厳格に制約されている。
制約は、NNパラメータを再スケーリングすることで、勾配-未熟なトレーニング中に正確に適用され、明示的な実現可能なセットにマップされる。
拘束されたNN閉包モデルは,非振動特性を保ちながら,線形および非線形双曲現象や反拡散を効果的に回復することを示す。
最後に、このモデルは乱流反応流のサブグリッドスケール(SGS)モデルに適用され、このモデルが解境界性に反するスカラー場における急激な振動を抑制する。
これは損失関数における振動の単純なペナル化よりも優れる。
Trained neural networks (NN) have attractive features for closing governing equations, but in the absence of additional constraints, they can stray from physical reality. A NN formulation is introduced to preclude spurious oscillations that violate solution boundedness or positivity. It is embedded in the discretized equations as a machine learning closure and strictly constrained, inspired by total variation diminishing (TVD) methods for hyperbolic conservation laws. The constraint is exactly enforced during gradient-descent training by rescaling the NN parameters, which maps them onto an explicit feasible set. Demonstrations show that the constrained NN closure model usefully recovers linear and nonlinear hyperbolic phenomena and anti-diffusion while enforcing the non-oscillatory property. Finally, the model is applied to subgrid-scale (SGS) modeling of a turbulent reacting flow, for which it suppresses spurious oscillations in scalar fields that otherwise violate the solution boundedness. It outperforms a simple penalization of oscillations in the loss function. | 翻訳日:2024-08-08 17:40:15 公開日:2024-08-06 |
# Webベースのクリプトジャックで使われるインフラの分断:測定の視点から
Dissecting the Infrastructure Used in Web-based Cryptojacking: A Measurement Perspective ( http://arxiv.org/abs/2408.03426v1 ) ライセンス: Link先を確認 | Ayodeji Adeniran, Kieran Human, David Mohaisen, | (参考訳) 本稿では,暗号鍵処理を支援するインフラを網羅的に検討する。
この分析は、不正なエンティティが不正な暗号通貨採掘のために計算資源を誤用するために使用する方法論、フレームワーク、テクノロジーを解明する。
この調査は、暗号鍵活動のプラットフォームとして機能するウェブサイトの特定に焦点を当てている。
これまでに暗号鍵サイトとして認識されていた887のWebサイトのデータセットをコンパイルし、分析して、観察された攻撃と悪意のあるアクティビティを分類した。
この研究は、DNSIPアドレス、レジストラ、およびこれらのWebサイトをホストするサーバを更に掘り下げて、それらの構造とコンポーネントを理解する。
これらのサイトに関連する様々なマルウェアや違法な活動が特定され、不正なサイトによる不正な暗号通貨採掘の存在が示唆された。
この調査結果は、Webサイトのインフラストラクチャが暗号鍵に脆弱性があることを浮き彫りにしている。
This paper conducts a comprehensive examination of the infrastructure supporting cryptojacking operations. The analysis elucidates the methodologies, frameworks, and technologies malicious entities employ to misuse computational resources for unauthorized cryptocurrency mining. The investigation focuses on identifying websites serving as platforms for cryptojacking activities. A dataset of 887 websites, previously identified as cryptojacking sites, was compiled and analyzed to categorize the attacks and malicious activities observed. The study further delves into the DNS IP addresses, registrars, and name servers associated with hosting these websites to understand their structure and components. Various malware and illicit activities linked to these sites were identified, indicating the presence of unauthorized cryptocurrency mining via compromised sites. The findings highlight the vulnerability of website infrastructures to cryptojacking. | 翻訳日:2024-08-08 17:40:15 公開日:2024-08-06 |
# 時系列クラスタリングと強化学習を用いた宇宙機慣性パラメータ推定
Spacecraft inertial parameters estimation using time series clustering and reinforcement learning ( http://arxiv.org/abs/2408.03445v1 ) ライセンス: Link先を確認 | Konstantinos Platanitis, Miguel Arana-Catania, Leonardo Capicchiano, Saurabh Upadhyay, Leonard Felicetti, | (参考訳) 本稿では, 衛星の慣性パラメーターを, ペイロードの複数配置, 付加物やブームの展開, 推進剤の消費, 軌道内サービシングおよびアクティブデブリ除去操作で推定する機械学習手法を提案する。
機械学習アプローチでは、時系列クラスタリングと強化学習によって生成される最適化されたアクティベーションシーケンスを使用して、異なる慣性パラメータセットの区別を容易にする。
提案手法の性能は, マルチサテライト配置システムの場合に対して評価され, アルゴリズムはそのような操作において, 一般的な障害に対する耐性を示す。
This paper presents a machine learning approach to estimate the inertial parameters of a spacecraft in cases when those change during operations, e.g. multiple deployments of payloads, unfolding of appendages and booms, propellant consumption as well as during in-orbit servicing and active debris removal operations. The machine learning approach uses time series clustering together with an optimised actuation sequence generated by reinforcement learning to facilitate distinguishing among different inertial parameter sets. The performance of the proposed strategy is assessed against the case of a multi-satellite deployment system showing that the algorithm is resilient towards common disturbances in such kinds of operations. | 翻訳日:2024-08-08 17:40:15 公開日:2024-08-06 |
# アプリ市場を超えて:Telegramによる地下モバイルアプリの流通の謎化
Beyond App Markets: Demystifying Underground Mobile App Distribution Via Telegram ( http://arxiv.org/abs/2408.03482v1 ) ライセンス: Link先を確認 | Yanhui Guo, Dong Wang, Liu Wang, Yongsheng Fang, Chao Wang, Minghui Yang, Tianming Liu, Haoyu Wang, | (参考訳) 繁栄するモバイルアプリエコシステムは、幅広い機能を含んでいる。
しかし、このエコシステム内では、ギャンブルやポルノグラフィなどの不正なサービスを提供して経済的な利益を追求するアプリの一部が「地下経済アプリ」と呼ばれている。
以前の研究では、これらのアプリの特性と識別方法を検討したが、アプリ市場以外のプラットフォーム(Telegramなど)による配布に関する調査は依然として乏しいままであり、暗号化の堅牢さとユーザ匿名性により、地下活動やサイバー犯罪にとって重要なチャネルとして現れている。
この研究は、Telegramの地下モバイルアプリエコシステムを包括的に調査した初めてのものである。
Telegram環境の複雑さを克服し、新しいデータセットを構築し、それらのアプリの有病率、プロモーション戦略、特性を分析します。
調査の結果、これらのアプリはTelegramのユーザーベースの約1%に達し、主にギャンブルやポルノサービスに対応していることがわかった。
我々は、アプリ、ウェブサイト、ユーザー、チャンネルの複雑なネットワークを含む高度なプロモーション戦略を明らかにし、Telegramのコンテンツモデレーション機能に重大なギャップを見出す。
私たちの分析では、アプリの配布におけるiOS機能の誤用や、これらのアプリの悪意ある動作の頻度も明らかにしています。
この研究は、地下アプリのエコシステムの理解を深めるだけでなく、効果的な規制対策を開発し、ユーザをこれらの隠蔽操作に関連する潜在的なリスクから保護するための貴重な洞察を提供する。
我々の発見は、暗号化されたメッセージングプラットフォーム上でのアンダーグラウンドアプリの拡散と戦う上で、プラットフォーム規制当局、アプリ市場運営者、法執行機関、サイバーセキュリティ専門家に影響を及ぼす。
The thriving mobile app ecosystem encompasses a wide range of functionalities. However, within this ecosystem, a subset of apps provides illicit services such as gambling and pornography to pursue economic gains, collectively referred to as "underground economy apps". While previous studies have examined these apps' characteristics and identification methods, investigations into their distribution via platforms beyond app markets (like Telegram) remain scarce, which has emerged as a crucial channel for underground activities and cybercrime due to the robust encryption and user anonymity. This study provides the first comprehensive exploration of the underground mobile app ecosystem on Telegram. Overcoming the complexities of the Telegram environment, we build a novel dataset and analyze the prevalence, promotional strategies, and characteristics of these apps. Our findings reveal that these apps reach approximately 1% of Telegram's user base, primarily catering to gambling and pornography services. We uncover sophisticated promotional strategies involving complex networks of apps, websites, users, and channels, and identify significant gaps in Telegram's content moderation capabilities. Our analysis also exposes the misuse of iOS features for app distribution and the prevalence of malicious behaviors in these apps. This research not only enhances our understanding of the underground app ecosystem but also provides valuable insights for developing effective regulatory measures and protecting users from potential risks associated with these covert operations. Our findings provide implications for platform regulators, app market operators, law enforcement agencies, and cybersecurity professionals in combating the proliferation of underground apps on encrypted messaging platforms. | 翻訳日:2024-08-08 17:40:15 公開日:2024-08-06 |
# 人間のフィードバックによるアライメントの学習ダイナミクスの理解
Understanding the Learning Dynamics of Alignment with Human Feedback ( http://arxiv.org/abs/2403.18742v5 ) ライセンス: Link先を確認 | Shawn Im, Yixuan Li, | (参考訳) 大規模言語モデル(LLM)を人間の意図で調整することは、現実世界のシステムにモデルを安全にデプロイするための重要なタスクとなっている。
既存のアライメントアプローチは経験的な成功を見てきたが、これらの手法がモデル行動にどのように影響するか理論的に理解することは未解決の問題である。
我々の研究は、人間の嗜好アライメントの学習力学を理論的に解析するための最初の試みである。
本稿では,嗜好データセットの分布がモデル更新率にどのように影響するかを正式に示すとともに,トレーニング精度に厳密な保証を与える。
我々の理論はまた、最適化がより高い選好性で特定の振る舞いを優先順位付けする傾向がある複雑な現象も明らかにしている。
我々は、現代のLCMとアライメントタスクに関する知見を実証的に検証し、理論的な洞察を強化し、将来のアライメントアプローチの考察に光を当てる。
Disclaimer: この論文には攻撃的なテキストが含まれており、読者の判断は推奨される。
Aligning large language models (LLMs) with human intentions has become a critical task for safely deploying models in real-world systems. While existing alignment approaches have seen empirical success, theoretically understanding how these methods affect model behavior remains an open question. Our work provides an initial attempt to theoretically analyze the learning dynamics of human preference alignment. We formally show how the distribution of preference datasets influences the rate of model updates and provide rigorous guarantees on the training accuracy. Our theory also reveals an intricate phenomenon where the optimization is prone to prioritizing certain behaviors with higher preference distinguishability. We empirically validate our findings on contemporary LLMs and alignment tasks, reinforcing our theoretical insights and shedding light on considerations for future alignment approaches. Disclaimer: This paper contains potentially offensive text; reader discretion is advised. | 翻訳日:2024-08-08 17:20:23 公開日:2024-08-06 |
# ENet-21 レーン検出のための最適化光CNN構造
ENet-21: An Optimized light CNN Structure for Lane Detection ( http://arxiv.org/abs/2403.19782v2 ) ライセンス: Link先を確認 | Seyed Rasoul Hosseini, Hamid Taheri, Mohammad Teshnehlab, | (参考訳) 自動運転車の車線検出は重要な概念であるが、現代の車両における運転支援システムの課題である。
ディープラーニングの出現は、自動運転車の大幅な進歩につながります。
従来のディープ・ラーニング・ベースの手法では、レーン検出問題をバイナリ・セグメンテーション・タスクとして扱い、ピクセルがラインに属しているかどうかを判定する。
これらの手法は固定数の車線の仮定に依存するが、必ずしもうまくいかない。
本研究の目的は,車線検出問題に対する最適構造の構築であり,車線や車線変更シナリオの多様さを管理するための二分セグメンテーションとアフィニティフィールドからなる機械学習手法を用いて,現代の車両における運転支援機能に有望なソリューションを提供することである。
このアプローチでは、特徴抽出器として畳み込みニューラルネットワーク(CNN)が選択され、セマンティックセグメンテーションとアフィニティフィールドの出力をクラスタリングすることで最終的な出力が得られる。
我々の手法は既存のものよりも複雑なCNNアーキテクチャを使用する。
TuSimpleデータセットの実験は提案手法の有効性を支持する。
Lane detection for autonomous vehicles is an important concept, yet it is a challenging issue of driver assistance systems in modern vehicles. The emergence of deep learning leads to significant progress in self-driving cars. Conventional deep learning-based methods handle lane detection problems as a binary segmentation task and determine whether a pixel belongs to a line. These methods rely on the assumption of a fixed number of lanes, which does not always work. This study aims to develop an optimal structure for the lane detection problem, offering a promising solution for driver assistance features in modern vehicles by utilizing a machine learning method consisting of binary segmentation and Affinity Fields that can manage varying numbers of lanes and lane change scenarios. In this approach, the Convolutional Neural Network (CNN), is selected as a feature extractor, and the final output is obtained through clustering of the semantic segmentation and Affinity Field outputs. Our method uses less complex CNN architecture than existing ones. Experiments on the TuSimple dataset support the effectiveness of the proposed method. | 翻訳日:2024-08-08 17:20:23 公開日:2024-08-06 |
# 安全かつ責任のある大規模言語モデルの開発 : 大規模言語モデルにおけるバイアス削減と言語理解のバランスをとることができるか?
Developing Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models? ( http://arxiv.org/abs/2404.01399v4 ) ライセンス: Link先を確認 | Shaina Raza, Oluwanifemi Bamgbose, Shardul Ghuge, Fatemeh Tavakol, Deepak John Reji, Syed Raza Bashir, | (参考訳) 大規模言語モデル(LLM)は、テキスト生成や翻訳など、様々な自然言語処理(NLP)タスクを進化させてきた。
しかし、これらのモデルはしばしばバイアスを持続できるテキストを生成する。
これらのバイアスを軽減する既存のアプローチは、通常、知識の保持を損なう。
本研究では,LLMが知識や理解を犠牲にすることなく,安全でバイアスのないアウトプットを生成できるかどうかを検討する。
我々は、生成されたテキストのバイアスを軽減するために、本質的に安全な微調整 LLM の上に、微調整を施した Safe and Responsible Large Language Model (\textbf{SR}$_{\text{LLM}}$) を導入する。
我々は、安全でない、かつそれに対応する安全なバリエーションの例を使って特別なデータセットを開発し、バイアス付きテキストを識別し、修正するために、textbf{SR}$_{\text{LLM}}$をトレーニングした。
特殊なデータセットとアウト・オブ・ディストリビューションテストセットの実験から,知識の整合性を維持しながらバイアスを効果的に低減できることが判明した。
このパフォーマンスは、より小さな言語モデルと、単にプロンプト技術に応答するだけのベースLLMの、従来の微調整よりも優れています。
本研究は,LLMのバイアスを最小限に抑えつつ,知識を保ちながら指導の微調整が効果的な方法であることを示唆している。
コードとデータセットは \href{https://github.com/shainarazavi/Safe-Responsible-LLM}{SR-LLM} でアクセスできる。
Large Language Models (LLMs) have advanced various Natural Language Processing (NLP) tasks, such as text generation and translation, among others. However, these models often generate text that can perpetuate biases. Existing approaches to mitigate these biases usually compromise knowledge retention. This study explores whether LLMs can produce safe, unbiased outputs without sacrificing knowledge or comprehension. We introduce the Safe and Responsible Large Language Model (\textbf{SR}$_{\text{LLM}}$), which has been instruction fine-tuned atop an inherently safe fine-tuned LLM to reduce biases in generated texts. We developed a specialized dataset with examples of unsafe and corresponding safe variations to train \textbf{SR}$_{\text{LLM}}$ to identify and correct biased text. Experiments on our specialized dataset and out-of-distribution test sets reveal that \textbf{SR}$_{\text{LLM}}$ effectively reduces biases while preserving knowledge integrity. This performance surpasses that of traditional fine-tuning of smaller language models and base LLMs that merely reply on prompting techniques. Our findings indicate that instruction fine-tuning is an effective strategy for minimizing bias in LLMs while retaining knowledge. The code and dataset are accessible at \href{https://github.com/shainarazavi/Safe-Responsible-LLM}{SR-LLM}. | 翻訳日:2024-08-08 17:20:23 公開日:2024-08-06 |
# 各種人工知能を用いた血液検査パラメータに基づくCOVID-19検出
COVID-19 Detection Based on Blood Test Parameters using Various Artificial Intelligence Methods ( http://arxiv.org/abs/2404.02348v3 ) ライセンス: Link先を確認 | Kavian Khanjani, Seyed Rasoul Hosseini, Hamid Taheri, Shahrzad Shashaani, Mohammad Teshnehlab, | (参考訳) 2019年には、新型コロナウイルスによる新型コロナウイルス感染症SARS-CoV-2(SARS-CoV-2)という新たな課題に直面した。
新型コロナウイルスは世界中で急速に広まり、死亡率が高くなり、医療機関は感染抑制策を講じた。
早期の疾患検出は治療プロセスにおいて不可欠であり、この取り組みを支援するためにコンピュータベースの自動検出システムが開発されている。
これらのシステムは、機械学習、ニューラルネットワーク、ファジィシステム、病気の分類のためのディープラーニングといった人工知能(AI)アプローチに依存していることが多い。
本研究は、自己分類分類器を用いて、さまざまなAI手法を用いて、新型コロナウイルス患者と他者とを区別することを目的とした。
この研究では、血液検査サンプルと放射線画像の2つのデータセットを使用しました。
サンラファエル病院で採取した血液検査の最良の結果は、Ensemble法(ニューラルネットワークと2つの機械学習手法の組み合わせ)を用いて、新型コロナウイルスと非新型コロナウイルスの2種類の個人を含む。
その結果、新型コロナウイルスの診断はコスト効率が高く、他の方法よりも短い時間で結果が得られることがわかった。
提案されたモデルは、使用するデータセットに対して94.09%の精度を達成した。
第2に、X線写真は、正常、ウイルス性肺炎、グラウンドガラスの透明度、COVID-19感染の4つのクラスに分けられた。
これらはセグメンテーションと分類に使用された。
肺葉は画像から抽出され、その後特定のクラスに分類された。
画像データセットで91.1%の精度を達成した。
一般的に、この研究は、新型コロナウイルスの検出と管理におけるAIの可能性を強調し、この分野における継続的な研究と開発の重要性を強調している。
In 2019, the world faced a new challenge: a COVID-19 disease caused by the novel coronavirus, SARS-CoV-2. The virus rapidly spread across the globe, leading to a high rate of mortality, which prompted health organizations to take measures to control its transmission. Early disease detection is crucial in the treatment process, and computer-based automatic detection systems have been developed to aid in this effort. These systems often rely on artificial intelligence (AI) approaches such as machine learning, neural networks, fuzzy systems, and deep learning to classify diseases. This study aimed to differentiate COVID-19 patients from others using self-categorizing classifiers and employing various AI methods. This study used two datasets: the blood test samples and radiography images. The best results for the blood test samples obtained from San Raphael Hospital, which include two classes of individuals, those with COVID-19 and those with non-COVID diseases, were achieved through the use of the Ensemble method (a combination of a neural network and two machines learning methods). The results showed that this approach for COVID-19 diagnosis is cost-effective and provides results in a shorter amount of time than other methods. The proposed model achieved an accuracy of 94.09% on the dataset used. Secondly, the radiographic images were divided into four classes: normal, viral pneumonia, ground glass opacity, and COVID-19 infection. These were used for segmentation and classification. The lung lobes were extracted from the images and then categorized into specific classes. We achieved an accuracy of 91.1% on the image dataset. Generally, this study highlights the potential of AI in detecting and managing COVID-19 and underscores the importance of continued research and development in this field. | 翻訳日:2024-08-08 17:20:23 公開日:2024-08-06 |
# RULER: 長期言語モデルの実際のコンテキストサイズは?
RULER: What's the Real Context Size of Your Long-Context Language Models? ( http://arxiv.org/abs/2404.06654v3 ) ライセンス: Link先を確認 | Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh, Fei Jia, Yang Zhang, Boris Ginsburg, | (参考訳) 長文テキスト(haystack)から情報片(needle)を検索する能力を調べるNIAHテスト(Needle-in-a-haystack)は、長文言語モデル(LM)を評価するために広く採用されている。
しかし、この単純な検索に基づくテストは、長文理解の表面的な形式を表わすだけである。
長文LMのより包括的評価を行うため,シーケンス長やタスクの複雑さをカスタマイズできるフレキシブルな構成の合成ベンチマークRULERを開発した。
RULER はバニラ NIAH テストに拡張され、様々な種類の針と量を含む。
さらに、RULERは、コンテキストからの検索以上の振る舞いをテストするために、新しいタスクカテゴリのマルチホップトレースとアグリゲーションを導入している。
我々はRULERにおける13のタスクを含む17の長文LMを評価した。
バニラNIAHテストでほぼ完全な精度を達成したにもかかわらず、ほとんどのモデルではコンテキスト長が増加するにつれて大きな性能低下を示す。
これらのモデルはすべて32Kトークン以上のコンテキストサイズを主張するが、32Kの長さで満足なパフォーマンスを維持することができるのは半分に過ぎない。
コンテクスト長200KのYi-34Bを解析した結果,入力長とタスクの複雑さが増大するにつれて,大きな改善の余地が明らかとなった。
我々はRULERをオープンソース化し、Long-context LMの包括的な評価を促進する。
The needle-in-a-haystack (NIAH) test, which examines the ability to retrieve a piece of information (the "needle") from long distractor texts (the "haystack"), has been widely adopted to evaluate long-context language models (LMs). However, this simple retrieval-based test is indicative of only a superficial form of long-context understanding. To provide a more comprehensive evaluation of long-context LMs, we create a new synthetic benchmark RULER with flexible configurations for customized sequence length and task complexity. RULER expands upon the vanilla NIAH test to encompass variations with diverse types and quantities of needles. Moreover, RULER introduces new task categories multi-hop tracing and aggregation to test behaviors beyond searching from context. We evaluate 17 long-context LMs with 13 representative tasks in RULER. Despite achieving nearly perfect accuracy in the vanilla NIAH test, almost all models exhibit large performance drops as the context length increases. While these models all claim context sizes of 32K tokens or greater, only half of them can maintain satisfactory performance at the length of 32K. Our analysis of Yi-34B, which supports context length of 200K, reveals large room for improvement as we increase input length and task complexity. We open source RULER to spur comprehensive evaluation of long-context LMs. | 翻訳日:2024-08-08 17:20:23 公開日:2024-08-06 |
# オンデバイス大規模言語モデルのためのパーソナライズされた協調的微調整
Personalized Collaborative Fine-Tuning for On-Device Large Language Models ( http://arxiv.org/abs/2404.09753v2 ) ライセンス: Link先を確認 | Nicolas Wagner, Dongyang Fan, Martin Jaggi, | (参考訳) ローカルデータ利用率に制限のある大規模言語モデルのデバイス上での自己教師型協調微調整について検討する。
協調学習コミュニティからインスピレーションを得て、重量類似度に基づく3つの信頼重み付き勾配集約スキーム、予測類似度に基づく1つの予測類似度に基づく2つの検証性能ベースのスキームを導入する。
通信オーバーヘッドを最小限に抑えるため、LoRA (Lo-Rank Adaptation) を統合し、LoRAの重み更新のみを交換する。
我々のプロトコルは予測と性能の指標によって駆動され、FedAvgと局所的な微調整手法の両方を超越しており、より多様なローカルデータ分布を持つ現実的なシナリオでは特に顕著である。
その結果,局所的なデータセットにおける不均一性と不足に対処する手法の有効性が示された。
We explore on-device self-supervised collaborative fine-tuning of large language models with limited local data availability. Taking inspiration from the collaborative learning community, we introduce three distinct trust-weighted gradient aggregation schemes: weight similarity-based, prediction similarity-based and validation performance-based. To minimize communication overhead, we integrate Low-Rank Adaptation (LoRA) and only exchange LoRA weight updates. Our protocols, driven by prediction and performance metrics, surpass both FedAvg and local fine-tuning methods, which is particularly evident in realistic scenarios with more diverse local data distributions. The results underscore the effectiveness of our approach in addressing heterogeneity and scarcity within local datasets. | 翻訳日:2024-08-08 15:25:48 公開日:2024-08-06 |
# カプセルネットワークプロジェクタは等価で不変な学習者
Capsule Network Projectors are Equivariant and Invariant Learners ( http://arxiv.org/abs/2405.14386v2 ) ライセンス: Link先を確認 | Miles Everett, Aiden Durrant, Mingjun Zhong, Georgios Leontidis, | (参考訳) 不変表現の学習は、自己教師あり学習における長年のアプローチである。
しかし、最近の進歩は表現における同変性を保存することであるが、高度に規定されたアーキテクチャではそうである。
本研究では,キャプセルネットワーク(Capsule Networks,CapsNets)を用いた,不変な自己教師型アーキテクチャを提案する。
等変自己教師型アーキテクチャにおけるCapsNetsの使用は、より効率が高く、ネットワークパラメータも少ない等変タスクにおけるダウンストリーム性能を向上させることを実証する。
CapsNetのアーキテクチャ変更に対応するために,エントロピー最小化に基づく新たな目的関数を導入する。
Capsule Invariant Equivariant Network(Capsule Invariant Equivariant Network)と呼ぶこのアプローチは、3DIEBenchデータセット上の不変および同変タスクに対して、従来の同変SSLメソッドと比較して、最先端のパフォーマンスを実現し、教師付きベースラインよりも優れています。
この結果から,CapsNetの大規模マルチタスクデータセットに対する複雑な汎用表現を,従来のCapsNetベンチマークと比較して学習できることが示唆された。
コードはhttps://github.com/AberdeenML/CapsIEで入手できる。
Learning invariant representations has been the longstanding approach to self-supervised learning. However, recently progress has been made in preserving equivariant properties in representations, yet do so with highly prescribed architectures. In this work, we propose an invariant-equivariant self-supervised architecture that employs Capsule Networks (CapsNets) which have been shown to capture equivariance with respect to novel viewpoints. We demonstrate that the use of CapsNets in equivariant self-supervised architectures achieves improved downstream performance on equivariant tasks with higher efficiency and fewer network parameters. To accommodate the architectural changes of CapsNets, we introduce a new objective function based on entropy minimisation. This approach which we name CapsIE (Capsule Invariant Equivariant Network) achieves state-of-the-art performance across invariant and equivariant tasks on the 3DIEBench dataset compared to prior equivariant SSL methods, while outperforming supervised baselines. Our results demonstrate the ability of CapsNets to learn complex and generalised representations for large-scale, multi-task datasets compared to previous CapsNet benchmarks. Code is available at https://github.com/AberdeenML/CapsIE. | 翻訳日:2024-08-08 15:15:51 公開日:2024-08-06 |
# フィルタコーパストレーニング(FiCT)は、言語モデルが間接的証拠から一般化可能であることを示す
Filtered Corpus Training (FiCT) Shows that Language Models can Generalize from Indirect Evidence ( http://arxiv.org/abs/2405.15750v2 ) ライセンス: Link先を確認 | Abhinav Patil, Jaap Jumelet, Yu Ying Chiu, Andy Lapastora, Peter Shen, Lexie Wang, Clevis Willrich, Shane Steinert-Threlkeld, | (参考訳) 本稿では,コーパス上の言語モデル(LM)を学習データから抽出した特定の言語構造を用いて訓練し,間接的証拠に基づく言語一般化を行うためのLMの能力を測定する方法であるフィルタコーパストレーニングを紹介する。
本手法をLSTMとTransformer LM(ほぼ同等の大きさ)に応用し,幅広い言語現象を対象とするフィルタコーパスを開発した。
以上の結果から,トランスフォーマーは(パープレキシティによって測定されるように)より優れた準LMでありながら,両モデルとも言語的一般化対策において等しく,驚くほど良好に機能し,間接的証拠から一般化できることが示唆された。
This paper introduces Filtered Corpus Training, a method that trains language models (LMs) on corpora with certain linguistic constructions filtered out from the training data, and uses it to measure the ability of LMs to perform linguistic generalization on the basis of indirect evidence. We apply the method to both LSTM and Transformer LMs (of roughly comparable size), developing filtered corpora that target a wide range of linguistic phenomena. Our results show that while transformers are better qua LMs (as measured by perplexity), both models perform equally and surprisingly well on linguistic generalization measures, suggesting that they are capable of generalizing from indirect evidence. | 翻訳日:2024-08-08 15:15:51 公開日:2024-08-06 |
# 大規模言語モデルを用いたAIによる科学オントロジー構築による次世代都市意思決定支援システムの実現に向けて -モーダル貨物輸送の最適化を事例として-
Towards Next-Generation Urban Decision Support Systems through AI-Powered Construction of Scientific Ontology using Large Language Models -- A Case in Optimizing Intermodal Freight Transportation ( http://arxiv.org/abs/2405.19255v2 ) ライセンス: Link先を確認 | Jose Tupayachi, Haowen Xu, Olufemi A. Omitaomu, Mustafa Can Camur, Aliza Sharmin, Xueping Li, | (参考訳) 人工知能(AI)モデルの様々な最適化システムへの組み入れが増加している。
しかし、複雑な都市と環境管理の問題に対処するには、通常、詳細なドメイン科学と情報学の専門知識が必要である。
この専門知識は、情報決定支援のためのデータとシミュレーション駆動の導出に不可欠である。
本稿では,事前学習されたLarge Language Models (LLMs) を活用する可能性について検討する。
推論コアとしてChatGPT APIを採用することで、自然言語処理、メソノロジーベースのプロンプトチューニング、トランスフォーマーを含む統合ワークフローを概説する。
このワークフローは、既存の研究論文と都市データセットとシミュレーションの技術マニュアルを使用してシナリオベースのオントロジーの作成を自動化する。
我々の方法論の成果は、広く採用されているオントロジー言語(例えば、OWL、RDF、SPARQL)の知識グラフである。
これらは、データとメタデータモデリングの強化、複雑なデータセットの統合、マルチドメインシミュレーションモデルの結合、意思決定メトリクスとワークフローの定式化による都市意思決定支援システムの開発を促進する。
提案手法の有効性は,一般的なオントロジーソフトウェア(例: prot\'eg\'e)のチュートリアルでよく使われているピザオントロジーと,AI生成したオントロジーを並置する比較分析によって評価される。
我々は,様々なドメインデータのアンソロジーを生成し,情報意思決定を支援することで,マルチモーダル貨物輸送の複雑な都市システムを最適化する実世界のケーススタディに近づいた。
The incorporation of Artificial Intelligence (AI) models into various optimization systems is on the rise. Yet, addressing complex urban and environmental management problems normally requires in-depth domain science and informatics expertise. This expertise is essential for deriving data and simulation-driven for informed decision support. In this context, we investigate the potential of leveraging the pre-trained Large Language Models (LLMs). By adopting ChatGPT API as the reasoning core, we outline an integrated workflow that encompasses natural language processing, methontology-based prompt tuning, and transformers. This workflow automates the creation of scenario-based ontology using existing research articles and technical manuals of urban datasets and simulations. The outcomes of our methodology are knowledge graphs in widely adopted ontology languages (e.g., OWL, RDF, SPARQL). These facilitate the development of urban decision support systems by enhancing the data and metadata modeling, the integration of complex datasets, the coupling of multi-domain simulation models, and the formulation of decision-making metrics and workflow. The feasibility of our methodology is evaluated through a comparative analysis that juxtaposes our AI-generated ontology with the well-known Pizza Ontology employed in tutorials for popular ontology software (e.g., prot\'eg\'e). We close with a real-world case study of optimizing the complex urban system of multi-modal freight transportation by generating anthologies of various domain data and simulations to support informed decision-making. | 翻訳日:2024-08-08 15:15:51 公開日:2024-08-06 |
# 都市デジタル双生児のための生成AIを活用する:スマートシティ向上のための都市データ、シナリオ、デザイン、および3D都市モデルの自動生成に関するスコープレビュー
Leveraging Generative AI for Urban Digital Twins: A Scoping Review on the Autonomous Generation of Urban Data, Scenarios, Designs, and 3D City Models for Smart City Advancement ( http://arxiv.org/abs/2405.19464v2 ) ライセンス: Link先を確認 | Haowen Xu, Femi Omitaomu, Soheil Sabri, Sisi Zlatanova, Xiao Li, Yongze Song, | (参考訳) 先進的な情報、コミュニケーション、およびコンピューティング技術を統合することで、現代の都市のデジタルトランスフォーメーションは、効率的で持続可能な都市管理のためのデータ駆動型スマートシティアプリケーションの時代を象徴している。
それらの効果にもかかわらず、これらのアプリケーションは、異なる都市サブシステムを監視し、特徴付けるために、大量の高次元およびマルチドメインデータに頼り、データ品質と可用性によって制限されたアプリケーション領域における課題を示し、また、都市シナリオの生成や代替案の設計にコストがかかる。
ディープラーニングの新たな研究領域として、生成人工知能(AI)モデルは、データとコード生成における独自の価値を実証している。
本稿では, 交通・移動管理, エネルギーシステム運用, 建築・インフラ管理, 都市デザインなど, 都市部におけるスマートシティの領域における課題に対処するために, 生成型AI技術と都市デジタルツインの革新的な統合を検討することを目的とする。
調査は、一般的な生成AIモデルとその応用分野の導入から始まり、続いて、生成AI技術の自律的能力を活用した既存の都市科学応用の構造化されたレビューで始まった。
(a)都市モニタリングと予測分析を促進するためのデータ拡張
b) 合成データ及びシナリオ生成
(c)自動3D都市モデリング、及び
(d)都市デザインと最適化の創出。
このレビューに基づいて、スマートシティのより信頼性が高く、スケーラブルで、自動化された管理のために、生成可能なAIモデルを次世代の都市デジタルツインに統合する潜在的な機会と技術的戦略について論じる。
The digital transformation of modern cities by integrating advanced information, communication, and computing technologies has marked the epoch of data-driven smart city applications for efficient and sustainable urban management. Despite their effectiveness, these applications often rely on massive amounts of high-dimensional and multi-domain data for monitoring and characterizing different urban sub-systems, presenting challenges in application areas that are limited by data quality and availability, as well as costly efforts for generating urban scenarios and design alternatives. As an emerging research area in deep learning, Generative Artificial Intelligence (AI) models have demonstrated their unique values in data and code generation. This survey paper aims to explore the innovative integration of generative AI techniques and urban digital twins to address challenges in the realm of smart cities in various urban sectors, such as transportation and mobility management, energy system operations, building and infrastructure management, and urban design. The survey starts with the introduction of popular generative AI models with their application areas, followed by a structured review of the existing urban science applications that leverage the autonomous capability of the generative AI techniques to facilitate (a) data augmentation for promoting urban monitoring and predictive analytics, (b) synthetic data and scenario generation, (c) automated 3D city modeling, and (d) generative urban design and optimization. Based on the review, this survey discusses potential opportunities and technical strategies that integrate generative AI models into the next-generation urban digital twins for more reliable, scalable, and automated management of smart cities. | 翻訳日:2024-08-08 15:15:51 公開日:2024-08-06 |
# バイラテラル誘導放射場処理
Bilateral Guided Radiance Field Processing ( http://arxiv.org/abs/2406.00448v2 ) ライセンス: Link先を確認 | Yuehao Wang, Chaoyi Wang, Bingchen Gong, Tianfan Xue, | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は,複数視点の整合性を利用した新規ビュー合成において,前例のない性能を達成する。
複数の入力をキャプチャすると、現代のカメラにおける画像信号処理(ISP)は、露光調整、色補正、局所トーンマッピングなど、独立してそれを強化する。
これらの処理は画像品質を大幅に改善するが、多視点整合性の仮定を破り、再構成された放射場における「浮動小数点」につながることが多い。
視覚美学を損なうことなくこの問題に対処するため,まずNeRFトレーニング段階においてISPによる拡張を解消し,最終段階において再構成された放射場に対するユーザ希望の強化を再度適用することを目的としている。
さらに、新しいビュー間で再適用された拡張を一貫性を持たせるためには、3D空間(すなわち「3D ISP」)で画像信号処理を行う必要がある。
この目的のために、ISP処理の一般化表現として、ローカルアフィンモデルである双方向グリッドを採用する。
具体的には、各入力ビューに対するカメラパイプラインの効果を近似するために、放射場を用いたビューごとの3次元グリッドを最適化する。
ユーザが調整可能な3Dフィニッシュを実現するために,1つのビューの編集から低ランクの4Dグリッドを学習し,画像の強化を3Dシーン全体に引き上げることを提案する。
提案手法は,フロータを効果的に除去し,ユーザリタッチによる拡張を行うことにより,新規ビュー合成の視覚的品質を向上させることができることを示す。
ソースコードとデータについては、https://bilarfpro.github.io.com/pc/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s
Neural Radiance Fields (NeRF) achieves unprecedented performance in synthesizing novel view synthesis, utilizing multi-view consistency. When capturing multiple inputs, image signal processing (ISP) in modern cameras will independently enhance them, including exposure adjustment, color correction, local tone mapping, etc. While these processings greatly improve image quality, they often break the multi-view consistency assumption, leading to "floaters" in the reconstructed radiance fields. To address this concern without compromising visual aesthetics, we aim to first disentangle the enhancement by ISP at the NeRF training stage and re-apply user-desired enhancements to the reconstructed radiance fields at the finishing stage. Furthermore, to make the re-applied enhancements consistent between novel views, we need to perform imaging signal processing in 3D space (i.e. "3D ISP"). For this goal, we adopt the bilateral grid, a locally-affine model, as a generalized representation of ISP processing. Specifically, we optimize per-view 3D bilateral grids with radiance fields to approximate the effects of camera pipelines for each input view. To achieve user-adjustable 3D finishing, we propose to learn a low-rank 4D bilateral grid from a given single view edit, lifting photo enhancements to the whole 3D scene. We demonstrate our approach can boost the visual quality of novel view synthesis by effectively removing floaters and performing enhancements from user retouching. The source code and our data are available at: https://bilarfpro.github.io. | 翻訳日:2024-08-08 15:15:51 公開日:2024-08-06 |
# コード生成時に大規模言語モデルはどこに機能しないのか?
Where Do Large Language Models Fail When Generating Code? ( http://arxiv.org/abs/2406.08731v2 ) ライセンス: Link先を確認 | Zhijie Wang, Zijie Zhou, Da Song, Yuheng Huang, Shengmai Chen, Lei Ma, Tianyi Zhang, | (参考訳) 大規模言語モデル(LLM)はコード生成に大きな可能性を示しています。
しかし、現在のLLMは正しいコードを確実に生成することはできない。
さらに、LLMがどのようなコード生成エラーを発生させるのかは不明だ。
そこで我々は,HumanEvalデータセット上で6つのLLMが生成した誤りコードスニペットを解析するための実証的研究を行った。
我々はこれらの誤りを2次元の誤り特性(意味的特徴と統語的特徴)とともに解析し、オープンコーディングとセマンティック解析によりLLMの包括的なコード生成エラー分類を導出する。
そして、この分類に基づいて、すべての57の間違ったコードスニペットをラベル付けしました。
その結果,6つのLSMは,意味的特徴の分布が異なるが,構文的特徴の分布が類似していることが判明した。
さらに,タスクの複雑度,コード長,テストパス率など,異なるエラー特性と要因の相関関係を解析した。
最後に、LLMがコード生成時に直面する課題を強調し、LLMによる信頼性のあるコード生成に関する今後の研究について提案する。
Large Language Models (LLMs) have shown great potential in code generation. However, current LLMs still cannot reliably generate correct code. Moreover, it is unclear what kinds of code generation errors LLMs can make. To address this, we conducted an empirical study to analyze incorrect code snippets generated by six popular LLMs on the HumanEval dataset. We analyzed these errors alongside two dimensions of error characteristics -- semantic characteristics and syntactic characteristics -- to derive a comprehensive code generation error taxonomy for LLMs through open coding and thematic analysis. We then labeled all 557 incorrect code snippets based on this taxonomy. Our results showed that the six LLMs exhibited similar distributions of syntactic characteristics while different distributions of semantic characteristics. Furthermore, we analyzed the correlation between different error characteristics and factors such as task complexity, code length, and test-pass rate. Finally, we highlight the challenges that LLMs may encounter when generating code and propose implications for future research on reliable code generation with LLMs. | 翻訳日:2024-08-08 15:15:51 公開日:2024-08-06 |
# SeamPose:アッパー・ボディ・ポーズ・トラッキング用のキャパシティ・センサー
SeamPose: Repurposing Seams as Capacitive Sensors in a Shirt for Upper-Body Pose Tracking ( http://arxiv.org/abs/2406.11645v2 ) ライセンス: Link先を確認 | Tianhong Catherine Yu, Manru Mary Zhang, Peter He, Chi-Jung Lee, Cassidy Cheesman, Saif Mahmud, Ruidong Zhang, François Guimbretière, Cheng Zhang, | (参考訳) シーム(英: Seam)は、カット・アンド・サブアパレル製造工程において、2つ以上の生地を縫合して形成された重なり合う生地の領域である。
SeamPoseでは,上半身ポーズの連続推定のためのシャツの容量センサとしてシームを再利用した。
従来のオールテキスタイルのモーションキャプチャー服と比較して、われわれのソリューションは既存のシームをシャツの内側に縫い付けることで、シームの上に絶縁導電性糸を縫い付ける。
シームの独特な不透明さと配置により、感覚シャツは従来のシャツと同様の外観と着用が可能となり、エキサイティングなポーズトラッキング機能を提供している。
提案手法を実証するために,8つの静電容量センシングシームを用いた概念実証アンテザードシャツを実装した。
12名の被験者を対象に, 骨盤上3次元関節位置の相対的(骨盤上)を, 平均関節位置誤差6.0cmで正確に推定した。
SeamPoseは、毎日のポーズ推定のためのスマートウェアの邪魔にならない統合への一歩だ。
Seams are areas of overlapping fabric formed by stitching two or more pieces of fabric together in the cut-and-sew apparel manufacturing process. In SeamPose, we repurposed seams as capacitive sensors in a shirt for continuous upper-body pose estimation. Compared to previous all-textile motion-capturing garments that place the electrodes on the clothing surface, our solution leverages existing seams inside of a shirt by machine-sewing insulated conductive threads over the seams. The unique invisibilities and placements of the seams afford the sensing shirt to look and wear similarly as a conventional shirt while providing exciting pose-tracking capabilities. To validate this approach, we implemented a proof-of-concept untethered shirt with 8 capacitive sensing seams. With a 12-participant user study, our customized deep-learning pipeline accurately estimates the relative (to the pelvis) upper-body 3D joint positions with a mean per joint position error (MPJPE) of 6.0 cm. SeamPose represents a step towards unobtrusive integration of smart clothing for everyday pose estimation. | 翻訳日:2024-08-08 15:15:51 公開日:2024-08-06 |
# ネモトロン4-340B技術報告
Nemotron-4 340B Technical Report ( http://arxiv.org/abs/2406.11704v2 ) ライセンス: Link先を確認 | Nvidia, :, Bo Adler, Niket Agarwal, Ashwath Aithal, Dong H. Anh, Pallab Bhattacharya, Annika Brundyn, Jared Casper, Bryan Catanzaro, Sharon Clay, Jonathan Cohen, Sirshak Das, Ayush Dattagupta, Olivier Delalleau, Leon Derczynski, Yi Dong, Daniel Egert, Ellie Evans, Aleksander Ficek, Denys Fridman, Shaona Ghosh, Boris Ginsburg, Igor Gitman, Tomasz Grzegorzek, Robert Hero, Jining Huang, Vibhu Jawa, Joseph Jennings, Aastha Jhunjhunwala, John Kamalu, Sadaf Khan, Oleksii Kuchaiev, Patrick LeGresley, Hui Li, Jiwei Liu, Zihan Liu, Eileen Long, Ameya Sunil Mahabaleshwarkar, Somshubra Majumdar, James Maki, Miguel Martinez, Maer Rodrigues de Melo, Ivan Moshkov, Deepak Narayanan, Sean Narenthiran, Jesus Navarro, Phong Nguyen, Osvald Nitski, Vahid Noroozi, Guruprasad Nutheti, Christopher Parisien, Jupinder Parmar, Mostofa Patwary, Krzysztof Pawelec, Wei Ping, Shrimai Prabhumoye, Rajarshi Roy, Trisha Saar, Vasanth Rao Naik Sabavat, Sanjeev Satheesh, Jane Polak Scowcroft, Jason Sewall, Pavel Shamis, Gerald Shen, Mohammad Shoeybi, Dave Sizer, Misha Smelyanskiy, Felipe Soares, Makesh Narsimhan Sreedhar, Dan Su, Sandeep Subramanian, Shengyang Sun, Shubham Toshniwal, Hao Wang, Zhilin Wang, Jiaxuan You, Jiaqi Zeng, Jimmy Zhang, Jing Zhang, Vivienne Zhang, Yian Zhang, Chen Zhu, | (参考訳) 我々はNemotron-4-340B-Base、Nemotron-4-340B-Instruct、Nemotron-4-340B-Rewardを含むNemotron-4 340Bモデルファミリーをリリースする。
私たちのモデルは、モデルとその出力の配布、修正、使用を可能にする寛容なモデルライセンスであるNVIDIA Open Model License Agreementの下でオープンアクセスされています。
これらのモデルは、幅広い評価ベンチマークでオープンアクセスモデルと競合して動作し、FP8の精度でデプロイされた場合、単一のDGX H100に8GPUで適合するようにサイズが設定された。
コミュニティは、様々な研究研究や商業的応用において、特により小さな言語モデルを訓練するための合成データの生成において、これらのモデルの恩恵を受けることができると信じている。
特に、我々のモデルアライメントプロセスで使用されるデータの98%以上が合成され、合成データの生成におけるこれらのモデルの有効性が示される。
オープンな研究をさらに支援し、モデル開発を促進するため、我々はモデルアライメントプロセスで使用される合成データ生成パイプラインをオープンソース化しています。
We release the Nemotron-4 340B model family, including Nemotron-4-340B-Base, Nemotron-4-340B-Instruct, and Nemotron-4-340B-Reward. Our models are open access under the NVIDIA Open Model License Agreement, a permissive model license that allows distribution, modification, and use of the models and its outputs. These models perform competitively to open access models on a wide range of evaluation benchmarks, and were sized to fit on a single DGX H100 with 8 GPUs when deployed in FP8 precision. We believe that the community can benefit from these models in various research studies and commercial applications, especially for generating synthetic data to train smaller language models. Notably, over 98% of data used in our model alignment process is synthetically generated, showcasing the effectiveness of these models in generating synthetic data. To further support open research and facilitate model development, we are also open-sourcing the synthetic data generation pipeline used in our model alignment process. | 翻訳日:2024-08-08 15:15:51 公開日:2024-08-06 |
# LLMの算術的推論を誘発する起因性連鎖を説明できる統一レンズとしてのニューロン活性化の検討
An Investigation of Neuron Activation as a Unified Lens to Explain Chain-of-Thought Eliciting Arithmetic Reasoning of LLMs ( http://arxiv.org/abs/2406.12288v2 ) ライセンス: Link先を確認 | Daking Rai, Ziyu Yao, | (参考訳) 大規模言語モデル(LLM)は、Chain-of-Thought(CoT)プロンプトによって引き起こされた強い算術的推論能力を示している。
しかし、LLMによってどのように処理されるかは限定的な理解しか得られない。
CoTプロンプトの異なるコンポーネントを非難し、その結果のLCMパフォーマンスの変化を経験的に観察することに焦点を当てていた。
しかし、これらのコンポーネントがLSM推論において重要である理由は明らかにされていない。
このギャップを埋めるために、本稿では、先行研究による観察を統一的に説明するために、レンズとしての「ニューロン活性化」について検討する。
具体的には、Llama2を例として、LLMのフィードフォワード層内のニューロンについて、算術的推論能力を活性化させた可能性があることを考察する。
本研究は,GPT-4に基づく,推論を算術的に意味するニューロンを自動同定する手法を提案する。
解析の結果、LLMのフィードフォワード層における推論ニューロンの活性化は、CoTプロンプトにおける様々な成分の重要性を説明でき、今後の研究は、より完全な理解のためにそれを拡張できることが判明した。
Large language models (LLMs) have shown strong arithmetic reasoning capabilities when prompted with Chain-of-Thought (CoT) prompts. However, we have only a limited understanding of how they are processed by LLMs. To demystify it, prior work has primarily focused on ablating different components in the CoT prompt and empirically observing their resulting LLM performance change. Yet, the reason why these components are important to LLM reasoning is not explored. To fill this gap, in this work, we investigate ``neuron activation'' as a lens to provide a unified explanation to observations made by prior work. Specifically, we look into neurons within the feed-forward layers of LLMs that may have activated their arithmetic reasoning capabilities, using Llama2 as an example. To facilitate this investigation, we also propose an approach based on GPT-4 to automatically identify neurons that imply arithmetic reasoning. Our analyses revealed that the activation of reasoning neurons in the feed-forward layers of an LLM can explain the importance of various components in a CoT prompt, and future research can extend it for a more complete understanding. | 翻訳日:2024-08-08 15:05:56 公開日:2024-08-06 |
# 自動およびモデルに依存しないルール抽出による地域説明可能性の実現
Enabling Regional Explainability by Automatic and Model-agnostic Rule Extraction ( http://arxiv.org/abs/2406.17885v2 ) ライセンス: Link先を確認 | Yu Chen, Tianyu Cui, Alexander Capstick, Nan Fletcher-Loyd, Payam Barnaghi, | (参考訳) 説明可能なAIでは、ルール抽出はモデル知識をIF-THEN文のような論理ルールに変換する。
これは、疾患の診断、疾患の進行予測、薬物発見などの分野に大きく貢献する可能性がある。
しかしながら、そのようなアプリケーションドメインは、しばしば不均衡なデータを含み、関心のクラスが不足している。
既存のメソッドは、パフォーマンスを最大化するために、必然的にマイナークラスのルールのパフォーマンスを損なう。
この分野での最初の試みとして、数値特徴量の自動ルール生成を特徴とする、特定のサブグループからルールを抽出するモデルに依存しない手法を提案する。
本手法は,機械学習モデルの局所的説明可能性を高め,既存手法と比較して広い適用性を提供する。
また,高次元空間における計算コストを削減し,規則を構成する特徴を選択する新しい手法を提案する。
各種データセットおよびモデルを用いた実験により,本手法の有効性が示された。
In Explainable AI, rule extraction translates model knowledge into logical rules, such as IF-THEN statements, crucial for understanding patterns learned by black-box models. This could significantly aid in fields like disease diagnosis, disease progression estimation, or drug discovery. However, such application domains often contain imbalanced data, with the class of interest underrepresented. Existing methods inevitably compromise the performance of rules for the minor class to maximise the overall performance. As the first attempt in this field, we propose a model-agnostic approach for extracting rules from specific subgroups of data, featuring automatic rule generation for numerical features. This method enhances the regional explainability of machine learning models and offers wider applicability compared to existing methods. We additionally introduce a new method for selecting features to compose rules, reducing computational costs in high-dimensional spaces. Experiments across various datasets and models demonstrate the effectiveness of our methods. | 翻訳日:2024-08-08 15:05:56 公開日:2024-08-06 |
# INSIGHT: 自己回帰変換器を損なうアナログ回路用ユニバーサルニューラルネットワークシミュレータ
INSIGHT: Universal Neural Simulator for Analog Circuits Harnessing Autoregressive Transformers ( http://arxiv.org/abs/2407.07346v3 ) ライセンス: Link先を確認 | Souradip Poddar, Youngmin Oh, Yao Lai, Hanqing Zhu, Bosun Hwang, David Z. Pan, | (参考訳) アナログフロントエンドの設計は、専門的な人間の専門知識とコストのかかる試行錯誤シミュレーションに大きく依存しており、アナログ設計の自動化に関する多くの先行研究を動機付けている。
しかし、広範かつ複雑な設計空間の効率的かつ効果的な探索は、SPICEシミュレーションの時間のかかる性質に制約され続けており、効率的な設計自動化は困難である。
本稿では、アナログフロントエンド設計自動化ループにおいて、GPUを用いた、技術に依存しない、効果的なユニバーサルニューラルネットワークシミュレータであるINSIGHTを紹介する。
INSIGHTは数マイクロ秒の推論時間でアナログ回路の性能を正確に予測する。
特に、その自動回帰機能により、INSIGHTはコストの低いパフォーマンスメトリック情報を活用するために、シミュレーションコストのかかる一時的な仕様を正確に予測することができる。
低コストで高忠実な機能により、INSIGHTはアナログフロントエンド最適化フレームワークにおける標準シミュレータの代替となる。
INSIGHTは任意の最適化フレームワークと互換性があり、洗練されたオフライン学習と適応技術を通じて、サンプル効率のための設計空間の探索を容易にする。
実験の結果,INSIGHT-Mは,100~1000倍のシミュレーションコストと既存のサイズ法よりも大幅に高速化された20個のリアルタイムシミュレーションしか必要としないことがわかった。
Analog front-end design heavily relies on specialized human expertise and costly trial-and-error simulations, which motivated many prior works on analog design automation. However, efficient and effective exploration of the vast and complex design space remains constrained by the time-consuming nature of SPICE simulations, making effective design automation a challenging endeavor. In this paper, we introduce INSIGHT, a GPU-powered, technology-agnostic, effective universal neural simulator in the analog front-end design automation loop. INSIGHT accurately predicts the performance metrics of analog circuits across various technologies with just a few microseconds of inference time. Notably, its autoregressive capabilities enable INSIGHT to accurately predict simulation-costly critical transient specifications leveraging less expensive performance metric information. The low cost and high fidelity feature make INSIGHT a good substitute for standard simulators in analog front-end optimization frameworks. INSIGHT is compatible with any optimization framework, facilitating enhanced design space exploration for sample efficiency through sophisticated offline learning and adaptation techniques. Our experiments demonstrate that INSIGHT-M, a model-based batch reinforcement learning sizing framework with INSIGHT as the accurate surrogate, only requires < 20 real-time simulations with 100-1000x lower simulation costs and significant speedup over existing sizing methods. | 翻訳日:2024-08-08 15:05:56 公開日:2024-08-06 |
# GP-VLS:手術のための汎用視覚言語モデル
GP-VLS: A general-purpose vision language model for surgery ( http://arxiv.org/abs/2407.19305v2 ) ライセンス: Link先を確認 | Samuel Schmidgall, Joseph Cho, Cyril Zakka, William Hiesinger, | (参考訳) 手術には包括的医療知識、視覚的評価スキル、手続き的専門知識が必要である。
最近の外科的AIモデルは、タスク固有の問題を解決することに重点を置いているが、手術シーンを理解し、自然言語を介して対話できる汎用システムが必要である。
本稿では,医用および外科用知識と視覚的シーン理解を統合した汎用視覚言語モデルGP-VLSを紹介する。
汎用的な手術モデルを総合的に評価するために,医学的および外科的知識ベンチマークおよび外科的視覚言語質問に対する評価を行うSurgiQualを提案する。
GP-VLSを訓練するために, 位相認識やツール識別といったタスクに対して, 医療知識, 外科用教科書, 視覚言語対にまたがる6つの新しいデータセットを開発した。
GP-VLSは外科的視覚言語タスクにおける既存のオープンソースモデルやクローズドソースモデルよりも有意に優れており,SurgiQualベンチマークの精度は8~21%向上している。
GP-VLSは、オープンソースの代替技術と比較して、医学的および外科的知識テストに強い性能を示す。
GP-VLSは、幅広いタスクやシナリオで外科医をサポートするAIアシスタントを開発するための、オープンソース基盤を提供する。
この研究のコードとデータはgpvls-surgery-vlm.github.ioで公開されている。
Surgery requires comprehensive medical knowledge, visual assessment skills, and procedural expertise. While recent surgical AI models have focused on solving task-specific problems, there is a need for general-purpose systems that can understand surgical scenes and interact through natural language. This paper introduces GP-VLS, a general-purpose vision language model for surgery that integrates medical and surgical knowledge with visual scene understanding. For comprehensively evaluating general-purpose surgical models, we propose SurgiQual, which evaluates across medical and surgical knowledge benchmarks as well as surgical vision-language questions. To train GP-VLS, we develop six new datasets spanning medical knowledge, surgical textbooks, and vision-language pairs for tasks like phase recognition and tool identification. We show that GP-VLS significantly outperforms existing open- and closed-source models on surgical vision-language tasks, with 8-21% improvements in accuracy across SurgiQual benchmarks. GP-VLS also demonstrates strong performance on medical and surgical knowledge tests compared to open-source alternatives. Overall, GP-VLS provides an open-source foundation for developing AI assistants to support surgeons across a wide range of tasks and scenarios. The code and data for this work is publicly available at gpvls-surgery-vlm.github.io. | 翻訳日:2024-08-08 14:56:01 公開日:2024-08-06 |
# 先進的な対人学習のランク付けのための実践的かつロバストな安全保証
Practical and Robust Safety Guarantees for Advanced Counterfactual Learning to Rank ( http://arxiv.org/abs/2407.19943v2 ) ライセンス: Link先を確認 | Shashank Gupta, Harrie Oosterhuis, Maarten de Rijke, | (参考訳) CLTR(Counterfactual Learning to rank)はリスクがあり、様々な状況において、デプロイ時のパフォーマンスを損なう準最適モデルを生成することができる。
位置バイアスの補正に逆相対性スコアを用いた場合,これらのリスクを軽減するために安全CLTRを導入した。
しかし、CLTRの既存の安全対策は最先端のCLTR手法には適用されず、信頼バイアスに対処できず、ユーザの行動に関する特定の仮定に依存している。
私たちの貢献は2倍です。
まず、既存の安全CLTRアプローチを一般化し、最先端の2倍頑健なCLTRと信頼バイアスに適用する。
第2に,ユーザ行動に関する仮定を伴わずにデプロイの安全性を提供するPRPO(proximal ranking Policy Optimization)を提案する。
PRPOは、安全なランキングモデルとは相容れないランキング行動を学ぶためのインセンティブを取り除きます。
これにより、PRPOは、特定のユーザの仮定に頼ることなく、学習したモデルがパフォーマンスメトリクスをどれだけ劣化させるかに制限を課す。
提案手法とPRPOは, 従来の安全逆正則スコアリング手法よりも高い性能を示すことを示す。
しかし、予期せぬ状況下では、安全で二重に堅牢なアプローチは安全ではなく、有害なパフォーマンスをもたらす可能性がある。
対照的に、PRPOは常に安全を維持している。
PRPOは仮定を避けることで、デプロイにおいて無条件の安全性を持つ最初の方法であり、現実のアプリケーションにとって堅牢な安全性をもたらす。
Counterfactual learning to rank (CLTR) can be risky and, in various circumstances, can produce sub-optimal models that hurt performance when deployed. Safe CLTR was introduced to mitigate these risks when using inverse propensity scoring to correct for position bias. However, the existing safety measure for CLTR is not applicable to state-of-the-art CLTR methods, cannot handle trust bias, and relies on specific assumptions about user behavior. Our contributions are two-fold. First, we generalize the existing safe CLTR approach to make it applicable to state-of-the-art doubly robust CLTR and trust bias. Second, we propose a novel approach, proximal ranking policy optimization (PRPO), that provides safety in deployment without assumptions about user behavior. PRPO removes incentives for learning ranking behavior that is too dissimilar to a safe ranking model. Thereby, PRPO imposes a limit on how much learned models can degrade performance metrics, without relying on any specific user assumptions. Our experiments show that both our novel safe doubly robust method and PRPO provide higher performance than the existing safe inverse propensity scoring approach. However, in unexpected circumstances, the safe doubly robust approach can become unsafe and bring detrimental performance. In contrast, PRPO always maintains safety, even in maximally adversarial situations. By avoiding assumptions, PRPO is the first method with unconditional safety in deployment that translates to robust safety for real-world applications. | 翻訳日:2024-08-08 14:56:01 公開日:2024-08-06 |
# 視覚的深度検出と位置推定のための文脈的クロスモーダルアテンション
Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization ( http://arxiv.org/abs/2408.01532v2 ) ライセンス: Link先を確認 | Vinaya Sree Katamneni, Ajita Rattani, | (参考訳) デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
現在のマルチモーダルディープフェイク検出器は、注意に基づく複数のモーダルからの異種データストリームの融合に基づいていることが多い。
しかし、データ(音声や視覚信号など)の異種性は、分散モダリティのギャップを生じさせ、効果的な融合やマルチモーダルディープフェイク検出において重要な課題を生じさせる。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
提案手法はマルチモーダルなマルチシーケンス表現に注意を払い、深度検出と局所化に寄与する特徴を学習する。
FakeAVCeleb, AV-Deepfake1M, TVIL, LAV-DFといったオーディオ・ビジュアルディープフェイク・データセットに対する実験的検証を行い, 本手法の有効性を実証した。
本研究との相互比較により, 深度検出と局所化の精度が3.47%, 精度が2.05%向上した。
したがって、最先端のパフォーマンスを得る。
再現性を促進するため、コードとデータセット情報はhttps://github.com/vcbsl/audiovisual-deepfake/で公開されている。
In the digital age, the emergence of deepfakes and synthetic media presents a significant threat to societal and political integrity. Deepfakes based on multi-modal manipulation, such as audio-visual, are more realistic and pose a greater threat. Current multi-modal deepfake detectors are often based on the attention-based fusion of heterogeneous data streams from multiple modalities. However, the heterogeneous nature of the data (such as audio and visual signals) creates a distributional modality gap and poses a significant challenge in effective fusion and hence multi-modal deepfake detection. In this paper, we propose a novel multi-modal attention framework based on recurrent neural networks (RNNs) that leverages contextual information for audio-visual deepfake detection. The proposed approach applies attention to multi-modal multi-sequence representations and learns the contributing features among them for deepfake detection and localization. Thorough experimental validations on audio-visual deepfake datasets, namely FakeAVCeleb, AV-Deepfake1M, TVIL, and LAV-DF datasets, demonstrate the efficacy of our approach. Cross-comparison with the published studies demonstrates superior performance of our approach with an improved accuracy and precision by 3.47% and 2.05% in deepfake detection and localization, respectively. Thus, obtaining state-of-the-art performance. To facilitate reproducibility, the code and the datasets information is available at https://github.com/vcbsl/audiovisual-deepfake/. | 翻訳日:2024-08-08 14:46:00 公開日:2024-08-06 |
# 巨大アンサンブル その1:球状フーリエニューラル演算子を用いたアンサンブル気象予報の設計
Huge Ensembles Part I: Design of Ensemble Weather Forecasts using Spherical Fourier Neural Operators ( http://arxiv.org/abs/2408.03100v1 ) ライセンス: Link先を確認 | Ankur Mahesh, William Collins, Boris Bonev, Noah Brenowitz, Yair Cohen, Joshua Elms, Peter Harrington, Karthik Kashinath, Thorsten Kurth, Joshua North, Travis OBrien, Michael Pritchard, David Pruitt, Mark Risser, Shashank Subramanian, Jared Willard, | (参考訳) 温暖化社会における低濃度の高影響極端気象現象の研究は、現在のアンサンブル予測システムにとって重要かつ困難な課題である。
現在、これらのシステムでは最大100人のメンバーが使用されているが、より大きなアンサンブルは内部変動のサンプリングを豊かにする可能性がある。
彼らは、伝統的なアンサンブルサイズよりも、気候の危険にかかわる長い尾を捕獲するかもしれない。
計算上の制約のため、従来の物理学に基づく数値モデルで巨大なアンサンブル(1,000-10,000のメンバーからなる)を生成することは不可能である。
本稿では,従来の数値シミュレーションを機械学習(ML)に置き換え,巨大なアンサンブルの隠れキャストを生成する。
第1部では、球状フーリエニューラル演算子(SFNO)に基づくアンサンブル天気予報システムを構築し、そのようなアンサンブルを構築する上で重要な設計決定について論じる。
アンサンブルは摂動パラメータ法によるモデル不確実性を表現し、ブレッドベクトルによる初期状態不確実性を表現し、予測の最も速い成長モードをサンプリングする。
中距離気象予報統合予測システム (IFS) をベースラインとして, 平均, スペクトル, 極端診断からなる評価パイプラインを開発した。
1.10億の学習パラメータを持つ大規模分散SFNOを用いて、キャリブレーションされた確率予測を行う。
個々のメンバーの軌道が分岐するにつれて、MLアンサンブルの平均スペクトルは、物理的な期待と一致してリードタイムで劣化する。
しかし、個々のアンサンブルメンバーのスペクトルはリードタイムとともに一定である。
したがって、これらのメンバーは現実的な気象状態をシミュレートし、MLアンサンブルは文学において重要なスペクトルテストに合格する。
IFS と ML のアンサンブルは Extreme Forecast Indices と似ている。
Studying low-likelihood high-impact extreme weather events in a warming world is a significant and challenging task for current ensemble forecasting systems. While these systems presently use up to 100 members, larger ensembles could enrich the sampling of internal variability. They may capture the long tails associated with climate hazards better than traditional ensemble sizes. Due to computational constraints, it is infeasible to generate huge ensembles (comprised of 1,000-10,000 members) with traditional, physics-based numerical models. In this two-part paper, we replace traditional numerical simulations with machine learning (ML) to generate hindcasts of huge ensembles. In Part I, we construct an ensemble weather forecasting system based on Spherical Fourier Neural Operators (SFNO), and we discuss important design decisions for constructing such an ensemble. The ensemble represents model uncertainty through perturbed-parameter techniques, and it represents initial condition uncertainty through bred vectors, which sample the fastest growing modes of the forecast. Using the European Centre for Medium-Range Weather Forecasts Integrated Forecasting System (IFS) as a baseline, we develop an evaluation pipeline composed of mean, spectral, and extreme diagnostics. Using large-scale, distributed SFNOs with 1.1 billion learned parameters, we achieve calibrated probabilistic forecasts. As the trajectories of the individual members diverge, the ML ensemble mean spectra degrade with lead time, consistent with physical expectations. However, the individual ensemble members' spectra stay constant with lead time. Therefore, these members simulate realistic weather states, and the ML ensemble thus passes a crucial spectral test in the literature. The IFS and ML ensembles have similar Extreme Forecast Indices, and we show that the ML extreme weather forecasts are reliable and discriminating. | 翻訳日:2024-08-08 14:46:00 公開日:2024-08-06 |
# 拡散型雑音中心学習を用いたユーザ間活動認識のための対数領域適応法
Adversarial Domain Adaptation for Cross-user Activity Recognition Using Diffusion-based Noise-centred Learning ( http://arxiv.org/abs/2408.03353v1 ) ライセンス: Link先を確認 | Xiaozhou Ye, Kevin I-Kai Wang, | (参考訳) HAR(Human Activity Recognition)は、人間とコンピュータの相互作用や医療モニタリングなど、様々な用途において重要な役割を担っている。
しかし、HARモデルでは、トレーニングと実世界のデータ分散の違いにより、特にユーザ間のシナリオで顕著な課題が続いている。
本稿では,拡散に基づく雑音中心学習ドメイン適応(Diff-Noise-Adv-DA)と呼ばれる新しいフレームワークを提案する。
従来のHARモデルは、ユーザの振る舞いやセンサデータの分散の多様性に悩まされることが多い。
Diff-Noise-Adv-DAは、拡散モデルに固有のノイズを革新的に統合し、その潜伏情報を利用してドメイン適応を強化する。
具体的には、このフレームワークはノイズをアクティビティとドメインクラスの情報の重要なキャリアに変換し、異なるユーザドメイン間の堅牢な分類を容易にする。
Diff-Noise-Adv-DAが従来のドメイン適応手法を超越したHARモデルの性能向上に有効であることを実験的に評価した。
このフレームワークは、分散ミスマッチを緩和するだけでなく、ノイズベースの denoising 技術を通じてデータ品質を向上させる。
Human Activity Recognition (HAR) plays a crucial role in various applications such as human-computer interaction and healthcare monitoring. However, challenges persist in HAR models due to the data distribution differences between training and real-world data distributions, particularly evident in cross-user scenarios. This paper introduces a novel framework, termed Diffusion-based Noise-centered Adversarial Learning Domain Adaptation (Diff-Noise-Adv-DA), designed to address these challenges by leveraging generative diffusion modeling and adversarial learning techniques. Traditional HAR models often struggle with the diversity of user behaviors and sensor data distributions. Diff-Noise-Adv-DA innovatively integrates the inherent noise within diffusion models, harnessing its latent information to enhance domain adaptation. Specifically, the framework transforms noise into a critical carrier of activity and domain class information, facilitating robust classification across different user domains. Experimental evaluations demonstrate the effectiveness of Diff-Noise-Adv-DA in improving HAR model performance across different users, surpassing traditional domain adaptation methods. The framework not only mitigates distribution mismatches but also enhances data quality through noise-based denoising techniques. | 翻訳日:2024-08-08 14:36:13 公開日:2024-08-06 |
# サイバー犯罪フォーラムにおける大規模言語モデル(LLM)のサイバー脅威インテリジェンス(CTI)への応用
The Use of Large Language Models (LLM) for Cyber Threat Intelligence (CTI) in Cybercrime Forums ( http://arxiv.org/abs/2408.03354v1 ) ライセンス: Link先を確認 | Vanessa Clairoux-Trepanier, Isa-May Beauchamp, Estelle Ruellan, Masarah Paquet-Clouston, Serge-Olivier Paquette, Eric Clay, | (参考訳) 大規模言語モデル(LLM)は、サイバー犯罪フォーラムからサイバー脅威インテリジェンス(CTI)データを分析するために使用することができる。
しかし,これらの重要なタスクに対するLCMの精度と効率のレベルはまだ十分に評価されていない。
そこで本研究では,OpenAI GPT-3.5-turboモデル[7]上に構築したLCMシステムの精度を評価し,CTI情報を抽出する。
そこで,3つのサイバー犯罪フォーラム (XSS, Exploit.in, RAMP) から毎日500件の会話のランダムなサンプルを抽出し,LLMシステムを用いて,大規模組織や重要なインフラが対象であるかどうかなど,会話とコード10のCTI変数を要約するように指示した。
そして、2人のプログラマが会話をレビューし、LLMが抽出した情報が正確かどうかを評価した。
平均精度は98%であった。
LLMが物語と過去の出来事を区別するのを助けることや、プロンプトにおける動詞の時制に注意することなど、モデルを強化する様々な方法が明らかにされた。
それにもかかわらず、この研究の結果は、サイバー脅威インテリジェンスにLLMを使用することの効率性と妥当性を強調した。
Large language models (LLMs) can be used to analyze cyber threat intelligence (CTI) data from cybercrime forums, which contain extensive information and key discussions about emerging cyber threats. However, to date, the level of accuracy and efficiency of LLMs for such critical tasks has yet to be thoroughly evaluated. Hence, this study assesses the accuracy of an LLM system built on the OpenAI GPT-3.5-turbo model [7] to extract CTI information. To do so, a random sample of 500 daily conversations from three cybercrime forums, XSS, Exploit.in, and RAMP, was extracted, and the LLM system was instructed to summarize the conversations and code 10 key CTI variables, such as whether a large organization and/or a critical infrastructure is being targeted. Then, two coders reviewed each conversation and evaluated whether the information extracted by the LLM was accurate. The LLM system performed strikingly well, with an average accuracy score of 98%. Various ways to enhance the model were uncovered, such as the need to help the LLM distinguish between stories and past events, as well as being careful with verb tenses in prompts. Nevertheless, the results of this study highlight the efficiency and relevance of using LLMs for cyber threat intelligence. | 翻訳日:2024-08-08 14:36:13 公開日:2024-08-06 |
# FastEdit:Semantic-Aware Diffusion Fine-Tuningによる高速テキストガイドシングルイメージ編集
FastEdit: Fast Text-Guided Single-Image Editing via Semantic-Aware Diffusion Fine-Tuning ( http://arxiv.org/abs/2408.03355v1 ) ライセンス: Link先を確認 | Zhi Chen, Zecheng Zhao, Yadan Luo, Zi Huang, | (参考訳) 従来のテキスト誘導シングルイメージ編集アプローチでは、ターゲットテキストの埋め込みを1K以上のイテレーションで微調整し、さらに1.5Kのイテレーションで生成モデルを作成するという、2段階のプロセスが必要となる。
得られた画像が入力画像とターゲットテキストの両方と密接に一致していることを保証するが、このプロセスは1画像あたり7分を要することが多く、時間集約的な性質のため実用上の課題となる。
このボトルネックに対処するため,テキストガイドによる高速な単一画像編集手法であるFastEditを導入する。
FastEditは生成モデルの微調整フェーズを合理化し、1.5Kから50イテレーションに短縮する。
拡散微調整には,入力画像と対象テキストのセマンティックな相違に基づく時間ステップ値を採用する。
さらに、FastEditは、テキスト埋め込みスペースではなく、特徴空間に条件を付けるイメージ・ツー・イメージモデルを利用することで、初期の微調整を回避している。
ターゲットのテキストプロンプトと入力イメージを同じ特徴空間内で効果的に調整し、処理時間を大幅に短縮することができる。
さらに,パラメータ効率向上技術であるLoRAをU-netに適用する。
LoRAでは、FastEditはモデルのトレーニング可能なパラメータをオリジナルのサイズの0.37\%に最小化する。
同時に、計算オーバーヘッドを大幅に削減して、同等の編集結果を得ることができる。
我々は,我々のアプローチの編集性能を検証するための広範な実験を行い,コンテンツ追加,スタイル転送,背景交換,姿勢操作など,有望な編集能力を示す。
Conventional Text-guided single-image editing approaches require a two-step process, including fine-tuning the target text embedding for over 1K iterations and the generative model for another 1.5K iterations. Although it ensures that the resulting image closely aligns with both the input image and the target text, this process often requires 7 minutes per image, posing a challenge for practical application due to its time-intensive nature. To address this bottleneck, we introduce FastEdit, a fast text-guided single-image editing method with semantic-aware diffusion fine-tuning, dramatically accelerating the editing process to only 17 seconds. FastEdit streamlines the generative model's fine-tuning phase, reducing it from 1.5K to a mere 50 iterations. For diffusion fine-tuning, we adopt certain time step values based on the semantic discrepancy between the input image and target text. Furthermore, FastEdit circumvents the initial fine-tuning step by utilizing an image-to-image model that conditions on the feature space, rather than the text embedding space. It can effectively align the target text prompt and input image within the same feature space and save substantial processing time. Additionally, we apply the parameter-efficient fine-tuning technique LoRA to U-net. With LoRA, FastEdit minimizes the model's trainable parameters to only 0.37\% of the original size. At the same time, we can achieve comparable editing outcomes with significantly reduced computational overhead. We conduct extensive experiments to validate the editing performance of our approach and show promising editing capabilities, including content addition, style transfer, background replacement, and posture manipulation, etc. | 翻訳日:2024-08-08 14:36:13 公開日:2024-08-06 |
# RayGauss:フォトリアリスティックな新規ビュー合成のための体積ガウス型レイキャスティング
RayGauss: Volumetric Gaussian-Based Ray Casting for Photorealistic Novel View Synthesis ( http://arxiv.org/abs/2408.03356v1 ) ライセンス: Link先を確認 | Hugo Blanc, Jean-Emmanuel Deschaud, Alexis Paljic, | (参考訳) 異なるボリュームレンダリングに基づく手法は、新しいビュー合成に大きな進歩をもたらした。
一方、革新的手法はNeural Radiance Fields (NeRF) ネットワークを局所パラメータ構造に置き換え、適切な時間で高品質なレンダリングを可能にする。
一方、アプローチでは、NeRFのレイキャストの代わりに微分可能なスプラッティングを使用して、ガウス核を用いて高速に放射場を最適化し、シーンへの微調整を可能にしている。
しかしながら、不規則に間隔を置いたカーネルの異なる光線キャスティングは、高速なレンダリングが可能であるにもかかわらず、はっきりと見えるアーティファクトに感受性がある一方で、ほとんど調査されていない。
我々の研究は、全周波数色度表現のために球状ガウス/ハーモニックに付随するガウス函数で分解された放射率 c と密度 {\sigma} の物理的に一貫した定式化を提供することで、このギャップを埋める。
また,不規則に分布するガウシアンを,スラブでスラブした放射場を統合し,BVH構造を利用するアルゴリズムを用いて,識別可能な光線キャスティングを可能にする手法を提案する。
これによって私たちは,アーティファクトのスプラッティングを避けながら,シーンに微妙に適応することが可能になります。
その結果、適切なトレーニング時間を維持しつつ、Blenderデータセット上で25FPSの推論速度を達成しつつ、最先端技術よりも優れたレンダリング品質を実現した。
ビデオとコード付きのプロジェクトページ: https://raygauss.github.io/
Differentiable volumetric rendering-based methods made significant progress in novel view synthesis. On one hand, innovative methods have replaced the Neural Radiance Fields (NeRF) network with locally parameterized structures, enabling high-quality renderings in a reasonable time. On the other hand, approaches have used differentiable splatting instead of NeRF's ray casting to optimize radiance fields rapidly using Gaussian kernels, allowing for fine adaptation to the scene. However, differentiable ray casting of irregularly spaced kernels has been scarcely explored, while splatting, despite enabling fast rendering times, is susceptible to clearly visible artifacts. Our work closes this gap by providing a physically consistent formulation of the emitted radiance c and density {\sigma}, decomposed with Gaussian functions associated with Spherical Gaussians/Harmonics for all-frequency colorimetric representation. We also introduce a method enabling differentiable ray casting of irregularly distributed Gaussians using an algorithm that integrates radiance fields slab by slab and leverages a BVH structure. This allows our approach to finely adapt to the scene while avoiding splatting artifacts. As a result, we achieve superior rendering quality compared to the state-of-the-art while maintaining reasonable training times and achieving inference speeds of 25 FPS on the Blender dataset. Project page with videos and code: https://raygauss.github.io/ | 翻訳日:2024-08-08 14:36:13 公開日:2024-08-06 |
# MLC-GCN:AD解析のためのマルチレベルコネクトームベースGCN
MLC-GCN: Multi-Level Generated Connectome Based GCN for AD Analysis ( http://arxiv.org/abs/2408.03358v1 ) ライセンス: Link先を確認 | Wenqi Zhu, Yinghua Fu, Ze Wang, | (参考訳) アルツハイマー病(英語: Alzheimer's Disease、AD)は、現在発症可能な神経変性疾患である。
ADの正確な検出は、特に初期段階において、高い研究優先度を示している。
ADは、脳機能接続(FC)の変化に関連する進歩的認知障害によって特徴づけられる。
この協会に基づいて、健康な老化とADを区別するために、FCと機械学習を用いて何十年にもわたって多くの研究が出版されてきた。
この検出手法の最新の開発は、脳機能分析におけるグラフニューラルネットワーク(GNN)の利用を強調している。
本稿では,静止状態fMRIを用いた時空間特徴抽出とグラフ生成に基づくAD分類モデルを提案する。
提案するマルチレベル生成コネクトーム(MLC)ベースのグラフ畳み込みネットワーク(MLC-GCN)は,マルチグラフ生成ブロックとGCN予測ブロックを含む。
多グラフ生成ブロックは、時空間的特徴抽出層の階層から構成され、時空間的特徴を異なる深さで抽出し、対応するコネクトームを構築する。
GCN予測ブロックは、学習したマルチレベルコネクトームを使用して、各レベルでGCNを構築し、最適化し、学習したグラフィカル特徴をAD分類の最終予測機能として結合する。
独立したコホート検証によって、MLC-GCNは、最先端GCNやRSfMRIベースのAD分類器よりも、MCI、AD、および正常加齢の差別化に優れた性能を示す。
MLC-GCNは2つの独立したデータセットから,臨床的に合理的なコネクトームノードと接続特性の学習において高い説明性を示した。
MLC-GCN は AD 上でのみ試験を行ったが,RSfMRI を用いた多段階学習GCN による予後予測は,他の疾患や臨床結果に対して有効である。
Alzheimer's Disease (AD) is a currently incurable neurodegeneartive disease. Accurately detecting AD, especially in the early stage, represents a high research priority. AD is characterized by progressive cognitive impairments that are related to alterations in brain functional connectivity (FC). Based on this association, many studies have been published over the decades using FC and machine learning to differentiate AD from healthy aging. The most recent development in this detection method highlights the use of graph neural network (GNN) as the brain functionality analysis. In this paper, we proposed a stack of spatio-temporal feature extraction and graph generation based AD classification model using resting state fMRI. The proposed multi-level generated connectome (MLC) based graph convolutional network (GCN) (MLC-GCN) contains a multi-graph generation block and a GCN prediction block. The multi-graph generation block consists of a hierarchy of spatio-temporal feature extraction layers for extracting spatio-temporal rsfMRI features at different depths and building the corresponding connectomes. The GCN prediction block takes the learned multi-level connectomes to build and optimize GCNs at each level and concatenates the learned graphical features as the final predicting features for AD classification. Through independent cohort validations, MLC-GCN shows better performance for differentiating MCI, AD, and normal aging than state-of-art GCN and rsfMRI based AD classifiers. The proposed MLC-GCN also showed high explainability in terms of learning clinically reasonable connectome node and connectivity features from two independent datasets. While we only tested MLC-GCN on AD, the basic rsfMRI-based multi-level learned GCN based outcome prediction strategy is valid for other diseases or clinical outcomes. | 翻訳日:2024-08-08 14:36:13 公開日:2024-08-06 |
# LAMPO:Few-shot Ordinal Classificationのための推論マシンとしての大規模言語モデル
LAMPO: Large Language Models as Preference Machines for Few-shot Ordinal Classification ( http://arxiv.org/abs/2408.03359v1 ) ライセンス: Link先を確認 | Zhen Qin, Junru Wu, Jiaming Shen, Tianqi Liu, Xuanhui Wang, | (参考訳) LAMPOは,Large Language Models (LLMs) を多クラス順序分類タスクに応用した新しいパラダイムである。
従来の手法では,全ての実演例をテストインスタンスに結合し,LLMにポイントワイズ予測を生成させる手法とは異なり,我々のフレームワークでは,テストインスタンスと各実演の相対的な比較決定を行う選好マシンとしてLLMを使用している。
次に、これらの二項比較を最終順序決定に集約するために自己教師付き手法が導入された。
LAMPOは、コンテキスト長制約、順序バイアス、絶対点推定に関連する問題など、従来の手法に固有のいくつかの制限に対処する。
7つの公開データセットに関する大規模な実験は、LAMPOが様々なアプリケーション(映画レビュー分析やヘイトスピーチ検出など)にまたがる極めて競争力のあるパフォーマンスを示している。
特に、ある応用において、改善は実質的であり、絶対的な期間で20%を超える。
さらに, LAMPOは, LLMの内部状態(例えば埋め込み)の出力を必要とせず, ブラックボックスのLCMをサポートするため, LLM上に重ねられた非パラメトリックアプリケーションに対する興味深い追加であると考えている。
We introduce LAMPO, a novel paradigm that leverages Large Language Models (LLMs) for solving few-shot multi-class ordinal classification tasks. Unlike conventional methods, which concatenate all demonstration examples with the test instance and prompt LLMs to produce the pointwise prediction, our framework uses the LLM as a preference machine that makes a relative comparative decision between the test instance and each demonstration. A self-supervised method is then introduced to aggregate these binary comparisons into the final ordinal decision. LAMPO addresses several limitations inherent in previous methods, including context length constraints, ordering biases, and challenges associated with absolute point-wise estimation. Extensive experiments on seven public datasets demonstrate LAMPO's remarkably competitive performance across a diverse spectrum of applications (e.g., movie review analysis and hate speech detection). Notably, in certain applications, the improvement can be substantial, exceeding 20% in an absolute term. Moreover, we believe LAMPO represents an interesting addition to the non-parametric application layered on top of LLMs, as it supports black-box LLMs without necessitating the outputting of LLM's internal states (e.g., embeddings), as seen in previous approaches. | 翻訳日:2024-08-08 14:36:13 公開日:2024-08-06 |
# データセット蒸留における優先順位アライメント
Prioritize Alignment in Dataset Distillation ( http://arxiv.org/abs/2408.03360v1 ) ライセンス: Link先を確認 | Zekai Li, Ziyao Guo, Wangbo Zhao, Tianle Zhang, Zhi-Qi Cheng, Samir Khaki, Kaipeng Zhang, Ahmad Sajed, Konstantinos N Plataniotis, Kai Wang, Yang You, | (参考訳) Dataset Distillationは、トレーニングされたモデルのパフォーマンスを損なうことなく、大規模なデータセットをはるかにコンパクトな合成データセットに圧縮することを目的としている。
これを実現するために、既存の手法ではエージェントモデルを使用してターゲットデータセットから情報を抽出し、蒸留データセットに埋め込む。
これにより、抽出された組込み情報の品質が蒸留データセットの品質を決定する。
本研究では,情報抽出段階と埋め込み段階の両方において,既存の手法が不整合情報を導入していることを示す。
これを軽減するために、以下の2つの視点から情報を整合させるPAD(Preferitize Alignment in Dataset Distillation)を提案する。
1) エージェントモデルにより抽出可能な情報をフィルタリングするために, 圧縮率に応じてターゲットデータセットを訓練する。
2) エージェントモデルの深層層のみを用いて蒸留を行い, 低レベル情報の過剰な導入を回避する。
この単純な戦略は、誤整情報を効果的にフィルタリングし、主流のマッチングベースの蒸留アルゴリズムに非自明な改善をもたらす。
さらに、トラジェクトリマッチングに基づいて構築された \textbf{PAD} は、様々なベンチマークにおいて顕著な改善を実現し、最先端のパフォーマンスを実現している。
Dataset Distillation aims to compress a large dataset into a significantly more compact, synthetic one without compromising the performance of the trained models. To achieve this, existing methods use the agent model to extract information from the target dataset and embed it into the distilled dataset. Consequently, the quality of extracted and embedded information determines the quality of the distilled dataset. In this work, we find that existing methods introduce misaligned information in both information extraction and embedding stages. To alleviate this, we propose Prioritize Alignment in Dataset Distillation (PAD), which aligns information from the following two perspectives. 1) We prune the target dataset according to the compressing ratio to filter the information that can be extracted by the agent model. 2) We use only deep layers of the agent model to perform the distillation to avoid excessively introducing low-level information. This simple strategy effectively filters out misaligned information and brings non-trivial improvement for mainstream matching-based distillation algorithms. Furthermore, built on trajectory matching, \textbf{PAD} achieves remarkable improvements on various benchmarks, achieving state-of-the-art performance. | 翻訳日:2024-08-08 14:36:13 公開日:2024-08-06 |
# GMAI-MMBench:汎用医療AIに向けた総合的マルチモーダル評価ベンチマーク
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI ( http://arxiv.org/abs/2408.03361v1 ) ライセンス: Link先を確認 | Pengcheng Chen, Jin Ye, Guoan Wang, Yanjun Li, Zhongying Deng, Wei Li, Tianbin Li, Haodong Duan, Ziyan Huang, Yanzhou Su, Benyou Wang, Shaoting Zhang, Bin Fu, Jianfei Cai, Bohan Zhuang, Eric J Seibel, Junjun He, Yu Qiao, | (参考訳) LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができ、様々な分野に適用できる。
医学分野では、LVLMは診断と治療に相当な補助を提供する可能性がある。
それ以前には、様々な医療応用においてLVLMの有効性を評価するためのベンチマークを開発することが不可欠である。
現在のベンチマークは特定の学術文献に基づいて構築されることが多く、主に単一の領域に焦点を当てており、知覚の粒度が異なる。
そのため、臨床関係の限定、不完全評価、インタラクティブなLVLMのガイダンス不足など、特定の課題に直面している。
これらの制約に対処するため,GMAI-MMBenchを開発した。
39の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの知覚的粒度の285のデータセットから構築されている。
さらに、ユーザーが評価タスクをカスタマイズし、様々な評価ニーズを調整し、医療AIの研究や応用を効果的に支援できる語彙木構造を実装した。
我々は50LVLMを評価し,GPT-4oでも52\%の精度しか得られず,改善の余地が大きかった。
さらに,医療応用の進展に対処する必要のある,現在最先端のLVLMにおいて,5つの重要な欠陥を同定した。
GMAI-MMBenchは,次世代のLVLMをGMAIに向けて構築するよう,コミュニティに刺激を与えるものと信じている。
Large Vision-Language Models (LVLMs) are capable of handling diverse data types such as imaging, text, and physiological signals, and can be applied in various fields. In the medical field, LVLMs have a high potential to offer substantial assistance for diagnosis and treatment. Before that, it is crucial to develop benchmarks to evaluate LVLMs' effectiveness in various medical applications. Current benchmarks are often built upon specific academic literature, mainly focusing on a single domain, and lacking varying perceptual granularities. Thus, they face specific challenges, including limited clinical relevance, incomplete evaluations, and insufficient guidance for interactive LVLMs. To address these limitations, we developed the GMAI-MMBench, the most comprehensive general medical AI benchmark with well-categorized data structure and multi-perceptual granularity to date. It is constructed from 285 datasets across 39 medical image modalities, 18 clinical-related tasks, 18 departments, and 4 perceptual granularities in a Visual Question Answering (VQA) format. Additionally, we implemented a lexical tree structure that allows users to customize evaluation tasks, accommodating various assessment needs and substantially supporting medical AI research and applications. We evaluated 50 LVLMs, and the results show that even the advanced GPT-4o only achieves an accuracy of 52\%, indicating significant room for improvement. Moreover, we identified five key insufficiencies in current cutting-edge LVLMs that need to be addressed to advance the development of better medical applications. We believe that GMAI-MMBench will stimulate the community to build the next generation of LVLMs toward GMAI. | 翻訳日:2024-08-08 14:36:13 公開日:2024-08-06 |
# エンタングルメントによる大規模量子過程の学習
Entanglement-enhanced learning of quantum processes at scale ( http://arxiv.org/abs/2408.03376v1 ) ライセンス: Link先を確認 | Alireza Seif, Senrui Chen, Swarnadeep Majumder, Haoran Liao, Derek S. Wang, Moein Malekakhlagh, Ali Javadi-Abhari, Liang Jiang, Zlatko K. Minev, | (参考訳) 量子システムに影響を与える未知のプロセスの学習は、基礎となる物理的メカニズムを明らかにし、不要な効果の抑制、緩和、修正を可能にする。
一般的な量子過程を記述するには指数関数的に多くのパラメータを必要とする。
これらのパラメータを非互換な観測変数にエンコードすると、不確実性原理に制約され、指数関数的に多くの測定を必要とする。
しかし、パウリのチャネルでは、理想的な量子メモリとエンタングル操作にアクセスでき、可観測領域を交換する際のパラメータを符号化できるため、測定の複雑さは指数関数的に減少する。
しかし実際には、量子メモリとエンタングリング操作は常にノイズが多く、エラーを発生させるため、ノイズの多い量子メモリを使用することの利点ははっきりしない。
これらの課題に対処するために、誤差緩和型絡み付き学習を導入し、理論的にも実験的にも、ノイズであっても、ノイズの多い量子メモリで絡み合うことなく、パウリのチャネルを学習する効率の分離が存在することを示す。
我々は,最大64量子ビットの仮説テストや,超伝導量子プロセッサ上で最大16量子ビットの並列ゲート層での固有ノイズ過程の学習など,このプロトコルの有効性を例に示す。
我々のプロトコルは、このプロセスに関する正確で実用的な情報を提供し、オーバーヘッド係数は1キュービット当たり1.33 \pm 0.05$であり、量子メモリとの絡み合いのない2の基本的な下限よりもはるかに小さい。
本研究は,補助雑音量子メモリとの絡み合いと誤り軽減が,量子過程の学習を著しく促進することを示す。
Learning unknown processes affecting a quantum system reveals underlying physical mechanisms and enables suppression, mitigation, and correction of unwanted effects. Describing a general quantum process requires an exponentially large number of parameters. Measuring these parameters, when they are encoded in incompatible observables, is constrained by the uncertainty principle and requires exponentially many measurements. However, for Pauli channels, having access to an ideal quantum memory and entangling operations allows encoding parameters in commuting observables, thereby exponentially reducing measurement complexity. In practice, though, quantum memory and entangling operations are always noisy and introduce errors, making the advantage of using noisy quantum memory unclear. To address these challenges we introduce error-mitigated entanglement-enhanced learning and show, both theoretically and experimentally, that even with noise, there is a separation in efficiency between learning Pauli channels with and without entanglement with noisy quantum memory. We demonstrate our protocol's efficacy in examples including hypothesis testing with up to 64 qubits and learning inherent noise processes in a layer of parallel gates using up to 16 qubits on a superconducting quantum processor. Our protocol provides accurate and practical information about the process, with an overhead factor of $1.33 \pm 0.05$ per qubit, much smaller than the fundamental lower bound of 2 without entanglement with quantum memory. Our study demonstrates that entanglement with auxiliary noisy quantum memory combined with error mitigation considerably enhances the learning of quantum processes. | 翻訳日:2024-08-08 14:36:13 公開日:2024-08-06 |
# 最小$d = 6$qudit格子による任意の非アベリア統計の実証
Demonstrating anyonic non-Abelian statistics with a minimal $d = 6$ qudit lattice ( http://arxiv.org/abs/2408.03377v1 ) ライセンス: Link先を確認 | Lucy Byles, Ewan Forbes, Jiannis K. Pachos, | (参考訳) 量子二重モデル(quantum double model)は、量子シミュレータで直接エンコードされる量子四重項の格子を操作することによって、任意の電子を実現するための自然なフレームワークを提供する。
この研究において、$d=6$ qudits の格子を考えると、$\mathbf{D}(\mathbf{S}_3)$非アベリア素数となる。
そこで本研究では, 陽子の生成・測定を行う演算子を利用するだけで, ブレイディングと融合の進化の非可換性を実証する手法を提案する。
さらに、正準ブレイディングと融合行列を決定するのに十分な2キューディットしか持たない高密度符号化方式を提供する。
このアプローチの最小限のリソース要件は、高スピン状態が効果的にエンコード可能な光、原子、固体システムを含む様々な量子プラットフォームにおいて、アベリア非アベリアの性質を示すための実行可能な青写真を提供する。
この研究は、非アベリア量子誤り訂正符号の実現に向けた基本的なステップである。
Quantum double models provide a natural framework for realising anyons by manipulating a lattice of qudits, which can be directly encoded in quantum simulators. In this work, we consider a lattice of $d=6$ qudits that give rise to $\mathbf{D}(\mathbf{S}_3)$ non-Abelian anyons. We present a method that demonstrates the non-commutativity of the braiding and fusion evolutions solely by utilising the operators that create and measure anyons. Furthermore, we provide a dense coding scheme where only two qudits are sufficient to determine the anyonic braiding and fusion matrices. The minimal resource requirement of our approach offers a viable blueprint for demonstrating the non-Abelian nature of anyons in various quantum platforms, including optical, atomic, and solid-state systems, where higher-spin states can be effectively encoded. This work represents a foundational step towards the realisation of non-Abelian quantum error-correcting codes. | 翻訳日:2024-08-08 14:36:13 公開日:2024-08-06 |
# 非負なVAE:一般化ガンマ信念ネットワーク
A Non-negative VAE:the Generalized Gamma Belief Network ( http://arxiv.org/abs/2408.03388v1 ) ライセンス: Link先を確認 | Zhibin Duan, Tiansheng Wen, Muyao Wang, Bo Chen, Mingyuan Zhou, | (参考訳) ガンマ信念ネットワーク(GBN)は、しばしばディープトピックモデルと見なされるが、テキストデータ中の多層解釈可能な潜在表現を明らかにする可能性を示している。
解釈可能な潜在因子を得るための顕著な能力は、部分的にはスパース変数と非負のガンマ分布潜在変数によるものである。
しかし、既存のGBNとそのバリエーションは線形生成モデルによって制約されるため、表現性や適用性は制限される。
この制限に対処するため、本論文では、元の線形生成モデルをより表現力のある非線形生成モデルに拡張する一般化ガンマ信念ネットワーク(Generalized GBN)を導入する。
一般化GBNのパラメータはもはや解析条件後部を持たないため、潜伏変数の後方分布を近似する上向きのワイブル推論ネットワークも提案する。
生成モデルと推論ネットワークの両方のパラメータは、変動推論フレームワーク内で共同で訓練される。
最後に,表現性および非絡合表現学習タスクの総合的な実験を行い,ベースラインとして機能するガウス変分オートエンコーダに対する一般化GBNの性能を評価する。
The gamma belief network (GBN), often regarded as a deep topic model, has demonstrated its potential for uncovering multi-layer interpretable latent representations in text data. Its notable capability to acquire interpretable latent factors is partially attributed to sparse and non-negative gamma-distributed latent variables. However, the existing GBN and its variations are constrained by the linear generative model, thereby limiting their expressiveness and applicability. To address this limitation, we introduce the generalized gamma belief network (Generalized GBN) in this paper, which extends the original linear generative model to a more expressive non-linear generative model. Since the parameters of the Generalized GBN no longer possess an analytic conditional posterior, we further propose an upward-downward Weibull inference network to approximate the posterior distribution of the latent variables. The parameters of both the generative model and the inference network are jointly trained within the variational inference framework. Finally, we conduct comprehensive experiments on both expressivity and disentangled representation learning tasks to evaluate the performance of the Generalized GBN against state-of-the-art Gaussian variational autoencoders serving as baselines. | 翻訳日:2024-08-08 14:36:13 公開日:2024-08-06 |
# キラル導波路QEDの多体超輝度に及ぼす遅延の影響
Effects of retardation on many-body superradiance in chiral waveguide QED ( http://arxiv.org/abs/2408.03390v1 ) ライセンス: Link先を確認 | Bennet Windt, Miguel Bello, Daniel Malz, J. Ignacio Cirac, | (参考訳) 我々は、キラル導波路に結合した原子鎖の超ラジカル崩壊について研究し、非無視光子伝播時間の構造に着目した。
遅延効果を説明できる厳密なマスター方程式記述を用いて、集団崩壊と遅延の競合が、超放射能力学に寄与する有効な最大原子数の出現に繋がることを示す証拠を得る。
この分析をさらに発展させるために、原子間相関について検討し、個々の超ラジカル領域の形成に整合した特徴を見出す。
さらに、遅延は周期的な放出バーストの連続を伴う持続的な振動性原子動力学をもたらすことも判明した。
We study the superradiant decay of a chain of atoms coupled to a chiral waveguide, focusing on the regime of non-negligible photon propagation time. Using an exact master equation description which accounts for delay effects, we obtain evidence to suggest that competition between collective decay and retardation leads to the emergence of an effective maximum number of atoms able to contribute to the superradiant dynamics, resulting in a plateau of the peak emission rate. To develop this analysis further, we investigate the inter-atomic correlations to find features consistent with the formation of individual superradiant domains. Moreover, we find that retardation can also result in persistent oscillatory atomic dynamics accompanied by a periodic sequence of emission bursts. | 翻訳日:2024-08-08 14:36:13 公開日:2024-08-06 |
# ChatGPTを用いたシナリオからのユースケース自動抽出の分析
An Analysis of Automated Use Case Component Extraction from Scenarios using ChatGPT ( http://arxiv.org/abs/2408.03395v1 ) ライセンス: Link先を確認 | Pragyan KC, Rocky Slavin, Sepideh Ghanavati, Travis Breaux, Mitra Bokaei Hosseini, | (参考訳) モバイルアプリケーション(アプリケーション)は、限られたリソースを持つ少数の開発者によって開発されることが多い。
この環境では、インタビューのような多くの要求獲得活動は、開発やリリース活動よりも困難または低い優先順位で行われている。
さらに、この初期段階では、モバイルアプリがマーケットプレースで競争するために進化するにつれて、要件が頻繁に変化している。
しかし、アプリ開発企業が開発プロセスを標準化しようとすると、要件の文書化と分析にシフトする。
デプロイ後の低コスト要件のひとつが,アプリとのインタラクション方法を記述するユーザ権限のシナリオだ。
本稿では,大規模言語モデル(LLM)を用いたユーザ認可シナリオからユースケースコンポーネントを抽出する手法を提案する。
この方法は、精度を向上させるために開発された一連のプロンプトから成り、UCコンポーネントに独立してラベル付けされた50のシナリオの地上真実データセットをリコールする。
以上の結果から,LLMはUC成分を抽出するために追加のドメイン知識を必要とすることが明らかとなり,この知識を組み込むことで抽出したUC成分の品質が向上することが示唆された。
Mobile applications (apps) are often developed by only a small number of developers with limited resources, especially in the early years of the app's development. In this setting, many requirements acquisition activities, such as interviews, are challenging or lower priority than development and release activities. Moreover, in this early period, requirements are frequently changing as mobile apps evolve to compete in the marketplace. As app development companies move to standardize their development processes, however, they will shift to documenting and analyzing requirements. One low-cost source of requirements post-deployment are user-authored scenarios describing how they interact with an app. We propose a method for extracting use case components from user-authored scenarios using large language models (LLMs). The method consists of a series of prompts that were developed to improve precision and recall on a ground truth dataset of 50 scenarios independently labeled with UC components. Our results reveal that LLMs require additional domain knowledge to extract UC components, and that refining prompts to include this knowledge improves the quality of the extracted UC components. | 翻訳日:2024-08-08 14:36:13 公開日:2024-08-06 |
# 可変強度非局所測定は古典的数え上げ原理の量子違反を明らかにする
Variable-strength non-local measurements reveal quantum violations of classical counting principles ( http://arxiv.org/abs/2408.03398v1 ) ライセンス: Link先を確認 | Noah Lupu-Gladstein, Ou Teen Arthur Pang, Hugo Ferretti, Weng-Kian Tham, Aephraim M. Steinberg, Kent Bonsma-Fisher, Aharon Brodutch, | (参考訳) 我々は、古典的な数え上げ原理が量子領域で生き残るかどうかを研究するために、量子ピジョンホールパラドックス思考実験の変種を実装した。
2つの穴に3羽のハト(少なくとも1匹は同じ穴にいなければならない)と1組のハト(同じ穴に1匹ずついるハト)の和則(各穴に1匹ずつのペアの総和)を前置して選別したアンサンブルに著しく違反する。
測定障害がこれらの反直観的現象の有効な説明であるかどうかを調べるため,非局所観測装置の可変強度測定を初めて行った。
測定強度を下げるにつれて和則違反は減少するが、ハトホールの原理はいまだに破れている。
弱極限では、等しい虚部と反対の虚部を持つ2つの弱値のキャンセルにより和則が復元される。
高い測定強度で同じ種類のキャンセルを観測するため、強い測定値には想像上の部分があるのかという疑問が提起される。
We implement a variant of the quantum pigeonhole paradox thought experiment to study whether classical counting principles survive in the quantum domain. We observe strong measurements significantly violate the pigeonhole principle (that among three pigeons in two holes, at least one pair must be in the same hole) and the sum rule (that the number of pigeon pairs in the same hole is the sum of the number of pairs across each of the holes) in an ensemble that is pre and postselected into particular separable states. To investigate whether measurement disturbance is a viable explanation for these counter-intuitive phenomena, we employ the first ever variable-strength measurement of a non-local observable. As we decrease the measurement strength, we find the violation of the sum rule decreases, yet the pigeonhole principle remains violated. In the weak limit, the sum rule is restored due to the cancellation between two weak values with equal and opposite imaginary parts. We observe the same kind of cancellation at higher measurement strengths, thus raising the question: do strong measurements have imaginary parts? | 翻訳日:2024-08-08 14:36:13 公開日:2024-08-06 |
# RHiOTS:階層型時系列予測アルゴリズムの評価フレームワーク
RHiOTS: A Framework for Evaluating Hierarchical Time Series Forecasting Algorithms ( http://arxiv.org/abs/2408.03399v1 ) ライセンス: Link先を確認 | Luis Roque, Carlos Soares, Luís Torgo, | (参考訳) 本稿では,階層型時系列予測モデルと実世界のデータセット上でのアルゴリズムのロバスト性を評価するために,階層型時系列のロバスト性(Robustness of Hierarchically Organized Time Series, RHiOTS)フレームワークを紹介する。
階層的な時系列では、低いレベルの予測を上位レベルの予測にまとめなければならないが、各国の小売販売など、さまざまな文脈で一般的である。
予測手法の現在の経験的評価は、しばしば少数のベンチマークデータセットに限られており、アルゴリズムの振舞いを狭めている。
RHiOTSは、既存のデータセットを体系的に変更し、個々のシリーズの特徴とそれらの相互関係を変更することで、このギャップに対処する。
データ分散におけるこれらの変化をシミュレートするために、パラメータ化可能な変換セットを使用する。
さらに、RHiOTSは、複雑な多次元ロバストネス評価結果を直感的で容易に解釈可能なビジュアルに変換する、革新的な可視化コンポーネントを組み込んでいる。
このアプローチは、様々な条件下でのアルゴリズムとモデル行動の詳細な分析を可能にする。
本稿では,複数のアルゴリズムの予測性能を解析し,RHiOTSの利用について述べる。
従来の統計的手法は、変換効果が非常に破壊的である場合を除き、最先端のディープラーニングアルゴリズムよりも頑健であることを示す。
さらに,MinTのような特定の調合法を適用する場合,アルゴリズムの堅牢性に有意な差は認められなかった。
RHiOTSは、予測アルゴリズムのニュアンスな振る舞いを理解するための包括的なツールを提供し、与えられた問題に対して最も適切な方法を選択するためのより信頼性の高い基盤を提供する。
We introduce the Robustness of Hierarchically Organized Time Series (RHiOTS) framework, designed to assess the robustness of hierarchical time series forecasting models and algorithms on real-world datasets. Hierarchical time series, where lower-level forecasts must sum to upper-level ones, are prevalent in various contexts, such as retail sales across countries. Current empirical evaluations of forecasting methods are often limited to a small set of benchmark datasets, offering a narrow view of algorithm behavior. RHiOTS addresses this gap by systematically altering existing datasets and modifying the characteristics of individual series and their interrelations. It uses a set of parameterizable transformations to simulate those changes in the data distribution. Additionally, RHiOTS incorporates an innovative visualization component, turning complex, multidimensional robustness evaluation results into intuitive, easily interpretable visuals. This approach allows an in-depth analysis of algorithm and model behavior under diverse conditions. We illustrate the use of RHiOTS by analyzing the predictive performance of several algorithms. Our findings show that traditional statistical methods are more robust than state-of-the-art deep learning algorithms, except when the transformation effect is highly disruptive. Furthermore, we found no significant differences in the robustness of the algorithms when applying specific reconciliation methods, such as MinT. RHiOTS provides researchers with a comprehensive tool for understanding the nuanced behavior of forecasting algorithms, offering a more reliable basis for selecting the most appropriate method for a given problem. | 翻訳日:2024-08-08 14:26:26 公開日:2024-08-06 |
# 生成拡散モデルに対する攻撃と防御:包括的調査
Attacks and Defenses for Generative Diffusion Models: A Comprehensive Survey ( http://arxiv.org/abs/2408.03400v1 ) ライセンス: Link先を確認 | Vu Tuan Truong, Luan Ba Dang, Long Bao Le, | (参考訳) 拡散モデル(DM)は、画像合成、テキスト・ツー・画像生成、テキスト・ツー・画像生成など、様々な生成タスクにおいて最先端のパフォーマンスを実現している。
しかし、DMが強力になればなるほど、有害になる可能性がある。
近年の研究では、DMは敵攻撃、メンバーシップ推論、バックドア注入、様々なマルチモーダル脅威など、幅広い攻撃を受けやすいことが示されている。
多くの事前訓練されたDMがインターネット上で広く公開されているため、これらの攻撃による潜在的な脅威は特に社会に有害であり、DM関連のセキュリティは調査に値するトピックである。
そこで本研究では,DMのセキュリティ面を包括的に調査し,様々な攻撃・防御手法に着目した。
まず,拡散確率モデル,拡散暗黙的モデル,雑音条件付きスコアネットワーク,確率微分方程式,マルチモーダル条件DMの5種類のDMに関する重要な知識を示す。
さらに、DMの脆弱性を悪用する様々なタイプの攻撃について、近年調査している。
そして、提示された脅威を緩和する潜在的な対策を徹底的に検討する。
最後に、DM関連セキュリティのオープンな課題について論じ、このトピックの特定の研究方向性を想定する。
Diffusion models (DMs) have achieved state-of-the-art performance on various generative tasks such as image synthesis, text-to-image, and text-guided image-to-image generation. However, the more powerful the DMs, the more harmful they potentially are. Recent studies have shown that DMs are prone to a wide range of attacks, including adversarial attacks, membership inference, backdoor injection, and various multi-modal threats. Since numerous pre-trained DMs are published widely on the Internet, potential threats from these attacks are especially detrimental to the society, making DM-related security a worth investigating topic. Therefore, in this paper, we conduct a comprehensive survey on the security aspect of DMs, focusing on various attack and defense methods for DMs. First, we present crucial knowledge of DMs with five main types of DMs, including denoising diffusion probabilistic models, denoising diffusion implicit models, noise conditioned score networks, stochastic differential equations, and multi-modal conditional DMs. We further survey a variety of recent studies investigating different types of attacks that exploit the vulnerabilities of DMs. Then, we thoroughly review potential countermeasures to mitigate each of the presented threats. Finally, we discuss open challenges of DM-related security and envision certain research directions for this topic. | 翻訳日:2024-08-08 14:26:26 公開日:2024-08-06 |
# ULLME: 世代学習による大規模言語モデル埋め込みのための統一フレームワーク
ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning ( http://arxiv.org/abs/2408.03402v1 ) ライセンス: Link先を確認 | Hieu Man, Nghia Trung Ngo, Franck Dernoncourt, Thien Huu Nguyen, | (参考訳) 大きな言語モデル(LLM)は、様々な自然言語処理タスクに優れていますが、それらを密な通路埋め込みに活用することは依然として難しいです。
これは、その因果的注意機構と、事前学習目標とテキストランキングタスクの相違によるものである。
これらの問題に対処するための最近の取り組みにもかかわらず、LLMベースのテキスト埋め込みのための既存のフレームワークは、限られた範囲のLLMアーキテクチャと微調整戦略のサポートによって制限され、実用性と汎用性は制限されている。
本稿では,多種多様なLCMをまたがって双方向の注意を喚起し,様々な微調整戦略をサポートする,柔軟なプラグイン・アンド・プレイ実装であるUnified framework for Large Language Model Embedding (ULLME)を紹介する。
また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。
GRLは表現ベースと生成ベースの関連スコアの一貫性を強制し、LLMの強力な生成能力を活用して経路埋め込みを学習する。
フレームワークの柔軟性と有効性を示すために、ULLMEから1.5Bから8Bパラメータの異なるバックボーンアーキテクチャでトレーニング済みの3つのモデルをリリースし、これらすべてがMassive Text Embedding Benchmarkで強力なパフォーマンスを示している。
私たちのフレームワークは、https://github.com/nlp-uoregon/ullme.comで公開されています。
ULLMEのデモビデオもhttps://rb.gy/ws1ileで見ることができる。
Large Language Models (LLMs) excel in various natural language processing tasks, but leveraging them for dense passage embedding remains challenging. This is due to their causal attention mechanism and the misalignment between their pre-training objectives and the text ranking tasks. Despite some recent efforts to address these issues, existing frameworks for LLM-based text embeddings have been limited by their support for only a limited range of LLM architectures and fine-tuning strategies, limiting their practical application and versatility. In this work, we introduce the Unified framework for Large Language Model Embedding (ULLME), a flexible, plug-and-play implementation that enables bidirectional attention across various LLMs and supports a range of fine-tuning strategies. We also propose Generation-augmented Representation Learning (GRL), a novel fine-tuning method to boost LLMs for text embedding tasks. GRL enforces consistency between representation-based and generation-based relevance scores, leveraging LLMs' powerful generative abilities for learning passage embeddings. To showcase our framework's flexibility and effectiveness, we release three pre-trained models from ULLME with different backbone architectures, ranging from 1.5B to 8B parameters, all of which demonstrate strong performance on the Massive Text Embedding Benchmark. Our framework is publicly available at: https://github.com/nlp-uoregon/ullme. A demo video for ULLME can also be found at https://rb.gy/ws1ile. | 翻訳日:2024-08-08 14:26:26 公開日:2024-08-06 |
# Set2Seq Transformer:アートシーケンスの集合表現を学習する
Set2Seq Transformer: Learning Permutation Aware Set Representations of Artistic Sequences ( http://arxiv.org/abs/2408.03404v1 ) ライセンス: Link先を確認 | Athanasios Efthymiou, Stevan Rudinac, Monika Kackovic, Nachoem Wijnberg, Marcel Worring, | (参考訳) 本稿では, 列列の列列化を意識した集合表現のランク付けを学習する新しいシーケンシャル・マルチ・インスタンス・アーキテクチャである Set2Seq Transformer を提案する。
まず、離散時間ステップの時間的位置認識表現の学習は、時間性に配慮せず、ほとんど視覚的コンテンツ分析に集中する静的な視覚的複数インスタンス学習法を大幅に改善できることを示す。
さらに、視覚的内容と時間的情報をマルチモーダルな方法で統合することで、エンドツーエンドの連続した複数インスタンス学習の大きな利点を実証する。
応用として、美術分析関連タスクに焦点をあてる。
この結果から,私たちのSet2Seq Transformerは視覚的集合と時間的位置認識表現を応用して,視覚的アーティストの眼球運動をモデル化し,芸術的成功を予測できることが示唆された。
最後に,新しいデータセット,WikiArt-Seq2Rank,およびビジュアルラーニング・ツー・ランクダウンストリームタスクを用いて,定量的・質的な評価を行うことにより,Set2Seq Transformerは,強力な静的およびシーケンシャルな複数インスタンス学習手法の性能向上を図り,芸術的成功を予測できることを示す。
We propose Set2Seq Transformer, a novel sequential multiple instance architecture, that learns to rank permutation aware set representations of sequences. First, we illustrate that learning temporal position-aware representations of discrete timesteps can greatly improve static visual multiple instance learning methods that do not regard temporality and concentrate almost exclusively on visual content analysis. We further demonstrate the significant advantages of end-to-end sequential multiple instance learning, integrating visual content and temporal information in a multimodal manner. As application we focus on fine art analysis related tasks. To that end, we show that our Set2Seq Transformer can leverage visual set and temporal position-aware representations for modelling visual artists' oeuvres for predicting artistic success. Finally, through extensive quantitative and qualitative evaluation using a novel dataset, WikiArt-Seq2Rank, and a visual learning-to-rank downstream task, we show that our Set2Seq Transformer captures essential temporal information improving the performance of strong static and sequential multiple instance learning methods for predicting artistic success. | 翻訳日:2024-08-08 14:26:26 公開日:2024-08-06 |
# 協調行動のための異種情報の組み合わせ:不均一エージェントのための確率帯域アルゴリズム
Combining Diverse Information for Coordinated Action: Stochastic Bandit Algorithms for Heterogeneous Agents ( http://arxiv.org/abs/2408.03405v1 ) ライセンス: Link先を確認 | Lucia Gordon, Esther Rolf, Milind Tambe, | (参考訳) 確率的なマルチエージェントのマルチアームバンディットは、通常、各アームからの報酬は、どのエージェントが腕を引っ張ろうとも、固定された分布に従うと仮定する。
しかし、実世界の多くの環境では、報酬は各エージェントの環境に対する感受性に依存する。
医療スクリーニングでは、疾患検出率はテストタイプによって異なり、嗜好マッチングでは、報酬はユーザの好みによって異なり、環境検知では、センサー間で観察品質が変化する。
過去の研究では、確率的バンディット設定において、これらのタイプの不均一だが既知の感度のエージェントを割り当てる方法を規定していないため、多様なエージェントから情報を集約するUPBスタイルのアルゴリズムMin-Widthを導入する。
そうすることで、私たちは共同課題に取り組みます。
(i)各エージェント・アーム対ごとに異なる分布に従う報酬を集約し、
二 エージェントの武器への割り当てを調整すること。
Min-Widthは異種エージェント間の効率的な協調を促進し、エージェントの報酬関数の既知の構造を利用して報酬を重み付けする。
我々は、Min-Widthの後悔を分析し、擬似合成および完全合成実験を行い、異なるレベルの情報共有の性能について研究する。
本結果から, エージェント間の感度が変化しやすい場合, モデルエージェントの不均一性が向上する傾向にあるが, 情報を組み合わせることで性能が向上するとは限らないことがわかった。
Stochastic multi-agent multi-armed bandits typically assume that the rewards from each arm follow a fixed distribution, regardless of which agent pulls the arm. However, in many real-world settings, rewards can depend on the sensitivity of each agent to their environment. In medical screening, disease detection rates can vary by test type; in preference matching, rewards can depend on user preferences; and in environmental sensing, observation quality can vary across sensors. Since past work does not specify how to allocate agents of heterogeneous but known sensitivity of these types in a stochastic bandit setting, we introduce a UCB-style algorithm, Min-Width, which aggregates information from diverse agents. In doing so, we address the joint challenges of (i) aggregating the rewards, which follow different distributions for each agent-arm pair, and (ii) coordinating the assignments of agents to arms. Min-Width facilitates efficient collaboration among heterogeneous agents, exploiting the known structure in the agents' reward functions to weight their rewards accordingly. We analyze the regret of Min-Width and conduct pseudo-synthetic and fully synthetic experiments to study the performance of different levels of information sharing. Our results confirm that the gains to modeling agent heterogeneity tend to be greater when the sensitivities are more varied across agents, while combining more information does not always improve performance. | 翻訳日:2024-08-08 14:26:26 公開日:2024-08-06 |
# 分散学習による深層クラスタリング
Deep Clustering via Distribution Learning ( http://arxiv.org/abs/2408.03407v1 ) ライセンス: Link先を確認 | Guanfang Dong, Zijie Tan, Chenqiu Zhao, Anup Basu, | (参考訳) 分布学習はデータサンプルの集合から確率密度関数を求めるが、クラスタリングは類似のデータポイントをグループ化してクラスタを形成する。
分散学習手法を用いる深層クラスタリング手法は存在するが、過去の研究はクラスタリングと分布学習の関係に関する理論的分析を欠いている。
そこで本研究では,分散学習によるクラスタリングの最適化を導くための理論的解析を行う。
より優れた結果を得るために、理論的解析によって導かれた深いクラスタリングを埋め込む。
さらに、分散学習法はデータに直接適用できない。
そこで本研究では,クラスタリングのためのモンテカルロ行列化というクラスタリング指向の分散学習手法を提案する。
我々は,モンテカルロのクラスタリングをディープクラスタリングに統合し,分散学習(DCDL)によるディープクラスタリングを実現する。
最終的に、提案したDCDLは、一般的なデータセットの最先端手法と比較して有望な結果が得られる。
クラスタリングタスクを考えると、新しい分散学習法は従来の方法よりも優れている。
Distribution learning finds probability density functions from a set of data samples, whereas clustering aims to group similar data points to form clusters. Although there are deep clustering methods that employ distribution learning methods, past work still lacks theoretical analysis regarding the relationship between clustering and distribution learning. Thus, in this work, we provide a theoretical analysis to guide the optimization of clustering via distribution learning. To achieve better results, we embed deep clustering guided by a theoretical analysis. Furthermore, the distribution learning method cannot always be directly applied to data. To overcome this issue, we introduce a clustering-oriented distribution learning method called Monte-Carlo Marginalization for Clustering. We integrate Monte-Carlo Marginalization for Clustering into Deep Clustering, resulting in Deep Clustering via Distribution Learning (DCDL). Eventually, the proposed DCDL achieves promising results compared to state-of-the-art methods on popular datasets. Considering a clustering task, the new distribution learning method outperforms previous methods as well. | 翻訳日:2024-08-08 14:26:26 公開日:2024-08-06 |
# Logistic Regression は小さな LLM を強力かつ説明可能な "tens-of-shot" 分類器にする
Logistic Regression makes small LLMs strong and explainable "tens-of-shot" classifiers ( http://arxiv.org/abs/2408.03414v1 ) ライセンス: Link先を確認 | Marcus Buckmann, Edward Hill, | (参考訳) 簡単な分類処理では,性能のトレードオフや追加のラベル付けコストを伴わずに,大規模な商用モデルではなく,小規模でローカルな生成言語モデルを使用することの利点を享受できることが示される。
プライバシ、可用性、コスト、説明可能性といったこれらのアドバンテージは、商用アプリケーションにおいても、AIの広範な民主化においても重要です。
17の文分類タスク (2-4クラス) の実験を通して、小さなLLMの埋め込みにおける対物的回帰は、"tens-of-shot"体制における大きなLLMの性能に等しい(そして通常より優れている)ことを示す。
これは、大きなLLMのパフォーマンスを検証するのに必要な以上のラベル付きインスタンスを必要としない。
最後に,分類決定のための安定かつ合理的な説明を抽出する。
For simple classification tasks, we show that users can benefit from the advantages of using small, local, generative language models instead of large commercial models without a trade-off in performance or introducing extra labelling costs. These advantages, including those around privacy, availability, cost, and explainability, are important both in commercial applications and in the broader democratisation of AI. Through experiments on 17 sentence classification tasks (2-4 classes), we show that penalised logistic regression on the embeddings from a small LLM equals (and usually betters) the performance of a large LLM in the "tens-of-shot" regime. This requires no more labelled instances than are needed to validate the performance of the large LLM. Finally, we extract stable and sensible explanations for classification decisions. | 翻訳日:2024-08-08 14:26:26 公開日:2024-08-06 |
# AI-Native Software Development Lifecycle:理論的かつ実践的な新しい方法論
The AI-Native Software Development Lifecycle: A Theoretical and Practical New Methodology ( http://arxiv.org/abs/2408.03416v1 ) ライセンス: Link先を確認 | Cory Hymel, | (参考訳) AIがソフトウェア開発ライフサイクル(SDLC)のすべてのフェーズに進化し、影響を与え続けるにつれ、ソフトウェア構築の新しい方法の必要性が生まれます。
SDLCの現況に影響を及ぼす要因と、AIによってどのように変化するかを分析することにより、新しい開発モデルを提案する。
白書では、計画からデプロイメントまで、AIが開発の各フェーズにシームレスに統合される、完全なAIネイティブなSDLCの出現を提案する。
本稿では,AIを終端から終端まで組み込んだ従来のV-モデルの適応であるV-バウンスモデルを紹介する。
V-BounceモデルはAIを活用して、実装フェーズに費やされた時間を劇的に削減し、要求収集、アーキテクチャ設計、継続的な検証に重点を置いている。
このモデルは、AIが実装エンジンとして機能するバリデータや検証者に至るまで、主要な実装者から人間の役割を再定義する。
As AI continues to advance and impact every phase of the software development lifecycle (SDLC), a need for a new way of building software will emerge. By analyzing the factors that influence the current state of the SDLC and how those will change with AI we propose a new model of development. This white paper proposes the emergence of a fully AI-native SDLC, where AI is integrated seamlessly into every phase of development, from planning to deployment. We introduce the V-Bounce model, an adaptation of the traditional V-model that incorporates AI from end to end. The V-Bounce model leverages AI to dramatically reduce time spent in implementation phases, shifting emphasis towards requirements gathering, architecture design, and continuous validation. This model redefines the role of humans from primary implementers to primarily validators and verifiers with AI acting as an implementation engine. | 翻訳日:2024-08-08 14:26:26 公開日:2024-08-06 |
# 漁業情報メトリクスの教師なし機械学習による量子・古典相転移の検出
Detecting Quantum and Classical Phase Transitions via Unsupervised Machine Learning of the Fisher Information Metric ( http://arxiv.org/abs/2408.03418v1 ) ライセンス: Link先を確認 | Victor Kasatkin, Evgeny Mozgunov, Nicholas Ezzell, Daniel Lidar, | (参考訳) 秩序パラメータがない場合の量子および古典相転移の検出は、フィッシャー情報メートル法(Fisher information metric,FIM)を用いて可能であり、フィデリティ感受性(fidelity susceptibility)とも呼ばれる。
そこで本稿では, 位相図を通して行った測定値の多変量確率分布から, FIMが与えられた限られたサンプルを推定する, 教師なし機械学習(ML)タスクを提案し, 検討する。
この課題を解決するためにClassiFIMと呼ばれる教師なしML手法を用い、様々なスピンおよびフェルミオンモデルを用いて量子相転移と古典相転移の両方を検出する経験的効果を実証した。
クラスiFIMは、トポロジカル(例えば、XXZ鎖)と動的(例えば、ハバードモデルにおける金属絶縁体遷移)の両方を確実に検出する。
我々は、量子相転移を検出するための教師なしML手法と、より詳細な定量的比較を行う。
そこで本研究では,従来の手法に比べて,資源集約的なトレーニングデータを必要とする一方で,これらの手法と適切な精度の指標で競合することが実証された。
特に、ClassiFIMは古典的な(単一基底)測定しか必要としない。
方法論開発の一環として、古典的および量子的フィデリティの感受性を等式や境界を通じて結合するいくつかの定理を証明した。
また, 標準微分可能性条件を緩和することにより, 忠実度感受性の存在条件, 例えば, を著しく拡張する。
これらの結果は、数学物理学のコミュニティには独立した関心を持つかもしれない。
The detection of quantum and classical phase transitions in the absence of an order parameter is possible using the Fisher information metric (FIM), also known as fidelity susceptibility. Here, we propose and investigate an unsupervised machine learning (ML) task: estimating the FIM given limited samples from a multivariate probability distribution of measurements made throughout the phase diagram. We utilize an unsupervised ML method called ClassiFIM (developed in a companion paper) to solve this task and demonstrate its empirical effectiveness in detecting both quantum and classical phase transitions using a variety of spin and fermionic models, for which we generate several publicly available datasets with accompanying ground-truth FIM. We find that ClassiFIM reliably detects both topological (e.g., XXZ chain) and dynamical (e.g., metal-insulator transition in Hubbard model) quantum phase transitions. We perform a detailed quantitative comparison with prior unsupervised ML methods for detecting quantum phase transitions. We demonstrate that ClassiFIM is competitive with these prior methods in terms of appropriate accuracy metrics while requiring significantly less resource-intensive training data compared to the original formulation of the prior methods. In particular, ClassiFIM only requires classical (single-basis) measurements. As part of our methodology development, we prove several theorems connecting the classical and quantum fidelity susceptibilities through equalities or bounds. We also significantly expand the existence conditions of the fidelity susceptibility, e.g., by relaxing standard differentiability conditions. These results may be of independent interest to the mathematical physics community. | 翻訳日:2024-08-08 14:26:26 公開日:2024-08-06 |
# 分類器の確率スコア、校正は不十分
Probabilistic Scores of Classifiers, Calibration is not Enough ( http://arxiv.org/abs/2408.03421v1 ) ライセンス: Link先を確認 | Agathe Fernandes Machado, Arthur Charpentier, Emmanuel Flachaire, Ewen Gallic, François Hu, | (参考訳) バイナリ分類タスクでは、支払いデフォルトの予測や医療リスクの評価など、様々な現実世界のアプリケーションにおいて、確率的予測の正確な表現が不可欠である。
予測された確率と実際の結果との整合性を確保するために、モデルは十分に校正されなければならない。
しかし、スコアの不均一性が基礎となるデータ確率分布から逸脱すると、従来のキャリブレーション指標は信頼性を失い、スコア分布と実際の確率との整合に失敗する。
本研究では,従来の性能・校正基準の最小化よりも,予測スコアと真の確率分布とのアライメントの最適化を優先するアプローチを強調した。
Random Forest や XGBoost のような木に基づくモデルを採用する場合、予測分布と真の分布の間のKL(Kulback-Leibler) のばらつきを最小限に抑えるために、ハイパーパラメータのチューニングにおいてこれらのモデルが提供する柔軟性を強調します。
10のUCIデータセットとシミュレーションにまたがる広範な実験分析により、KLの発散に基づくツリーベースモデルの最適化により、予測されたスコアと実際の確率との整合性は、大きな性能損失を伴わないことが実証された。
実世界のシナリオでは、基準確率は最大確率で推定されたベータ分布として事前判定される。
逆に、従来の校正基準の最小化は、顕著な性能低下と低いKL値によって特徴づけられる、最適以下の結果をもたらす可能性がある。
その結果,従来の校正基準の限界が明らかとなり,重要な意思決定のための予測モデルの信頼性を損なう可能性が示唆された。
In binary classification tasks, accurate representation of probabilistic predictions is essential for various real-world applications such as predicting payment defaults or assessing medical risks. The model must then be well-calibrated to ensure alignment between predicted probabilities and actual outcomes. However, when score heterogeneity deviates from the underlying data probability distribution, traditional calibration metrics lose reliability, failing to align score distribution with actual probabilities. In this study, we highlight approaches that prioritize optimizing the alignment between predicted scores and true probability distributions over minimizing traditional performance or calibration metrics. When employing tree-based models such as Random Forest and XGBoost, our analysis emphasizes the flexibility these models offer in tuning hyperparameters to minimize the Kullback-Leibler (KL) divergence between predicted and true distributions. Through extensive empirical analysis across 10 UCI datasets and simulations, we demonstrate that optimizing tree-based models based on KL divergence yields superior alignment between predicted scores and actual probabilities without significant performance loss. In real-world scenarios, the reference probability is determined a priori as a Beta distribution estimated through maximum likelihood. Conversely, minimizing traditional calibration metrics may lead to suboptimal results, characterized by notable performance declines and inferior KL values. Our findings reveal limitations in traditional calibration metrics, which could undermine the reliability of predictive models for critical decision-making. | 翻訳日:2024-08-08 14:26:26 公開日:2024-08-06 |
# カラーで作業する:カラー量子化は問題情報の研究者にどのように役立つか
Working with Color: How Color Quantization Can Aid Researchers of Problematic Information ( http://arxiv.org/abs/2408.03424v1 ) ライセンス: Link先を確認 | Nina Lutz, Jordyn W. Padzensky, Joseph S. Schafer, | (参考訳) 大規模なビジュアルメディアの分析は依然として困難な課題であり、特に問題のある情報や人的対象を扱う混合手法の研究においてである。
このような分析にAIツールを使用することで、バイアスの修正と悪化、および計算とコストの制限が抑制される。
そこで我々は,問題のある情報キャンペーンから大量の画像を分析するための幾何学的コンピュータグラフィックスと視覚手法を,人間のループ内定性解析と組み合わせて導入する。
本稿は,米国・メキシコ国境におけるオンラインヘイト画像分析へのカラー量子化の導入と,カラー量子化とスキントーンスケールの歴史のヒストリスティックな痕跡について述べる。
そのために,本研究では,このような方法論を自らの作業で再利用するメリットやリスクを,より多くの研究者が考慮し,モチベーションを足場とした。
Analyzing large sets of visual media remains a challenging task, particularly in mixed-method studies dealing with problematic information and human subjects. Using AI tools in such analyses risks reifying and exacerbating biases, as well as untenable computational and cost limitations. As such, we turn to adopting geometric computer graphics and vision methods towards analyzing a large set of images from a problematic information campaign, in conjunction with human-in-the-loop qualitative analysis. We illustrate an effective case of this approach with the implementation of color quantization towards analyzing online hate image at the US-Mexico border, along with a historicist trace of the history of color quantization and skin tone scales, to inform our usage and reclamation of these methodologies from their racist origins. To that end, we scaffold motivations and the need for more researchers to consider the advantages and risks of reclaiming such methodologies in their own work, situated in our case study. | 翻訳日:2024-08-08 14:26:26 公開日:2024-08-06 |
# 量子グラフニューラルネットワークの分子物理への応用に関する研究
A Study on Quantum Graph Neural Networks Applied to Molecular Physics ( http://arxiv.org/abs/2408.03427v1 ) ライセンス: Link先を確認 | Simone Piperno, Andrea Ceschini, Su Yeon Chang, Michele Grossi, Sofia Vallecorsa, Massimo Panella, | (参考訳) 本稿では,従来の文献とは大きく異なる量子グラフニューラルネットワークのアーキテクチャを提案する。
提案手法は, 従来のモデルと類似した結果をもたらすが, パラメータが少なかったため, 問題の基礎となる物理に根ざした極めて解釈可能なアーキテクチャがもたらされる。
建築の斬新さは3つの重要な側面から生じている。
まず,古典的グラフニューラルネットワークに類似した埋め込み更新手法を用い,古典的量子ギャップを埋める。
第二に、各層は異なる順序の相互作用を捉え、システムの物理的特性と整合する。
最後に、SWAPゲートを用いて問題の固有対称性をエミュレートする。
検討された実験の結果は、この分野における継続的な研究の基礎を築き上げることを奨励している。
This paper introduces a novel architecture for Quantum Graph Neural Networks, which is significantly different from previous approaches found in the literature. The proposed approach produces similar outcomes with respect to previous models but with fewer parameters, resulting in an extremely interpretable architecture rooted in the underlying physics of the problem. The architectural novelties arise from three pivotal aspects. Firstly, we employ an embedding updating method that is analogous to classical Graph Neural Networks, therefore bridging the classical-quantum gap. Secondly, each layer is devoted to capturing interactions of distinct orders, aligning with the physical properties of the system. Lastly, we harness SWAP gates to emulate the problem's inherent symmetry, a novel strategy not found currently in the literature. The obtained results in the considered experiments are encouraging to lay the foundation for continued research in this field. | 翻訳日:2024-08-08 14:26:26 公開日:2024-08-06 |
# MarQSim:量子シミュレーションのためのコンパイラ最適化における決定性とランダム性の再検討
MarQSim: Reconciling Determinism and Randomness in Compiler Optimization for Quantum Simulation ( http://arxiv.org/abs/2408.03429v1 ) ライセンス: Link先を確認 | Xiuqi Cao, Junyu Zhou, Yuhao Liu, Yunong Shi, Gushu Li, | (参考訳) 量子アルゴリズム設計の基本である量子シミュレーションは、基礎的なルーツをはるかに超え、多様な量子コンピューティングアプリケーションに電力を供給している。
しかし、量子ハミルトンシミュレーションのコンパイルを最適化することは大きな課題となる。
既存のアプローチは、決定論的およびランダム化されたコンパイルの調整、適切な中間表現の欠如、正確性を保証するのに不足している。
これらの課題に対処するため、新しいコンパイルフレームワークであるMarQSimを紹介します。
MarQSimは、ハミルトニアン項遷移グラフにカプセル化されたマルコフ連鎖に基づくアプローチを活用し、決定論的およびランダム化されたコンパイルの利点を十分に調整する。
我々はアルゴリズムの効率と正しさの基準を厳格に証明する。
さらに、様々な最適化目標を調整しながら、遷移行列を調整して正しさを強制できるMin-Cost Flowモデルを定式化する。
実験結果から、MarQSimは精度を維持しながら様々な量子ハミルトニアンをシミュレートするより効率的な量子回路を生成するのに優れていることが示された。
Quantum simulation, fundamental in quantum algorithm design, extends far beyond its foundational roots, powering diverse quantum computing applications. However, optimizing the compilation of quantum Hamiltonian simulation poses significant challenges. Existing approaches fall short in reconciling deterministic and randomized compilation, lack appropriate intermediate representations, and struggle to guarantee correctness. Addressing these challenges, we present MarQSim, a novel compilation framework. MarQSim leverages a Markov chain-based approach, encapsulated in the Hamiltonian Term Transition Graph, adeptly reconciling deterministic and randomized compilation benefits. We rigorously prove its algorithmic efficiency and correctness criteria. Furthermore, we formulate a Min-Cost Flow model that can tune transition matrices to enforce correctness while accommodating various optimization objectives. Experimental results demonstrate MarQSim's superiority in generating more efficient quantum circuits for simulating various quantum Hamiltonians while maintaining precision. | 翻訳日:2024-08-08 14:26:26 公開日:2024-08-06 |
# ハイブリッド拡散モデル:ラベル効率の良いセグメンテーションモデルの教師付きおよび生成前訓練の組み合わせ
Hybrid diffusion models: combining supervised and generative pretraining for label-efficient fine-tuning of segmentation models ( http://arxiv.org/abs/2408.03433v1 ) ライセンス: Link先を確認 | Bruno Sauvalle, Mathieu Salzmann, | (参考訳) 大規模なラベル付きデータセットが利用可能であり、1つのドメインで正確なセグメンテーションモデルをトレーニングできると仮定し、このモデルをいくつかのサンプルしか利用できない関連するドメインに適応させる必要があると仮定する。
教師付き事前学習法は、古典的な教師付き学習を用いて第1のドメインで訓練されたモデルを、利用可能なラベル付きサンプルを用いて第2のドメインで微調整することである。
第2の方法は、ジェネリックプレテキストタスクを使用して第1のドメイン上で自己教師付き事前訓練を行うことで、高品質な表現を得ることで、ラベル効率のよい方法で第2のドメイン上でモデルをトレーニングすることができる。
本稿では,この2つのアプローチを,第1領域における画像デノゲーションとマスク予測を同時に行うことを目的とした,新しいプレテキストタスクを導入することで融合する。
この選択の動機は、拡散モデル理論を用いて、ノイズレベルに条件付き画像デノイザを未ラベル画像分布の生成モデルとみなすことができるのと同様に、画像からセグメンテーションマスクへのマッピングが決定論的であると仮定して、画像とセグメンテーションマスクの結合分布の生成モデルとみなすことができる。
次に、本手法を用いて事前トレーニングされたモデルを微調整するいくつかのデータセットを実証的に示し、教師なしまたは教師なしの事前トレーニングのみを使用してトレーニングされた同様のモデルを微調整するよりも、よりよい結果をもたらす。
We are considering in this paper the task of label-efficient fine-tuning of segmentation models: We assume that a large labeled dataset is available and allows to train an accurate segmentation model in one domain, and that we have to adapt this model on a related domain where only a few samples are available. We observe that this adaptation can be done using two distinct methods: The first method, supervised pretraining, is simply to take the model trained on the first domain using classical supervised learning, and fine-tune it on the second domain with the available labeled samples. The second method is to perform self-supervised pretraining on the first domain using a generic pretext task in order to get high-quality representations which can then be used to train a model on the second domain in a label-efficient way. We propose in this paper to fuse these two approaches by introducing a new pretext task, which is to perform simultaneously image denoising and mask prediction on the first domain. We motivate this choice by showing that in the same way that an image denoiser conditioned on the noise level can be considered as a generative model for the unlabeled image distribution using the theory of diffusion models, a model trained using this new pretext task can be considered as a generative model for the joint distribution of images and segmentation masks under the assumption that the mapping from images to segmentation masks is deterministic. We then empirically show on several datasets that fine-tuning a model pretrained using this approach leads to better results than fine-tuning a similar model trained using either supervised or unsupervised pretraining only. | 翻訳日:2024-08-08 14:26:26 公開日:2024-08-06 |
# Ethereumフィッシングトランザクション検出を変換する単純な摂動:実証分析
Simple Perturbations Subvert Ethereum Phishing Transactions Detection: An Empirical Analysis ( http://arxiv.org/abs/2408.03441v1 ) ライセンス: Link先を確認 | Ahod Alghureid, David Mohaisen, | (参考訳) 本稿では,マシンラーニングモデル,特にランダムフォレスト,決定木,K-Nearest Neighborsの脆弱性を,Ethereum不正取引検出の文脈において,非常に単純な単一機能攻撃に対して検討する。
総合的な実験を通じて、精度、精度、リコール、F1スコアなどのモデル性能指標に対する様々な敵攻撃戦略の影響について検討する。
我々の発見は、これらのテクニックが単純な攻撃にどのように影響するかを強調し、異なるアルゴリズムに対する攻撃の効果の不整合は、攻撃を緩和する方法を約束する。
モデルロバスト性を高めるために, 対戦訓練や特徴選択の強化など, 様々な緩和策の有効性を検討する。
This paper explores the vulnerability of machine learning models, specifically Random Forest, Decision Tree, and K-Nearest Neighbors, to very simple single-feature adversarial attacks in the context of Ethereum fraudulent transaction detection. Through comprehensive experimentation, we investigate the impact of various adversarial attack strategies on model performance metrics, such as accuracy, precision, recall, and F1-score. Our findings, highlighting how prone those techniques are to simple attacks, are alarming, and the inconsistency in the attacks' effect on different algorithms promises ways for attack mitigation. We examine the effectiveness of different mitigation strategies, including adversarial training and enhanced feature selection, in enhancing model robustness. | 翻訳日:2024-08-08 14:26:26 公開日:2024-08-06 |
# 深層学習を用いたポストモーテムヒト虹彩偏差解析
Post-Mortem Human Iris Segmentation Analysis with Deep Learning ( http://arxiv.org/abs/2408.03448v1 ) ライセンス: Link先を確認 | Afzal Hossain, Tipu Sultan, Stephanie Schuckers, | (参考訳) アイリスの認識は、携帯電話、金融取引、識別カード、空港のセキュリティ、国際国境管理、住民登録など、様々な分野で広く使われている。
しかし、その虹彩パターンに基づいて死亡者を特定する可能性は、近年、法医学的分析に有用な補足的あるいは代替的な方法として出現している。
同時に、多くの新しい技術課題を提起し、その中でも最も難しいのは、従来の虹彩認識アプローチがそれを確実に実行するのに苦労しているイメージセグメンテーション段階である。
本稿では,VGG19,ResNet18,ResNet50,MobileNetv2,Xception,InceptionResNetv2をバックボーンとして使用するSegNetとDeepLabV3+のセマンティックセマンティックセマンティックセマンティックセマンティクス法を用いて,被検者から収集した虹彩画像のセグメンテーションのために設計されたDeep Learning(DL)モデルを提示し,比較する。
本研究は,提案手法が時間後サンプルに固有の変形を効果的に学習し,同定し,精度を大幅に向上させることを実証するものである。
新たな手法であるMobileNetv2をDeepLabV3+のバックボーンとして採用し,境界損失とDice損失を組み合わせたハイブリッド損失関数に置き換えることで,ワルシャワ・ビオベース・ポストモーテム-アイリス-v1データセット上の95.54%の平均インターセクションを実現する。
我々の知る限り, 本研究は, 死後虹彩分節に対するDLモデルの最も広範囲な評価を提供するものである。
Iris recognition is widely used in several fields such as mobile phones, financial transactions, identification cards, airport security, international border control, voter registration for living persons. However, the possibility of identifying deceased individuals based on their iris patterns has emerged recently as a supplementary or alternative method valuable in forensic analysis. Simultaneously, it poses numerous new technological challenges and one of the most challenging among them is the image segmentation stage as conventional iris recognition approaches have struggled to reliably execute it. This paper presents and compares Deep Learning (DL) models designed for segmenting iris images collected from the deceased subjects, by training SegNet and DeepLabV3+ semantic segmentation methods where using VGG19, ResNet18, ResNet50, MobileNetv2, Xception, or InceptionResNetv2 as backbones. In this study, our experiments demonstrate that our proposed method effectively learns and identifies specific deformations inherent in post-mortem samples and providing a significant improvement in accuracy. By employing our novel method MobileNetv2 as the backbone of DeepLabV3+ and replacing the final layer with a hybrid loss function combining Boundary and Dice loss, we achieve Mean Intersection over Union of 95.54% on the Warsaw-BioBase-PostMortem-Iris-v1 dataset. To the best of our knowledge, this study provides the most extensive evaluation of DL models for post-mortem iris segmentation. | 翻訳日:2024-08-08 14:16:39 公開日:2024-08-06 |
# EEGMobile: 高度なモバイルアーキテクチャによるEEGベースの視線予測における速度と精度の向上
EEGMobile: Enhancing Speed and Accuracy in EEG-Based Gaze Prediction with Advanced Mobile Architectures ( http://arxiv.org/abs/2408.03449v1 ) ライセンス: Link先を確認 | Teng Liang, Andrews Damoah, | (参考訳) 脳波(EEG)解析は脳-コンピュータインタフェース(BCI)研究の領域において重要な領域である。
BCIデバイスが現実世界で実用的な応用を提供できるようにするためには、脳信号処理技術は高速で正確でリソースを意識して低レイテンシのニューラルネットワークを提供する必要がある。
本研究では,脳波の回帰タスクにおいて,事前学習したMobileViTと知識蒸留(KD)を併用したモデルを提案する。
以上の結果から,EEGEyeNet 絶対位置タスクでは,前回の State-Of-The-Art (SOTA) に匹敵するレベル(3%以下)で,33%の高速化と60%の小型化を実現していることがわかった。
本研究は, 資源制約型デバイスに適用可能な費用効率モデルを提案するとともに, 脳波レグレッションのための軽量でモバイルフレンドリーなモデルに関する今後の研究に寄与する。
Electroencephalography (EEG) analysis is an important domain in the realm of Brain-Computer Interface (BCI) research. To ensure BCI devices are capable of providing practical applications in the real world, brain signal processing techniques must be fast, accurate, and resource-conscious to deliver low-latency neural analytics. This study presents a model that leverages a pre-trained MobileViT alongside Knowledge Distillation (KD) for EEG regression tasks. Our results showcase that this model is capable of performing at a level comparable (only 3% lower) to the previous State-Of-The-Art (SOTA) on the EEGEyeNet Absolute Position Task while being 33% faster and 60% smaller. Our research presents a cost-effective model applicable to resource-constrained devices and contributes to expanding future research on lightweight, mobile-friendly models for EEG regression. | 翻訳日:2024-08-08 14:16:39 公開日:2024-08-06 |
# アトランタのトランジットライダー熱応力の現況と今後の気候シナリオ
Transit Rider Heat Stress in Atlanta, GA under Current and Future Climate Scenarios ( http://arxiv.org/abs/2408.03457v1 ) ライセンス: Link先を確認 | Huiying Fan, Geyu Lyu, Hongyu Lu, Angshuman Guin, Randall Guensler, | (参考訳) 交通は重要な交通手段であり、特に都市部や都市部や田園部の不利な地域社会にとって重要である。
極端な気温が高齢者、障害者コミュニティ、その他の脆弱な人口に脅威をもたらすことがしばしばあるため、この研究は、極端温度が異なる人口集団にわたるトランスポートユーザーに与える影響のレベルを理解することを目的としている。
アトランタのケーススタディでは、2019年のトランジットライダー(トランジットライダー活動調査データ)と将来の3つの気候シナリオ(SSP245、SSP370、SSP585)について2100年までの熱ストレスが予測される。
ヒートパス・アナライザーとトランジットシム4.0モデルは、2019年夏にアトランタの平日平均3万999回の旅行で、累積的な熱暴露と旅行レベルのリスクを予測するために適用された。
この分析によると、2019年の気象条件下では、夏季旅行の8.33%が極端な暑さで行われていると推定されている。
将来の気候条件が予想されると、極端な熱リスクの下での旅行の割合は着実に増加する。
2100年までには、SSP245、SSP370、SSP585の2100、37.1%、56.1%、76.4%が極度の熱リスクにさらされると予想されている。
現在の気象条件下では、車を所有しないアトランタのトランジットライダーやアフリカ系アメリカ人のトランジットライダーは、極端な暑さに不当に影響を受けている。
これら2つのグループと他のトランジットライダーの格差は、気候変動がさらに悪化し続けるにつれて拡大する。
本研究は,都市交通網における熱緩和・適応戦略の緊急導入の必要性を明らかにするものである。
Transit is a crucial mode of transportation, especially in urban areas and for urban and rural disadvantaged communities. Because extreme temperatures often pose threats to the elderly, members of the disability community, and other vulnerable populations, this study seeks to understand the level of influence that extreme temperatures may have on transit users across different demographic groups. In this case study for Atlanta, GA, heat stress is predicted for 2019 transit riders (using transit rider activity survey data) and for three future climate scenarios, SSP245, SSP370, and SSP585, into the year 2100. The HeatPath Analyzer and TransitSim 4.0 models were applied to predict cumulative heat exposure and trip-level risk for 35,999 trip equivalents for an average Atlanta area weekday in the summer of 2019. The analyses show that under 2019 weather conditions, 8.33% of summer trips were estimated to be conducted under extreme heat. With the projected future climate conditions, the percentage of trips under extreme heat risk grows steadily. By 2100, 37.1%, 56.1%, and 76.4% are projected to be under extreme heat risk for scenarios SSP245, SSP370, and SSP585, respectively. Under current weather conditions, Atlanta transit riders that own no vehicles and transit riders that are African American are disproportionately influenced by extreme heat. The disparity between these two groups and other groups of transit riders becomes wider as climate change continues to exacerbate. The findings of the study highlight an urgent need to implement heat mitigation and adaptation strategies in urban transit networks. | 翻訳日:2024-08-08 14:16:39 公開日:2024-08-06 |
# DPOによる選好学習の一般化について
On the Generalization of Preference Learning with DPO ( http://arxiv.org/abs/2408.03459v1 ) ライセンス: Link先を確認 | Shawn Im, Yixuan Li, | (参考訳) 大きな言語モデル(LLM)は目覚ましい能力を示してきたが、しばしば人間の好みに合わせるのに苦労し、有害または望ましくない出力をもたらす。
嗜好学習は、人間のフィードバックに基づいて、好ましくない反応と好ましくない反応を区別するモデルを訓練するものであり、LLMが人間の価値観と整合することを保証する重要な要素となっている。
現実世界のシステムに広く採用されているにもかかわらず、これらのモデルに対する一般化保証の完全な理論的理解はいまだに欠如している。
本稿では、直接選好最適化(DPO)で訓練されたモデルの一般化保証を解析するための新しい理論的枠組みを導入することにより、このギャップを埋める。
既存の一般化理論は、ほぼ最適損失を達成するための過度パラメータ化されたモデルや、トレーニングプロセスに依存しないモデルに焦点を当てることが多いが、我々のフレームワークは、現実のLLMトレーニングの実践を反映して、有限の勾配ステップの後、いかにうまく一般化するかを厳格に評価する。
トレーニングを通して各サンプルとその軌道に関連付けられた報酬マージンを解析することにより、一般化誤差を効果的に境界付けることができる。
我々は、特定の条件下でDPOで訓練されたモデルが、未確認データに対する好ましくない応答を高い確率で正しく識別できることを示す学習保証を導出する。
これらの知見は, 現代のLLMで実証的に検証され, 理論的知見の実用的妥当性を裏付けるものである。
Large language models (LLMs) have demonstrated remarkable capabilities but often struggle to align with human preferences, leading to harmful or undesirable outputs. Preference learning, which trains models to distinguish between preferred and non-preferred responses based on human feedback, has become a crucial component for ensuring that LLMs align with human values. Despite the widespread adoption in real-world systems, a thorough theoretical understanding of the generalization guarantees for these models remain lacking. This paper bridges that gap by introducing a new theoretical framework to analyze the generalization guarantees of models trained with direct preference optimization (DPO). While existing generalization theory often focuses on overparameterized models achieving near-optimal loss or models independent of the training process, our framework rigorously assesses how well models generalize after a finite number of gradient steps, reflecting real-world LLM training practices. By analyzing the reward margin associated with each sample and its trajectory throughout training, we can effectively bound the generalization error. We derive learning guarantees showing that, under specific conditions, models trained with DPO can correctly discern preferred responses on unseen data with high probability. These insights are empirically validated on contemporary LLMs, underscoring the practical relevance of our theoretical findings. | 翻訳日:2024-08-08 14:16:39 公開日:2024-08-06 |
# 平均的ネットワークはいつ,ネットワークのサンプルのトポロジをキャプチャするのだろうか?
When does the mean network capture the topology of a sample of networks? ( http://arxiv.org/abs/2408.03461v1 ) ライセンス: Link先を確認 | François G Meyer, | (参考訳) Fr\'echet mean(「バリセンター」とも呼ばれる)ネットワークの概念は、ネットワーク価値データを分析するために「ロケーション」パラメータを推定する必要があるほとんどの機械学習アルゴリズムのワークホースである。
この文脈では、ネットワークバリセンタがトレーニングデータセット内のネットワークのトポロジ的構造を継承することが重要である。
ネットワーク間の近接を測定する計量は、バリセンタの構造特性を制御する。
この研究は、ランダムネットワークの厳密な確率論的解析の最先端にある確率的ブロックモデルに対して、初めてサンプルFr'echet平均の解析的推定を提供するため、重要である。
本研究では,ハミング距離で計算した平均ネットワークがトレーニングサンプルのネットワークのトポロジを捕捉できないことを示す。一方,有効抵抗距離を用いて計算した平均ネットワークは,正しい分割と関連するエッジ密度を回復する。
実践的な観点から、我々の研究は、サンプルFr'echet平均ネットワークを用いてネットワーク評価機械学習のためのネットワークのトポロジを特徴づける文脈におけるメトリクスの選択を通知する。
The notion of Fr\'echet mean (also known as "barycenter") network is the workhorse of most machine learning algorithms that require the estimation of a "location" parameter to analyse network-valued data. In this context, it is critical that the network barycenter inherits the topological structure of the networks in the training dataset. The metric - which measures the proximity between networks - controls the structural properties of the barycenter. This work is significant because it provides for the first time analytical estimates of the sample Fr\'echet mean for the stochastic blockmodel, which is at the cutting edge of rigorous probabilistic analysis of random networks. We show that the mean network computed with the Hamming distance is unable to capture the topology of the networks in the training sample, whereas the mean network computed using the effective resistance distance recovers the correct partitions and associated edge density. From a practical standpoint, our work informs the choice of metrics in the context where the sample Fr\'echet mean network is used to characterise the topology of networks for network-valued machine learning | 翻訳日:2024-08-08 14:16:39 公開日:2024-08-06 |
# 観測時空間データにおける治療応答サブグループ同定
Identifying treatment response subgroups in observational time-to-event data ( http://arxiv.org/abs/2408.03463v1 ) ライセンス: Link先を確認 | Vincent Jeanselme, Chang Ho Yoon, Fabian Falck, Brian Tom, Jessica Barrett, | (参考訳) 治療反応の異なる患者サブグループを特定することは、医療勧告、ガイドライン、将来の臨床試験の設計を知らせる重要な課題である。
既存のサブグループ分析のアプローチは主にランダム化制御試験(Randomized Controlled Trials:RCTs)に焦点が当てられている。
さらに、RCT患者のコホートはコストに制約されることが多く、実際の臨床で治療を受ける可能性の高い患者の不均一性を表すものではない。
したがって、観察研究に適用した場合、そのようなアプローチは治療の非ランダム化のために有意な統計的バイアスを被ることになる。
本研究は、観察研究における治療応答サブグループを特定するための、新しい結果誘導手法を提案する。
本手法では,各患者を2つの時間-時間分布に関連するサブグループ,すなわち治療中のサブグループとコントロール中のサブグループに割り当てる。
そのため、個々の治療効果と平均治療効果の見積もりの間に位置づけられる。
本モデルの仮定は, 逆確率重み付けによる非ランダム化処理から統計バイアスを簡易に補正する。
実験では, ランダム化処理と観察処理の両方において, 結果誘導サブグループ分析の最先端手法を著しく上回る結果を得た。
Identifying patient subgroups with different treatment responses is an important task to inform medical recommendations, guidelines, and the design of future clinical trials. Existing approaches for subgroup analysis primarily focus on Randomised Controlled Trials (RCTs), in which treatment assignment is randomised. Furthermore, the patient cohort of an RCT is often constrained by cost, and is not representative of the heterogeneity of patients likely to receive treatment in real-world clinical practice. Therefore, when applied to observational studies, such approaches suffer from significant statistical biases because of the non-randomisation of treatment. Our work introduces a novel, outcome-guided method for identifying treatment response subgroups in observational studies. Our approach assigns each patient to a subgroup associated with two time-to-event distributions: one under treatment and one under control regime. It hence positions itself in between individualised and average treatment effect estimation. The assumptions of our model result in a simple correction of the statistical bias from treatment non-randomisation through inverse propensity weighting. In experiments, our approach significantly outperforms the current state-of-the-art method for outcome-guided subgroup analysis in both randomised and observational treatment regimes. | 翻訳日:2024-08-08 14:16:39 公開日:2024-08-06 |
# リモートセンシングにおけるAIファンデーションモデル
AI Foundation Models in Remote Sensing: A Survey ( http://arxiv.org/abs/2408.03464v1 ) ライセンス: Link先を確認 | Siqi Lu, Junlin Guo, James R Zimmer-Dauphinee, Jordan M Nieusma, Xiao Wang, Parker VanValkenburgh, Steven A Wernke, Yuankai Huo, | (参考訳) 人工知能(AI)技術は、リモートセンシング、データ収集、処理、分析の分野を大きく変えた。
従来、手動の解釈とタスク固有のモデルに依存していたリモートセンシングは、前例のない精度と効率で幅広いタスクを実行することができる、大規模で訓練済みのAIモデルという基礎モデルの出現によって、大幅に強化されてきた。
本稿では,2021年6月から2024年6月までに,リモートセンシング領域における基礎モデルの包括的調査を行う。
これらのモデルは、コンピュータビジョンやドメイン固有のタスクにおける応用に基づいて分類し、アーキテクチャ、事前学習データセット、方法論に関する洞察を提供する。
詳細な性能比較を通じて、これらの基礎モデルによって達成される新しいトレンドと重要な進歩を強調します。
さらに、高品質なデータ、計算資源、改良されたモデル一般化の必要性に対処しながら、技術的な課題、実践的含意、今後の研究方向性について論じる。
また,事前学習手法,特にコントラスト学習やマスク付きオートエンコーダのような自己指導型学習手法は,シーン分類や物体検出などのリモートセンシングタスクにおいて,基礎モデルの性能と堅牢性を大幅に向上させることがわかった。
本調査は, 遠隔センシングにおける基礎モデルの開発と応用を継続するために, 進展のパノラマと将来性のある経路を提供することによって, 研究者や実践者の資源として機能することを目的としている。
Artificial Intelligence (AI) technologies have profoundly transformed the field of remote sensing, revolutionizing data collection, processing, and analysis. Traditionally reliant on manual interpretation and task-specific models, remote sensing has been significantly enhanced by the advent of foundation models--large-scale, pre-trained AI models capable of performing a wide array of tasks with unprecedented accuracy and efficiency. This paper provides a comprehensive survey of foundation models in the remote sensing domain, covering models released between June 2021 and June 2024. We categorize these models based on their applications in computer vision and domain-specific tasks, offering insights into their architectures, pre-training datasets, and methodologies. Through detailed performance comparisons, we highlight emerging trends and the significant advancements achieved by these foundation models. Additionally, we discuss the technical challenges, practical implications, and future research directions, addressing the need for high-quality data, computational resources, and improved model generalization. Our research also finds that pre-training methods, particularly self-supervised learning techniques like contrastive learning and masked autoencoders, significantly enhance the performance and robustness of foundation models in remote sensing tasks such as scene classification, object detection, and other applications. This survey aims to serve as a resource for researchers and practitioners by providing a panorama of advances and promising pathways for continued development and application of foundation models in remote sensing. | 翻訳日:2024-08-08 14:16:39 公開日:2024-08-06 |
# プロジェクトベース機械学習コースにおけるHCIデータセットの統合:大学レベルレビューとケーススタディ
Integrating HCI Datasets in Project-Based Machine Learning Courses: A College-Level Review and Case Study ( http://arxiv.org/abs/2408.03472v1 ) ライセンス: Link先を確認 | Xiaodong Qu, Matthew Key, Eric Luo, Chuhui Qiu, | (参考訳) 本研究では,HCI(Human-Computer Interface)データセットを用いた実世界の機械学習プロジェクトの統合を検討した。
総合的な文献レビュー、コースWebサイト分析、詳細なケーススタディを用いて、HCIデータセットをプロジェクトベースのML教育に組み込むためのベストプラクティスを特定する。
キーfインディングは、学生のエンゲージメント、モチベーション、スキル開発をハンズオンプロジェクトを通じて向上させ、インストラクターは複雑な概念を教える効果的なツールの恩恵を受ける。
この研究は、データ複雑性やリソース割り当てといった課題にも対処し、今後の改善を推奨している。
これらの洞察は、教育者間のギャップを埋めるための貴重なフレームワークを提供する。
This study explores the integration of real-world machine learning (ML) projects using human-computer interfaces (HCI) datasets in college-level courses to enhance both teaching and learning experiences. Employing a comprehensive literature review, course websites analysis, and a detailed case study, the research identifies best practices for incorporating HCI datasets into project-based ML education. Key f indings demonstrate increased student engagement, motivation, and skill development through hands-on projects, while instructors benefit from effective tools for teaching complex concepts. The study also addresses challenges such as data complexity and resource allocation, offering recommendations for future improvements. These insights provide a valuable framework for educators aiming to bridge the gap between | 翻訳日:2024-08-08 14:16:39 公開日:2024-08-06 |
# LLMは時系列異常検知器として生き残るか?
Can LLMs Serve As Time Series Anomaly Detectors? ( http://arxiv.org/abs/2408.03475v1 ) ライセンス: Link先を確認 | Manqing Dong, Hao Huang, Longbing Cao, | (参考訳) 大規模言語モデル(LLM)における新たなトピックは、時系列予測への応用であり、時系列の主流とパターン可能な特徴を特徴付ける。
LLMが様々な現実世界のアプリケーションにおいて重要なタスクである時系列異常を検知し、説明できるかどうかという問題である。
本稿では,LLM,特にGPT-4とLLaMA3の時系列における異常の検出・説明能力について検討する。
私たちの研究は、こう明らかにしています。
1) LLM は時系列異常検出に直接使用することはできない。
2) 文脈内学習やチェーン・オブ・シークレット・プロンプトなどのプロンプト戦略を設計することにより, GPT-4 は時系列異常を検出できる。
3) 時系列異常を自動的に生成する合成データセットを提案する。
このデータセットに命令の微調整を適用することで、LLaMA3は時系列異常検出タスクのパフォーマンス向上を示す。
まとめると、我々の探索は、時系列異常検出器としてのLSMの有望な可能性を示している。
An emerging topic in large language models (LLMs) is their application to time series forecasting, characterizing mainstream and patternable characteristics of time series. A relevant but rarely explored and more challenging question is whether LLMs can detect and explain time series anomalies, a critical task across various real-world applications. In this paper, we investigate the capabilities of LLMs, specifically GPT-4 and LLaMA3, in detecting and explaining anomalies in time series. Our studies reveal that: 1) LLMs cannot be directly used for time series anomaly detection. 2) By designing prompt strategies such as in-context learning and chain-of-thought prompting, GPT-4 can detect time series anomalies with results competitive to baseline methods. 3) We propose a synthesized dataset to automatically generate time series anomalies with corresponding explanations. By applying instruction fine-tuning on this dataset, LLaMA3 demonstrates improved performance in time series anomaly detection tasks. In summary, our exploration shows the promising potential of LLMs as time series anomaly detectors. | 翻訳日:2024-08-08 14:16:39 公開日:2024-08-06 |
# 脳波データを用いたCNN-Vision-Transformer-based Gaze予測におけるカーネルサイズの影響
Effect of Kernel Size on CNN-Vision-Transformer-Based Gaze Prediction Using Electroencephalography Data ( http://arxiv.org/abs/2408.03478v1 ) ライセンス: Link先を確認 | Chuhui Qiu, Bugao Liang, Matthew L Key, | (参考訳) 本稿では,脳波データを用いた視線予測アルゴリズムを提案する。
EEGベースの視線予測は、従来のビデオベースの視線追跡の代替となる新しい研究トピックである。
従来のSOTA法と比較して,脳波による視線予測の2乗平均誤差を53.06mmに改善し,トレーニング時間を33%以下に短縮した。
ソースコードはhttps://github.com/AmCh-Q/CSCI6907Projectで確認できます。
In this paper, we present an algorithm of gaze prediction from Electroencephalography (EEG) data. EEG-based gaze prediction is a new research topic that can serve as an alternative to traditional video-based eye-tracking. Compared to the existing state-of-the-art (SOTA) method, we improved the root mean-squared-error of EEG-based gaze prediction to 53.06 millimeters, while reducing the training time to less than 33% of its original duration. Our source code can be found at https://github.com/AmCh-Q/CSCI6907Project | 翻訳日:2024-08-08 14:16:39 公開日:2024-08-06 |
# 奥行き分離可能な畳み込みと強化前処理による脳波による視線予測の高速化
Advancing EEG-Based Gaze Prediction Using Depthwise Separable Convolution and Enhanced Pre-Processing ( http://arxiv.org/abs/2408.03480v1 ) ライセンス: Link先を確認 | Matthew L Key, Tural Mehtiyev, Xiaodong Qu, | (参考訳) 脳波に基づく視線予測の分野では、複雑なニューラルネットワークデータの解釈にディープラーニングを適用することが大きな課題となっている。
本研究では,前処理技術の有効性と,事前学習型モデルアーキテクチャにおける脳波視覚変換器(ViT)に対する追加の深度分離可能な畳み込みの効果を評価する。
本稿では,脳深度分離可能な畳み込みニューラルネットワーク(CNN)と視覚変換器を組み合わせたEEG-DCViT(Deeper Clustered Vision Transformer)を提案する。
この新しいアプローチは優れたパフォーマンスを示し、51.6mmのRoot Mean Square Error(RMSE)で新しいベンチマークを確立した。
この成果は、EEGベースのアプリケーションの強化における前処理とモデル改良の影響を浮き彫りにしている。
In the field of EEG-based gaze prediction, the application of deep learning to interpret complex neural data poses significant challenges. This study evaluates the effectiveness of pre-processing techniques and the effect of additional depthwise separable convolution on EEG vision transformers (ViTs) in a pretrained model architecture. We introduce a novel method, the EEG Deeper Clustered Vision Transformer (EEG-DCViT), which combines depthwise separable convolutional neural networks (CNNs) with vision transformers, enriched by a pre-processing strategy involving data clustering. The new approach demonstrates superior performance, establishing a new benchmark with a Root Mean Square Error (RMSE) of 51.6 mm. This achievement underscores the impact of pre-processing and model refinement in enhancing EEG-based applications. | 翻訳日:2024-08-08 14:16:39 公開日:2024-08-06 |
# バイオメディカルイメージセグメンテーション:ディープラーニングに基づく物体検出手法の体系的文献レビュー
Biomedical Image Segmentation: A Systematic Literature Review of Deep Learning Based Object Detection Methods ( http://arxiv.org/abs/2408.03393v1 ) ライセンス: Link先を確認 | Fazli Wahid, Yingliang Ma, Dawar Khan, Muhammad Aamir, Syed U. K. Bukhari, | (参考訳) バイオメディカルイメージセグメンテーションは、様々な臓器の疾患の診断において重要な役割を担っている。
このようなセグメンテーションにはディープラーニングに基づく物体検出法が一般的である。
この話題には広範な研究がある。
しかし、このトピックに関する標準的なレビューはない。
既存の調査では、標準化されたアプローチやより広範なセグメンテーション技術に重点を置いていないことが多い。
本稿では, バイオメディカルイメージセグメンテーションのための深層学習物体検出手法を探求する148の論文を収集, 分析した。
これらの手法を批判的に分析し,課題を特定し,今後の方向性について考察した。
選択した論文から, ディープラーニングモデル, 対象画像のモダリティ, 対象疾患, 方法分析のための指標などの結果を抽出した。
結果は表形式および/またはチャート形式で提示されている。
結果は,2つのステージ検出モデル,1つのステージ検出モデル,ポイントベース検出モデルを含む3つの主要なカテゴリで示される。
各記事は、その長所と短所とともに個別に分析される。
最後に,オープン課題,潜在的利益,今後の研究方向性について論じる。
このSLRは、これらのセグメンテーションモデルを素早くより深く理解し、最終的にはバイオメディカル画像解析のためのより強力なソリューションの開発を促進することを目的としている。
Biomedical image segmentation plays a vital role in diagnosis of diseases across various organs. Deep learning-based object detection methods are commonly used for such segmentation. There exists an extensive research in this topic. However, there is no standard review on this topic. Existing surveys often lack a standardized approach or focus on broader segmentation techniques. In this paper, we conducted a systematic literature review (SLR), collected and analysed 148 articles that explore deep learning object detection methods for biomedical image segmentation. We critically analyzed these methods, identified the key challenges, and discussed the future directions. From the selected articles we extracted the results including the deep learning models, targeted imaging modalities, targeted diseases, and the metrics for the analysis of the methods. The results have been presented in tabular and/or charted forms. The results are presented in three major categories including two stage detection models, one stage detection models and point-based detection models. Each article is individually analyzed along with its pros and cons. Finally, we discuss open challenges, potential benefits, and future research directions. This SLR aims to provide the research community with a quick yet deeper understanding of these segmentation models, ultimately facilitating the development of more powerful solutions for biomedical image analysis. | 翻訳日:2024-08-08 12:25:11 公開日:2024-08-06 |
# HeTraX:変圧器加速のためのエネルギー効率の良い3次元異種マルチコアアーキテクチャ
HeTraX: Energy Efficient 3D Heterogeneous Manycore Architecture for Transformer Acceleration ( http://arxiv.org/abs/2408.03397v1 ) ライセンス: Link先を確認 | Pratyush Dhingra, Janardhan Rao Doppa, Partha Pratim Pande, | (参考訳) トランスフォーマーは、自然言語処理タスクなどにおける前例のない進歩を可能にするために、ディープラーニングと生成モデリングに革命をもたらした。
しかし、トランスアーキテクチャに関わる多種多様なコンピューティングカーネルのため、トランスフォーマーモデルを実行するハードウェアアクセラレータの設計は困難である。
既存の加速器は、エンド・ツー・エンドのトランスフォーマー・モデルの加速に不適当か、顕著な温度制限に悩まされている。
本稿では,エンド・ツー・エンド・エンド・トランスフォーマーモデルに最適化されたHeTraXと呼ばれる3次元ヘテロジニアスアーキテクチャの設計を提案する。
HeTraXは、トランスの計算カーネルに合わせたハードウェアリソースを採用し、性能とエネルギーの両方を最適化する。
実験の結果、HeTraXは既存の最先端技術よりも5.6倍のスピードアップを実現し、EDPを14.5倍改善し、熱的実現性を確保した。
Transformers have revolutionized deep learning and generative modeling to enable unprecedented advancements in natural language processing tasks and beyond. However, designing hardware accelerators for executing transformer models is challenging due to the wide variety of computing kernels involved in the transformer architecture. Existing accelerators are either inadequate to accelerate end-to-end transformer models or suffer notable thermal limitations. In this paper, we propose the design of a three-dimensional heterogeneous architecture referred to as HeTraX specifically optimized to accelerate end-to-end transformer models. HeTraX employs hardware resources aligned with the computational kernels of transformers and optimizes both performance and energy. Experimental results show that HeTraX outperforms existing state-of-the-art by up to 5.6x in speedup and improves EDP by 14.5x while ensuring thermally feasibility. | 翻訳日:2024-08-08 12:25:11 公開日:2024-08-06 |
# 確率グラフ上の逐次条件輸送による解釈可能な対実フェアネス
Sequential Conditional Transport on Probabilistic Graphs for Interpretable Counterfactual Fairness ( http://arxiv.org/abs/2408.03425v1 ) ライセンス: Link先を確認 | Agathe Fernandes Machado, Arthur Charpentier, Ewen Gallic, | (参考訳) 本稿では,Ple\v{c}ko と Meinshausen (2020) に示唆される因果グラフに基づく適応と,De Lara et al (2024) に示唆される最適輸送の2つの既存手法をリンクする。
我々は、確率的グラフィカルモデルに "Knothe's rearrangement" Bonnotte (2013) と "triangular transport" Zech and Marzouk (2022a) を拡張し、この反ファクト的アプローチをシーケンシャルトランスポート(Sequence transport)と呼び、個別の公正性について議論する。
提案手法の理論的基礎を確立した後、合成データセットと実データセットの両方で数値実験によりその応用を実証する。
In this paper, we link two existing approaches to derive counterfactuals: adaptations based on a causal graph, as suggested in Ple\v{c}ko and Meinshausen (2020) and optimal transport, as in De Lara et al. (2024). We extend "Knothe's rearrangement" Bonnotte (2013) and "triangular transport" Zech and Marzouk (2022a) to probabilistic graphical models, and use this counterfactual approach, referred to as sequential transport, to discuss individual fairness. After establishing the theoretical foundations of the proposed method, we demonstrate its application through numerical experiments on both synthetic and real datasets. | 翻訳日:2024-08-08 12:25:11 公開日:2024-08-06 |
# 移動車と移動車のための通信対応エッジ選択
Communication-Aware Consistent Edge Selection for Mobile Users and Autonomous Vehicles ( http://arxiv.org/abs/2408.03435v1 ) ライセンス: Link先を確認 | Nazish Tahir, Ramviyas Parasuraman, Haijian Sun, | (参考訳) 時間に敏感で計算集約的なタスクをオフロードする – 自動運転車から近くのエッジサーバへの高度な学習アルゴリズム,V2Iシステム,あるいはV2V通信による他の協力車両などによって,サービスの効率が向上する。
しかし、目的地に向かう経路を横切ると、車両の移動手段はアクセスポイント(AP)間で頻繁にハンドオーバを必要とし、連続的かつ断続的な無線接続を維持し、ネットワークのQuality of Service(QoS)を維持する。
これらの頻繁なハンドオーバは、それぞれのAPに関連するエッジサーバ間のタスクマイグレーションにつながる。
本稿では,Deep Deterministic Policy Gradient(DDPG)アルゴリズムに基づく深層強化学習フレームワークを提案することにより,タスクマイグレーションとアクセスポイントハンドオーバの連立問題に対処する。
QoSの最大化を目標とする計算負荷,サービス遅延,割り込みを最小化するために,APの通信と計算の同時割り当て方式を提案する。
我々は,エッジサーバ間のスムーズでシームレスなタスク切替を実現するためのシミュレーション実験で提案したフレームワークの実装と評価を行い,最終的にレイテンシを低減した。
Offloading time-sensitive, computationally intensive tasks-such as advanced learning algorithms for autonomous driving-from vehicles to nearby edge servers, vehicle-to-infrastructure (V2I) systems, or other collaborating vehicles via vehicle-to-vehicle (V2V) communication enhances service efficiency. However, whence traversing the path to the destination, the vehicle's mobility necessitates frequent handovers among the access points (APs) to maintain continuous and uninterrupted wireless connections to maintain the network's Quality of Service (QoS). These frequent handovers subsequently lead to task migrations among the edge servers associated with the respective APs. This paper addresses the joint problem of task migration and access-point handover by proposing a deep reinforcement learning framework based on the Deep Deterministic Policy Gradient (DDPG) algorithm. A joint allocation method of communication and computation of APs is proposed to minimize computational load, service latency, and interruptions with the overarching goal of maximizing QoS. We implement and evaluate our proposed framework on simulated experiments to achieve smooth and seamless task switching among edge servers, ultimately reducing latency. | 翻訳日:2024-08-08 12:25:11 公開日:2024-08-06 |
# クラッシュ性能向上のための電気自動車用蓄電池の設計促進のための確率的サロゲートモデル
Probabilistic Surrogate Model for Accelerating the Design of Electric Vehicle Battery Enclosures for Crash Performance ( http://arxiv.org/abs/2408.03450v1 ) ライセンス: Link先を確認 | Shadab Anwar Shaikh, Harish Cherukuri, Kranthi Balusu, Ram Devanathan, Ayoub Soulami, | (参考訳) 本稿では,事故性能に着目した電気自動車用バッテリケースの高速化設計のための確率的サロゲートモデルを提案する。
この研究は、高スループット有限要素シミュレーションとガウス過程回帰を統合し、不確実性の推定を行いながら、高精度にクラッシュパラメータを予測する代理モデルを開発する。
このモデルは、様々な材料およびプロセスパラメータのサーモフォーミングとクラッシュシミュレーションから生成されたデータを用いて訓練された。
新しいシミュレーションデータに対する検証は、全ての出力変数に対して平均絶対パーセンテージ誤差8.08%以内でモデルの予測精度を実証した。
さらに、モンテカルロの不確実性伝播研究により、入力変数が出力に与える影響が明らかになった。
その結果、データセット内の複雑な関係をキャプチャする上でのガウスプロセス回帰モデルの有効性を強調し、複合電池囲いの設計最適化のための堅牢で効率的なツールを提供する。
This paper presents a probabilistic surrogate model for the accelerated design of electric vehicle battery enclosures with a focus on crash performance. The study integrates high-throughput finite element simulations and Gaussian Process Regression to develop a surrogate model that predicts crash parameters with high accuracy while providing uncertainty estimates. The model was trained using data generated from thermoforming and crash simulations over a range of material and process parameters. Validation against new simulation data demonstrated the model's predictive accuracy with mean absolute percentage errors within 8.08% for all output variables. Additionally, a Monte Carlo uncertainty propagation study revealed the impact of input variability on outputs. The results highlight the efficacy of the Gaussian Process Regression model in capturing complex relationships within the dataset, offering a robust and efficient tool for the design optimization of composite battery enclosures. | 翻訳日:2024-08-08 12:25:11 公開日:2024-08-06 |
# RICA2: ルーブリックインフォームド・キャリブレーションによる行動評価
RICA2: Rubric-Informed, Calibrated Assessment of Actions ( http://arxiv.org/abs/2408.02138v2 ) ライセンス: Link先を確認 | Abrar Majeedi, Viswanatha Reddy Gajjala, Satya Sai Srinath Namburi GNVV, Yin Li, | (参考訳) アクション・クオリティ・アセスメント(AQA: Action Quality Assessment)としても知られる、アクションがどれだけうまく実行されるかを定量化する能力は、近年、ビジョン・コミュニティにおいて関心を集めている。
残念なことに、事前の手法は、人間の専門家が使用する楽譜を無視することが多く、モデル予測の不確実性を定量化できない。
このギャップを埋めるために,スコアルーブリックとAQAの予測不確実性を考慮した深い確率モデル RICA^2 を提案する。
我々の手法の中心は、スコアルーリックを符号化するグラフ構造上に定義されたアクションステップの確率的な埋め込みにある。
埋め込みは潜在空間に確率密度を拡大し,モデルの不確実性を表現する。
グラフは、どの品質スコアを復号化できるかに基づいてスコア基準を符号化する。
本手法はFineDiving, MTL-AQA, JIGSAWSなどの公開ベンチマークにおいて, スコア予測と不確実性校正において優れた性能を示す。
私たちのコードはhttps://abrarmajeedi.github.io/rica2_aqa/で利用可能です。
The ability to quantify how well an action is carried out, also known as action quality assessment (AQA), has attracted recent interest in the vision community. Unfortunately, prior methods often ignore the score rubric used by human experts and fall short of quantifying the uncertainty of the model prediction. To bridge the gap, we present RICA^2 - a deep probabilistic model that integrates score rubric and accounts for prediction uncertainty for AQA. Central to our method lies in stochastic embeddings of action steps, defined on a graph structure that encodes the score rubric. The embeddings spread probabilistic density in the latent space and allow our method to represent model uncertainty. The graph encodes the scoring criteria, based on which the quality scores can be decoded. We demonstrate that our method establishes new state of the art on public benchmarks, including FineDiving, MTL-AQA, and JIGSAWS, with superior performance in score prediction and uncertainty calibration. Our code is available at https://abrarmajeedi.github.io/rica2_aqa/ | 翻訳日:2024-08-08 12:15:09 公開日:2024-08-06 |
# ProCreate, Don't Reduce! Propulsive Energy Diffusion for Creative Generation
ProCreate, Don't Reproduce! Propulsive Energy Diffusion for Creative Generation ( http://arxiv.org/abs/2408.02226v2 ) ライセンス: Link先を確認 | Jack Lu, Ryan Teehan, Mengye Ren, | (参考訳) 本稿では,拡散型画像生成モデルのサンプルの多様性と創造性を向上し,トレーニングデータの再生を防止するための,シンプルで実装が容易なProCreateを提案する。
ProCreateは参照イメージのセットで動作し、生成プロセス中の参照埋め込みから生成イメージの埋め込みを積極的に推進する。
FSCG-8(Few-Shot Creative Generation 8)は,8つのカテゴリ – 異なる概念,スタイル,設定を含む – に関する,数ショットのクリエイティブな生成データセットである。
さらに,訓練用テキストプロンプトを用いた大規模評価において,ProCreateはトレーニングデータの複製を防止するのに有効であることを示す。
CodeとFSCG-8はhttps://github.com/Agentic-Learning-AI-Lab/procreate-diffusion-publicで公開されている。
プロジェクトのページはhttps://procreate-diffusion.github.io.comで公開されている。
In this paper, we propose ProCreate, a simple and easy-to-implement method to improve sample diversity and creativity of diffusion-based image generative models and to prevent training data reproduction. ProCreate operates on a set of reference images and actively propels the generated image embedding away from the reference embeddings during the generation process. We propose FSCG-8 (Few-Shot Creative Generation 8), a few-shot creative generation dataset on eight different categories -- encompassing different concepts, styles, and settings -- in which ProCreate achieves the highest sample diversity and fidelity. Furthermore, we show that ProCreate is effective at preventing replicating training data in a large-scale evaluation using training text prompts. Code and FSCG-8 are available at https://github.com/Agentic-Learning-AI-Lab/procreate-diffusion-public. The project page is available at https://procreate-diffusion.github.io. | 翻訳日:2024-08-08 12:15:09 公開日:2024-08-06 |
# 散逸性量子相転移における局所エルゴトロピーとそのゆらぎ
Local ergotropy and its fluctuations across a dissipative quantum phase transition ( http://arxiv.org/abs/2408.02655v2 ) ライセンス: Link先を確認 | G. Di Bello, D. Farina, D. Jansen, C. A. Perroni, V. Cataudella, G. De Filippis, | (参考訳) 本研究では, 局所エルゴトロピーに着目した2量子開Rabiモデルについて, ベレジンスキー-コステリッツ-Thou無散逸相転移が起こるパラメータ系内で検討する。
まず、オープンな量子電池の動作原理として解釈された2量子ビットシステムの充電、保存、放電のためのプロトコルを定義することを目的とする。
第二に, 相転移がエルゴトロピーに及ぼす影響について検討し, 潜在的なマーカーを同定する。
これらの目的を達成するために、我々は、遷移に近い基底状態の知識を活用してアドホック帯電ユニタリ演算子を構築し、記憶中にデコヒーレンスのない状態にする。
行列生成物の状態表現に基づく高度な数値計算手法を用いて,外浴への高結合は,充電直後の局所エルゴトロピーの約2倍であることを明らかにした。
時間とともに、エルゴトロピーとその変動の振動挙動を観察し、遷移の近くで大きな変化を経験し、その発生を示唆する。
さらに、局所エルゴトロピーを物理的にインスパイアされたアンザッツを用いて時間とともに最適化し、連続的な作業抽出を可能にする(局所エルゴトロピーはゼロには達しない)。
本研究は, 脱コヒーレンスのない状態と相転移を利用した, 作業抽出のための可変かつ実験的に実現可能なプロトコルを提案する。
さらに、エルゴトロピーと量子相転移の間の複雑な相互作用に光を当てる。
We investigate a two-qubit open Rabi model, focusing on local ergotropy - the maximum extractable work by acting solely on the two qubits - within a parameter regime where a Berezinskii-Kosterlitz-Thouless dissipative phase transition occurs. First, we aim to define a protocol for charging, storing, and discharging the two-qubit system, interpreted as the working principle of an open quantum battery. Second, we examine the impact of the phase transition on ergotropy and identify potential markers. To achieve these goals, we construct an ad-hoc charging unitary operator, leveraging our knowledge of the ground state near the transition to bring it into a decoherence-free state during storage. Using advanced numerical techniques based on matrix product state representation, we reveal that high couplings to an external bath approximately double the local ergotropy immediately post-charging. Over time we observe oscillatory behaviors in ergotropy and its fluctuations, which undergo significant changes near the transition, signaling its occurrence. Furthermore, we optimize local ergotropy over time using a physically inspired ansatz, enabling continuous work extraction (local ergotropy never reaches zero). Our work proposes a tunable, experimentally realizable protocol for work extraction, leveraging decoherence-free states and phase transitions. Additionally, it sheds light on the complex interaction between ergotropy and quantum phase transitions. | 翻訳日:2024-08-08 12:15:09 公開日:2024-08-06 |
# 異なる周波数変調下における量子調和振動子のスクイージング等価性
Squeezing equivalence of quantum harmonic oscillators under different frequency modulations ( http://arxiv.org/abs/2306.05577v3 ) ライセンス: Link先を確認 | Stanley S. Coelho, Lucas Queiroz, Danilo T. Alves, | (参考訳) Janszky と Adam [Phys] による論文。
A {\displaystyle A} 46}, 6091 (1992)] および Chen \textit{et al } [Phys.
レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・
a bf 104}, 063002 (2010)] は以下の同値性を持つ研究の例である: 異なる時間依存性の周波数変調を受ける量子調和振動子(英語版)(quantum harmonic oscillator)は、ある時間間隔$\tau$(英語版)において、全く同じ最終的なヌルスキーズパラメータ(r_f=0$)を示す。
本稿では、最後のスクイーズパラメータが非ヌル(r_f\geq0$)となるような、スクイーズ等価性のより一般的なケースについて論じる。
周波数変調の形式を制御することに関心があるが、$r_f$ と $\tau$ の値の選択を自由にしておくと、これは一般に、これらの値を見つけるために数値計算を要求する(この手順の特別な場合、ヤンスキーとアダムズが発見した同値性は回復する)。
一方、それまでこれらの周波数の形式を制御していなかった場合、代わりに$r_f$ と $\tau$ (エネルギーの最小化などいくつかの制約も含む) は、これらの周波数に対して解析的な解が得られる(特にこの手順のケースは、Chen \textit{et al } によるショートカットから断熱的な問題に適用される)。
このように、このより一般的なスクイージング同値性は、例えば、圧縮された状態の生成や、断続的な近道の獲得など、最近の文学における重要なトピックと関係している。
The papers by Janszky and Adam [Phys. Rev. A {\bf 46}, 6091 (1992)] and Chen \textit{et al.} [Phys. Rev. Lett. {\bf 104}, 063002 (2010)] are examples of works where one can find the following equivalences: belonging to the following class: quantum harmonic oscillators subjected to different time-dependent frequency modulations, during a certain time interval $\tau$, exhibit exactly the same final null squeezing parameter ($r_f=0$). In the present paper, we discuss a more general case of squeezing equivalence, where the final squeezing parameter can be non-null ($r_f\geq0$). We show that when the interest is in controlling the forms of the frequency modulations, but keeping free the choice of the values of $r_f$ and $\tau$, this in general demands numerical calculations to find these values leading to squeezing equivalences (a particular case of this procedure recovers the equivalence found by Jansky and Adams). On the other hand, when the interest is not in previously controlling the form of these frequencies, but rather $r_f$ and $\tau$ (and also some constraints, such as minimization of energy), one can have analytical solutions for these frequencies leading to squeezing equivalences (particular cases of this procedure are usually applied in problems of shortcuts to adiabaticity, as done by Chen \textit{et al.}). In this way, this more general squeezing equivalence discussed here is connected to recent and important topics in the literature as, for instance, generation of squeezed states and the obtaining of shortcuts to adiabaticity. | 翻訳日:2024-08-07 23:47:04 公開日:2024-08-06 |
# 状態多項式最適化による不確かさ関係
Uncertainty relations from state polynomial optimization ( http://arxiv.org/abs/2310.00612v3 ) ライセンス: Link先を確認 | Moisés Bermejo Morán, Felix Huber, | (参考訳) 不確実性関係は量子力学の基本的な特徴である。
これらの関係はどのようにシステマティックに見つけることができるのか?
ここでは、非可換可観測物の分散における加法的不確実性関係に対する半定値プログラミング階層を開発する。
我々の階層は状態多項式最適化フレームワーク(スカラー拡張とも呼ばれる)に基づいて構築されている。
階層構造は、厳密な不確実性関係に収束するという意味で完備である。
厳密な境界が分かっていない最大9つの作用素について、1292の加法的不確実性関係の上限を改善する。
境界は次元自由であり、作用素間の代数的関係に完全に依存する。
この手法は、パウリ、ハイゼンベルク・ワイル、フェルミオン作用素を含む様々なシナリオに適用され、高次モーメントや乗法的不確実性関係に一般化される。
Uncertainty relations are a fundamental feature of quantum mechanics. How can these relations be found systematically? Here we develop a semidefinite programming hierarchy for additive uncertainty relations in the variances of non-commuting observables. Our hierarchy is built on the state polynomial optimization framework, also known as scalar extension. The hierarchy is complete, in the sense that it converges to tight uncertainty relations. We improve upon upper bounds for all 1292 additive uncertainty relations on up to nine operators for which a tight bound is not known. The bounds are dimension-free and depend entirely on the algebraic relations among the operators. The techniques apply to a range of scenarios, including Pauli, Heisenberg-Weyl, and fermionic operators, and generalize to higher order moments and multiplicative uncertainty relations. | 翻訳日:2024-08-07 23:47:04 公開日:2024-08-06 |
# 衛星ベース高次元拡張B92と高次元BB84量子鍵分布の解析
Analysis for satellite-based high-dimensional extended B92 and high-dimensional BB84 quantum key distribution ( http://arxiv.org/abs/2311.00309v2 ) ライセンス: Link先を確認 | Arindam Dutta, Muskan, Subhashish Banerjee, Anirban Pathak, | (参考訳) 高次元拡張B92(HD-Ext-B92)と高次元BB84(HD-BB84)プロトコルの衛星ベース実装に関する利点と課題を体系的に分析する。
ここでは、HD-Ext-B92の鍵レートを求めるために、先に使用した手法を修正し、その後、鍵レートの変動、鍵レートの確率分布(PDR)および量子ビット誤り率(QBER)を、修正された鍵レート方程式を用いて、脱分極チャネルの寸法と雑音パラメータについて検討した。
さらに,次元d=32の極低雑音を考慮した日夜の気象条件の違いによる平均キーレート(パルス毎)の変動について,楕円ビーム近似を用いて検討した。
大気を適切にモデル化し、平均鍵レートの変動を透過率(PDT)の確率分布で解析することにより、衛星ベースの量子鍵分布リンク(アップリンクとダウンリンクの両方)を作成するためのHD拡張プロトコルの有効性を確立する。
解析の結果,HD-BB84はHD-Ext-B92よりも高い性能を示した。
しかし、HD-BB84は高次元でのQBERの飽和度がより顕著である。
A systematic analysis of the advantages and challenges associated with the satellite-based implementation of the high dimensional extended B92 (HD-Ext-B92) and high-dimensional BB84 (HD-BB84) protocol is analyzed. The method used earlier for obtaining the key rate for the HD-Ext-B92 is modified here and subsequently the variations of the key rate, probability distribution of key rate (PDR), and quantum bit error rate (QBER) with respect to dimension and noise parameter of a depolarizing channel is studied using the modified key rate equation. Further, the variations of average key rate (per pulse) with zenith angle and link length in different weather conditions in day and night considering extremely low noise for dimension d=32 are investigated using elliptic beam approximation. The effectiveness of the HD-(extended) protocols used here in creating satellite-based quantum key distribution links (both up-link and down-link) is established by appropriately modeling the atmosphere and analyzing the variation of average key rates with the probability distribution of the transmittance (PDT). The analysis performed here has revealed that in higher dimensions, HD-BB84 outperforms HD-Ext-B92 in terms of both key rate and noise tolerance. However, HD-BB84 experiences a more pronounced saturation of QBER in high dimensions. | 翻訳日:2024-08-07 23:47:04 公開日:2024-08-06 |
# 圧縮光力学による三部量子絡み合い
Tripartite quantum entanglement with squeezed optomechanics ( http://arxiv.org/abs/2311.11484v2 ) ライセンス: Link先を確認 | Ya-Feng Jiao, Yun-Lan Zuo, Yan Wang, Wangjun Lu, Jie-Qiao Liao, Le-Man Kuang, Hui Jing, | (参考訳) 特に、量子情報処理から量子センシングまで、さまざまな量子対応技術において、マクロな物体を含む絡み合った状態を設計する能力が重要である。
本稿では,Fabry-P\'{e}rotキャビティと2つの可動ミラー,光パラメトリック増幅器 (OPA) , 注入された真空貯留層からなるハイブリッドオプティメカルシステムにおいて, 量子絡みのコヒーレントな操作と強化を実現する方法を提案する。
このシステムの利点は2つあります。
一 OPAを介して絞込みキャビティモードを導入することにより、光ミラー相互作用を効果的に制御することができる。
二 スクイーズパラメータを圧縮キャビティモードと注入したスクイーズ真空貯留器とを適切に一致させる場合には、光入力ノイズを完全に抑制することができる。
これらの特異な特徴は、コヒーレントで制御可能な方法で量子絡み合いを生成し、操作することができる。
さらに重要なことは、このような制御可能な絡み合いは、ある種の特定のスクイーズパラメータの下では、従来のオプテメカティカルシステムと比較して大幅に向上できることである。
我々の研究は、光ミラー相互作用を調節し調整するための有望な方法を提供しており、空洞光学に基づく様々な量子効果を工学するための有用なツールとして機能する。
The ability to engineer entangled states that involve macroscopic objects is of particular importance for a wide variety of quantum-enabled technologies, ranging from quantum information processing to quantum sensing. Here we propose how to achieve coherent manipulation and enhancement of quantum entanglement in a hybrid optomechanical system, which consists of a Fabry-P\'{e}rot cavity with two movable mirrors, an optical parametric amplifier (OPA), and an injected squeezed vacuum reservoir. We show that the advantages of this system are twofold: (i) one can effectively regulate the light-mirror interactions by introducing a squeezed intracavity mode via the OPA; (ii) when properly matching the squeezing parameters between the squeezed cavity mode and the injected squeezed vacuum reservoir, the optical input noises can be suppressed completely. These peculiar features of this system allow us to generate and manipulate quantum entanglement in a coherent and controllable way. More importantly, we also find that such controllable entanglement, under some specific squeezing parameters, can be considerably enhanced in comparison with those of the conventional optomechanical system. Our work, providing a promising method to regulate and tailor the light-mirror interaction, are poised to serve as a useful tool for engineering various quantum effects which are based on cavity optomechanics. | 翻訳日:2024-08-07 23:47:04 公開日:2024-08-06 |
# 量子近似最適化アルゴリズムを用いた新しいKnapsack型金融ポートフォリオ最適化
A Novel Knapsack-based Financial Portfolio Optimization using Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2402.07123v2 ) ライセンス: Link先を確認 | Chansreynich Huot, Kimleang Kea, Tae-Kyung Kim, Youngsun Han, | (参考訳) ポートフォリオ最適化は金融における意思決定プロセスの主要な要素であり、様々な制約を考慮しつつ最適なリターンを達成するために資産を正確に割り当てることを目的としている。
本稿では、knapsackに基づくポートフォリオ最適化問題を用いて、量子ウォークミキサーの量子計算能力を量子近似最適化アルゴリズム(QAOA)に組み込むことにより、NPハード問題による課題に対処する手法を提案する。
さらに,提案手法の逐次的手順を示し,提案手法の有効性を実証し,様々な制約や資産選択にまたがる最適な資産配分を求める上での有効性を示す。
また,提案手法によるQAOA成分の有効性について検討した。
そこで本研究では,古典的なknapsack問題の解法と比較して,p>=3の回路層を用いたポートフォリオ最適化手法の近似比を実現した。
提案手法は、金融ポートフォリオ管理において、複雑な最適化タスクに量子アルゴリズムを用いることの潜在的な利点について洞察を提供することにより、量子金融の分野の発展に寄与する可能性がある。
Portfolio optimization is a primary component of the decision-making process in finance, aiming to tactfully allocate assets to achieve optimal returns while considering various constraints. Herein, we proposed a method that uses the knapsack-based portfolio optimization problem and incorporates the quantum computing capabilities of the quantum walk mixer with the quantum approximate optimization algorithm (QAOA) to address the challenges presented by the NP-hard problem. Additionally, we present the sequential procedure of our suggested approach and demonstrate empirical proof to illustrate the effectiveness of the proposed method in finding the optimal asset allocations across various constraints and asset choices. Moreover, we discuss the effectiveness of the QAOA components in relation to our proposed method. Consequently, our study successfully achieves the approximate ratio of the portfolio optimization technique using a circuit layer of p >= 3, compared to the classical best-known solution of the knapsack problem. Our proposed methods potentially contribute to the growing field of quantum finance by offering insights into the potential benefits of employing quantum algorithms for complex optimization tasks in financial portfolio management. | 翻訳日:2024-08-07 23:47:04 公開日:2024-08-06 |
# 測定に基づくフィードバックとしての一般量子古典力学
General quantum-classical dynamics as measurement based feedback ( http://arxiv.org/abs/2403.19748v3 ) ライセンス: Link先を確認 | Antoine Tilloy, | (参考訳) このノートは、連続測定の理論と一般(非マルコフ)フィードバックから、一般ハイブリッド量子-古典力学の確率微分方程式と偏微分方程式を導出する。
このアプローチの利点は、追加の肯定的制約を伴わない明示的なパラメータ化である。
この構造はまた、量子が古典にどのように影響するか、そして古典が量子にどのように影響するかという、異なる効果をきちんと分離している。
このモジュラープレゼンテーションは、特に基本的な理論を構築するために使われる場合、ハイブリッド力学に何を期待するかをより直感的に教えてくれる。
This note derives the stochastic differential equations and partial differential equation of general hybrid quantum--classical dynamics from the theory of continuous measurement and general (non-Markovian) feedback. The advantage of this approach is an explicit parameterization, without additional positivity constraints. The construction also neatly separates the different effects: how the quantum influences the classical and how the classical influences the quantum. This modular presentation gives a better intuition of what to expect from hybrid dynamics, especially when used to construct possibly fundamental theories. | 翻訳日:2024-08-07 23:47:04 公開日:2024-08-06 |
# 到着作用素の時間力学における共役の役割
The role of conjugacy in the dynamics of time of arrival operators ( http://arxiv.org/abs/2404.16298v2 ) ライセンス: Link先を確認 | Dean Alvin L. Pablico, John Jaykel P. Magadan, Carl Anthony L. Arguelles, Eric A. Galapon, | (参考訳) 到着時間 (TOA) 演算子の構築は、時間核方程式 (TKE) と呼ばれる特定の2階偏微分方程式の解を見つけることを必要とする。
本稿では、特定の分離性条件を満たす特別な種類のポテンシャルに対して、TKEの正確な解析解を提供する。
本手法により, 共役保存TOA演算子の固有関数の時間的進化を解析し, 対応する固有値に等しいタイミングで到達点にユニタリ到着を示すことを示す。
また、量子化によって構築されたTOA演算子と、特定の相互作用ポテンシャルに対する量子化に依存しない演算子とのダイナミクスを比較する。
CPTOA演算子はワイル量子化演算子よりもスムーズでよりシャープなユニタリダイナミクスを数値的精度で有することがわかった。
The construction of time of arrival (TOA) operators canonically conjugate to the system Hamiltonian entails finding the solution of a specific second-order partial differential equation called the time kernel equation (TKE). In this paper, we provide an exact analytic solution of the TKE for a special class of potentials satisfying a specific separability condition. The solution enables us to investigate the time evolution of the eigenfunctions of the conjugacy-preserving TOA operators (CPTOA) and show that they exhibit unitary arrival at the intended arrival point at a time equal to their corresponding eigenvalues. We also compare the dynamics between the TOA operators constructed by quantization and those independent of quantization for specific interaction potentials. We find that the CPTOA operator possesses smoother and sharper unitary dynamics over the Weyl-quantized one within numerical accuracy. | 翻訳日:2024-08-07 23:47:04 公開日:2024-08-06 |
# プログラマブルフォトニック量子プロセッサにおける連続可変量子カーネル法
Continuous-variable quantum kernel method on a programmable photonic quantum processor ( http://arxiv.org/abs/2405.01086v2 ) ライセンス: Link先を確認 | Keitaro Anai, Shion Ikehara, Yoshichika Yano, Daichi Okuno, Shuntaro Takeda, | (参考訳) 様々な量子機械学習(QML)アルゴリズムの中で、量子カーネル法が特に注目されているのは、ノイズの多い中間スケールの量子デバイスとの互換性と、量子優位性を達成する可能性である。
この方法は、高次元ヒルベルト空間において、データを非線形に量子状態にマッピングすることで分類と回帰を行う。
これまでのところ、量子カーネル法は量子ビットベースのシステムでしか実装されていないが、連続可変(CV)システムは無限次元ヒルベルト空間を利用することで優れた計算能力を提供できる可能性がある。
本稿では,プログラマブルフォトニック量子プロセッサ上でのCV量子カーネル法による分類タスクの実装について述べる。
CV量子カーネル法は,実験的不完全条件下であっても,古典的カーネルに匹敵する高い精度で,複数のデータセットを頑健に分類できることを実験的に証明した。
このデモンストレーションは、QMLのためのCV量子システムの実用性に光を当て、他のCVQMLアルゴリズムにおけるさらなる研究を刺激する。
Among various quantum machine learning (QML) algorithms, the quantum kernel method has especially attracted attention due to its compatibility with noisy intermediate-scale quantum devices and its potential to achieve quantum advantage. This method performs classification and regression by nonlinearly mapping data into quantum states in a higher dimensional Hilbert space. Thus far, the quantum kernel method has been implemented only on qubit-based systems, but continuous-variable (CV) systems can potentially offer superior computational power by utilizing its infinite-dimensional Hilbert space. Here, we demonstrate the implementation of the classification task with the CV quantum kernel method on a programmable photonic quantum processor. We experimentally prove that the CV quantum kernel method successfully classifies several datasets robustly even under the experimental imperfections, with high accuracies comparable to the classical kernel. This demonstration sheds light on the utility of CV quantum systems for QML and should stimulate further study in other CV QML algorithms. | 翻訳日:2024-08-07 23:47:04 公開日:2024-08-06 |
# 調和トラップにおける断熱性へのショートカット--量子古典的アナログ
Shortcuts to adiabaticity in harmonic traps: a quantum-classical analog ( http://arxiv.org/abs/2405.01946v2 ) ライセンス: Link先を確認 | Vincent Hardel, Giovanni Manfredi, Paul-Antoine Hervieux, Rémi Goerlich, | (参考訳) 本稿では,量子系を初期状態から最終定常状態へ効率よく遷移させる新しい手法を提案する。
我々のアプローチでは、古典的ブラウン過程として量子系を表すネルソンの確率量子化を利用する。
この数学的類似により、古典的な過大なシステムの既知のプロトコルは量子プロトコルに変換できる。
特に、古典的な手法を用いて、時間と他のコスト関数の両方を自由に指定できる最適な量子プロトコルを見つけることができる。
この手法を時間依存型高調波発振器に適用し,2つのコスト関数で検証した。
一 時間の経過とともにシステムの累積エネルギー
(ii)波動関数の動的位相。
後者の場合、ある期間の断熱過程からの距離を最小化する「断熱的に最適」なプロトコルを構築することができる。
We present a new technique for efficiently transitioning a quantum system from an initial to a final stationary state in less time than is required by an adiabatic (quasi-static) process. Our approach makes use of Nelson's stochastic quantization, which represents the quantum system as a classical Brownian process. Thanks to this mathematical analogy, known protocols for classical overdamped systems can be translated into quantum protocols. In particular, one can use classical methods to find optimal quantum protocols that minimize both the time duration and some other cost function to be freely specified. We have applied this method to the time-dependent harmonic oscillator and tested it on two different cost functions: (i) the cumulative energy of the system over time and (ii) the dynamical phase of the wavefunction. In the latter case, it is possible to construct protocols that are "adiabatically optimal", i.e., they minimize their distance from an adiabatic process for a given duration. | 翻訳日:2024-08-07 23:47:04 公開日:2024-08-06 |
# 量子最適制御における基底の役割
The Role of Bases in Quantum Optimal Control ( http://arxiv.org/abs/2405.20889v3 ) ライセンス: Link先を確認 | Alice Pagano, Matthias M Müller, Tommaso Calarco, Simone Montangero, Phila Rembold, | (参考訳) 量子最適制御(QOC)は、パルスレベルで問題に取り組むことで量子技術の進歩をサポートする: 数値的なアプローチは、有限個の変数で適用された時間依存フィールドをパラメトリすることで、与えられたターゲットに向かって反復的に機能する。
結果の最適化の有効性は、問題の複雑さと変数の数に依存する。
応用基底の選択が最適化の品質に影響を及ぼすかどうかを問うため、基底関数の観点から異なるパラメトリを考察する。
さらに、最も適切な基盤を選択するための戦略も検討する。
比較のために,シック基底とシグモイド基底をフーリエ基底の代替として導入する3つの異なるランダム化可能な基底を,複雑さの異なるQOC問題に基づいて検証した。
各問題に対して、基底固有の収束速度は、一意のランク付けをもたらす。
特にクローズドループでの高価な評価では、最大10倍のスピードアップが最適化の実現可能性に不可欠である。
問題依存に基づく基本選択はQOC効率に影響を及ぼす要因であり、そのアプローチに対するアドバイスを提供すると結論付けている。
Quantum Optimal Control (QOC) supports the advance of quantum technologies by tackling its problems at the pulse level: Numerical approaches iteratively work towards a given target by parametrising the applied time-dependent fields with a finite set of variables. The effectiveness of the resulting optimisation depends on the complexity of the problem and the number of variables. We consider different parametrisations in terms of basis functions, asking whether the choice of the applied basis affects the quality of the optimisation. Furthermore, we consider strategies to choose the most suitable basis. For the comparison, we test three different randomisable bases - introducing the sinc and sigmoid bases as alternatives to the Fourier basis - on QOC problems of varying complexity. For each problem, the basis-specific convergence rates result in a unique ranking. Especially for expensive evaluations, e.g., in closed-loop, a potential speed-up by a factor of up to 10 may be crucial for the optimisation's feasibility. We conclude that a problem-dependent basis choice is an influential factor for QOC efficiency and provide advice for its approach. | 翻訳日:2024-08-07 23:47:04 公開日:2024-08-06 |
# ディラックとワイルフェルミオン-唯一の因果系
Dirac and Weyl Fermions -- the Only Causal Systems ( http://arxiv.org/abs/1711.06556v4 ) ライセンス: Link先を確認 | Domenico P. L. Castrigiano, | (参考訳) 因果系は、特殊相対性理論と初等因果原理に従う相対論的量子系のローカライズ可能性を記述する。
彼らの分類において、我々は自分自身を実質量と有限スピノル系に制限する。
従って、(未解決のユニタリ関連系を除いて)唯一既約因果系はディラックとワイルフェルミオンのみである。
波動方程式は、因果局在の単なる結果として確立される。
-有界ローカライズされたディラックとワイル波動関数を詳細に研究する。
光速では、キャリアは過去に縮小し、将来的には膨張する。
空間上のすべての方向について、縮小から拡大への変化が起こる一定の時間が存在する。
遅い変化時間によってこれらの状態が特徴づけられ、反対方向に押し上げられるとデルタストリップに縮小する。
これらの遅延変化状態に対して密度結果を用いることで、ディラックとワイル波動関数はすべてローレンツの縮約の対象であることが示される。
後者は、いくつかの詳細で論じられている。
因果系が因果論理の表現を誘導し、したがって空間的な超平面ではなく、適切な時空領域に局所化を与えるかという問題に取り組む。
空間的関係によって生成される因果論理は表現を全く認めないことが示される。
しかし、一般に非時間的関係によって生成される論理は成り立ち、必要条件は、空間的超平面上の局所化の高ブースター極限であるすべての非時間的非空間的超平面上の射影値測度が導出される。
ディラックとワイルの系はこの条件を満たすことが示され、したがってすべての非時間的な超平面に拡張され、因果系のより深い性質が示される。
射影から非空間的平坦なストリップへの有界局所固有状態は、遅変化状態である。
Causal systems describe the localizability of relativistic quantum systems complying with the principles of special relativity and elementary causality. At their classification we restrict ourselves to real mass and finite spinor systems. It follows that (up to certain not yet discarded unitarily related systems) the only irreducible causal systems are the Dirac and the Weyl fermions. Their wave-equations are established as a mere consequence of causal localization. - The bounded localized Dirac and Weyl wavefunctions are studied in detail. One finds that, at the speed of light, the carriers shrink in the past and expand in the future. For every direction in space there is a definite time at which the change from shrinking to expanding occurs. A late changing time characterizes those states, which shrink to a delta-strip if boosted in the opposite direction. Using a density result for these late-change states one shows that all Dirac and Weyl wave-functions are subjected to Lorentz contraction. The latter is discussed in some detail. - We tackle the question whether a causal system induces a representation of a causal logic and thus provides a localization in proper space-time regions rather than on spacelike hyperplanes. The causal logic generated by the spacelike relation is shown to do not admit representations at all. But the logic generated by the non-timelike relation in general does, and the necessary condition is derived that there is a projection valued measure on every non-timelike non-spacelike hyperplane being the high boost limit of the localization on the spacelike hyperplanes. Dirac and Weyl systems are shown to satisfy this condition and thus to extend to all non-timelike hyperplanes, which implies more profound properties of the causal systems. The bounded localized eigenstates of the projections to non-spacelike flat strips are late-change states. | 翻訳日:2024-08-07 20:01:27 公開日:2024-08-06 |
# 適応変数選択による深部可変ブロックチェーン
Deep Variable-Block Chain with Adaptive Variable Selection ( http://arxiv.org/abs/1912.03573v2 ) ライセンス: Link先を確認 | Lixiang Zhang, Lin Lin, Jia Li, | (参考訳) ディープニューラルネットワーク(DNN)のアーキテクチャは、例えば画像内のピクセルの格子など、変数の基盤となるグリッド構造に大きく依存している。
グリッドに関連のない変数を持つ一般的な高次元データには、多層パーセプトロンとディープ信頼ネットワークがよく用いられる。
しかし、これらのネットワークは競争力がなく、重要な変数を特定するのに役に立たないことがしばしば観察される。
本稿では,DNNアーキテクチャが構築されたグリッドを活用できるように,ステップワイズグリーディサーチによって得られたチェーン構造を変数ブロックに課すフレームワークを提案する。
私たちはこの新しいニューラルネットワークをDeep Variable-Block Chain (DVC)と呼んでいる。
変数ブロックは逐次的に分類するために使用されるため、決定木によって訓練された多くの領域に応じて変数を適応的に選択する能力をさらに発展させる。
実験の結果,DVCは他のジェネリックDNNや強力な分類器よりも優れていた。
さらに、DVCは次元を非常に小さくすることで高い精度を達成でき、時には異なる領域に対する関連する変数の集合を劇的に異なる形で明らかにする。
The architectures of deep neural networks (DNN) rely heavily on the underlying grid structure of variables, for instance, the lattice of pixels in an image. For general high dimensional data with variables not associated with a grid, the multi-layer perceptron and deep belief network are often used. However, it is frequently observed that those networks do not perform competitively and they are not helpful for identifying important variables. In this paper, we propose a framework that imposes on blocks of variables a chain structure obtained by step-wise greedy search so that the DNN architecture can leverage the constructed grid. We call this new neural network Deep Variable-Block Chain (DVC). Because the variable blocks are used for classification in a sequential manner, we further develop the capacity of selecting variables adaptively according to a number of regions trained by a decision tree. Our experiments show that DVC outperforms other generic DNNs and other strong classifiers. Moreover, DVC can achieve high accuracy at much reduced dimensionality and sometimes reveals drastically different sets of relevant variables for different regions. | 翻訳日:2024-08-07 20:01:27 公開日:2024-08-06 |
# バッチ非同期確率近似の強化学習への応用
Convergence of Batch Asynchronous Stochastic Approximation With Applications to Reinforcement Learning ( http://arxiv.org/abs/2109.03445v6 ) ライセンス: Link先を確認 | Rajeeva L. Karandikar, M. Vidyasagar, | (参考訳) 本稿では,SGD法(Stochastic Gradient Descent, SGD)の収束に関するいくつかの結果を,筆者らによる共用論文で簡単に調査することから始める。
これらの結果は、SGDを確率近似(Stochastic Approximation, SA)のバージョンと見なすことに基づいている。
1951年にRobins and Monroの古典的な論文で紹介されて以来、SAは$f(\theta) = 0$という形の方程式の解を見つけるための標準ツールとなっている。
ほとんどの場合、配置ソリューション $\theta_t$ の \textit{every component} は各ステップ $t$ で更新される。
Reinforcement Learning (RL) のいくつかのアプリケーションでは、$\theta_t$ の \textit{only one component} が各 $t$ で更新される。
これは \textbf{asynchronous} SA として知られている。
本稿では,各ステップ$t$, \textit{some, but not always all} component of $\theta_t$を更新した \textbf{Block Asynchronous SA (BASA)} について検討する。
ここで提示される理論は、従来の(同期) SA だけでなく、非同期 SA も含んでいる。
BASA の収束に十分な条件を提供し、また、解に対する$\theta_t$ の収束の \textit{rate} 上の有界性を証明する。
従来のSGDの場合,これらの結果は共用紙で証明された結果に還元される。
そして、これらの結果を、雑音測定のみによる写像の定点を求める問題に適用する。
この問題はRLで頻繁に発生する。
我々は収束率と収束率の推定に十分な条件を証明している。
We begin by briefly surveying some results on the convergence of the Stochastic Gradient Descent (SGD) Method, proved in a companion paper by the present authors. These results are based on viewing SGD as a version of Stochastic Approximation (SA). Ever since its introduction in the classic paper of Robbins and Monro in 1951, SA has become a standard tool for finding a solution of an equation of the form $f(\theta) = 0$, when only noisy measurements of $f(\cdot)$ are available. In most situations, \textit{every component} of the putative solution $\theta_t$ is updated at each step $t$. In some applications in Reinforcement Learning (RL), \textit{only one component} of $\theta_t$ is updated at each $t$. This is known as \textbf{asynchronous} SA. In this paper, we study \textbf{Block Asynchronous SA (BASA)}, in which, at each step $t$, \textit{some but not necessarily all} components of $\theta_t$ are updated. The theory presented here embraces both conventional (synchronous) SA as well as asynchronous SA, and all in-between possibilities. We provide sufficient conditions for the convergence of BASA, and also prove bounds on the \textit{rate} of convergence of $\theta_t$ to the solution. For the case of conventional SGD, these results reduce to those proved in our companion paper. Then we apply these results to the problem of finding a fixed point of a map with only noisy measurements. This problem arises frequently in RL. We prove sufficient conditions for convergence as well as estimates for the rate of convergence. | 翻訳日:2024-08-07 20:01:27 公開日:2024-08-06 |
# より高速なグラディエントバリアントを用いたプライバシー保護ロジスティック回帰トレーニング
Privacy-Preserving Logistic Regression Training with A Faster Gradient Variant ( http://arxiv.org/abs/2201.10838v7 ) ライセンス: Link先を確認 | John Chiang, | (参考訳) 暗号化されたデータに対するロジスティック回帰トレーニングは、セキュリティ上の懸念に対して何年も前から魅力的なアイデアでした。
本稿では,プライバシー保護ロジスティック回帰トレーニングのために,$\texttt{quadratic gradient}$という高速勾配変種を提案する。
$\texttt{quadratic gradient}$ の中核は、単純化された固定 Hessian の拡張と見なすことができる。
我々はNesterovの加速勾配(NAG)と適応勾配アルゴリズム(Adagrad)を$\texttt{quadratic gradient}$でそれぞれ拡張し、複数のデータセット上で拡張アルゴリズムを評価する。
実験により, 改良された手法は, 生の1次勾配法に比べ, 収束速度の最先端性を示した。
次に、同型ロジスティック回帰トレーニングを実装するために拡張NAG法を採用し、わずか3ドル反復で同等の結果を得る。
一般的な数値最適化問題に対して、$\texttt{quadratic gradient}$が他の一階勾配法を拡張できる可能性はある。
Logistic regression training over encrypted data has been an attractive idea to security concerns for years. In this paper, we propose a faster gradient variant called $\texttt{quadratic gradient}$ for privacy-preserving logistic regression training. The core of $\texttt{quadratic gradient}$ can be seen as an extension of the simplified fixed Hessian. We enhance Nesterov's accelerated gradient (NAG) and Adaptive Gradient Algorithm (Adagrad) respectively with $\texttt{quadratic gradient}$ and evaluate the enhanced algorithms on several datasets. Experiments show that the enhanced methods have a state-of-the-art performance in convergence speed compared to the raw first-order gradient methods. We then adopt the enhanced NAG method to implement homomorphic logistic regression training, obtaining a comparable result by only $3$ iterations. There is a promising chance that $\texttt{quadratic gradient}$ could be used to enhance other first-order gradient methods for general numerical optimization problems. | 翻訳日:2024-08-07 20:01:27 公開日:2024-08-06 |
# プログラム可能な光学格子における超低温原子を用いたボソンサンプリング
Boson sampling with ultracold atoms in a programmable optical lattice ( http://arxiv.org/abs/2208.12253v2 ) ライセンス: Link先を確認 | Carsten Robens, Iñigo Arrazola, Wolfgang Alt, Dieter Meschede, Lucas Lamata, Enrique Solano, Andrea Alberti, | (参考訳) 量子分布からのサンプリングは古典的なコンピュータでは指数関数的に難しいが、ノイズの多い中間スケールの量子デバイスで効率的に行うことができる。
サンプリングが難しい分布の第一の例は、N$同一粒子が通過する線形干渉計の出力状態によって与えられる。
本稿では,超低温の原子を偏光合成光学格子に実装したボソンサンプリング機を提案する。
4モード干渉計における2つのボソニック原子の香港-奥羽-マンデル干渉を明らかにすることにより,そのような機械の基本構成ブロックを実験的に実証した。
大規模な$N$のサンプリングレートを推定するために、粒子損失を考慮に入れながらも技術的誤差を含まないマスター方程式に基づく理論モデルを構築した。
以上の結果から, 現在最高のスーパーコンピュータである$N \gtrsim 40$に対して, 量子的優位性が得られる可能性が示唆された。
Sampling from a quantum distribution can be exponentially hard for classical computers and yet could be performed efficiently by a noisy intermediate-scale quantum device. A prime example of a distribution that is hard to sample is given by the output states of a linear interferometer traversed by $N$ identical boson particles. Here, we propose a scheme to implement such a boson sampling machine with ultracold atoms in a polarization-synthesized optical lattice. We experimentally demonstrate the basic building block of such a machine by revealing the Hong-Ou-Mandel interference of two bosonic atoms in a four-mode interferometer. To estimate the sampling rate for large $N$, we develop a theoretical model based on a master equation that accounts for particle losses, but not include technical errors. Our results show that atomic samplers have the potential to achieve quantum advantage over today's best supercomputers with $N \gtrsim 40$. | 翻訳日:2024-08-07 20:01:27 公開日:2024-08-06 |
# 勾配分割によるSVRGとTD-SVRGのギャップの解消
Closing the gap between SVRG and TD-SVRG with Gradient Splitting ( http://arxiv.org/abs/2211.16237v4 ) ライセンス: Link先を確認 | Arsenii Mustafin, Alex Olshevsky, Ioannis Ch. Paschalidis, | (参考訳) 時間差(TD)学習は、分散還元法により性能を向上できる強化学習における政策評価である。
近年,幾何収束率を達成するために,確率変数低減勾配法(SVRG)を用いてTD学習を融合する研究が数多く行われている。
しかし、収束速度は凸最適化の設定においてSVRGが達成したものよりも著しく弱い。
本研究では,TD-ラーニングの最近の解釈を,適切に選択された関数の勾配の分割として利用し,アルゴリズムの簡素化とSVRGとの融合を図る。
本研究の主な成果は,1/8ドルの学習率を持つ幾何学的収束であり,凸条件下でSVRGが利用できる収束値と同一である。
我々の理論的な発見は一連の実験によって裏付けられている。
Temporal difference (TD) learning is a policy evaluation in reinforcement learning whose performance can be enhanced by variance reduction methods. Recently, multiple works have sought to fuse TD learning with Stochastic Variance Reduced Gradient (SVRG) method to achieve a geometric rate of convergence. However, the resulting convergence rate is significantly weaker than what is achieved by SVRG in the setting of convex optimization. In this work we utilize a recent interpretation of TD-learning as the splitting of the gradient of an appropriately chosen function, thus simplifying the algorithm and fusing TD with SVRG. Our main result is a geometric convergence bound with predetermined learning rate of $1/8$, which is identical to the convergence bound available for SVRG in the convex setting. Our theoretical findings are supported by a set of experiments. | 翻訳日:2024-08-07 20:01:27 公開日:2024-08-06 |
# GraphLearner: 完全に学習可能な拡張を備えたグラフノードクラスタリング
GraphLearner: Graph Node Clustering with Fully Learnable Augmentation ( http://arxiv.org/abs/2212.03559v3 ) ライセンス: Link先を確認 | Xihong Yang, Erxue Min, Ke Liang, Yue Liu, Siwei Wang, Sihang Zhou, Huijun Wu, Xinwang Liu, En Zhu, | (参考訳) Contrastive Deep Graph Clustering (CDGC)は、異なるクラスタにノードをグループ化するために、コントラスト学習のパワーを活用する。
対照的なサンプルの品質は、より良いパフォーマンスを達成するために不可欠である。
しかし,既存の手法の強化サンプルは常に人的経験によって事前に定義されており,下流のタスククラスタリングには依存せず,高い人的資源コストと性能の低下につながる。
これらの制限を克服するため、GraphLearnerと呼ばれる、Flly Learnable Augmentationを使ったグラフノードクラスタリングを提案する。
学習可能な拡張器を導入し、CDGCのための高品質でタスク固有の拡張サンプルを生成する。
GraphLearnerには、属性と構造情報をキャプチャするために特別に設計された2つの学習可能な拡張器が含まれている。
さらに, 高信頼度擬似ラベル行列とクロスビューサンプル類似度行列の2つの改良行列を導入し, 学習親和性行列の信頼性を高めた。
学習可能オーグメンタとコントラスト学習ネットワークのトレーニングにおいて,異なる最適化目標を達成できることに気付く。
言い換えれば、埋め込みの一貫性と強化サンプルの多様性を保証すべきである。
この課題に対処するため,本手法における逆学習機構を提案する。
さらに,2段階のトレーニング戦略を利用して,高信頼度行列を改良する。
GraphLearnerのコードと付録はGithubのhttps://github.com/xihongyang 1999/GraphLearnerで公開されている。
Contrastive deep graph clustering (CDGC) leverages the power of contrastive learning to group nodes into different clusters. The quality of contrastive samples is crucial for achieving better performance, making augmentation techniques a key factor in the process. However, the augmentation samples in existing methods are always predefined by human experiences, and agnostic from the downstream task clustering, thus leading to high human resource costs and poor performance. To overcome these limitations, we propose a Graph Node Clustering with Fully Learnable Augmentation, termed GraphLearner. It introduces learnable augmentors to generate high-quality and task-specific augmented samples for CDGC. GraphLearner incorporates two learnable augmentors specifically designed for capturing attribute and structural information. Moreover, we introduce two refinement matrices, including the high-confidence pseudo-label matrix and the cross-view sample similarity matrix, to enhance the reliability of the learned affinity matrix. During the training procedure, we notice the distinct optimization goals for training learnable augmentors and contrastive learning networks. In other words, we should both guarantee the consistency of the embeddings as well as the diversity of the augmented samples. To address this challenge, we propose an adversarial learning mechanism within our method. Besides, we leverage a two-stage training strategy to refine the high-confidence matrices. Extensive experimental results on six benchmark datasets validate the effectiveness of GraphLearner.The code and appendix of GraphLearner are available at https://github.com/xihongyang1999/GraphLearner on Github. | 翻訳日:2024-08-07 20:01:27 公開日:2024-08-06 |
# 野生における活性化筋群推定に向けて
Towards Activated Muscle Group Estimation in the Wild ( http://arxiv.org/abs/2303.00952v5 ) ライセンス: Link先を確認 | Kunyu Peng, David Schneider, Alina Roitberg, Kailun Yang, Jiaming Zhang, Chen Deng, Kaiyu Zhang, M. Saquib Sarfraz, Rainer Stiefelhagen, | (参考訳) 本稿では,野生の身体活動における活動筋領域の同定を目的としたビデオベースの活動筋群推定(AMGE)の課題に取り組む。
この目的のために、135の異なるアクティビティと20のラベル付き筋群を持つ15Kビデオクリップを特徴とする、筋マップデータセットを提供する。
このデータセットは、フレキシブルな環境制約の下でスポーツやリハビリテーション医療において、複数のビデオベースのアプリケーションにビスタを開放する。
このデータセットはYouTubeのビデオで構築されており、特にハイインテンシティ・インターバルトレーニング(HIIT)をターゲットとしている。
AMGEモデルを現実の状況に適用するためには、トレーニング中に存在しない多くの身体活動と、新しい活性化筋の組み合わせを伴って、モデルが適切に一般化できることが不可欠である。
これを実現するために,本ベンチマークでは,モデルがトレーニングセットから除外されたアクティビティタイプに露出する評価設定についても取り上げている。
実験の結果,AMGEタスクに適応した既存アーキテクチャの汎用性は依然として課題であることがわかった。
そこで本研究では,ビデオトランスモデルとスケルトンに基づくグラフ畳み込みモデルと,多分類トークン上で実行される新しいクロスモーダル知識蒸留を用いたマルチモーダル特徴融合機構を用いたTransM3Eを提案する。
提案手法は,従来の身体活動と新しい身体活動の両方を扱う場合,すべての人気ビデオ分類モデルを上回る。
データベースとコードはhttps://github.com/KPeng9510/MuscleMapで見ることができる。
In this paper, we tackle the new task of video-based Activated Muscle Group Estimation (AMGE) aiming at identifying active muscle regions during physical activity in the wild. To this intent, we provide the MuscleMap dataset featuring >15K video clips with 135 different activities and 20 labeled muscle groups. This dataset opens the vistas to multiple video-based applications in sports and rehabilitation medicine under flexible environment constraints. The proposed MuscleMap dataset is constructed with YouTube videos, specifically targeting High-Intensity Interval Training (HIIT) physical exercise in the wild. To make the AMGE model applicable in real-life situations, it is crucial to ensure that the model can generalize well to numerous types of physical activities not present during training and involving new combinations of activated muscles. To achieve this, our benchmark also covers an evaluation setting where the model is exposed to activity types excluded from the training set. Our experiments reveal that the generalizability of existing architectures adapted for the AMGE task remains a challenge. Therefore, we also propose a new approach, TransM3E, which employs a multi-modality feature fusion mechanism between both the video transformer model and the skeleton-based graph convolution model with novel cross-modal knowledge distillation executed on multi-classification tokens. The proposed method surpasses all popular video classification models when dealing with both, previously seen and new types of physical activities. The database and code can be found at https://github.com/KPeng9510/MuscleMap. | 翻訳日:2024-08-07 20:01:27 公開日:2024-08-06 |
# 超伝導量子ビット実験のための宇宙ミューオンフラックス減衰法
Cosmic muon flux attenuation methods for superconducting qubit experiments ( http://arxiv.org/abs/2303.04938v4 ) ライセンス: Link先を確認 | Elia Bertoldo, Victor Pérez Sánchez, Maria Martínez, Manel Martínez, Hawraa Khalife, Pol Forn-Díaz, | (参考訳) 本研究では, 超伝導量子ビットを含む実験と互換性があり, 宇宙ムーンフラックスを減衰させる2つの実用的な緩和手法を提案し, 実証する。
特別に構築された宇宙ミューオン検出器を用いて、都市環境に広く存在する地下地を同定し、宇宙ミューオンフラックスの大幅な減衰を最大で100メートルの深さで35倍にすることができる。
さらに,2つのゲルマニウムウェハを地上実験室に設置し,それぞれに粒子センサを装着し,光電離放射線により基板上に堆積したエネルギーの量と種類に,天空に対するチップの配向がどのような影響を及ぼすかを示す。
水平検出器はより低いエネルギーでより多くのカウントを観測し、垂直検出器はより高いエネルギーでより多くの粒子に衝突する。
提案手法は, 宇宙線が量子ビットに与える影響を直接理解し, 低減する手法であり, 既存のオンチップ緩和戦略を補完するものである。
我々は、オンチップとオフチップの組み合わせが、超伝導量子ビット回路に基づく量子技術においてユビキタスになることを期待する。
We propose and demonstrate two practical mitigation methods to attenuate the cosmic muon flux, compatible with experiments involving superconducting qubits: shallow underground sites and specific device orientation. Using a specifically-built cosmic muon detector, we identify underground sites, widely present in urban environments, where significant attenuation of cosmic muon flux, up to a factor 35 for 100-meter depths, can be attained. Furthermore, we employ two germanium wafers in an above-ground laboratory, each equipped with a particle sensor, to show how the orientation of the chip with respect to the sky affects the amount and type of energy deposited on the substrate by ionizing radiation. We observe that the horizontal detector sees more counts at lower energy, while the vertical one is impacted by more particles at higher energy. The methods here described proposed ways to directly understand and reduce the effects of cosmic rays on qubits by attenuating the source of this type of decoherence, complementing existing on-chip mitigation strategies. We expect that both on-chip and off-chip methods combined will become ubiquitous in quantum technologies based on superconducting qubit circuits. | 翻訳日:2024-08-07 20:01:27 公開日:2024-08-06 |
# 潜在状態を持つ未知システムに対する性能保証を用いた学習ベース最適制御
Learning-Based Optimal Control with Performance Guarantees for Unknown Systems with Latent States ( http://arxiv.org/abs/2303.17963v4 ) ライセンス: Link先を確認 | Robert Lefringhausen, Supitsana Srithasan, Armin Lederer, Sandra Hirche, | (参考訳) 制御工学の手法がますます複雑なシステムに適用されるにつれて、システム識別のためのデータ駆動アプローチは、物理に基づくモデリングに代わる有望な選択肢として現れる。
ベイズ的アプローチは安全クリティカルな用途によく用いられるが、状態測定の可用性に依存しているが、複雑なシステムの状態は直接測定できないことが多い。
すると、力学と潜伏状態を共同で推定し、不確実性の定量化と正式な性能保証を持つコントローラの設計をかなり困難にすることができる。
本稿では, 粒子マルコフ連鎖モンテカルロ法とシナリオ理論を組み合わせた, 潜在状態を持つ未知の非線形系に対する最適入力軌道の計算法を提案する。
入力軌道に対して確率的性能保証が導出され、任意の制御法則の性能を検証するためのアプローチが提示される。
提案手法の有効性を数値シミュレーションで示す。
As control engineering methods are applied to increasingly complex systems, data-driven approaches for system identification appear as a promising alternative to physics-based modeling. While the Bayesian approaches prevalent for safety-critical applications usually rely on the availability of state measurements, the states of a complex system are often not directly measurable. It may then be necessary to jointly estimate the dynamics and the latent state, making the quantification of uncertainties and the design of controllers with formal performance guarantees considerably more challenging. This paper proposes a novel method for the computation of an optimal input trajectory for unknown nonlinear systems with latent states based on a combination of particle Markov chain Monte Carlo methods and scenario theory. Probabilistic performance guarantees are derived for the resulting input trajectory, and an approach to validate the performance of arbitrary control laws is presented. The effectiveness of the proposed method is demonstrated in a numerical simulation. | 翻訳日:2024-08-07 20:01:27 公開日:2024-08-06 |
# スマートフォン顕微鏡によるGiardiaとCryptosporidiumの(o)cystの検出と定量化
Deep-learning Assisted Detection and Quantification of (oo)cysts of Giardia and Cryptosporidium on Smartphone Microscopy Images ( http://arxiv.org/abs/2304.05339v2 ) ライセンス: Link先を確認 | Suprim Nakarmi, Sanam Pudasaini, Safal Thapaliya, Pratima Upretee, Retina Shrestha, Basant Giri, Bhanu Bhakta Neupane, Bishesh Khanal, | (参考訳) 微生物による汚染された食品と水の消費は、毎年数百万人の死の原因となっている。
スマートフォンベースの顕微鏡システムは、従来の明るい視野顕微鏡よりもポータブルで低コストで、よりアクセスしやすいジアルディアやクリプトスポリジウムの検出方法である。
しかし、スマートフォンの顕微鏡画像はノイズが多く、訓練された技術者が手動で嚢胞を識別する必要がある。
ディープラーニングに基づく物体検出による(o)嚢胞の自動検出は、この制限に対する解決策となるかもしれない。
植物サンプルからスマートフォンと明るい視野の顕微鏡画像を含むカスタムデータセットを用いて,ジアルディアとクリプトスポリジウムの(o)嚢胞を検出する4つの最先端物体検出器の性能を評価した。
より高速なRCNN、RetinaNet、You Only Look Once(YOLOv8s)、Deformable Detection Transformer(Deformable DETR)のディープラーニングモデルを使用して、その有効性と制限を調査した。
以上の結果から, スマートフォンの顕微鏡画像データセットよりも, 深層学習モデルは明視野顕微鏡画像データセットの方が優れているが, スマートフォンの顕微鏡画像予測は, 非専門家の予測性能と同等であることがわかった。
また、GiadiaとCryptosporidiumの検出のためのベンチマーク結果と、基準(または標準実験室設定)と野菜サンプルに基づいて、独立して取得した明るいフィールドとスマートフォンの顕微鏡データセットも公開しています。
私たちのコードとデータセットは、https://github.com/naamiinepal/smartphone_microscopyとhttps://doi.org/10.5281/zenodo.7813183で公開されています。
The consumption of microbial-contaminated food and water is responsible for the deaths of millions of people annually. Smartphone-based microscopy systems are portable, low-cost, and more accessible alternatives for the detection of Giardia and Cryptosporidium than traditional brightfield microscopes. However, the images from smartphone microscopes are noisier and require manual cyst identification by trained technicians, usually unavailable in resource-limited settings. Automatic detection of (oo)cysts using deep-learning-based object detection could offer a solution for this limitation. We evaluate the performance of four state-of-the-art object detectors to detect (oo)cysts of Giardia and Cryptosporidium on a custom dataset that includes both smartphone and brightfield microscopic images from vegetable samples. Faster RCNN, RetinaNet, You Only Look Once (YOLOv8s), and Deformable Detection Transformer (Deformable DETR) deep-learning models were employed to explore their efficacy and limitations. Our results show that while the deep-learning models perform better with the brightfield microscopy image dataset than the smartphone microscopy image dataset, the smartphone microscopy predictions are still comparable to the prediction performance of non-experts. Also, we publicly release brightfield and smartphone microscopy datasets with the benchmark results for the detection of Giardia and Cryptosporidium, independently captured on reference (or standard lab setting) and vegetable samples. Our code and dataset are available at https://github.com/naamiinepal/smartphone_microscopy and https://doi.org/10.5281/zenodo.7813183, respectively. | 翻訳日:2024-08-07 19:51:34 公開日:2024-08-06 |
# カモフラージュの芸術:動物検出とセグメンテーションのためのいくつかのショット学習
The Art of Camouflage: Few-Shot Learning for Animal Detection and Segmentation ( http://arxiv.org/abs/2304.07444v4 ) ライセンス: Link先を確認 | Thanh-Danh Nguyen, Anh-Khoa Nguyen Vu, Nhat-Duy Nguyen, Vinh-Tiep Nguyen, Thanh Duc Ngo, Thanh-Toan Do, Minh-Triet Tran, Tam V. Nguyen, | (参考訳) カモフラージュされた物体の検出とセグメンテーションは、コンピュータビジョンにおける新しい挑戦的な研究トピックである。
自然の場面では、カモフラージュされた動物のような隠された物体のデータが不足しているという深刻な問題がある。
本稿では,キャモフラージュされた物体の検出とセグメンテーションにおける少数ショット学習の問題に対処する。
この目的のために、ベンチマークのためにまず新しいデータセットであるCAMO-FSを収集します。
カモフラージュされたインスタンスは、環境との類似性から認識することが難しいため、背景からインスタンスを高度に区別するカモフラージュされた特徴を得るようモデルに誘導する。
本研究では,この学習プロセスに寄与する2つの損失関数を介し,カモフラージュされたインスタンスを効率的に検出・分割するフレームワークFS-CDISを提案する。
まず、全てのカモフラージュされた前景点の平均であるアンカーを区別する特性を持つインスタンス三重項損失と、その背景点を用いてインスタンスレベルで作業する。
第2に、クラスレベルでの一般化を統合するために、同じカテゴリのキャモフラージュされた特徴を格納する範囲でインスタンスメモリストレージを提示し、学習プロセス中にさらにクラスレベルの情報を取得できるようにする。
提案手法は,新たに収集したデータセットの最先端性能を実現することを実証した。
コードはhttps://github.com/danhntd/FS-CDISで入手できる。
Camouflaged object detection and segmentation is a new and challenging research topic in computer vision. There is a serious issue of lacking data on concealed objects such as camouflaged animals in natural scenes. In this paper, we address the problem of few-shot learning for camouflaged object detection and segmentation. To this end, we first collect a new dataset, CAMO-FS, for the benchmark. As camouflaged instances are challenging to recognize due to their similarity compared to the surroundings, we guide our models to obtain camouflaged features that highly distinguish the instances from the background. In this work, we propose FS-CDIS, a framework to efficiently detect and segment camouflaged instances via two loss functions contributing to the training process. Firstly, the instance triplet loss with the characteristic of differentiating the anchor, which is the mean of all camouflaged foreground points, and the background points are employed to work at the instance level. Secondly, to consolidate the generalization at the class level, we present instance memory storage with the scope of storing camouflaged features of the same category, allowing the model to capture further class-level information during the learning process. The extensive experiments demonstrated that our proposed method achieves state-of-the-art performance on the newly collected dataset. Code is available at https://github.com/danhntd/FS-CDIS. | 翻訳日:2024-08-07 19:51:34 公開日:2024-08-06 |
# 基礎モデルによるツール学習
Tool Learning with Foundation Models ( http://arxiv.org/abs/2304.08354v3 ) ライセンス: Link先を確認 | Yujia Qin, Shengding Hu, Yankai Lin, Weize Chen, Ning Ding, Ganqu Cui, Zheni Zeng, Yufei Huang, Chaojun Xiao, Chi Han, Yi Ren Fung, Yusheng Su, Huadong Wang, Cheng Qian, Runchu Tian, Kunlun Zhu, Shihao Liang, Xingyu Shen, Bokai Xu, Zhen Zhang, Yining Ye, Bowen Li, Ziwei Tang, Jing Yi, Yuzhang Zhu, Zhenning Dai, Lan Yan, Xin Cong, Yaxi Lu, Weilin Zhao, Yuxiang Huang, Junxi Yan, Xu Han, Xian Sun, Dahai Li, Jason Phang, Cheng Yang, Tongshuang Wu, Heng Ji, Zhiyuan Liu, Maosong Sun, | (参考訳) 人間は、ツールを作成、利用し、物理的な制限を克服し、新たなフロンティアを探索できる特別な能力を持っている。
基礎モデルの出現により、AIシステムは、人間としてのツールの使用に等しく適応できる可能性がある。
このパラダイム(つまり、ツール学習と基礎モデル)は、高度な精度、効率、そして問題解決の自動化を達成するために、特殊ツールと基礎モデルの強みを組み合わせる。
その大きな可能性にもかかわらず、この分野における重要な課題、機会、そして将来の取り組みに関する包括的な理解はいまだに欠けている。
そこで本稿では,ツール学習の体系的な研究について述べる。
まず,その認知的起源,基礎モデルのパラダイムシフト,ツールやモデルの補完的役割など,ツール学習の背景を紹介する。
そして、既存のツール学習研究をツール拡張学習とツール指向学習に再カプセル化する。
ユーザ指導の理解から始まり、複雑なタスクを複数のサブタスクに分解することを学び、推論によって計画を動的に調整し、適切なツールを選択することで各サブタスクを効果的に征服する、一般的なツール学習フレームワークを定式化する。
また、ツール使用能力の向上のためのモデルのトレーニング方法や、ツール学習の一般化の促進についても論じる。
先行研究に体系的なツール学習評価が欠如していることを考えると,我々は18の代表的なツールを用いて実験を行い,ツールを巧みに活用する上で,現在の基礎モデルの可能性を示す。
最後に、ツール学習のさらなる調査を必要とするいくつかのオープンな問題について論じる。
概して、この論文は、ツールと基礎モデルの統合に関する将来の研究に刺激を与えてくれることを願っている。
Humans possess an extraordinary ability to create and utilize tools, allowing them to overcome physical limitations and explore new frontiers. With the advent of foundation models, AI systems have the potential to be equally adept in tool use as humans. This paradigm, i.e., tool learning with foundation models, combines the strengths of specialized tools and foundation models to achieve enhanced accuracy, efficiency, and automation in problem-solving. Despite its immense potential, there is still a lack of a comprehensive understanding of key challenges, opportunities, and future endeavors in this field. To this end, we present a systematic investigation of tool learning in this paper. We first introduce the background of tool learning, including its cognitive origins, the paradigm shift of foundation models, and the complementary roles of tools and models. Then we recapitulate existing tool learning research into tool-augmented and tool-oriented learning. We formulate a general tool learning framework: starting from understanding the user instruction, models should learn to decompose a complex task into several subtasks, dynamically adjust their plan through reasoning, and effectively conquer each sub-task by selecting appropriate tools. We also discuss how to train models for improved tool-use capabilities and facilitate the generalization in tool learning. Considering the lack of a systematic tool learning evaluation in prior works, we experiment with 18 representative tools and show the potential of current foundation models in skillfully utilizing tools. Finally, we discuss several open problems that require further investigation for tool learning. In general, we hope this paper could inspire future research in integrating tools with foundation models. | 翻訳日:2024-08-07 19:51:34 公開日:2024-08-06 |
# SIGMA:異種グラフニューラルネットワークのための類似性に基づく効率的なグローバルアグリゲーション
SIGMA: Similarity-based Efficient Global Aggregation for Heterophilous Graph Neural Networks ( http://arxiv.org/abs/2305.09958v3 ) ライセンス: Link先を確認 | Haoyu Liu, Ningyi Liao, Siqiang Luo, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ学習において大きな成功を収めているが、不均等に会うとパフォーマンスが低下する。
ヘテロ親和性GNNの既存の試みでは、グラフ内のノードを区別するために長距離またはグローバルアグリゲーションが組み込まれている。
しかし、これらの集約は通常、大規模なグラフに適用する際の効率を制限するフルグラフ情報を反復的に保持し、更新する必要がある。
本稿ではSIGMAを提案する。SimRankの構造的類似度測定を統合した,効率的なグローバルヘテロ親和性GNNアグリゲーションである。
我々の理論的分析は、SIGMAが本質的にヘテロフィリーの下でも遠距離の大域的類似性を捉えており、従来の手法は反復的な凝集の後にしか達成できないことを示している。
さらに、ノードセットサイズ$\mathcal{O}(n)$にのみ線形な複雑性を持つ効率的なワンタイム計算も楽しめる。
総合評価は、SIGMAがより優れた集約と全体的な効率で最先端の性能を達成することを示す。
特に、大規模なヘテロフィリーデータセット \emph{pokec} 上で、最高のベースラインアグリゲーションと比較して3000万以上のエッジを持つ 5$\times$Acceleration を得る。
Graph neural networks (GNNs) realize great success in graph learning but suffer from performance loss when meeting heterophily, i.e. neighboring nodes are dissimilar, due to their local and uniform aggregation. Existing attempts of heterophilous GNNs incorporate long-range or global aggregations to distinguish nodes in the graph. However, these aggregations usually require iteratively maintaining and updating full-graph information, which limits their efficiency when applying to large-scale graphs. In this paper, we propose SIGMA, an efficient global heterophilous GNN aggregation integrating the structural similarity measurement SimRank. Our theoretical analysis illustrates that SIGMA inherently captures distant global similarity even under heterophily, that conventional approaches can only achieve after iterative aggregations. Furthermore, it enjoys efficient one-time computation with a complexity only linear to the node set size $\mathcal{O}(n)$. Comprehensive evaluation demonstrates that SIGMA achieves state-of-the-art performance with superior aggregation and overall efficiency. Notably, it obtains 5$\times$ acceleration on the large-scale heterophily dataset \emph{pokec} with over 30 million edges compared to the best baseline aggregation. | 翻訳日:2024-08-07 19:51:34 公開日:2024-08-06 |
# 語彙データ解析のための会話インタフェースの自動生成
Automatic Generation of Conversational Interfaces for Tabular Data Analysis ( http://arxiv.org/abs/2305.11326v3 ) ライセンス: Link先を確認 | Marcos Gomez-Vazquez, Jordi Cabot, Robert Clarisó, | (参考訳) タブラルデータ(Tabular data)は、構造化されたデータをオンラインで公開し、交換する最も一般的なフォーマットである。
明らかな例は、行政機関が公開するオープンデータポータルの数の増加である。
しかし、これらのデータソースの利用は現在、そのようなデータをプログラムで操作し、消化できる技術関係者に限られている。
その代替として,チャットボットを用いた対話型インタフェースの提案により,チャットボットが描画したグラフを通じて回答するデータ分析質問のサポートを含む,表形式のデータソースの探索を容易にする。
さらに、チャットボットの意図やエンティティにマッチした、設定可能な会話パターンのコレクションのインスタンス化によって、私たちのチャットボットは、データソース自体から自動的に生成される。
Tabular data is the most common format to publish and exchange structured data online. A clear example is the growing number of open data portals published by public administrations. However, exploitation of these data sources is currently limited to technical people able to programmatically manipulate and digest such data. As an alternative, we propose the use of chatbots to offer a conversational interface to facilitate the exploration of tabular data sources, including support for data analytics questions that are responded via charts rendered by the chatbot. Moreover, our chatbots are automatically generated from the data source itself thanks to the instantiation of a configurable collection of conversation patterns matched to the chatbot intents and entities. | 翻訳日:2024-08-07 19:51:34 公開日:2024-08-06 |
# 静的ベンチマークから適応テストへ - AI評価における心理学的考察
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation ( http://arxiv.org/abs/2306.10512v3 ) ライセンス: Link先を確認 | Yan Zhuang, Qi Liu, Yuting Ning, Weizhe Huang, Zachary A. Pardos, Patrick C. Kyllonen, Jiyun Zu, Qingyang Mao, Rui Lv, Zhenya Huang, Guanhao Zhao, Zheng Zhang, Shijin Wang, Enhong Chen, | (参考訳) AIシステムは成長を続けており、特にLarge Language Models(LLMs)のような生成モデルでは、開発とデプロイメントにおいて厳格な評価が不可欠である。
それらの妥当性を判断するために、研究者は、いわゆるゴールドスタンダードテストセットに対する様々な大規模なベンチマークを開発し、すべての項目で平均されたメトリクスを報告した。
しかし、この静的評価パラダイムは、高い計算コスト、データ汚染、品質の低い項目や誤った項目が評価の信頼性と効率に与える影響など、その限界をますます示している。
本稿では,人間の心理指標から,静的評価法から適応テストへのパラダイムシフトを論じる。
これは、ベンチマークで各テスト項目の特性と値を推定し、リアルタイムでアイテムを動的に調整することを含み、固定されたテストセットに頼るのではなく、モデルの継続的なパフォーマンスに基づいて評価を調整します。
このパラダイムは、より堅牢な能力推定を提供するだけでなく、必要なテスト項目の数を大幅に削減します。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
本稿では,AIモデル評価における適応テストが新たな規範となり,高度な知能システム評価の効率性と有効性を高めることを提案する。
As AI systems continue to grow, particularly generative models like Large Language Models (LLMs), their rigorous evaluation is crucial for development and deployment. To determine their adequacy, researchers have developed various large-scale benchmarks against a so-called gold-standard test set and report metrics averaged across all items. However, this static evaluation paradigm increasingly shows its limitations, including high computational costs, data contamination, and the impact of low-quality or erroneous items on evaluation reliability and efficiency. In this Perspective, drawing from human psychometrics, we discuss a paradigm shift from static evaluation methods to adaptive testing. This involves estimating the characteristics and value of each test item in the benchmark and dynamically adjusting items in real-time, tailoring the evaluation based on the model's ongoing performance instead of relying on a fixed test set. This paradigm not only provides a more robust ability estimation but also significantly reduces the number of test items required. We analyze the current approaches, advantages, and underlying reasons for adopting psychometrics in AI evaluation. We propose that adaptive testing will become the new norm in AI model evaluation, enhancing both the efficiency and effectiveness of assessing advanced intelligence systems. | 翻訳日:2024-08-07 19:51:34 公開日:2024-08-06 |
# ARIES:ピーアレビューに応えて作られた学術論文のコーパス
ARIES: A Corpus of Scientific Paper Edits Made in Response to Peer Reviews ( http://arxiv.org/abs/2306.12587v2 ) ライセンス: Link先を確認 | Mike D'Arcy, Alexis Ross, Erin Bransom, Bailey Kuehl, Jonathan Bragg, Tom Hope, Doug Downey, | (参考訳) 本稿では,学術論文をピアフィードバックに基づいて自動的に改訂し,レビューコメントとそれに対応する論文編集のデータセットであるARIESをリリースするタスクを紹介する。
このデータは,コンピュータ科学からの実際のレビュアーと著者のインタラクションから抽出され,著者が作成した特定の論文編集に,各レビュアーのコメントをリンクするラベルを提供する。
高精度な銀のトレーニングセットと、アノテータ間の高い合意を示す専門家ラベル付きテストセットを自動的に作成する。
最先端をカバーしている10のモデルを用いた実験では、どの編集がコメントに対応するのかを特定するのに苦労していることが分かりました。
また,GPT-4によるコメントと原論文の編集能力についても詳細に分析した。
表層レベルでは成功することが多いが、根底にある意図よりもフィードバックの言葉に固執する傾向があり、人間による編集に比べて技術的な詳細が欠けている。
We introduce the task of automatically revising scientific papers based on peer feedback and release ARIES, a dataset of review comments and their corresponding paper edits. The data is drawn from real reviewer-author interactions from computer science, and we provide labels linking each reviewer comment to the specific paper edits made by the author in response. We automatically create a high-precision silver training set, as well as an expert-labeled test set that shows high inter-annotator agreement. In experiments with 10 models covering the state of the art, we find that they struggle even to identify which edits correspond to a comment -- especially when the relationship between the edit and the comment is indirect and requires reasoning to uncover. We also extensively analyze GPT-4's ability to generate edits given a comment and the original paper. We find that it often succeeds on a superficial level, but tends to rigidly follow the wording of the feedback rather than the underlying intent, and lacks technical details compared to human-written edits. | 翻訳日:2024-08-07 19:51:34 公開日:2024-08-06 |
# 光浮上粒子の光学力学--チュートリアルと展望
Optomechanics of optically-levitated particles: A tutorial and perspective ( http://arxiv.org/abs/2307.11858v2 ) ライセンス: Link先を確認 | George Winstone, Alexey Grinin, Mishkat Bhattacharya, Andrew A. Geraci, Tongcang Li, Peter J. Pauzauskie, Nick Vamivakas, | (参考訳) 光と物質との力学的相互作用を研究するオプトメカニクスは実りある研究領域であることが証明され、キロメートル規模の光学干渉計における重力波の直接検出など多くの顕著な成果をもたらした。
光は個々のイオンと原子の機械的自由度に対する量子制御の冷却と実証に使われ、より最近では、kgスケールでも大きな質量の物体における量子「メカニクス」の観測が促進された。
被写体が放射圧によって吊り下げられ、その環境から大きく切り離される光学浮上は、近年、精密測定、量子情報科学、量子力学、基礎物理学の試験に関する多くの顕著な結果とともに、リッチな研究分野として確立されている。
本稿では、実験的および理論的アプローチの両方から、フィールドにおけるいくつかの現在の活動について、関連する重要な概念と方法を説明するチュートリアルとともに調査する。
本研究は,この成長分野に慣れた若手研究者や,大学院生の育成に資することを目的としている。
このチュートリアルは、将来望まれる実験プラットフォームと将来の理論的発展の両方の観点から締めくくられている。
Optomechanics, the study of the mechanical interaction of light with matter, has proven to be a fruitful area of research that has yielded many notable achievements, including the direct detection of gravitational waves in kilometer-scale optical interferometers. Light has been used to cool and demonstrate quantum control over the mechanical degrees of freedom of individual ions and atoms, and more recently has facilitated the observation of quantum ``mechanics'' in objects of larger mass, even at the kg-scale. Optical levitation, where an object can be suspended by radiation pressure and largely decoupled from its environment, has recently established itself as a rich field of study, with many notable results relevant for precision measurement, quantum information science, and foundational tests of quantum mechanics and fundamental physics. This article provides a survey of several current activities in field along with a tutorial describing associated key concepts and methods, both from an experimental and theoretical approach. It is intended as a resource for junior researchers who are new to this growing field as well as beginning graduate students. The tutorial is concluded with a perspective on both promising emerging experimental platforms and anticipated future theoretical developments. | 翻訳日:2024-08-07 19:51:34 公開日:2024-08-06 |
# 偏微分方程式に対するクープマン作用素論における等分散と部分観測
Equivariance and partial observations in Koopman operator theory for partial differential equations ( http://arxiv.org/abs/2307.15325v2 ) ライセンス: Link先を確認 | Sebastian Peitz, Hans Harder, Feliks Nüske, Friedrich Philipp, Manuel Schaller, Karl Worthmann, | (参考訳) クープマン作用素は、複雑なシステムのデータ駆動分析、予測、制御に不可欠なツールとなっている。
主な理由は、測定から非線形力学の線型関数空間表現を同定する巨大なポテンシャルである。
これは普通、確率、偏微分方程式(PDE)にも等しく当てはまる。
これまで、いくつかの例外を除いて、PDEの場合はほとんどは表面的に扱われており、基礎となる力学の特定の構造は無視されている。
本稿では,システム力学の対称性をクープマン作用素に渡すことで,モデルの有効性を大幅に向上させることができることを示す。
さらに、部分的な観測(つまり、実験データに非常によく見られる測定)にしかアクセスできない状況も、その全範囲で扱われていない。
さらに,遅延座標などの代替手法を検討する必要があるような,完全状態の計測が不可能な場合にも対処する。
我々は、埋め込み理論に基づいて、この状況における観測可能量の厳密な記述を導出する。
波動方程式や倉本-シヴァシンスキー方程式など,様々な数値例を用いて数値的な証拠を提示する。
The Koopman operator has become an essential tool for data-driven analysis, prediction and control of complex systems. The main reason is the enormous potential of identifying linear function space representations of nonlinear dynamics from measurements. This equally applies to ordinary, stochastic, and partial differential equations (PDEs). Until now, with a few exceptions only, the PDE case is mostly treated rather superficially, and the specific structure of the underlying dynamics is largely ignored. In this paper, we show that symmetries in the system dynamics can be carried over to the Koopman operator, which allows us to massively increase the model efficacy. Moreover, the situation where we only have access to partial observations (i.e., measurements, as is very common for experimental data) has not been treated to its full extent, either. Moreover, we address the highly-relevant case where we cannot measure the full state, such that alternative approaches such as delay coordinates have to be considered. We derive rigorous statements on the required number of observables in this situation, based on embedding theory. We present numerical evidence using various numerical examples including the wave equation and the Kuramoto-Sivashinsky equation. | 翻訳日:2024-08-07 19:51:34 公開日:2024-08-06 |
# 量子チャネル上でのポストセレクト通信
Postselected communication over quantum channels ( http://arxiv.org/abs/2308.02583v3 ) ライセンス: Link先を確認 | Kaiyuan Ji, Bartosz Regula, Mark M. Wilde, | (参考訳) 量子チャネルの絡み合い支援能力のシングルレター特性化は、量子情報理論のセミナルな結果の1つである。
本稿では,受信側が付加的な「決定不能」測定結果を許容する通信シナリオを考察し,決定的な測定結果に条件付き送信メッセージの復号時にエラー確率によって与えられる誤差メトリクスを用いる。
我々は、この設定されたポストセレクト通信と、続く最も達成可能なレートをポストセレクトキャパシティと呼ぶ。
本稿では,Hilbert射影距離に基づく相互情報の変種であるチャネルの射影的相互情報に等しいことを示すとともに,絡み合い支援の設定におけるポストセレクトキャパシティの正確なシングルレター特性と,より一般的な非シグナリング支援を提供する。
提案手法では, 提案手法では, 後続のテレポーテーションに基づくプロトコルと, 後続の仮説検定による相対エントロピーの上限を用いて, ワンショットのポストポーテーション能力の限界を定め, 下位境界を定めている。
そのため、この強力な選択資源が許された場合でも、チャンネルの通信能力に基本的な制限が与えられ、受信側がポスト選択された閉時間曲線にアクセスしても、通信に制限が生じる。
The single-letter characterisation of the entanglement-assisted capacity of a quantum channel is one of the seminal results of quantum information theory. In this paper, we consider a modified communication scenario in which the receiver is allowed an additional, `inconclusive' measurement outcome, and we employ an error metric given by the error probability in decoding the transmitted message conditioned on a conclusive measurement result. We call this setting postselected communication and the ensuing highest achievable rates the postselected capacities. Here, we provide a precise single-letter characterisation of postselected capacities in the setting of entanglement assistance as well as the more general nonsignalling assistance, establishing that they are both equal to the channel's projective mutual information -- a variant of mutual information based on the Hilbert projective metric. We do so by establishing bounds on the one-shot postselected capacities, with a lower bound that makes use of a postselected teleportation-based protocol and an upper bound in terms of the postselected hypothesis testing relative entropy. As such, we obtain fundamental limits on a channel's ability to communicate even when this strong resource of postselection is allowed, implying limitations on communication even when the receiver has access to postselected closed timelike curves. | 翻訳日:2024-08-07 19:51:34 公開日:2024-08-06 |
# 確率的近位点アルゴリズムのばらつき低減手法
Variance reduction techniques for stochastic proximal point algorithms ( http://arxiv.org/abs/2308.09310v3 ) ライセンス: Link先を確認 | Cheik Traoré, Vassilis Apidopoulos, Saverio Salzo, Silvia Villa, | (参考訳) 有限和最小化の文脈では、分散還元法は最先端確率勾配法の性能向上に広く用いられている。
彼らの実践的な影響は明らかであり、理論上も明らかである。
確率的近点アルゴリズムは、ステップサイズの選択に関してより安定であるため、確率的勾配アルゴリズムの代替として研究されている。
しかし、それらの分散還元版は勾配版ほどよく研究されていない。
本研究では,確率的近点アルゴリズムにおける分散低減手法の統一化研究を提案する。
我々は,SVRG,SAGA,およびそれらの変種の近位バージョンを提供するために特定可能な,確率的近位アルゴリズムを提案する。
このアルゴリズムでは、スムーズな設定で、ベニラ確率的近点アルゴリズムよりも高速な反復率と目的関数値に対して、いくつかの収束率を提供する。
具体的には、凸函数に対して、サブ線型収束率を$O(1/k)$とする。
さらに、Polyak-{\L}ojasiewicz (PL)条件下では、線形収束率を得る。
最後に, 数値実験により, 特に難解な問題において, ステップサイズの選択に対する安定性の観点から, 勾配よりも近似分散低減法の利点を実証した。
In the context of finite sums minimization, variance reduction techniques are widely used to improve the performance of state-of-the-art stochastic gradient methods. Their practical impact is clear, as well as their theoretical properties. Stochastic proximal point algorithms have been studied as an alternative to stochastic gradient algorithms since they are more stable with respect to the choice of the step size. However, their variance-reduced versions are not as well studied as the gradient ones. In this work, we propose the first unified study of variance reduction techniques for stochastic proximal point algorithms. We introduce a generic stochastic proximal-based algorithm that can be specified to give the proximal version of SVRG, SAGA, and some of their variants. For this algorithm, in the smooth setting, we provide several convergence rates for the iterates and the objective function values, which are faster than those of the vanilla stochastic proximal point algorithm. More specifically, for convex functions, we prove a sublinear convergence rate of $O(1/k)$. In addition, under the Polyak-{\L}ojasiewicz (PL) condition, we obtain linear convergence rates. Finally, our numerical experiments demonstrate the advantages of the proximal variance reduction methods over their gradient counterparts in terms of the stability with respect to the choice of the step size in most cases, especially for difficult problems. | 翻訳日:2024-08-07 19:51:34 公開日:2024-08-06 |
# DyFFPAD:指先提示検出のための畳み込み・手技的特徴の動的融合
DyFFPAD: Dynamic Fusion of Convolutional and Handcrafted Features for Fingerprint Presentation Attack Detection ( http://arxiv.org/abs/2308.10015v2 ) ライセンス: Link先を確認 | Anuj Rai, Parsheel Kumar Tiwari, Jyotishna Baishya, Ram Prakash Sharma, Somnath Dey, | (参考訳) 自動指紋認識システムは、国境や商業用途を含む幅広い地域への展開により、プレゼンテーション攻撃の脅威に悩まされている。
ユーザの指紋を同意の有無にかかわらず偽造することにより、提示攻撃を行うことができる。
本稿では,自由度検出コンペティションの既知および未知の物質プロトコルにおける提示攻撃を検出するために,深層CNNと手作り特徴の動的アンサンブルを提案する。
提案したプレゼンテーション攻撃検出モデルは,深層CNNと手作り特徴技術の両方の機能を活用し,個々の性能よりも優れた性能を示す。
提案手法は、2015年と2017年と2019年のLiveness Detection Competitionのベンチマークデータベースを用いて検証され、全体の精度は96.10\%、96.49\%、94.99\%となっている。
提案手法は,分類精度の点で最先端の手法より優れている。
Automatic fingerprint recognition systems suffer from the threat of presentation attacks due to their wide range of deployment in areas including national borders and commercial applications. A presentation attack can be performed by creating a spoof of a user's fingerprint with or without their consent. This paper presents a dynamic ensemble of deep CNN and handcrafted features to detect presentation attacks in known-material and unknown-material protocols of the livness detection competition. The proposed presentation attack detection model, in this way, utilizes the capabilities of both deep CNN and handcrafted features techniques and exhibits better performance than their individual performances. The proposed method is validated using benchmark databases from the Liveness Detection Competition in 2015, 2017, and 2019, yielding overall accuracy of 96.10\%, 96.49\%, and 94.99\% on them, respectively. The proposed method outperforms state-of-the-art methods in terms of classification accuracy. | 翻訳日:2024-08-07 19:51:34 公開日:2024-08-06 |
# GADePo:文書レベル関係抽出のためのグラフ支援宣言型ポーリング変換器
GADePo: Graph-Assisted Declarative Pooling Transformers for Document-Level Relation Extraction ( http://arxiv.org/abs/2308.14423v4 ) ライセンス: Link先を確認 | Andrei C. Coman, Christos Theodoropoulos, Marie-Francine Moens, James Henderson, | (参考訳) 文書レベルの関係抽出は、典型的にはテキストベースのエンコーダと手書きプーリングヒューリスティックに頼り、エンコーダが学習した情報を集約する。
本稿では,Transformerモデルの本質的なグラフ処理機能を活用し,アテンション重み計算における明示的なグラフ関係による情報収集を目的とした,手書きプーリング手法を入力に新しいトークンで置き換えることを提案する。
本稿では,共同テキストグラフ変換モデルとグラフ支援型宣言型プール(GADePo)仕様を導入し,情報集約のための明示的かつ高レベルな命令を提供する。
GADePoによって、プールプロセスはドメイン固有の知識や望ましい結果によってガイドされるが、Transformerによってまだ学習され、より柔軟でカスタマイズ可能なプール戦略が実現される。
提案手法は,多様なデータセットやモデルにまたがって評価し,手作業によるプール機能よりも一貫した優れた有望な結果が得られることを示す。
Document-level relation extraction typically relies on text-based encoders and hand-coded pooling heuristics to aggregate information learned by the encoder. In this paper, we leverage the intrinsic graph processing capabilities of the Transformer model and propose replacing hand-coded pooling methods with new tokens in the input, which are designed to aggregate information via explicit graph relations in the computation of attention weights. We introduce a joint text-graph Transformer model and a graph-assisted declarative pooling (GADePo) specification of the input, which provides explicit and high-level instructions for information aggregation. GADePo allows the pooling process to be guided by domain-specific knowledge or desired outcomes but still learned by the Transformer, leading to more flexible and customisable pooling strategies. We evaluate our method across diverse datasets and models and show that our approach yields promising results that are consistently better than those achieved by the hand-coded pooling functions. | 翻訳日:2024-08-07 19:51:34 公開日:2024-08-06 |
# 多体局在ダイナミクスによる高能率古典的シャドウトモグラフィ
Efficient Classical Shadow Tomography through Many-body Localization Dynamics ( http://arxiv.org/abs/2309.01258v3 ) ライセンス: Link先を確認 | Tian-Gang Zhou, Pengfei Zhang, | (参考訳) 古典的なシャドウトモグラフィーは、最小限の測定で量子多体系から多くの特性を抽出する強力なツールとして機能する。
それにもかかわらず、少数体の演算子に最適な性能を与える手法は、超低温の原子ガスのような特定の量子シミュレーターにおいて挑戦的なタスクであるランダムな2量子ビットゲートの適用を必要とする。
そこで本研究では,多体局在化の力学を基礎とした代替手法を提案する。
フェノメロジ的モデルと数値的にTEBDアルゴリズムを併用したシャドウノルムの探索を通じて,本手法が浅い回路や測定誘起臨界に匹敵する顕著な効率を達成することを実証し,従来のシャドウプロトコルと比較して指数指数指数が大幅に向上した。
本研究は, サンプリングおよび再構成プロセス全体を包含する直接数値シミュレーションにより, 相関するものである。
その結果,提案手法は量子シミュレータの出力状態を解析するための説得力のある手法であることがわかった。
Classical shadow tomography serves as a potent tool for extracting numerous properties from quantum many-body systems with minimal measurements. Nevertheless, prevailing methods yielding optimal performance for few-body operators necessitate the application of random two-qubit gates, a task that can prove challenging on specific quantum simulators such as ultracold atomic gases. In this work, we introduce an alternative approach founded on the dynamics of many-body localization, a phenomenon extensively demonstrated in optical lattices. Through an exploration of the shadow norm -- both analytically, employing a phenomenological model, and numerically, utilizing the TEBD algorithm -- we demonstrate that our scheme achieves remarkable efficiency comparable to shallow circuits or measurement-induced criticality, resulting in a significant improvement in the exponential exponent compared to the previous classical shadow protocol. Our findings are corroborated through direct numerical simulations encompassing the entire sampling and reconstruction processes. Consequently, our results present a compelling methodology for analyzing the output states of quantum simulators. | 翻訳日:2024-08-07 19:51:34 公開日:2024-08-06 |
# Adv3D: NeRFを用いた運転シナリオにおける3次元物体検出のための3次元逆解析例の生成
Adv3D: Generating 3D Adversarial Examples for 3D Object Detection in Driving Scenarios with NeRF ( http://arxiv.org/abs/2309.01351v2 ) ライセンス: Link先を確認 | Leheng Li, Qing Lian, Ying-Cong Chen, | (参考訳) ディープニューラルネットワーク(DNN)は、DNNベースの自律運転スタック(つまり3Dオブジェクト検出)に特別な安全上の懸念を生じさせる敵の例に非常に感受性があることが証明されている。
画像レベルの攻撃には広範な研究があるが、その多くは2Dピクセル空間に限定されており、このような攻撃は我々の3D世界で常に物理的に現実的であるとは限らない。
本稿では、ニューラルネットワーク場(Neural Radiance Fields, NeRFs)として、まず、敵の例をモデル化するAdv3Dを紹介する。
NeRFの進歩は、フォトリアリスティックな外観と正確な3D生成を提供し、より現実的で実現可能な敵の例をもたらす。
我々は、トレーニングセット上の3次元検出器によって予測される周囲の物体の信頼性を最小にすることで、敵のNeRFを訓練する。
次に、未確認の検証セット上でAdv3Dを評価し、サンプリングされたポーズでNeRFをレンダリングする際に大きな性能低下を引き起こすことを示す。
物理的に実現可能な逆向きの例を生成するために,カモフラージュ対向テクスチャを用いた3Dパッチ攻撃を可能にするプリミティブ・アウェア・サンプリングと意味誘導正規化を提案する。
実験結果から、訓練された対向性NeRFは、異なるポーズ、シーン、および3D検出器によく当てはまることが示された。
最後に,データ拡張による敵の訓練を含む攻撃に対する防御方法を提案する。
プロジェクトページ:https://len-li.github.io/adv3d-web
Deep neural networks (DNNs) have been proven extremely susceptible to adversarial examples, which raises special safety-critical concerns for DNN-based autonomous driving stacks (i.e., 3D object detection). Although there are extensive works on image-level attacks, most are restricted to 2D pixel spaces, and such attacks are not always physically realistic in our 3D world. Here we present Adv3D, the first exploration of modeling adversarial examples as Neural Radiance Fields (NeRFs). Advances in NeRF provide photorealistic appearances and 3D accurate generation, yielding a more realistic and realizable adversarial example. We train our adversarial NeRF by minimizing the surrounding objects' confidence predicted by 3D detectors on the training set. Then we evaluate Adv3D on the unseen validation set and show that it can cause a large performance reduction when rendering NeRF in any sampled pose. To generate physically realizable adversarial examples, we propose primitive-aware sampling and semantic-guided regularization that enable 3D patch attacks with camouflage adversarial texture. Experimental results demonstrate that the trained adversarial NeRF generalizes well to different poses, scenes, and 3D detectors. Finally, we provide a defense method to our attacks that involves adversarial training through data augmentation. Project page: https://len-li.github.io/adv3d-web | 翻訳日:2024-08-07 19:41:33 公開日:2024-08-06 |
# 自動誘導車両スケジューリングのためのハイブリッド量子古典計算
Hybrid quantum-classical computation for automatic guided vehicles scheduling ( http://arxiv.org/abs/2309.03088v3 ) ライセンス: Link先を確認 | Tomasz Śmierzchalski, Jakub Pawłowski, Artur Przybysz, Łukasz Pawela, Zbigniew Puchała, Mátyás Koniorczyk, Bartłomiej Gardas, Sebastian Deffner, Krzysztof Domino, | (参考訳) 近年の産業規模の課題に対する量子コンピューティング開発への取り組みにより、自動誘導車両(AGV)をスケジューリングするビジネス中心の最適化問題に対処する上で、最先端のハイブリッド(必ずしも量子ではない)解決器の有効性が実証された。
一部の解決器は、ノイズの多い中間スケール量子(NISQ)デバイスを既に利用することができる。
本研究では,量子処理ユニットの助けを借りて古典的ヒューリスティックを実装するD-Waveハイブリッドソルバを用いた。
このハイブリッド手法は、既存の古典的解法と同等に機能する。
しかし、ソフトウェアの独自性のため、量子計算の正確な寄与はいまだ不明である。
我々の分析は、現実的な生産環境をシミュレートし、限られたスペースで制約された工場内でAGVをスケジューリングする、実践的でビジネス指向のシナリオに焦点を当てている。
我々のアプローチは、現実的なAGVの問題を鉄道計画を思い起こさせるものにマッピングし、AGVの問題は鉄道よりも量子コンピューティングに適しており、後者は変数あたりの平均的な制約数でより密であることを示した。
ここでの主目的は、実用規模のAGVスケジューリング問題を扱うためのハイブリッドアプローチの有用性を明らかにすることである。
デッドロックの可能性を秘めた最大21AGVのシナリオを,ハイブリッドソルバで数秒で効率的に処理できることを示す。
Motivated by recent efforts to develop quantum computing for practical, industrial-scale challenges, we demonstrate the effectiveness of state-of-the-art hybrid (not necessarily quantum) solvers in addressing the business-centric optimization problem of scheduling Automatic Guided Vehicles (AGVs). Some solvers can already leverage noisy intermediate-scale quantum (NISQ) devices. In our study, we utilize D-Wave hybrid solvers that implement classical heuristics with potential assistance from a quantum processing unit. This hybrid methodology performs comparably to existing classical solvers. However, due to the proprietary nature of the software, the precise contribution of quantum computation remains unclear. Our analysis focuses on a practical, business-oriented scenario: scheduling AGVs within a factory constrained by limited space, simulating a realistic production setting. Our approach maps a realistic AGVs problem onto one reminiscent of railway scheduling and demonstrates that the AGVs problem is better suited to quantum computing than its railway counterpart, the latter being denser in terms of the average number of constraints per variable. The main idea here is to highlight the potential usefulness of a hybrid approach for handling AGVs scheduling problems of practical sizes. We show that a scenario involving up to 21 AGVs, significant due to possible deadlocks, can be efficiently addressed by a hybrid solver in seconds. | 翻訳日:2024-08-07 19:41:33 公開日:2024-08-06 |
# 画像圧縮と最小二乗解に対する最大体積行列クロス近似
Maximal Volume Matrix Cross Approximation for Image Compression and Least Squares Solution ( http://arxiv.org/abs/2309.17403v2 ) ライセンス: Link先を確認 | Kenneth Allen, Ming-Jun Lai, Zhaiming Shen, | (参考訳) 最大体積サブマトリクスに基づく古典行列クロス近似について検討する。
本研究の主な成果は,行列クロス近似の古典的推定値の改善と,最大体積サブマトリクスを求めるための欲求的アプローチである。
より正確には、定数を改良した古典的不等式推定の新しい証明を示す。
また,行列クロス近似の計算効率を向上させるために,グリーディ最大体積アルゴリズムのファミリを提案する。
提案アルゴリズムは収束の理論的保証を有する。
最後に、画像圧縮と連続関数の最小二乗近似の2つの応用を示す。
論文末尾における数値的な結果から,本手法の有効性が示された。
We study the classic matrix cross approximation based on the maximal volume submatrices. Our main results consist of an improvement of the classic estimate for matrix cross approximation and a greedy approach for finding the maximal volume submatrices. More precisely, we present a new proof of the classic estimate of the inequality with an improved constant. Also, we present a family of greedy maximal volume algorithms to improve the computational efficiency of matrix cross approximation. The proposed algorithms are shown to have theoretical guarantees of convergence. Finally, we present two applications: image compression and the least squares approximation of continuous functions. Our numerical results at the end of the paper demonstrate the effective performance of our approach. | 翻訳日:2024-08-07 19:41:33 公開日:2024-08-06 |
# マルチエージェントコラボレーションのためのアクティブなビジュアルローカライゼーション:データ駆動アプローチ
Active Visual Localization for Multi-Agent Collaboration: A Data-Driven Approach ( http://arxiv.org/abs/2310.02650v3 ) ライセンス: Link先を確認 | Matthew Hanlon, Boyang Sun, Marc Pollefeys, Hermann Blum, | (参考訳) 新たに配備されたロボットが周囲のマップを独自に作成する代わりに、SLAM対応デバイスの普及により、他のロボットやデバイスのマップに単純にローカライズするオプションが提供される。
マルチロボットやヒューマンロボットのコラボレーションのような場合、同じマップにすべてのエージェントをローカライズする必要がある。
しかし、例えば、ドローンやヘッドマウントMRヘッドセットの地図における地上ロボットのローカライズは、視点の変化による固有の課題を提示する。
本研究では,このような視点変化の課題を克服するために,アクティブな視覚的ローカライゼーションをどのように利用できるかを検討する。
具体的には、与えられた場所における最適な視点を選択する問題に焦点をあてる。
文献における既存のアプローチと、新たなベースラインとを比較し、新しいデータ駆動アプローチを提案する。
その結果、制御されたシミュレーション実験と実世界のデプロイの両方において、既存の手法と比較して、データ駆動アプローチの優れた性能を示す。
Rather than having each newly deployed robot create its own map of its surroundings, the growing availability of SLAM-enabled devices provides the option of simply localizing in a map of another robot or device. In cases such as multi-robot or human-robot collaboration, localizing all agents in the same map is even necessary. However, localizing e.g. a ground robot in the map of a drone or head-mounted MR headset presents unique challenges due to viewpoint changes. This work investigates how active visual localization can be used to overcome such challenges of viewpoint changes. Specifically, we focus on the problem of selecting the optimal viewpoint at a given location. We compare existing approaches in the literature with additional proposed baselines and propose a novel data-driven approach. The result demonstrates the superior performance of the data-driven approach when compared to existing methods, both in controlled simulation experiments and real-world deployment. | 翻訳日:2024-08-07 19:41:33 公開日:2024-08-06 |
# SteP: Webアクションのためのスタック化されたLLMポリシー
SteP: Stacked LLM Policies for Web Actions ( http://arxiv.org/abs/2310.03720v3 ) ライセンス: Link先を確認 | Paloma Sodhi, S. R. K. Branavan, Yoav Artzi, Ryan McDonald, | (参考訳) ウェブ上でのタスク実行は大きな言語モデル(LLM)に根本的な課題をもたらし、組み合わさった大規模なオープンワールドタスクやWebインターフェース間のバリエーションがある。
すべての可能性のある行動や状態を扱うための大きなプロンプトを単純に指定するのは極めて複雑であり、結果として無関係な動作間の動作リークが発生する。
異なるポリシーの分解はこの課題に対処できるが、ポリシー間の制御を慎重に行う必要がある。
SteP(Stacked LLM Policies for Web Actions)は,多種多様なWebタスクを動的に構成する手法である。
StePは、状態が制御状態、すなわちポリシー呼び出しの連鎖を表すポリシーのスタックであるマルコフ決定プロセスを定義する。
静的階層に制限された従来のメソッドとは異なり、StePはタスクの複雑さに適応する動的制御を可能にする。
我々は、WebArena、MiniWoB++、CRMなど、複数のベースラインとWeb環境に対してStePを評価する。
WebArenaでは、StePはGPT-4ポリシーを使用するSOTAよりも(14.9\%から33.5\%)改善されている。
私たちのコードとデータはhttps://asappresearch.github.io/webagents-stepで公開されています。
Performing tasks on the web presents fundamental challenges to large language models (LLMs), including combinatorially large open-world tasks and variations across web interfaces. Simply specifying a large prompt to handle all possible behaviors and states is extremely complex, and results in behavior leaks between unrelated behaviors. Decomposition to distinct policies can address this challenge, but requires carefully handing off control between policies. We propose Stacked LLM Policies for Web Actions (SteP), an approach to dynamically compose policies to solve a diverse set of web tasks. SteP defines a Markov Decision Process where the state is a stack of policies representing the control state, i.e., the chain of policy calls. Unlike traditional methods that are restricted to static hierarchies, SteP enables dynamic control that adapts to the complexity of the task. We evaluate SteP against multiple baselines and web environments including WebArena, MiniWoB++, and a CRM. On WebArena, SteP improves (14.9\% to 33.5\%) over SOTA that use GPT-4 policies, while on MiniWob++, SteP is competitive with prior works while using significantly less data. Our code and data are available at https://asappresearch.github.io/webagents-step. | 翻訳日:2024-08-07 19:41:33 公開日:2024-08-06 |
# ヒューマンチュータスタイルプログラミングフィードバックの自動化:Hint生成のためのGPT-4チュータモデルとHint検証のためのGPT-3.5学生モデルを活用する
Automating Human Tutor-Style Programming Feedback: Leveraging GPT-4 Tutor Model for Hint Generation and GPT-3.5 Student Model for Hint Validation ( http://arxiv.org/abs/2310.03780v4 ) ライセンス: Link先を確認 | Tung Phung, Victor-Alexandru Pădurean, Anjali Singh, Christopher Brooks, José Cambronero, Sumit Gulwani, Adish Singla, Gustavo Soares, | (参考訳) 生成型AIと大規模言語モデルは、学生に対する個別のフィードバックを自動的に生成することにより、プログラミング教育の強化に大いに貢献する。
本研究では,学習者のバグギープログラムにおける誤りの解決を支援するために,人間の学習スタイルのプログラミングヒントを提供する上で,生成型AIモデルが果たす役割について検討する。
最近の研究は、様々なフィードバック生成シナリオのための最先端モデルのベンチマークを行っているが、全体的な品質は人間のチューターに劣り、現実の展開にはまだ準備が整っていない。
本稿では,生成型AIモデルの限界を高品質なプログラミングヒントの提供に推し進め,新しい技術であるGPT4Hints-GPT3.5Valを開発することを目的とする。
最初のステップとして、GPT-4 を ``tutor'' モデルとして利用してヒントを生成する -- 失敗するテストケースのシンボル情報とプロンプト修正を使用することで、生成品質を向上させる。
次のステップとして、より弱いモデルである GPT-3.5 を ``student'' モデルとして活用して、ヒントの品質をさらに検証します。
基本アルゴリズムから正規表現,およびパンダライブラリを用いたデータ解析まで,さまざまな概念を網羅したPythonプログラムの3つの実世界のデータセットを用いて,本手法の有効性を広範囲に評価することにより,本手法の有効性を示す。
Generative AI and large language models hold great promise in enhancing programming education by automatically generating individualized feedback for students. We investigate the role of generative AI models in providing human tutor-style programming hints to help students resolve errors in their buggy programs. Recent works have benchmarked state-of-the-art models for various feedback generation scenarios; however, their overall quality is still inferior to human tutors and not yet ready for real-world deployment. In this paper, we seek to push the limits of generative AI models toward providing high-quality programming hints and develop a novel technique, GPT4Hints-GPT3.5Val. As a first step, our technique leverages GPT-4 as a ``tutor'' model to generate hints -- it boosts the generative quality by using symbolic information of failing test cases and fixes in prompts. As a next step, our technique leverages GPT-3.5, a weaker model, as a ``student'' model to further validate the hint quality -- it performs an automatic quality validation by simulating the potential utility of providing this feedback. We show the efficacy of our technique via extensive evaluation using three real-world datasets of Python programs covering a variety of concepts ranging from basic algorithms to regular expressions and data analysis using pandas library. | 翻訳日:2024-08-07 19:41:33 公開日:2024-08-06 |
# 清浄なデモからの模倣学習
Imitation Learning from Purified Demonstrations ( http://arxiv.org/abs/2310.07143v2 ) ライセンス: Link先を確認 | Yunke Wang, Minjing Dong, Yukun Zhao, Bo Du, Chang Xu, | (参考訳) シミュレーション学習は、専門家によるデモンストレーションが最適であると仮定して、シーケンシャルな意思決定問題に対処するための有望なアプローチとして現れてきた。
しかし、現実世界のシナリオでは、ほとんどのデモは不完全であり、模倣学習の有効性の課題に繋がる。
既存の研究では、不完全なデモンストレーションで最適化することに重点を置いているが、通常、パフォーマンスを保証するために最適なデモを一定の割合で行う必要がある。
これらの問題に対処するために、まず不完全な実演における潜在的なノイズを浄化し、その後、これらの実演から模倣学習を行うことを提案する。
拡散モデルの成功により,拡散過程による2段階の浄化が導入された。
最初のステップでは、付加雑音を導入することで、不完全な実演におけるポテンシャル雑音の滑らか化に前方拡散プロセスを適用する。
その後、逆生成プロセスを使用して、拡散されたものから最適な実演を回収する。
提案手法を裏付ける理論的証拠を提示し, 精製された実演と最適実演との距離を有界化できることを実証する。
MuJoCo と RoboSuite の実証実験結果から,本手法の有効性が示唆された。
Imitation learning has emerged as a promising approach for addressing sequential decision-making problems, with the assumption that expert demonstrations are optimal. However, in real-world scenarios, most demonstrations are often imperfect, leading to challenges in the effectiveness of imitation learning. While existing research has focused on optimizing with imperfect demonstrations, the training typically requires a certain proportion of optimal demonstrations to guarantee performance. To tackle these problems, we propose to purify the potential noises in imperfect demonstrations first, and subsequently conduct imitation learning from these purified demonstrations. Motivated by the success of diffusion model, we introduce a two-step purification via diffusion process. In the first step, we apply a forward diffusion process to smooth potential noises in imperfect demonstrations by introducing additional noise. Subsequently, a reverse generative process is utilized to recover the optimal demonstration from the diffused ones. We provide theoretical evidence supporting our approach, demonstrating that the distance between the purified and optimal demonstration can be bounded. Empirical results on MuJoCo and RoboSuite demonstrate the effectiveness of our method from different aspects. | 翻訳日:2024-08-07 19:41:33 公開日:2024-08-06 |
# 自然, ロバスト, カタストロフィックオーバーフィッティング時の過記憶について
On the Over-Memorization During Natural, Robust and Catastrophic Overfitting ( http://arxiv.org/abs/2310.08847v3 ) ライセンス: Link先を確認 | Runqi Lin, Chaojian Yu, Bo Han, Tongliang Liu, | (参考訳) オーバーフィッティングは、自然と敵対両方のトレーニングにおいて、ディープニューラルネットワーク(DNN)の一般化能力に悪影響を及ぼす。
既存の手法は、異なるタイプのオーバーフィッティングに一貫して対処し、通常、自然なパターンと敵対的なパターンに別々にフォーカスする戦略を設計する。
本研究では,自然パターンにのみ焦点をあてて,異なるタイプのオーバーフィッティングを探求することによって,統一的な視点を採用する。
具体的には、DNNにおける記憶効果を検証し、その一般化能力を損なう「過剰記憶」と呼ばれる共有行動を明らかにする。
この行動は、特定のトレーニングパターンを予測し、永続的なメモリを保持する上で、DNNが突然高信頼になるときに現れます。
さらに、DNNが対向パターンを過度に記憶すると、対応する自然パターンに対する高い信頼度予測が同時に現れる傾向にある。
これらの知見は,DNNを記憶過剰のトレーニングパターンから妨げることによって,さまざまなオーバーフィッティングをホリスティックに緩和する動機となっている。
そこで本研究では,高信頼な自然パターンを削除あるいは強化することにより,過記憶を明示的に防止する一般フレームワークである Distraction Over-Memorization (DOM) を提案する。
様々な訓練パラダイムにまたがるオーバーフィッティングを緩和するために,提案手法の有効性を実証した。
Overfitting negatively impacts the generalization ability of deep neural networks (DNNs) in both natural and adversarial training. Existing methods struggle to consistently address different types of overfitting, typically designing strategies that focus separately on either natural or adversarial patterns. In this work, we adopt a unified perspective by solely focusing on natural patterns to explore different types of overfitting. Specifically, we examine the memorization effect in DNNs and reveal a shared behaviour termed over-memorization, which impairs their generalization capacity. This behaviour manifests as DNNs suddenly becoming high-confidence in predicting certain training patterns and retaining a persistent memory for them. Furthermore, when DNNs over-memorize an adversarial pattern, they tend to simultaneously exhibit high-confidence prediction for the corresponding natural pattern. These findings motivate us to holistically mitigate different types of overfitting by hindering the DNNs from over-memorization training patterns. To this end, we propose a general framework, Distraction Over-Memorization (DOM), which explicitly prevents over-memorization by either removing or augmenting the high-confidence natural patterns. Extensive experiments demonstrate the effectiveness of our proposed method in mitigating overfitting across various training paradigms. | 翻訳日:2024-08-07 19:41:33 公開日:2024-08-06 |
# 森林確率による地域説明可能性の向上と信頼スコア
Enhanced Local Explainability and Trust Scores with Random Forest Proximities ( http://arxiv.org/abs/2310.12428v3 ) ライセンス: Link先を確認 | Joshua Rosaler, Dhruv Desai, Bhaskarjit Sarmah, Dimitrios Vamvourellis, Deran Onay, Dhagash Mehta, Stefano Pasquali, | (参考訳) 我々は,任意のRFを適応重み付きK近傍モデルとして数学的に定式化できるという事実を利用して,ランダム森林回帰モデルと分類モデルの予測とサンプル性能を説明する新しいアプローチを開始した。
具体的には、回帰タスクと分類タスクの両方において、どのRF予測もトレーニング対象の重み付けの和として正確に書き換えることができる。
この線形性は、トレーニングセットにおける観測におけるモデル予測の属性を生成するRF予測の局所的な説明可能性を促進し、入力特徴間のモデル予測の属性を生成するSHAPのような確立された特徴ベースの手法を補完することを示す。
本稿では, モデル予測だけでなく, モデル予測の正しさが比較的低い場合に, 確率が新たな評価手段を提供するという意味で, モデル予測だけでなく, サンプル外性能を説明するために, SHAPと組み合わせて, この近接性に基づく説明可能性のアプローチをいかに活用できるかを示す。
我々は、米国の社債価格のモデリングにおいてこのアプローチを実証し、レグレッションと分類の両方のケースでリターンを示す。
We initiate a novel approach to explain the predictions and out of sample performance of random forest (RF) regression and classification models by exploiting the fact that any RF can be mathematically formulated as an adaptive weighted K nearest-neighbors model. Specifically, we employ a recent result that, for both regression and classification tasks, any RF prediction can be rewritten exactly as a weighted sum of the training targets, where the weights are RF proximities between the corresponding pairs of data points. We show that this linearity facilitates a local notion of explainability of RF predictions that generates attributions for any model prediction across observations in the training set, and thereby complements established feature-based methods like SHAP, which generate attributions for a model prediction across input features. We show how this proximity-based approach to explainability can be used in conjunction with SHAP to explain not just the model predictions, but also out-of-sample performance, in the sense that proximities furnish a novel means of assessing when a given model prediction is more or less likely to be correct. We demonstrate this approach in the modeling of US corporate bond prices and returns in both regression and classification cases. | 翻訳日:2024-08-07 19:41:33 公開日:2024-08-06 |
# 自由飛行ロボットによる微小重力場におけるマルチエージェント3次元マップ再構成と変化検出
Multi-Agent 3D Map Reconstruction and Change Detection in Microgravity with Free-Flying Robots ( http://arxiv.org/abs/2311.02558v3 ) ライセンス: Link先を確認 | Holly Dinkel, Julia Di, Jamie Santos, Keenan Albee, Paulo Borges, Marina Moreira, Oleg Alexandrov, Brian Coltin, Trey Smith, | (参考訳) 国際宇宙ステーション(ISS)のNASAのアストローブロボット(Astrobee Robot)など、将来の有人飛行基地を自律的に支援する支援型フリーフライングロボットは、インベントリを追跡し、障害を検出し診断し、ポストの状態を監視しなければならない。
本研究は,宇宙基地のロボット保守を実現するための多エージェント協調マッピングと変更検出のためのフレームワークを提案する。
1つのエージェントは、画像のシーケンスと対応する深度情報から環境の3Dモデルを再構成するために使用される。
別のエージェントは、定期的に環境を3Dモデルに対して不整合としてスキャンするために使用される。
実際の画像を用いて調査を完了し、地上テスト環境およびISS内の微小重力下でアストローブロボットが収集したデータを合成した後、変更検出を検証する。
本研究は, マルチエージェント再構築システムにおける目的, 要件, アルゴリズムモジュールについて概説する。
※注記等
Assistive free-flyer robots autonomously caring for future crewed outposts -- such as NASA's Astrobee robots on the International Space Station (ISS) -- must be able to detect day-to-day interior changes to track inventory, detect and diagnose faults, and monitor the outpost status. This work presents a framework for multi-agent cooperative mapping and change detection to enable robotic maintenance of space outposts. One agent is used to reconstruct a 3D model of the environment from sequences of images and corresponding depth information. Another agent is used to periodically scan the environment for inconsistencies against the 3D model. Change detection is validated after completing the surveys using real image and pose data collected by Astrobee robots in a ground testing environment and from microgravity aboard the ISS. This work outlines the objectives, requirements, and algorithmic modules for the multi-agent reconstruction system, including recommendations for its use by assistive free-flyers aboard future microgravity outposts. *Denotes Equal Contribution | 翻訳日:2024-08-07 19:41:33 公開日:2024-08-06 |
# RSB-Pose:オクルージョンハンドリングによるロバスト短基線両眼3次元人物位置推定
RSB-Pose: Robust Short-Baseline Binocular 3D Human Pose Estimation with Occlusion Handling ( http://arxiv.org/abs/2311.14242v2 ) ライセンス: Link先を確認 | Xiaoyue Wan, Zhuo Chen, Yiming Bao, Xu Zhao, | (参考訳) 日常的な応用が広く見られる3Dヒューマンポース推定の領域では、便利な取得機器の要求が増加し続けている。
この要求を満たすため、我々は、ポータビリティと、奥行きのあいまいさを根本的に緩和する幾何的測定特性の両方を提供する短基線双眼設定に照準を合わせました。
しかし、両眼の基準線が短くなるにつれて、第1に2次元誤差に対する3次元再構成の堅牢性は低下し、第2に、2つの視点の視覚的差異が限定されているため、咬合が再発する。
最初の課題に対処するため、我々は2次元キーポイントのビュー一貫性を改善し、3次元ロバスト性を高めるためにStereo Co-Keypoints Estimationモジュールを提案する。
本モジュールでは、両眼2D点の対応を表すために相違を利用しており、また、ステレオボリューム特徴を導入して異なる相違点の両眼特徴を包含する。
SVFの回帰により、2次元の2次元キーポイントを協調的に推定し、ビューの一貫性を制限する。
さらに、オクルージョンを扱うために、事前訓練されたPose Transformerモジュールが導入された。
このモジュールを通して、3Dのポーズは、関節相関の表現であるポーズコヒーレンスを知覚することで洗練される。
この知覚はPose Transformerネットワークによって注入され、反復的なマスク関節を回復するトレーニング前タスクを通じて学習される。
H36MとMHADデータセットを用いた総合的な実験を行い、可視化を行い、短基線双眼3D人物姿勢推定と閉塞処理におけるアプローチの有効性を検証した。
In the domain of 3D Human Pose Estimation, which finds widespread daily applications, the requirement for convenient acquisition equipment continues to grow. To satisfy this demand, we set our sights on a short-baseline binocular setting that offers both portability and a geometric measurement property that radically mitigates depth ambiguity. However, as the binocular baseline shortens, two serious challenges emerge: first, the robustness of 3D reconstruction against 2D errors deteriorates; and second, occlusion reoccurs due to the limited visual differences between two views. To address the first challenge, we propose the Stereo Co-Keypoints Estimation module to improve the view consistency of 2D keypoints and enhance the 3D robustness. In this module, the disparity is utilized to represent the correspondence of binocular 2D points and the Stereo Volume Feature is introduced to contain binocular features across different disparities. Through the regression of SVF, two-view 2D keypoints are simultaneously estimated in a collaborative way which restricts their view consistency. Furthermore, to deal with occlusions, a Pre-trained Pose Transformer module is introduced. Through this module, 3D poses are refined by perceiving pose coherence, a representation of joint correlations. This perception is injected by the Pose Transformer network and learned through a pre-training task that recovers iterative masked joints. Comprehensive experiments carried out on H36M and MHAD datasets, complemented by visualizations, validate the effectiveness of our approach in the short-baseline binocular 3D Human Pose Estimation and occlusion handling. | 翻訳日:2024-08-07 19:41:33 公開日:2024-08-06 |
# ニューラル正規微分方程式の安定性インフォームド初期化
Stability-Informed Initialization of Neural Ordinary Differential Equations ( http://arxiv.org/abs/2311.15890v3 ) ライセンス: Link先を確認 | Theodor Westny, Arman Mohammadi, Daniel Jung, Erik Frisk, | (参考訳) 本稿では,ニューラル正規微分方程式 (Neural Ordinary Differential Equations,neural ODEs) の学習について考察し,特に数値積分法,安定領域,ステップサイズ,初期化技術との相互作用について考察する。
統合手法の選択が学習モデルを暗黙的に正規化する方法と,学習者の安定領域がトレーニングや予測性能にどのように影響するかを示す。
この分析から,安定性インフォームドパラメータ初期化手法を提案する。
初期化手法の有効性は、いくつかの学習ベンチマークと産業応用にまたがる。
This paper addresses the training of Neural Ordinary Differential Equations (neural ODEs), and in particular explores the interplay between numerical integration techniques, stability regions, step size, and initialization techniques. It is shown how the choice of integration technique implicitly regularizes the learned model, and how the solver's corresponding stability region affects training and prediction performance. From this analysis, a stability-informed parameter initialization technique is introduced. The effectiveness of the initialization method is displayed across several learning benchmarks and industrial applications. | 翻訳日:2024-08-07 19:41:33 公開日:2024-08-06 |
# クラス $\mathcal{S}$ の欠陥群 クーロン枝の理論
Defect groups of class $\mathcal{S}$ theories from the Coulomb branch ( http://arxiv.org/abs/2311.16224v2 ) ライセンス: Link先を確認 | Elias Riedel Gårding, | (参考訳) クラス $\mathcal{S}[A_{N-1}]$ 4d $\mathcal{N} = 2$理論のグローバルな形式をクーロン分岐データからそれらの欠陥群(局所作用素によるスクリーニングまでのライン演算子の電荷)を導出することによって研究する。
具体的には、欠陥群が$(\mathbb{Z}_N)^{2g}$であり、$g$は関連するリーマン面の種数であることを示すために、完全正則句読点の場合、BPS quiver を明示的に構成する。
これは 5d 対称性 TFT における曲面作用素のセクターを決定する。
M-理論の次元的還元からこれらをいかに特定できるかを示す。
We study the global forms of class $\mathcal{S}[A_{N-1}]$ 4d $\mathcal{N} = 2$ theories by deriving their defect groups (charges of line operators up to screening by local operators) from Coulomb branch data. Specifically, we employ an explicit construction of the BPS quiver for the case of full regular punctures to show that the defect group is $(\mathbb{Z}_N)^{2g}$, where $g$ is the genus of the associated Riemann surface. This determines a sector of surface operators in the 5d symmetry TFT. We show how these can also be identified from dimensional reduction of M-theory. | 翻訳日:2024-08-07 19:31:50 公開日:2024-08-06 |
# InceptionHuman:フォトリアリスティックな3Dヒューマンジェネレーションのための制御可能なPrompt-to-NeRF
InceptionHuman: Controllable Prompt-to-NeRF for Photorealistic 3D Human Generation ( http://arxiv.org/abs/2311.16499v2 ) ライセンス: Link先を確認 | Shiu-hong Kao, Xinhang Liu, Yu-Wing Tai, Chi-Keung Tang, | (参考訳) 本稿では,テキスト,ポーズ,エッジ,セグメンテーションマップなど)のプロンプトを入力として組み合わせて,フォトリアリスティックな3次元人間を生成することで,容易に制御できるインセプション・トゥ・NeRFフレームワークであるInceptionHumanについて述べる。
多くの作品では3Dモデルの作成に重点を置いているが、特徴の欠如、非自然的なシェーディング/シャドウ、非自然的なポーズ/衣服、限られたビューなど、ひとつ以上の問題に悩まされている。
InceptionHumanは、2つの新しいモジュール、Iterative Pose-Aware Refinement(IPAR)とProgressive-Augmented Restruction(PAR)で、高度に洗練されたNeRF空間内で一貫した3Dヒューマン生成を実現する。
IPARは拡散生成画像を反復的に洗練し、RGBの近接値を考慮した高品質な3D認識ビューを合成する。
PARは生成した合成ビューを増やす前に事前訓練された拡散を使用し、ビューに依存しない外観の正規化を追加する。
全体として、フォトリアリスティック・ノベルビューの合成は、360度の視点から得られる3D人間のNeRFを促進する。
我々のInceptionHumanモデルが最先端のアプリケーション品質を実現していることを示す。
This paper presents InceptionHuman, a prompt-to-NeRF framework that allows easy control via a combination of prompts in different modalities (e.g., text, poses, edge, segmentation map, etc) as inputs to generate photorealistic 3D humans. While many works have focused on generating 3D human models, they suffer one or more of the following: lack of distinctive features, unnatural shading/shadows, unnatural poses/clothes, limited views, etc. InceptionHuman achieves consistent 3D human generation within a progressively refined NeRF space with two novel modules, Iterative Pose-Aware Refinement (IPAR) and Progressive-Augmented Reconstruction (PAR). IPAR iteratively refines the diffusion-generated images and synthesizes high-quality 3D-aware views considering the close-pose RGB values. PAR employs a pretrained diffusion prior to augment the generated synthetic views and adds regularization for view-independent appearance. Overall, the synthesis of photorealistic novel views empowers the resulting 3D human NeRF from 360-degree perspectives. Extensive qualitative and quantitative experimental comparison show that our InceptionHuman models achieve state-of-the-art application quality. | 翻訳日:2024-08-07 19:31:50 公開日:2024-08-06 |
# CaloQVAE : ハイブリッド量子古典生成モデルを用いた高エネルギー粒子-カロリメータ相互作用のシミュレーション
CaloQVAE : Simulating high-energy particle-calorimeter interactions using hybrid quantum-classical generative models ( http://arxiv.org/abs/2312.03179v4 ) ライセンス: Link先を確認 | Sehmimul Hoque, Hao Jia, Abhishek Abhishek, Mojde Fadaie, J. Quetzalcoatl Toledo-Marín, Tiago Vale, Roger G. Melko, Maximilian Swiatlowski, Wojciech T. Fedorko, | (参考訳) 大型ハドロン衝突型加速器の高輝度化時代は、衝突現象の解析において大きな計算上の課題を呈している。
モンテカルロシミュレーション(MC)は、これらの実験データの下のシミュレーションデータセットの統計的不確実性を制限するために必要とされる。
検出器のカロリー領域を伝播する高エネルギー粒子のモデリングは、最も計算集約的なMCシミュレーションタスクである。
本稿では,高エネルギー粒子-カロリメータ相互作用の高速かつ効率的なシミュレーションのための生成モデルと量子アニールの最近の進歩を組み合わせた手法を提案する。
The Large Hadron Collider's high luminosity era presents major computational challenges in the analysis of collision events. Large amounts of Monte Carlo (MC) simulation will be required to constrain the statistical uncertainties of the simulated datasets below these of the experimental data. Modelling of high-energy particles propagating through the calorimeter section of the detector is the most computationally intensive MC simulation task. We introduce a technique combining recent advancements in generative models and quantum annealing for fast and efficient simulation of high-energy particle-calorimeter interactions. | 翻訳日:2024-08-07 19:31:50 公開日:2024-08-06 |
# コード生成のための意味に基づくニューロンレベルの言語モデル修復
Neuron Patching: Semantic-based Neuron-level Language Model Repair for Code Generation ( http://arxiv.org/abs/2312.05356v4 ) ライセンス: Link先を確認 | Jian Gu, Aldeida Aleti, Chunyang Chen, Hongyu Zhang, | (参考訳) 大規模言語モデル(LLM)はすでにソフトウェア工学、特にコード生成タスクで広く採用されている。
しかし、これらのモデルを新しい知識で更新することは違法にコストがかかるが、緊急またはクリティカルなLSMエラーに対処するためのホットフィックス技術を実装するなど、それらの実用性を最大化することが不可欠である。
本稿では,コーディングタスクにおけるLLMの修復のための新しい効果的なモデル編集手法である「textsc{MENT}」を提案する。
\textsc{MENT} は効果があり、効率的で信頼性があり、1つまたは2つのニューロンにパッチを当てることで神経モデルを修正することができる。
生成モデルのニューロンレベルモデル編集の先駆的な取り組みとして、編集プロセスの形式化と関連する概念の導入を行う。
また、その一般化能力を評価し、さらなる研究のためのベンチマークを確立するための新しい尺度も導入する。
提案手法は,行レベルのコード生成,シェルコード生成,インテント・ツー・バッシュ変換という3つのコーディングタスクで評価される。
実験の結果,提案手法は,有効性および効率性の両方において,最先端の手法を著しく上回っていることがわかった。
さらに,ソフトウェア工学における LLM 推論への \textsc{MENT} の適用について紹介する。
LLMの知識を編集することで、API呼び出しの直接的あるいは間接的な振る舞いは、それに応じて変化します。
このことは、ソフトウェア工学の文脈でLLMを修復することの重要性を示している。
Large Language Models (LLMs) have already gained widespread adoption in software engineering, particularly in code generation tasks. However, updating these models with new knowledge can be prohibitively expensive, yet it is essential to maximize their utility, such as implementing a hotfix technique to address urgent or critical LLM errors. In this paper, we propose \textsc{MENT}, a novel and effective model editing approach to repair LLMs in coding tasks. \textsc{MENT} is effective, efficient, and reliable, capable of correcting a neural model by patching just one or two neurons. As pioneering work on neuron-level model editing of generative models, we formalize the editing process and introduce the involved concepts. We also introduce new measures to evaluate its generalization ability and establish a benchmark for further study. Our approach is evaluated on three coding tasks: line-level code generation, shellcode generation, and intent-to-bash translation. The experimental results demonstrate that the proposed approach significantly outperforms the state-of-the-art in both effectiveness and efficiency measures. Furthermore, we showcase the applications of \textsc{MENT} for LLM reasoning in software engineering. By editing LLM knowledge, the directly or indirectly dependent behaviors of API invocation in the chain-of-thought change accordingly. This illustrates the significance of repairing LLMs in the context of software engineering. | 翻訳日:2024-08-07 19:31:50 公開日:2024-08-06 |
# ベクトル値正規化最小二乗アルゴリズムにおけるソボレフノルム率の最適化に向けて
Towards Optimal Sobolev Norm Rates for the Vector-Valued Regularized Least-Squares Algorithm ( http://arxiv.org/abs/2312.07186v5 ) ライセンス: Link先を確認 | Zhu Li, Dimitri Meunier, Mattes Mollenhauer, Arthur Gretton, | (参考訳) L_2$と仮説空間の間を補間するノルムの連続スケール上で、無限次元ベクトル値リッジ回帰の最初の最適速度を示し、これはベクトル値再生核ヒルベルト空間と考える。
これらの速度は、真の回帰関数が仮説空間に含まれていない不特定ケースを扱うことができる。
仮説空間のキャパシティに関する標準的な仮定とベクトル値補間空間の新たなテンソル積の構成を組み合わせることにより、回帰関数の滑らかさを特徴づける。
我々の上界は実数値のカーネルリッジ回帰と同じ速度を得るだけでなく、対象の回帰関数が有界であるという仮定も取り除く。
下界では、射影引数を用いてスカラー設定に問題を還元する。
これらの値は、ほとんどの場合最適であり、出力空間の次元に依存しないことを示す。
ベクトル値ソボレフ空間の特別な場合について、本研究の結果を説明する。
We present the first optimal rates for infinite-dimensional vector-valued ridge regression on a continuous scale of norms that interpolate between $L_2$ and the hypothesis space, which we consider as a vector-valued reproducing kernel Hilbert space. These rates allow to treat the misspecified case in which the true regression function is not contained in the hypothesis space. We combine standard assumptions on the capacity of the hypothesis space with a novel tensor product construction of vector-valued interpolation spaces in order to characterize the smoothness of the regression function. Our upper bound not only attains the same rate as real-valued kernel ridge regression, but also removes the assumption that the target regression function is bounded. For the lower bound, we reduce the problem to the scalar setting using a projection argument. We show that these rates are optimal in most cases and independent of the dimension of the output space. We illustrate our results for the special case of vector-valued Sobolev spaces. | 翻訳日:2024-08-07 19:31:50 公開日:2024-08-06 |
# 表現工学のレンズによる脱獄の再考
Rethinking Jailbreaking through the Lens of Representation Engineering ( http://arxiv.org/abs/2401.06824v3 ) ライセンス: Link先を確認 | Tianlong Li, Shihan Dou, Wenhao Liu, Muling Wu, Changze Lv, Rui Zheng, Xiaoqing Zheng, Xuanjing Huang, | (参考訳) 最近のジェイルブレイク手法の急増により、悪意のある入力に対するLarge Language Models(LLM)の脆弱性が明らかになった。
初期の研究は、主に脱獄攻撃の成功率の向上に重点を置いていたが、LLMを保護するための基盤となるメカニズムは未解明のままである。
本研究では, LLMが生成する表現空間内の特定の活動パターンを明らかにすることにより, 安全性に配慮したLCMの脆弱性を明らかにする。
このような `safety Pattern'' は単純なメソッドで数組のコントラストクエリで識別することができ、Pandora の LLM の Box をオープンまたはロックするために使用可能な '`keys'' (セキュリティ防御能力のメタファーとして使用される) として機能する。
大規模実験により, 脱獄に対するLDMの堅牢性は, 識別された安全性パターンを弱め, 強化することにより低下または強化できることが示された。
これらの知見は, 脱獄現象の理解を深め, LLMコミュニティに対して, オープンソース LLM の誤用に対処するよう求めている。
The recent surge in jailbreaking methods has revealed the vulnerability of Large Language Models (LLMs) to malicious inputs. While earlier research has primarily concentrated on increasing the success rates of jailbreaking attacks, the underlying mechanism for safeguarding LLMs remains underexplored. This study investigates the vulnerability of safety-aligned LLMs by uncovering specific activity patterns within the representation space generated by LLMs. Such ``safety patterns'' can be identified with only a few pairs of contrastive queries in a simple method and function as ``keys'' (used as a metaphor for security defense capability) that can be used to open or lock Pandora's Box of LLMs. Extensive experiments demonstrate that the robustness of LLMs against jailbreaking can be lessened or augmented by attenuating or strengthening the identified safety patterns. These findings deepen our understanding of jailbreaking phenomena and call for the LLM community to address the potential misuse of open-source LLMs. | 翻訳日:2024-08-07 19:31:50 公開日:2024-08-06 |
# 標準ポリソノグラフィーデータと耳内EEG信号の比較分析 : 予備的検討
Comparison analysis between standard polysomnographic data and in-ear-EEG signals: A preliminary study ( http://arxiv.org/abs/2401.10107v4 ) ライセンス: Link先を確認 | Gianpaolo Palo, Luigi Fiorillo, Giuliana Monachino, Michal Bechny, Michel Walti, Elias Meier, Francesca Pentimalli Biscaretti di Ruffia, Mark Melnykowycz, Athina Tzovara, Valentina Agostini, Francesca Dalia Faraci, | (参考訳) Study Objectives: Polysomnography (PSG) は現在睡眠障害評価のベンチマークとして機能している。
その不快さは長期監視を不可能にし、睡眠品質評価のバイアスを引き起こす。
したがって、侵襲性が低く、コスト効率が高く、ポータブルな代替手段を探る必要がある。
有望な競合製品の一つが、ear-EEGセンサーだ。
本研究の目的は,単一チャネル内EEGと標準PSGの類似性を評価する手法を確立することである。
方法:この研究は18歳から60歳までの健康な10人の被験者から4時間の信号が記録されている。
録音は2つの補完的アプローチに従って分析される。
(i)PSGと初期EEG由来のハイドノグラムとの合意を評価するためのハイドノグラムに基づく分析、及び
(II)Jensen-Shannon Divergence (JSD-FSI)による時間・周波数領域の特徴抽出、教師なしの特徴選択、特徴に基づく類似度指数の定義に基づく特徴ベース分析。
結果: コーエンのカッパ測定値では, 睡眠専門家が測定したPSGと耳内EEGのヒポノグラムの間に大きな変動がみられ, フレイスのカッパ測定値に基づく耳内EEGスコアラー (p < 0.001) よりもPSGスコアラーの方が有意に大きな一致を示した。
JSD-FSI (0.79 +/- 0.06 -awake, 0.77 +/- 0.07 -NREM, 0.67 +/- 0.10 -REM) と、標準PSG-チャネル合成で独立に計算された類似値との相似性を平均的に示す。
結論: In-ear-EEGは在宅睡眠モニタリングに有用なソリューションであるが、より大きく異質なデータセットによるさらなる研究が必要である。
Study Objectives: Polysomnography (PSG) currently serves as the benchmark for evaluating sleep disorders. Its discomfort makes long-term monitoring unfeasible, leading to bias in sleep quality assessment. Hence, less invasive, cost-effective, and portable alternatives need to be explored. One promising contender is the in-ear-EEG sensor. This study aims to establish a methodology to assess the similarity between the single-channel in-ear-EEG and standard PSG derivations. Methods: The study involves four-hour signals recorded from ten healthy subjects aged 18 to 60 years. Recordings are analyzed following two complementary approaches: (i) a hypnogram-based analysis aimed at assessing the agreement between PSG and in-ear-EEG-derived hypnograms; and (ii) a feature-based analysis based on time- and frequency- domain feature extraction, unsupervised feature selection, and definition of Feature-based Similarity Index via Jensen-Shannon Divergence (JSD-FSI). Results: We find large variability between PSG and in-ear-EEG hypnograms scored by the same sleep expert according to Cohen's kappa metric, with significantly greater agreements for PSG scorers than for in-ear-EEG scorers (p < 0.001) based on Fleiss' kappa metric. On average, we demonstrate a high similarity between PSG and in-ear-EEG signals in terms of JSD-FSI (0.79 +/- 0.06 -awake, 0.77 +/- 0.07 -NREM, and 0.67 +/- 0.10 -REM) and in line with the similarity values computed independently on standard PSG-channel-combinations. Conclusions: In-ear-EEG is a valuable solution for home-based sleep monitoring, however further studies with a larger and more heterogeneous dataset are needed. | 翻訳日:2024-08-07 19:31:50 公開日:2024-08-06 |
# 過剰なトークン化言語に対する多言語言語モデルの高速化
Accelerating Multilingual Language Model for Excessively Tokenized Languages ( http://arxiv.org/abs/2401.10660v2 ) ライセンス: Link先を確認 | Jimin Hong, Gibbeum Lee, Jaewoong Cho, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、多言語における様々なタスクの性能を著しく向上させてきた。
しかし、LLMのトークンライザは主に英語中心のコーパスに基づいて訓練され、非ローマ文字の文字やUnicodeレベルのトークンに過度に断片化され、非効率なテキスト生成につながった。
このような言語でテキスト生成を高速化する,シンプルで効果的なフレームワークを提案する。
我々のアプローチは、事前学習されたLLMのための特定のターゲット言語に合わせた語彙セットを持つ新しい言語モデルヘッドを採用することである。
これに続いて、モデルの性能を確実に維持するための検証ステップを取り入れながら、新しいヘッドを微調整する。
この手法は,他のモデルパラメータを凍結する一方で,ターゲット言語に対するトークンのフラグメンテーションを効果的に低減することを示す。
提案するフレームワークは,対象単言語タスクにおける事前学習された多言語モデルの性能を維持しつつ,生成速度を1.7倍に向上することを示す。
Recent advancements in large language models (LLMs) have remarkably enhanced performances on a variety of tasks in multiple languages. However, tokenizers in LLMs trained primarily on English-centric corpora often overly fragment a text into character or Unicode-level tokens in non-Roman alphabetic languages, leading to inefficient text generation. We introduce a simple yet effective framework to accelerate text generation in such languages. Our approach involves employing a new language model head with a vocabulary set tailored to a specific target language for a pre-trained LLM. This is followed by fine-tuning the new head while incorporating a verification step to ensure the model's performance is preserved. We show that this targeted fine-tuning, while freezing other model parameters, effectively reduces token fragmentation for the target language. Our extensive experiments demonstrate that the proposed framework increases the generation speed by a factor of 1.7 while maintaining the performance of pre-trained multilingual models on target monolingual tasks. | 翻訳日:2024-08-07 19:31:50 公開日:2024-08-06 |
# 臨界領域における決定支援のためのデータ不確かさ下における機械学習の特徴安定性の保存
Preservation of Feature Stability in Machine Learning Under Data Uncertainty for Decision Support in Critical Domains ( http://arxiv.org/abs/2401.11044v2 ) ライセンス: Link先を確認 | Karol Capała, Paulina Tworek, Jose Sousa, | (参考訳) 重要な領域における意思決定を支援するために機械学習(ML)がますます普及している世界では、意思決定者に説明可能な、安定した、関連するインプットを提供するのが基本になっている。
欠落したデータの下で機械学習がどのように機能するか、これが機能の多様性にどのように影響するかを理解することが最重要である。
機械学習アプローチは、理想化された機能のセットに依存する意思決定アプローチの標準化に重点を置いているため、これはさらに関連性がある。
しかしながら、人間の活動における意思決定は、重要な領域であっても不完全なデータに依存していることが多い。
本稿では、より記述的であり、人間の意思決定を模倣し、説明可能性の自然な統合を可能にする分類に焦点を当てた、最近デプロイされた機械学習手法と比較して、最適な決定を求める従来の機械学習手法を用いた一連の実験を行うことにより、このギャップに対処する。
ML記述法は,データの不完全性が増大するにつれて特徴選択の安定性を確保しつつ,高い分類精度を維持する。
このことは、記述的分類法が不確実な意思決定シナリオに有効であることを示している。
In a world where Machine Learning (ML) is increasingly deployed to support decision-making in critical domains, providing decision-makers with explainable, stable, and relevant inputs becomes fundamental. Understanding how machine learning works under missing data and how this affects feature variability is paramount. This is even more relevant as machine learning approaches focus on standardising decision-making approaches that rely on an idealised set of features. However, decision-making in human activities often relies on incomplete data, even in critical domains. This paper addresses this gap by conducting a set of experiments using traditional machine learning methods that look for optimal decisions in comparison to a recently deployed machine learning method focused on a classification that is more descriptive and mimics human decision making, allowing for the natural integration of explainability. We found that the ML descriptive approach maintains higher classification accuracy while ensuring the stability of feature selection as data incompleteness increases. This suggests that descriptive classification methods can be helpful in uncertain decision-making scenarios. | 翻訳日:2024-08-07 19:31:50 公開日:2024-08-06 |
# 非識別マイクロリング共振器の並列鎖を用いたHong-Ou-Mandel Combとスイッチ
Hong-Ou-Mandel Comb and Switch using parallel chains of non-identical Micro-Ring Resonators ( http://arxiv.org/abs/2401.14491v2 ) ライセンス: Link先を確認 | Peter L. Kaulfuss, Paul M. Alsing, Richard J. Birrittella, James Schneeloch, A. Matthew Smith, Edwin E. Hach III, | (参考訳) マイクロリング共振器(MRRs)は,Hong-Ou-Mandel(HOM)効果を様々な可変パラメータの組み合わせで正確に解析できる。
この HOM 効果が生じる高次元のパラメータ空間は、Hong-Ou-Mandel manifold (HOMM) と呼ばれるものを構成する。
MRR間の相対的なラウンドトリップ位相シフトの変化は、HOM効果の波長位置の操作を可能にする。
巧妙な設計と製造により、HOMMを成形してHOM効果を正確に所望の場所に配置することができる。
本稿では,非識別的MRRパラメータを調整して結果のHOMMを変更する方法について論じる。
また,より有利なHOMM構造を示すサンプル設計を推進し,異なる回路設計でアクセス可能な多種多様な可能性を強調した。
最後に、従来の通信ネットワークと統合するために、HOM効果位置と既に確立されたチャネルとを一致させる波長分割多重化例を示す。
Micro-Ring Resonators (MRRs) allow us to access the Hong-Ou-Mandel (HOM) effect at a variety of tunable parameter combinations along exact analytic solutions. This higher-dimensional space of parameters for which the HOM effect occurs constitutes what is known as a Hong-Ou-Mandel manifold (HOMM). Using a parallel series of non-identical MRRs and changing relative round-trip phase shifts between MRRs allows for the manipulation of the wavelength locations of the HOM effect. Through clever design and fabrication, we can mold the HOMM to place the HOM effect, or lack thereof, precisely at desired locations. In this paper we discuss how to adjust non-identical MRR parameters to change the resulting HOMM. We also promote example designs that exhibit advantageous HOMM structures, and highlight some of the myriad of possibilities that can be accessed with different circuit design. Finally, we show a wavelength division multiplexer example that matches the HOM effect locations with the already established channels to integrate with a classical communication network. | 翻訳日:2024-08-07 19:31:50 公開日:2024-08-06 |
# 安全航空機分類のための滑走路物体分類器のロバスト性評価
Robustness Assessment of a Runway Object Classifier for Safe Aircraft Taxiing ( http://arxiv.org/abs/2402.00035v4 ) ライセンス: Link先を確認 | Yizhak Elboher, Raya Elsaleh, Omri Isac, Mélanie Ducoffe, Audrey Galametz, Guillaume Povéda, Ryma Boumazouza, Noémie Cohen, Guy Katz, | (参考訳) ディープニューラルネットワーク(DNN)が多くの計算問題の顕著な解決策になりつつあるため、航空業界は、パイロットの作業負荷を緩和し、運用上の安全性を向上させる可能性を探究しようとしている。
しかし、この種の安全クリティカルなアプリケーションにおけるDNNの使用には、徹底的な認証プロセスが必要である。
このニーズは形式的な検証によって対処できるため,厳格な保証 – 例えば - 特定の誤った予測がないことを証明して – が提供される。
本稿では,現在エアバスで開発中の画像分類装置DNNを用いて,航空機のタクシー走行時に使用することを意図した手法を実演する。
我々は、このDNNの頑健さを、ノイズ、明るさ、コントラストという3つの一般的なイメージ摂動タイプに評価するために、フォーマルな手法を用いています。
そこで本稿では,これらのロバスト性特性の単調性と過去の検証クエリの結果を利用して,検証クエリの総数を60%近く削減する手法を提案する。
以上の結果から,DNN分類器は輝度やコントラストの摂動よりも雑音に弱いことが示唆された。
As deep neural networks (DNNs) are becoming the prominent solution for many computational problems, the aviation industry seeks to explore their potential in alleviating pilot workload and in improving operational safety. However, the use of DNNs in this type of safety-critical applications requires a thorough certification process. This need can be addressed through formal verification, which provides rigorous assurances -- e.g.,~by proving the absence of certain mispredictions. In this case-study paper, we demonstrate this process using an image-classifier DNN currently under development at Airbus and intended for use during the aircraft taxiing phase. We use formal methods to assess this DNN's robustness to three common image perturbation types: noise, brightness and contrast, and some of their combinations. This process entails multiple invocations of the underlying verifier, which might be computationally expensive; and we therefore propose a method that leverages the monotonicity of these robustness properties, as well as the results of past verification queries, in order to reduce the overall number of verification queries required by nearly 60%. Our results provide an indication of the level of robustness achieved by the DNN classifier under study, and indicate that it is considerably more vulnerable to noise than to brightness or contrast perturbations. | 翻訳日:2024-08-07 19:31:50 公開日:2024-08-06 |
# 位置:ベイジアンディープラーニングは大規模AIの時代に必要である
Position: Bayesian Deep Learning is Needed in the Age of Large-Scale AI ( http://arxiv.org/abs/2402.00809v5 ) ライセンス: Link先を確認 | Theodore Papamarkou, Maria Skoularidou, Konstantina Palla, Laurence Aitchison, Julyan Arbel, David Dunson, Maurizio Filippone, Vincent Fortuin, Philipp Hennig, José Miguel Hernández-Lobato, Aliaksandr Hubin, Alexander Immer, Theofanis Karaletsos, Mohammad Emtiyaz Khan, Agustinus Kristiadi, Yingzhen Li, Stephan Mandt, Christopher Nemeth, Michael A. Osborne, Tim G. J. Rudner, David Rügamer, Yee Whye Teh, Max Welling, Andrew Gordon Wilson, Ruqi Zhang, | (参考訳) ディープラーニング研究の現在の状況では、大規模な画像と言語データセットを含む教師付きタスクにおいて、高い予測精度を達成することに重点が置かれている。
しかし、より広い視点から見れば、不確実性、活動的かつ継続的な学習、科学的なデータなど、見落とされがちなメトリクス、タスク、データタイプが、注意を喚起する。
Bayesian Deep Learning(BDL)は,これらのさまざまな設定にまたがってメリットを提供する,有望な道の1つである。
本稿では,BDLが深層学習の能力を高めることができることを示唆する。
BDLの強みを再考し、既存の課題を認識し、これらの障害に対処するためのエキサイティングな研究方法を強調します。
今後の議論は、大規模ファンデーションモデルをBDLと組み合わせて、その潜在能力を最大限に活用する方法に焦点を当てている。
In the current landscape of deep learning research, there is a predominant emphasis on achieving high predictive accuracy in supervised tasks involving large image and language datasets. However, a broader perspective reveals a multitude of overlooked metrics, tasks, and data types, such as uncertainty, active and continual learning, and scientific data, that demand attention. Bayesian deep learning (BDL) constitutes a promising avenue, offering advantages across these diverse settings. This paper posits that BDL can elevate the capabilities of deep learning. It revisits the strengths of BDL, acknowledges existing challenges, and highlights some exciting research avenues aimed at addressing these obstacles. Looking ahead, the discussion focuses on possible ways to combine large-scale foundation models with BDL to unlock their full potential. | 翻訳日:2024-08-07 19:31:50 公開日:2024-08-06 |
# NetLLM: 大規模言語モデルによるネットワーク化
NetLLM: Adapting Large Language Models for Networking ( http://arxiv.org/abs/2402.02338v3 ) ライセンス: Link先を確認 | Duo Wu, Xianda Wang, Yaqi Qiao, Zhi Wang, Junchen Jiang, Shuguang Cui, Fangxin Wang, | (参考訳) 多くのネットワークタスクでは、複雑な予測と最適化の問題を解決するためにディープラーニング(DL)を採用している。
しかし、DLベースのアルゴリズムの現在の設計哲学は、異なるネットワークタスクのためのディープニューラルネットワーク(DNN)の手動設計のために、エンジニアリングのオーバーヘッドが集中的に伴う。
さらに、DNNは目に見えないデータ分散/環境上での一般化性能が劣る傾向にある。
近年の大規模言語モデル(LLM)の成功に触発された本研究は、より持続可能な設計哲学を探求するために、ネットワークへのLLM適応を研究した。
強力な事前訓練された知識により、LLMはより優れたパフォーマンスとより強力な一般化で"すべてのタスクのための1つのモデル"を達成するための基盤モデルとして機能することを約束している。
このビジョンを追求するために、ネットワーク問題を解決するために低努力でLLMの強力な能力を利用するコヒーレントな設計を提供する最初のフレームワークであるNetLLMを紹介します。
具体的には、NetLLMはLLMにネットワーク上のマルチモーダルデータを効果的に処理し、タスク固有の回答を効率的に生成する権限を与える。
さらに、NetLLMはLLMを微調整してネットワークのドメイン知識を取得するコストを大幅に削減する。
ネットワーク関連の3つのユースケース – ビューポート予測,適応ビットレートストリーミング,クラスタジョブスケジューリング – において,NetLLM 適応 LLM が最先端のアルゴリズムを大幅に上回ることを示す。
Many networking tasks now employ deep learning (DL) to solve complex prediction and optimization problems. However, current design philosophy of DL-based algorithms entails intensive engineering overhead due to the manual design of deep neural networks (DNNs) for different networking tasks. Besides, DNNs tend to achieve poor generalization performance on unseen data distributions/environments. Motivated by the recent success of large language models (LLMs), this work studies the LLM adaptation for networking to explore a more sustainable design philosophy. With the powerful pre-trained knowledge, the LLM is promising to serve as the foundation model to achieve "one model for all tasks" with even better performance and stronger generalization. In pursuit of this vision, we present NetLLM, the first framework that provides a coherent design to harness the powerful capabilities of LLMs with low efforts to solve networking problems. Specifically, NetLLM empowers the LLM to effectively process multimodal data in networking and efficiently generate task-specific answers. Besides, NetLLM drastically reduces the costs of fine-tuning the LLM to acquire domain knowledge for networking. Across three networking-related use cases - viewport prediction, adaptive bitrate streaming and cluster job scheduling, we showcase that the NetLLM-adapted LLM significantly outperforms state-of-the-art algorithms. | 翻訳日:2024-08-07 19:22:06 公開日:2024-08-06 |
# ColorSwap:マルチモーダル評価のための色と語順データセット
ColorSwap: A Color and Word Order Dataset for Multimodal Evaluation ( http://arxiv.org/abs/2402.04492v2 ) ライセンス: Link先を確認 | Jirayu Burapacheep, Ishan Gaur, Agam Bhatia, Tristan Thrush, | (参考訳) そこで本研究では,マルチモーダルモデルの有効性を評価・改善するColorSwapデータセットを提案する。
データセットは2,000のユニークなイメージキャプチャーペアで構成されており、1000の例にまとめられている。
それぞれの例には、キャプションイメージペアと ``color-swapped'' ペアが含まれる。
例の2つのキャプションは同じ単語を持つが、色の単語は異なるオブジェクトを変更するために再構成されている。
データセットは、ループ内の人間と自動キャプションと画像生成の新たなブレンドによって作成されました。
我々は、画像テキストマッチング(ITM)と視覚言語モデル(VLM)を評価し、最新のものでさえもまだこの課題において堅牢ではないことを発見した。
GPT-4VとLLaVAは、より高度なプロンプト技術によって改善されるが、主VLM測定値では72%と42%である。
メインのIMM測定では、CLIPやSigLIPのようなコントラストモデル(それぞれ12%と30%)が、非コントラストのBLIP ITMモデルはより強い(87%)。
また,2000件未満のサンプルに対して微調整を行うことで,このアウト・オブ・ディストリビューション・ワード・オーダー理解タスクにおいて,大幅な性能向上が期待できることがわかった。
データセットは以下の通りである。 https://github.com/Top34051/colorswap and here: https://huggingface.co/datasets/stanfordnlp/colorswap。
This paper introduces the ColorSwap dataset, designed to assess and improve the proficiency of multimodal models in matching objects with their colors. The dataset is comprised of 2,000 unique image-caption pairs, grouped into 1,000 examples. Each example includes a caption-image pair, along with a ``color-swapped'' pair. We follow the Winoground schema: the two captions in an example have the same words, but the color words have been rearranged to modify different objects. The dataset was created through a novel blend of automated caption and image generation with humans in the loop. We evaluate image-text matching (ITM) and visual language models (VLMs) and find that even the latest ones are still not robust at this task. GPT-4V and LLaVA score 72% and 42% on our main VLM metric, although they may improve with more advanced prompting techniques. On the main ITM metric, contrastive models such as CLIP and SigLIP perform close to chance (at 12% and 30%, respectively), although the non-contrastive BLIP ITM model is stronger (87%). We also find that finetuning on fewer than 2,000 examples yields significant performance gains on this out-of-distribution word-order understanding task. The dataset is here: https://github.com/Top34051/colorswap and here: https://huggingface.co/datasets/stanfordnlp/colorswap. | 翻訳日:2024-08-07 19:22:06 公開日:2024-08-06 |
# インテントベースアクセス制御:LLMを用いた知的アクセス制御
Intent-Based Access Control: Using LLMs to Intelligently Manage Access Control ( http://arxiv.org/abs/2402.07332v3 ) ライセンス: Link先を確認 | Pranav Subramaniam, Sanjay Krishnan, | (参考訳) すべてのエンタープライズデータベースにおいて、管理者は、どのユーザーがどの資産にアクセスしているかを指定するアクセス制御ポリシーを定義する必要がある。
アクセス制御は、ポリシー(誰がアクセスするかを定義する組織レベルの原則)とプロセス(実際にポリシーを実装するデータベースレベルのプリミティブ)という2つの世界に分かれています。
ポリシーに対するプロセスのコンプライアンスを評価し、強制することは、手作業であり、アドホックな作業である。
本稿では,Intent-Based Access Control for Databases (IBAC-DB) と呼ばれるアクセス制御の新しいパラダイムを提案する。
IBAC-DBでは、新しいフォーマットである自然言語アクセス制御マトリックス(NLACM)を用いて、アクセス制御ポリシーをより正確に表現する。
データベースアクセス制御プリミティブはこれらのNLACMから自動的に合成される。
これらのプリミティブは、新しいDB構成の生成や既存の設定の評価に使用することができる。
本稿では、IBAC-DBインタフェースの参照アーキテクチャ、PostgreSQLの初期実装(LLM4ACと呼ぶ)、システムの精度とスコープを評価する初期ベンチマークについて述べる。
さらに、LLM4ACを拡張して、時間的制約やロール階層を含む、他のタイプのデータベースデプロイメント要件を処理する方法について説明する。
本稿では, LLM4ACを拡張するための要求固有手法であるRHieSysと, LLM4ACを拡張する汎用手法であるDePLOIを提案する。
選択した実装であるLLM4ACは、他のベースラインを大幅に上回り、Dr. Spiderベンチマークで高い精度とF1スコアを達成しています。
その中には、外部知識を必要とする最先端のNL2SQLデータや、Amazon Accessデータセットの実際のロール階層が含まれる。
In every enterprise database, administrators must define an access control policy that specifies which users have access to which assets. Access control straddles two worlds: policy (organization-level principles that define who should have access) and process (database-level primitives that actually implement the policy). Assessing and enforcing process compliance with a policy is a manual and ad-hoc task. This paper introduces a new paradigm for access control called Intent-Based Access Control for Databases (IBAC-DB). In IBAC-DB, access control policies are expressed more precisely using a novel format, the natural language access control matrix (NLACM). Database access control primitives are synthesized automatically from these NLACMs. These primitives can be used to generate new DB configurations and/or evaluate existing ones. This paper presents a reference architecture for an IBAC-DB interface, an initial implementation for PostgreSQL (which we call LLM4AC), and initial benchmarks that evaluate the accuracy and scope of such a system. We further describe how to extend LLM4AC to handle other types of database deployment requirements, including temporal constraints and role hierarchies. We propose RHieSys, a requirement-specific method of extending LLM4AC, and DePLOI, a generalized method of extending LLM4AC. We find that our chosen implementation, LLM4AC, vastly outperforms other baselines, achieving high accuracies and F1 scores on our initial Dr. Spider benchmark. On all systems, we find overall high performance on expanded benchmarks, which include state-of-the-art NL2SQL data requiring external knowledge, and real-world role hierarchies from the Amazon Access dataset. | 翻訳日:2024-08-07 19:22:06 公開日:2024-08-06 |
# 任意の次元におけるLandau-Streater(Werner-Holevo)チャネル
The noisy Landau-Streater(Werner-Holevo) channel in arbitrary dimensions ( http://arxiv.org/abs/2402.07700v5 ) ライセンス: Link先を確認 | Vahid Karimipour, | (参考訳) ワーナー・ホレヴォ(英語版)とランダウ・サトリーター(英語版)という2つの重要な量子チャネルのクラスは3次元でのみ関係があることが知られている。
この研究において、ランダウ・サトラーチャネルの定義は、すべての次元においてヴェルナー・ホレヴォチャネルと等価性を保持するように拡張される。
このチャネルは、クォーディットに作用するノイズのモデルとして表現可能であるように修正される。
次に、結果のノイズチャネルの真性を調べ、マルコフの進化の結果では得られない条件を決定する。
さらに,古典的および量子的情報を絡み合うことなく伝達する能力について検討する。
特に、Landau-Streater や Werner-Holevo チャネルが絡み合っているため、量子容量の低い境界を求めることにより、ノイズのレベルが臨界値よりも低い場合、量子容量はゼロではないことを示す。
予想通り、この値はすべての次元で0.4$とほぼ等しい。
最後に、偶数次元において、このチャネルはユニタリ演算の点で分解可能であることを示す。
これは、他の量子写像の観点からも、そのような分解は不可能であると証明された3次元の場合とは対照的である。
Two important classes of quantum channels, namly the Werner-Holevo and the Landau-Streater channels are known to be related only in three dimensions, i.e. when acting on qutrits. In this work, definition of the Landau-Streater channel is extended in such a way which retains its equivalence to the Werner-Holevo channel in all dimensions. This channel is then modified to be representable as a model of noise acting on qudits. We then investigate propeties of the resulting noisy channel and determine the conditions under which it cannot be the result of a Markovian evolution. Furthermore, we investigate its different capacities for transmitting classical and quantum information with or without entanglement. In particular, while the pure (or high noise) Landau-Streater or the Werner-Holevo channel is entanglement breaking and hence has zero capacity, by finding a lower bound for the quantum capacity, we show that when the level of noise is lower than a critical value the quantum capacity will be non-zero. Surprizingly this value turns out to be approximately equal to $0.4$ in all dimensions. Finally we show that, in even dimension, this channel has a decomposition in terms of unitary operations. This is in contrast with the three dimensional case where it has been proved that such a decomposition is impossible, even in terms of other quantum maps. | 翻訳日:2024-08-07 19:22:06 公開日:2024-08-06 |
# 文献レビューのための人工知能:機会と課題
Artificial Intelligence for Literature Reviews: Opportunities and Challenges ( http://arxiv.org/abs/2402.08565v2 ) ライセンス: Link先を確認 | Francisco Bolanos, Angelo Salatino, Francesco Osborne, Enrico Motta, | (参考訳) 本書は、SLR(Systematic Literature Reviews)における人工知能(AI)の使用に関する包括的なレビューを提示する。
SLRは、あるトピックに関する以前の研究を評価し、統合する厳格で組織化された方法論である。
SLRプロセスを補助し、部分的に自動化するための多くのツールが開発されている。
この分野におけるAIの役割の増大は、研究者により効果的な支援を提供する大きな可能性を示しており、文献レビューの半自動作成に向かっている。
本研究は,SLRの半自動化におけるAI技術の適用方法,特にスクリーニングと抽出フェーズに焦点をあてる。
従来の23の機能と11のAI機能を組み合わせたフレームワークを用いて、主要なSLRツール21について検討する。
また、文献検索や学術的執筆支援に大規模な言語モデルを活用する11のツールも分析している。
最後に、この分野のトレンドについて論じ、主要な研究課題を概説し、今後の研究の方向性を提案する。
This manuscript presents a comprehensive review of the use of Artificial Intelligence (AI) in Systematic Literature Reviews (SLRs). A SLR is a rigorous and organised methodology that assesses and integrates previous research on a given topic. Numerous tools have been developed to assist and partially automate the SLR process. The increasing role of AI in this field shows great potential in providing more effective support for researchers, moving towards the semi-automatic creation of literature reviews. Our study focuses on how AI techniques are applied in the semi-automation of SLRs, specifically in the screening and extraction phases. We examine 21 leading SLR tools using a framework that combines 23 traditional features with 11 AI features. We also analyse 11 recent tools that leverage large language models for searching the literature and assisting academic writing. Finally, the paper discusses current trends in the field, outlines key research challenges, and suggests directions for future research. | 翻訳日:2024-08-07 19:22:06 公開日:2024-08-06 |
# 位置: トポロジカルディープラーニングは関係学習の新しいフロンティアである
Position: Topological Deep Learning is the New Frontier for Relational Learning ( http://arxiv.org/abs/2402.08871v3 ) ライセンス: Link先を確認 | Theodore Papamarkou, Tolga Birdal, Michael Bronstein, Gunnar Carlsson, Justin Curry, Yue Gao, Mustafa Hajij, Roland Kwitt, Pietro Liò, Paolo Di Lorenzo, Vasileios Maroulas, Nina Miolane, Farzana Nasrin, Karthikeyan Natesan Ramamurthy, Bastian Rieck, Simone Scardapane, Michael T. Schaub, Petar Veličković, Bei Wang, Yusu Wang, Guo-Wei Wei, Ghada Zamzmi, | (参考訳) トポロジカルディープラーニング(TDL)は、トポロジカルな特徴を用いてディープラーニングモデルを理解し設計する、急速に進化する分野である。
本稿では,TDLがリレーショナル学習の新たなフロンティアであることを示す。
TDLは、トポロジ的概念を取り入れたグラフ表現学習と幾何学的深層学習を補完し、様々な機械学習設定に対して自然な選択を与えることができる。
そこで本研究では,実用的メリットから理論的基礎まで,TDLのオープンな問題について論じる。
それぞれの問題に対して、潜在的な解決策と将来の研究機会を概説する。
同時に、本論文は、この新興分野の可能性を解き明かすため、TDL研究に積極的に参加するため、科学界への招待として役立ちます。
Topological deep learning (TDL) is a rapidly evolving field that uses topological features to understand and design deep learning models. This paper posits that TDL is the new frontier for relational learning. TDL may complement graph representation learning and geometric deep learning by incorporating topological concepts, and can thus provide a natural choice for various machine learning settings. To this end, this paper discusses open problems in TDL, ranging from practical benefits to theoretical foundations. For each problem, it outlines potential solutions and future research opportunities. At the same time, this paper serves as an invitation to the scientific community to actively participate in TDL research to unlock the potential of this emerging field. | 翻訳日:2024-08-07 19:22:06 公開日:2024-08-06 |
# ResQuNNs:量子畳み込みニューラルネットワークにおけるディープラーニングの実現に向けて
ResQuNNs:Towards Enabling Deep Learning in Quantum Convolution Neural Networks ( http://arxiv.org/abs/2402.09146v4 ) ライセンス: Link先を確認 | Muhammad Kashif, Muhammad Shafique, | (参考訳) 本稿では、トレーニング可能な準進化層を導入し、それに関連する重要な課題に対処することにより、クオン進化ニューラルネットワーク(QuNN)の性能を向上させるための新しい枠組みを提案する。
従来の準進化的レイヤは、機能抽出には有益だが、ほとんど静的であり、適応性は限られている。
最先端とは違って、これらのレイヤ内でのトレーニングを可能にすることで、この制限を克服し、QuNNの柔軟性と可能性を大幅に向上させています。
しかし、複数のトレーニング可能な準畳み込み層の導入は、主にこれらの層にまたがる勾配にアクセスするのが困難であるため、勾配に基づく最適化の複雑さを引き起こす。
これを解決するために,Residual Quanvolutional Neural Networks (ResQuNNs) という新しいアーキテクチャを提案する。
畳み込み層間に残留ブロックを挿入することにより、ネットワーク全体のグラデーションアクセスが向上し、トレーニング性能が向上する。
さらに,これらの残留ブロックの戦略的配置に関する実証的証拠をQuNN内に提示する。
大規模な実験により,残差ブロックの効率的な構成が特定され,ネットワーク内のすべての層をまたがる勾配が実現され,結果として効率のよいトレーニングがもたらされる。
本研究は, 残差ブロックの正確な位置がQuNNの性能向上の最大化に重要な役割を担っていることを示唆する。
我々の結果は、量子深層学習の進化における大きな一歩であり、理論開発と実用的な量子コンピューティングアプリケーションの両方に新しい道のりを提供する。
In this paper, we present a novel framework for enhancing the performance of Quanvolutional Neural Networks (QuNNs) by introducing trainable quanvolutional layers and addressing the critical challenges associated with them. Traditional quanvolutional layers, although beneficial for feature extraction, have largely been static, offering limited adaptability. Unlike state-of-the-art, our research overcomes this limitation by enabling training within these layers, significantly increasing the flexibility and potential of QuNNs. However, the introduction of multiple trainable quanvolutional layers induces complexities in gradient-based optimization, primarily due to the difficulty in accessing gradients across these layers. To resolve this, we propose a novel architecture, Residual Quanvolutional Neural Networks (ResQuNNs), leveraging the concept of residual learning, which facilitates the flow of gradients by adding skip connections between layers. By inserting residual blocks between quanvolutional layers, we ensure enhanced gradient access throughout the network, leading to improved training performance. Moreover, we provide empirical evidence on the strategic placement of these residual blocks within QuNNs. Through extensive experimentation, we identify an efficient configuration of residual blocks, which enables gradients across all the layers in the network that eventually results in efficient training. Our findings suggest that the precise location of residual blocks plays a crucial role in maximizing the performance gains in QuNNs. Our results mark a substantial step forward in the evolution of quantum deep learning, offering new avenues for both theoretical development and practical quantum computing applications. | 翻訳日:2024-08-07 19:22:06 公開日:2024-08-06 |
# 現場環境における3次元プラント形状再構成のためのニューラルレーダランス場(NeRF)の評価
Evaluating Neural Radiance Fields (NeRFs) for 3D Plant Geometry Reconstruction in Field Conditions ( http://arxiv.org/abs/2402.10344v3 ) ライセンス: Link先を確認 | Muhammad Arbab Arshad, Talukder Jubery, James Afful, Anushrut Jignasu, Aditya Balu, Baskar Ganapathysubramanian, Soumik Sarkar, Adarsh Krishnamurthy, | (参考訳) 室内環境から屋外環境まで,様々な環境における植物の3次元再構成のための異なるニューラルレージアンスフィールド(NeRF)技術の評価を行った。
伝統的な方法は通常、植物の複雑な幾何学的詳細を捉えるのに失敗し、これは表現型や繁殖の研究に不可欠である。
複雑化を伴う3つのシナリオにおけるNeRFの再構成忠実度を評価し,LiDARを用いて得られた点群との比較を行った。
最も現実的なフィールドシナリオでは、NeRFモデルはGPUで30分トレーニングした後、74.6%のF1スコアを達成し、挑戦的な環境での3D再構成におけるNeRFの有効性を強調した。
さらに,平均F1スコアの7.4%の低下を達成しつつ,ほぼ半分のトレーニング時間を短縮するNeRFトレーニングの早期停止手法を提案する。
この最適化プロセスは、NeRFを用いた3次元再構成の速度と効率を大幅に向上させる。
本研究は, 精密かつ現実的な3次元プラント再建におけるNeRFの可能性を実証し, 3次元再構築プロセスにおけるNeRFの速度と効率を高めるための実践的アプローチを提案する。
We evaluate different Neural Radiance Fields (NeRFs) techniques for the 3D reconstruction of plants in varied environments, from indoor settings to outdoor fields. Traditional methods usually fail to capture the complex geometric details of plants, which is crucial for phenotyping and breeding studies. We evaluate the reconstruction fidelity of NeRFs in three scenarios with increasing complexity and compare the results with the point cloud obtained using LiDAR as ground truth. In the most realistic field scenario, the NeRF models achieve a 74.6% F1 score after 30 minutes of training on the GPU, highlighting the efficacy of NeRFs for 3D reconstruction in challenging environments. Additionally, we propose an early stopping technique for NeRF training that almost halves the training time while achieving only a reduction of 7.4% in the average F1 score. This optimization process significantly enhances the speed and efficiency of 3D reconstruction using NeRFs. Our findings demonstrate the potential of NeRFs in detailed and realistic 3D plant reconstruction and suggest practical approaches for enhancing the speed and efficiency of NeRFs in the 3D reconstruction process. | 翻訳日:2024-08-07 19:22:06 公開日:2024-08-06 |
# テキスト分散グラフ学習のための大規模言語モデルの蒸留
Distilling Large Language Models for Text-Attributed Graph Learning ( http://arxiv.org/abs/2402.12022v2 ) ライセンス: Link先を確認 | Bo Pan, Zheng Zhang, Yifei Zhang, Yuntong Hu, Liang Zhao, | (参考訳) Text-Attributed Graphs (TAG) は、接続されたテキストドキュメントのグラフである。
グラフモデルはTAGを効率的に学習できるが、そのトレーニングは、多くのアプリケーションで使用できない、あるいは利用できない、人間に注釈付けされたラベルに大きく依存している。
大規模言語モデル(LLM)は、最近、少数ショットとゼロショットのTAG学習において顕著な機能を示したが、スケーラビリティ、コスト、プライバシの問題に悩まされている。
そこで本研究では,TAG学習における局所グラフモデルにLLMのパワーを蒸留することにより,LLMとグラフモデルを相補的な強度で相乗化することに焦点を当てた。
テキスト生成モデル(テキスト生成モデル)とグラフモデル(グラフの識別モデル)の相違に対処するために,まず LLM がリッチテキスト論理学で通訳を教えること,次に,学生モデルが LLM のテキスト論理学を使わずに通訳の推論を模倣させることを提案する。
大規模な実験により,提案手法の有効性が検証された。
Text-Attributed Graphs (TAGs) are graphs of connected textual documents. Graph models can efficiently learn TAGs, but their training heavily relies on human-annotated labels, which are scarce or even unavailable in many applications. Large language models (LLMs) have recently demonstrated remarkable capabilities in few-shot and zero-shot TAG learning, but they suffer from scalability, cost, and privacy issues. Therefore, in this work, we focus on synergizing LLMs and graph models with their complementary strengths by distilling the power of LLMs to a local graph model on TAG learning. To address the inherent gaps between LLMs (generative models for texts) and graph models (discriminative models for graphs), we propose first to let LLMs teach an interpreter with rich textual rationale and then let a student model mimic the interpreter's reasoning without LLMs' textual rationale. Extensive experiments validate the efficacy of our proposed framework. | 翻訳日:2024-08-07 19:22:06 公開日:2024-08-06 |
# テレビ談話のデコード:大規模マルチモーダル分析の総合化
Television Discourse Decoded: Comprehensive Multimodal Analytics at Scale ( http://arxiv.org/abs/2402.12629v2 ) ライセンス: Link先を確認 | Anmol Agarwal, Pratyush Priyadarshi, Shiven Sinha, Shrey Gupta, Hitkul Jangra, Ponnurangam Kumaraguru, Kiran Garimella, | (参考訳) 本稿では,インド発のプライムタイムニュース討論番組に焦点をあて,テレビ放送された討論を解析する複雑な課題に取り組む。
以前は、しばしばテキストのみに頼っていたが、これらの議論のマルチモーダルな本質を捉えるには不足していた。
このギャップに対処するために,大規模マルチメディア分析に先進的なコンピュータビジョンと音声テキスト技術を用いた総合的自動ツールキットを導入する。
最先端のコンピュータビジョンアルゴリズムと音声からテキストへの手法を活用して、インドのプライムタイムテレビ討論番組のYouTubeビデオの書き起こし、ダイアリゼーション、分析を行う。
これらの議論はインドのメディアの中心であるが、ジャーナリストの誠実さと過度なドラマ化を損なうとして批判されている。
本ツールキットは,テキスト,音声発話,ビデオフレームを含むマルチメディアの総合的な視点を捉え,偏見と非現実性を評価するための具体的な指標を提供する。
調査の結果,トピックの選択やパネリストの表現に有意な偏りがみられた。
この研究は、マルチメディア分析における将来の研究にスケーラブルで自動化されたアプローチを提供する。
この領域のさらなる研究を促進するために、コード、データセット、補足的なpdfもリリースします。
In this paper, we tackle the complex task of analyzing televised debates, with a focus on a prime time news debate show from India. Previous methods, which often relied solely on text, fall short in capturing the multimodal essence of these debates. To address this gap, we introduce a comprehensive automated toolkit that employs advanced computer vision and speech-to-text techniques for large-scale multimedia analysis. Utilizing state-of-the-art computer vision algorithms and speech-to-text methods, we transcribe, diarize, and analyze thousands of YouTube videos of a prime-time television debate show in India. These debates are a central part of Indian media but have been criticized for compromised journalistic integrity and excessive dramatization. Our toolkit provides concrete metrics to assess bias and incivility, capturing a comprehensive multimedia perspective that includes text, audio utterances, and video frames. Our findings reveal significant biases in topic selection and panelist representation, along with alarming levels of incivility. This work offers a scalable, automated approach for future research in multimedia analysis, with profound implications for the quality of public discourse and democratic debate. To catalyze further research in this area, we also release the code, dataset collected and supplemental pdf. | 翻訳日:2024-08-07 19:22:06 公開日:2024-08-06 |
# 説明可能な機械学習による量子ドット計測解析の自動化
Automation of Quantum Dot Measurement Analysis via Explainable Machine Learning ( http://arxiv.org/abs/2402.13699v4 ) ライセンス: Link先を確認 | Daniel Schug, Tyler J. Kovach, M. A. Wolfe, Jared Benson, Sanghyeok Park, J. P. Dodson, J. Corrigan, M. A. Eriksson, Justyna P. Zwolak, | (参考訳) 量子コンピューティングのための量子ドット(QD)デバイスの開発は、デバイスの特徴付けとチューニングのためにより効率的で自動化された方法を必要としている。
チューニングプロセス中に得られた測定の多くは、その後のチューニングステップをガイドするために適切に解析する必要があるイメージの形で行われる。
設計上、これらの画像に存在する特徴は、測定されたQDデバイスの特定の挙動や状態をキャプチャする。
慎重に考えると、このような機能はQDデバイスの制御と校正に役立つ。
このような画像の重要な例としては、現在の流れを視覚的に表現し、QDデバイスキャリブレーションに重要な特徴を明らかにする、いわゆる‘textit{triangle plots’がある。
畳み込みニューラルネットワーク(CNN)のような画像ベースの分類ツールは、与えられた測定値が \textit{good} であるかどうかを検証するために使用することができ、従ってチューニングの次のフェーズの開始が保証されるが、 \textit{bad} 画像の場合、デバイスをどのように調整すべきかについての洞察は提供されない。
これは、CNNが高い精度で予測とモデルの信頼性を犠牲にしているためである。
このトレードオフを改善するために、最近の研究ではガボルウェーブレット変換 [1] に依存する画像ベクトル化手法を導入している。
本稿では,実験データを模倣する合成三角形の数学的モデリングを含むベクトル化法を提案する。
提案手法は,説明可能なブースティングマシンを用いて,精度を犠牲にすることなく,モデル予測の優れた説明性を提供することを示す。
この研究は、量子ドットの測定に説明可能な機械学習技術を適用する可能性と利点を示し、自動化された透明なQDデバイスチューニングのさらなる進歩の道を開く。
The rapid development of quantum dot (QD) devices for quantum computing has necessitated more efficient and automated methods for device characterization and tuning. Many of the measurements acquired during the tuning process come in the form of images that need to be properly analyzed to guide the subsequent tuning steps. By design, features present in such images capture certain behaviors or states of the measured QD devices. When considered carefully, such features can aid the control and calibration of QD devices. An important example of such images are so-called \textit{triangle plots}, which visually represent current flow and reveal characteristics important for QD device calibration. While image-based classification tools, such as convolutional neural networks (CNNs), can be used to verify whether a given measurement is \textit{good} and thus warrants the initiation of the next phase of tuning, they do not provide any insights into how the device should be adjusted in the case of \textit{bad} images. This is because CNNs sacrifice prediction and model intelligibility for high accuracy. To ameliorate this trade-off, a recent study introduced an image vectorization approach that relies on the Gabor wavelet transform [1]. Here we propose an alternative vectorization method that involves mathematical modeling of synthetic triangles to mimic the experimental data. Using explainable boosting machines, we show that this new method offers superior explainability of model prediction without sacrificing accuracy. This work demonstrates the feasibility and advantages of applying explainable machine learning techniques to the analysis of quantum dot measurements, paving the way for further advances in automated and transparent QD device tuning. | 翻訳日:2024-08-07 19:22:06 公開日:2024-08-06 |
# 臨界量子センシングの最適性と雑音耐性
Optimality and Noise-Resilience of Critical Quantum Sensing ( http://arxiv.org/abs/2402.15559v4 ) ライセンス: Link先を確認 | Uesli Alushi, Wojciech Górecki, Simone Felicetti, Roberto Di Candia, | (参考訳) 臨界量子センシングと受動量子戦略を比較して周波数推定を行う。
ユニタリの場合、どちらの戦略も光子数と精度2次スケーリングを達成するが、散逸の存在下では、これは批判的戦略にのみ当てはまる。
また、例外的なポイントやしきい値を超えて作業することで、サブ最適パフォーマンスが得られます。
この臨界拡大は、開臨界力学における過渡的状態の出現によるものであり、温度変化に不変である。
時間とシステムのサイズの両方を資源として考えると、どちらの戦略においても、精度は基本的境界に従って、総時間と光子の個数の積と線形にスケールする。
しかし,準備時間と測定時間が無視できない場合,クリティカルプロトコルは最適受動的戦略よりも優れていることを示す。
この結果は、有限成分および完全連結モデルで記述されたシステムを含む、現象学を1モードの二次ハミルトニアンに還元できる幅広い臨界センサーに適用できる。
We compare critical quantum sensing to passive quantum strategies to perform frequency estimation, in the case of single-mode quadratic Hamiltonians. We show that, while in the unitary case both strategies achieve precision scaling quadratic with the number of photons, in the presence of dissipation this is true only for critical strategies. We also establish that working at the exceptional point or beyond threshold provides sub-optimal performance. This critical enhancement is due to the emergence of a transient regime in the open critical dynamics, and is invariant to temperature changes. When considering both time and system size as resources, for both strategies the precision scales linearly with the product of the total time and the number of photons, in accordance with fundamental bounds. However, we show that critical protocols outperform optimal passive strategies if preparation and measurement times are not negligible. Our results are applicable to a broad variety of critical sensors whose phenomenology can be reduced to that of a single-mode quadratic Hamiltonian, including systems described by finite-component and fully-connected models. | 翻訳日:2024-08-07 19:22:06 公開日:2024-08-06 |
# ガオカオMM:中国のマルチモーダルモデル評価のための人間レベルベンチマーク
GAOKAO-MM: A Chinese Human-Level Benchmark for Multimodal Models Evaluation ( http://arxiv.org/abs/2402.15745v2 ) ライセンス: Link先を確認 | Yi Zong, Xipeng Qiu, | (参考訳) LVLM(Large Vision-Language Models)は、画像認識と言語理解において大きな能力を示している。
しかし、既存のマルチモーダルベンチマークでは、LVLMの包括的な能力を反映するには不十分な一次認識能力と常識知識に焦点が当てられている。
中国大学入学試験(GAokaO-MM)に基づくマルチモーダル・ベンチマークであるGAokaO-MMを提案する。
GAokaO-MMは中国固有の文脈から派生し、知覚、理解、知識、推論を含むモデルの能力に対する人間レベルの要件を設定する。
GPT-4-Vison(48.1%)、Qwen-VL-Plus(41.2%)、Gemini-Pro-Vision(35.1%)が上位3位である。
多次元解析の結果から,LVLMはAI(Artificial General Intelligence, AGI)に適度な距離を持ち,多言語LVLMの開発を促進する知見が得られた。
The Large Vision-Language Models (LVLMs) have demonstrated great abilities in image perception and language understanding. However, existing multimodal benchmarks focus on primary perception abilities and commonsense knowledge which are insufficient to reflect the comprehensive capabilities of LVLMs. We propose GAOKAO-MM, a multimodal benchmark based on the Chinese College Entrance Examination (GAOKAO), comprising of 8 subjects and 12 types of images, such as diagrams, function graphs, maps and photos. GAOKAO-MM derives from native Chinese context and sets human-level requirements for the model's abilities, including perception, understanding, knowledge and reasoning. We evaluate 10 LVLMs and find that the accuracies of all of them are lower than 50%, with GPT-4-Vison (48.1%), Qwen-VL-Plus (41.2%) and Gemini-Pro-Vision (35.1%) ranking in the top three positions. The results of our multi-dimension analysis indicate that LVLMs have moderate distance towards Artificial General Intelligence (AGI) and provide insights facilitating the development of multilingual LVLMs. | 翻訳日:2024-08-07 19:22:06 公開日:2024-08-06 |
# 単体トリビティ圧縮による内因性多体複合体の解離
Unveiling Intrinsic Many-Body Complexity by Compressing Single-Body Triviality ( http://arxiv.org/abs/2402.16841v2 ) ライセンス: Link先を確認 | Ke Liao, Lexin Ding, Christian Schilling, | (参考訳) 強相関電子系における静的および動的相関の同時処理は重要な課題である。
特に、多体波動関数の表現的複雑さを最小限に抑える単一粒子軌道基底を同定するための普遍的なスキームを見つけることは、恐ろしく長く続く問題である。
その解に対する実質的な寄与として、全軌道相関が実際に波動関数の内在的な複雑さを明らかにし、定量化していることが示される。
実際にこの概念のパワーを実証するために、調整された結合クラスタシングルとダブルス(TCCSD)アンサッツによって計算された全軌道相関を最小化して軌道を最適化する反復的スキームが提案された。
最適化された軌道は、改良された波動関数とエネルギーによって示される多体波動関数のより非自明な情報を取得することができる。
このスキームの最初の応用は、強く相関したC$_{\rm 2}$分子とCr$_{\rm 2}$分子のシングルト基底ポテンシャルエネルギー曲線の予測におけるTCCSDの大幅な改善を示している。
The simultaneous treatment of static and dynamical correlations in strongly-correlated electron systems is a critical challenge. In particular, finding a universal scheme for identifying a single-particle orbital basis that minimizes the representational complexity of the many-body wavefunction is a formidable and longstanding problem. As a substantial contribution towards its solution, we show that the total orbital correlation actually reveals and quantifies the intrinsic complexity of the wavefunction,once it is minimized via orbital rotations. To demonstrate the power of this concept in practice, an iterative scheme is proposed to optimize the orbitals by minimizing the total orbital correlation calculated by the tailored coupled cluster singles and doubles (TCCSD) ansatz. The optimized orbitals enable the limited TCCSD ansatz to capture more non-trivial information of the many-body wavefunction, indicated by the improved wavefunction and energy. An initial application of this scheme shows great improvement of TCCSD in predicting the singlet ground state potential energy curves of the strongly correlated C$_{\rm 2}$ and Cr$_{\rm 2}$ molecule. | 翻訳日:2024-08-07 19:12:22 公開日:2024-08-06 |
# 画像修復のための拡散後近位サンプリング
Diffusion Posterior Proximal Sampling for Image Restoration ( http://arxiv.org/abs/2402.16907v2 ) ライセンス: Link先を確認 | Hongjie Wu, Linchao He, Mingqin Zhang, Dongdong Chen, Kunming Luo, Mengting Luo, Ji-Zhe Zhou, Hu Chen, Jiancheng Lv, | (参考訳) 拡散モデルは高品質な試料の生成に顕著な効果を示した。
既存の拡散に基づく画像復元アルゴリズムは、事前訓練された拡散モデルを利用してデータの事前利用を行っているが、それでも無条件生成パラダイムから継承された要素を保存している。
これらの戦略は、純白色雑音による雑音発生プロセスを開始し、各生成段階にランダムノイズを取り入れ、過度に滑らかな結果をもたらす。
本稿では拡散に基づく画像復元のための洗練されたパラダイムを提案する。
具体的には,各生成段階における測定値に整合したサンプルを選択し,サンプリング選択を出力安定性と拡張の道として活用する。
選択に使用する候補サンプルの数は、タイムステップの信号対雑音比に基づいて適応的に決定される。
さらに, 初期化と測定信号を組み合わせることで復元プロセスを開始し, 生成プロセスの整合性を向上する補足情報を提供する。
大規模な実験結果と解析結果から,提案手法は画像復元性能を大幅に向上させるとともに,付加的な計算資源を消費することを示した。
Diffusion models have demonstrated remarkable efficacy in generating high-quality samples. Existing diffusion-based image restoration algorithms exploit pre-trained diffusion models to leverage data priors, yet they still preserve elements inherited from the unconditional generation paradigm. These strategies initiate the denoising process with pure white noise and incorporate random noise at each generative step, leading to over-smoothed results. In this paper, we present a refined paradigm for diffusion-based image restoration. Specifically, we opt for a sample consistent with the measurement identity at each generative step, exploiting the sampling selection as an avenue for output stability and enhancement. The number of candidate samples used for selection is adaptively determined based on the signal-to-noise ratio of the timestep. Additionally, we start the restoration process with an initialization combined with the measurement signal, providing supplementary information to better align the generative process. Extensive experimental results and analyses validate that our proposed method significantly enhances image restoration performance while consuming negligible additional computational resources. | 翻訳日:2024-08-07 19:12:22 公開日:2024-08-06 |
# EMO:Emote Portrait Alive -- 弱弱条件下でのAudio2 Video Diffusionモデルによる表現的ポートレート映像の生成
EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions ( http://arxiv.org/abs/2402.17485v2 ) ライセンス: Link先を確認 | Linrui Tian, Qi Wang, Bang Zhang, Liefeng Bo, | (参考訳) 本研究では,音声キューと顔の動きの動的・ニュアンスな関係に着目し,対話型ヘッドビデオ生成におけるリアリズムと表現力の向上に挑戦する。
人間の表情の完全なスペクトルを捉えるのに失敗する伝統的な技法の限界と、個々の顔のスタイルのユニークさを識別する。
これらの課題に対処するために,中間的な3Dモデルや顔のランドマークの必要性を回避し,直接音声とビデオの合成アプローチを利用する新しいフレームワークであるEMOを提案する。
本手法は,映像全体のフレームのシームレスな遷移と一貫したアイデンティティ保存を保証し,高い表現力とライフスタイルのアニメーションを実現する。
実験結果から,EMOは説得力のあるビデオだけでなく,様々なスタイルの歌唱ビデオを生成することが可能であり,表現性やリアリズムの点で既存の最先端の方法論を著しく上回っていることがわかった。
In this work, we tackle the challenge of enhancing the realism and expressiveness in talking head video generation by focusing on the dynamic and nuanced relationship between audio cues and facial movements. We identify the limitations of traditional techniques that often fail to capture the full spectrum of human expressions and the uniqueness of individual facial styles. To address these issues, we propose EMO, a novel framework that utilizes a direct audio-to-video synthesis approach, bypassing the need for intermediate 3D models or facial landmarks. Our method ensures seamless frame transitions and consistent identity preservation throughout the video, resulting in highly expressive and lifelike animations. Experimental results demonsrate that EMO is able to produce not only convincing speaking videos but also singing videos in various styles, significantly outperforming existing state-of-the-art methodologies in terms of expressiveness and realism. | 翻訳日:2024-08-07 19:12:22 公開日:2024-08-06 |
# オートマチックなプロパガンダ検出ツール(動画あり)
Think Fast, Think Slow, Think Critical: Designing an Automated Propaganda Detection Tool ( http://arxiv.org/abs/2402.19135v2 ) ライセンス: Link先を確認 | Liudmila Zavolokina, Kilian Sprenkamp, Zoya Katashinskaya, Daniel Gordon Jones, Gerhard Schwabe, | (参考訳) 今日のデジタル時代には、急激なニュース消費とプロパガンダへの脆弱性の増大が特徴であり、市民の批判的思考を育むことは安定した民主主義にとって不可欠である。
本稿では,Kahnemanの二重システム認知理論に従って,分析的な思考様式を活性化することにより,読者をより重要なニュース消費に向けた新しいプロパガンダ検出ツールであるClarifAIの設計を紹介する。
大規模言語モデルを用いて、CrarifAIはニュース記事中のプロパガンダを検出し、文脈に富んだ説明を提供し、ユーザの理解と批判的思考を強化する。
第1に、クラリフAIの設計を提案し、第2に、オンライン実験において、このデザインにより、ニュース読者がより批判的な読書を効果的に促進し、第3に、批判的思考を促進するための説明の価値を強調します。
この研究は、デジタルニュースにおけるプロパガンダを緩和するための実用的なツールと有用な設計知識の両方を提供する。
In today's digital age, characterized by rapid news consumption and increasing vulnerability to propaganda, fostering citizens' critical thinking is crucial for stable democracies. This paper introduces the design of ClarifAI, a novel automated propaganda detection tool designed to nudge readers towards more critical news consumption by activating the analytical mode of thinking, following Kahneman's dual-system theory of cognition. Using Large Language Models, ClarifAI detects propaganda in news articles and provides context-rich explanations, enhancing users' understanding and critical thinking. Our contribution is threefold: first, we propose the design of ClarifAI; second, in an online experiment, we demonstrate that this design effectively encourages news readers to engage in more critical reading; and third, we emphasize the value of explanations for fostering critical thinking. The study thus offers both a practical tool and useful design knowledge for mitigating propaganda in digital news. | 翻訳日:2024-08-07 19:12:22 公開日:2024-08-06 |
# FKA-Owl:知識付加型LVLMによるマルチモーダルフェイクニュース検出の改善
FKA-Owl: Advancing Multimodal Fake News Detection through Knowledge-Augmented LVLMs ( http://arxiv.org/abs/2403.01988v2 ) ライセンス: Link先を確認 | Xuannan Liu, Peipei Li, Huaibo Huang, Zekun Li, Xing Cui, Jiahao Liang, Lixiong Qin, Weihong Deng, Zhaofeng He, | (参考訳) テキストと画像の両方を含む大規模なマルチモーダルフェイクニュースは、かなりの分布の相違を示し、一般化された検出器の必要性を喚起する。
しかし、訓練の絶縁性は、古典的な検出器がオープンワールドの事実を得る能力を制限する。
LVLM(Large Vision-Language Models)は、豊かな世界の知識を符号化しているが、本質的には偽ニュースと戦って地元の偽情報を理解するのに適していない。
本稿では,FKA-Owlを提案する。FKA-Owlは,不正な知識を利用してLVLMを増強し,操作を効果的に推論するフレームワークである。
強化された偽造特有の知識には、テキストと画像のセマンティックな相関、および画像操作におけるアーティファクトトレースが含まれる。
これらの2種類の知識をLVLMに注入するため、我々はそれぞれ2つの特別なモジュールを設計し、それらの表現を確立する。
エンコードされた知識埋め込みはLVLMに組み込まれる。
FKA-Owlは, 従来の手法と比較して, クロスドメイン性能が優れていることを示す。
コードはhttps://liuxuannan.github.io/FKA_Owl.github.io/で公開されている。
The massive generation of multimodal fake news involving both text and images exhibits substantial distribution discrepancies, prompting the need for generalized detectors. However, the insulated nature of training restricts the capability of classical detectors to obtain open-world facts. While Large Vision-Language Models (LVLMs) have encoded rich world knowledge, they are not inherently tailored for combating fake news and struggle to comprehend local forgery details. In this paper, we propose FKA-Owl, a novel framework that leverages forgery-specific knowledge to augment LVLMs, enabling them to reason about manipulations effectively. The augmented forgery-specific knowledge includes semantic correlation between text and images, and artifact trace in image manipulation. To inject these two kinds of knowledge into the LVLM, we design two specialized modules to establish their representations, respectively. The encoded knowledge embeddings are then incorporated into LVLMs. Extensive experiments on the public benchmark demonstrate that FKA-Owl achieves superior cross-domain performance compared to previous methods. Code is publicly available at https://liuxuannan.github.io/FKA_Owl.github.io/. | 翻訳日:2024-08-07 19:12:22 公開日:2024-08-06 |
# テレビ番組のマルチモーダル要約のためのモジュール的アプローチ
A Modular Approach for Multimodal Summarization of TV Shows ( http://arxiv.org/abs/2403.03823v7 ) ライセンス: Link先を確認 | Louis Mahon, Mirella Lapata, | (参考訳) 本稿では,複雑な推論,複数モーダル性,長い物語など,AI研究の重要な領域に触発するテレビ番組を要約する作業について述べる。
本稿では,各コンポーネントが個別のサブタスクを実行するモジュール方式を提案する。
我々のモジュールは、シーン境界の検出、異なるイベント間のカット回数の最小化、視覚情報をテキストに変換すること、各シーンの対話を要約すること、シーン要約をエピソード全体の最終要約に融合することを含む。
PRISMA(Precision and Recall EvaluatIon of Summary FActs)は、生成した要約の精度とリコールを計測し、原子的な事実に分解する。
最近リリースされたSummScreen3Dデータセットを用いて、ROUGEと新しいファクトベースメトリクスを用いて、比較モデルよりも高品質な要約を生成するとともに、人間の評価者によって評価される。
In this paper we address the task of summarizing television shows, which touches key areas in AI research: complex reasoning, multiple modalities, and long narratives. We present a modular approach where separate components perform specialized sub-tasks which we argue affords greater flexibility compared to end-to-end methods. Our modules involve detecting scene boundaries, reordering scenes so as to minimize the number of cuts between different events, converting visual information to text, summarizing the dialogue in each scene, and fusing the scene summaries into a final summary for the entire episode. We also present a new metric, PRISMA (Precision and Recall EvaluatIon of Summary FActs), to measure both precision and recall of generated summaries, which we decompose into atomic facts. Tested on the recently released SummScreen3D dataset, our method produces higher quality summaries than comparison models, as measured with ROUGE and our new fact-based metric, and as assessed by human evaluators. | 翻訳日:2024-08-07 19:12:22 公開日:2024-08-06 |
# 拡散発生器としての大規模言語モデルによる拡散検出の高速化
Boosting Disfluency Detection with Large Language Model as Disfluency Generator ( http://arxiv.org/abs/2403.08229v2 ) ライセンス: Link先を確認 | Zhenrong Cheng, Jiayan Guo, Hao Sun, Yan Zhang, | (参考訳) 現在のディフルエンシ検出法は、人手による注釈付きデータに大きく依存している。
この問題に対処するためには、ヒューリスティックな特徴や統計的な特徴を用いて不適切な文を生成し、検出性能を部分的に改善するアプローチもある。
しかし、これらの文はしばしば現実のシナリオから逸脱し、全体的なモデル拡張を制約する。
本研究では,大言語モデル(LLM)のより優れた生成的・意味的理解機能を利用して,デフルエンシ検出のための軽量なデータ拡張手法を提案する。
LLMを微調整することなく、特定のプロンプトによって導かれる多様で現実的な文を生成する。
次に,不確実性を考慮したデータフィルタリング手法を適用し,文の質を向上し,小さな検出モデルを訓練して性能を向上させる。
強化されたデータを用いた実験は、最先端の結果を得た。
その結果, 少量のLCM生成データを用いることで, 性能が著しく向上し, コスト効率が向上することがわかった。
私たちのコードはここにある。
Current disfluency detection methods heavily rely on costly and scarce human-annotated data. To tackle this issue, some approaches employ heuristic or statistical features to generate disfluent sentences, partially improving detection performance. However, these sentences often deviate from real-life scenarios, constraining overall model enhancement. In this study, we propose a lightweight data augmentation approach for disfluency detection, utilizing the superior generative and semantic understanding capabilities of large language model (LLM) to generate disfluent sentences as augmentation data. We leverage LLM to generate diverse and more realistic sentences guided by specific prompts, without the need for fine-tuning the LLM. Subsequently, we apply an uncertainty-aware data filtering approach to improve the quality of the generated sentences, utilized in training a small detection model for improved performance. Experiments using enhanced data yielded state-of-the-art results. The results showed that using a small amount of LLM-generated enhanced data can significantly improve performance, thereby further enhancing cost-effectiveness. Our code is available here. | 翻訳日:2024-08-07 19:12:22 公開日:2024-08-06 |
# 雑音ラベルを用いた骨格に基づく人間行動認識
Skeleton-Based Human Action Recognition with Noisy Labels ( http://arxiv.org/abs/2403.09975v2 ) ライセンス: Link先を確認 | Yi Xu, Kunyu Peng, Di Wen, Ruiping Liu, Junwei Zheng, Yufan Chen, Jiaming Zhang, Alina Roitberg, Kailun Yang, Rainer Stiefelhagen, | (参考訳) 身体のポーズから人間の行動を理解することは、次の相互作用について情報と安全な決定を行うために、人間と空間を共有する補助ロボットにとって重要である。
しかし、正確な時間的局所化とアクティビティシーケンスのアノテーションは時間がかかり、その結果のラベルはうるさいことが多い。
効果的に対処しない場合、ラベルノイズはモデルのトレーニングに悪影響を及ぼし、認識品質が低下する。
その重要性にもかかわらず、骨格に基づく行動認識のためのラベルノイズへの対処は、これまで見過ごされてきた。
本研究では,このギャップを,様々な研究分野からラベルをデノベートする手法によって確立された骨格に基づく人間行動認識手法を,初期ベンチマークとして機能させるフレームワークの実装によって埋める。
観察の結果、これらの基線はスパース骨格データを扱う際の限界性能しか得られないことが判明した。
その結果,ラベルノイズの悪影響を軽減するために,グローバルなサンプル選択,コティーチング,CM-MOE(Cross-Modal Mixture-of-Experts)戦略を統合した新しい手法であるNossEraSARを導入する。
提案手法は,確立されたベンチマークの性能向上を実証し,新しい最先端標準を設定した。
この研究のソースコードはhttps://github.com/xuyizdby/NoiseEraSARで公開されている。
Understanding human actions from body poses is critical for assistive robots sharing space with humans in order to make informed and safe decisions about the next interaction. However, precise temporal localization and annotation of activity sequences is time-consuming and the resulting labels are often noisy. If not effectively addressed, label noise negatively affects the model's training, resulting in lower recognition quality. Despite its importance, addressing label noise for skeleton-based action recognition has been overlooked so far. In this study, we bridge this gap by implementing a framework that augments well-established skeleton-based human action recognition methods with label-denoising strategies from various research areas to serve as the initial benchmark. Observations reveal that these baselines yield only marginal performance when dealing with sparse skeleton data. Consequently, we introduce a novel methodology, NoiseEraSAR, which integrates global sample selection, co-teaching, and Cross-Modal Mixture-of-Experts (CM-MOE) strategies, aimed at mitigating the adverse impacts of label noise. Our proposed approach demonstrates better performance on the established benchmark, setting new state-of-the-art standards. The source code for this study is accessible at https://github.com/xuyizdby/NoiseEraSAR. | 翻訳日:2024-08-07 19:12:22 公開日:2024-08-06 |
# 反発束縛対の非相互ダイナミクスと非エルミート皮膚効果
Non-reciprocal dynamics and the non-Hermitian skin effect of repulsively bound pairs ( http://arxiv.org/abs/2403.10449v3 ) ライセンス: Link先を確認 | Pietro Brighi, Andreas Nunnenkamp, | (参考訳) 実環境に結合したBose-Hubbardモデルの力学について検討し,その非相互作用限界は,祝賀されたHatano-Nelsonモデルによって記述される。
強い相互作用において、同じ位置を占める2つのボソンは、反発結合対(repulsively bound pair)と呼ばれる二重結合を形成する。
テンソル-ネットワークシミュレーションを用いて、異なるダビロン光錐をはっきりと同定し、ダビロンが単一粒子の非相互性を引き継ぐことを示す。
貯水池工学のアイデアをダブルロンのレベルで適用し、新しい散逸器のセットを導入し、その場合、ダブルロン力学がハタノ・ネルソンモデルによって支配されていることを解析的に示す。
これにより、相互作用によって引き起こされる非エルミート皮膚効果と非相互二重運動がもたらされる。
これら2つのモデルの特徴を組み合わせることで, 単一粒子と二重粒子が反対方向に拡散できることが示され, 相互作用する非相互モデルにおける力学の研究に興味深い可能性が開けた。
We study the dynamics of a Bose-Hubbard model coupled to an engineered environment which in the non-interacting limit is described by the celebrated Hatano-Nelson model. At strong interactions, two bosons occupying the same site form a so-called repulsively bound pair, or doublon. Using tensor-network simulations, we clearly identify a distinct doublon lightcone and show that the doublon inherits non-reciprocity from that of single particles. Applying the idea of reservoir engineering at the level of doublons, we introduce a new set of dissipators and we analytically show that then the doublon dynamics are governed by the Hatano-Nelson model. This brings about an interaction-induced non-Hermitian skin effect and non-reciprocal doublon motion. Combining features of the two models we study, we show that single particles and doublons can be made to spread with opposite directionality, opening intriguing possibilities for the study of dynamics in interacting non-reciprocal models. | 翻訳日:2024-08-07 19:12:22 公開日:2024-08-06 |
# オープンファイバキャビティを有する通信Oバンドにおける量子ドットのパーセル化の検討
Investigation of Purcell enhancement of quantum dots emitting in the telecom O-band with an open fiber-cavity ( http://arxiv.org/abs/2403.10960v3 ) ライセンス: Link先を確認 | Julian Maisch, Jonas Grammel, Nam Tran, Michael Jetter, Simone L. Portalupi, David Hunger, Peter Michler, | (参考訳) 光マイクロキャビティに統合された単一光子エミッタは、量子通信アプリケーションにおいて重要な要素である。
しかしながら、その放出特性を最適化し、効率的な空洞結合を実現することは大きな課題である。
本研究では,通信Oバンドに放出される半導体量子ドット(QD)について検討し,オープンファイバキャビティに集積する。
このようなキャビティは、空間的およびスペクトル的なチューニング性と本質的なファイバーカップリングを提供する。
この設計は、高い収集効率を約束し、異種試料中の複数のエミッタの調査を可能にする。
我々は、パーセル効果により、複数の個々のエミッタの崩壊時間を最大2.46(2)$まで減少させるのを観察する。
本研究では,キャビティとエミッタ特性,キャビティとエミッタのライン幅が同等である観測状態の影響,キャビティの長さの機械的変動など,システムの現在の限界を包括的に解析する。
その結果、効率的なテレコム量子光源への道筋が解明された。
Single-photon emitters integrated in optical micro-cavities are key elements in quantum communication applications. However, optimizing their emission properties and achieving efficient cavity coupling remain significant challenges. In this study, we investigate semiconductor quantum dots (QDs) emitting in the telecom O-band and integrate them in an open fiber-cavity. Such cavities offer spatial and spectral tunability and intrinsic fiber-coupling. The design promises high collection efficiency and enables the investigation of multiple emitters in heterogeneous samples. We observe a reduction of the decay times of several individual emitters by up to a factor of $2.46(2)$ due to the Purcell effect. We comprehensively analyze the current limitations of the system, including cavity and emitter properties, the impact of the observed regime where cavity and emitter linewidths are comparable, as well as the mechanical fluctuations of the cavity length. The results elucidate the path towards efficient telecom quantum light sources. | 翻訳日:2024-08-07 19:12:22 公開日:2024-08-06 |
# 難解なLLMセマンティックスからの本質的な学習による一般化ゼロショット学習の未確認領域への展開
Less but Better: Enabling Generalized Zero-shot Learning Towards Unseen Domains by Intrinsic Learning from Redundant LLM Semantics ( http://arxiv.org/abs/2403.14362v3 ) ライセンス: Link先を確認 | Jiaqi Yue, Jiancheng Zhao, Chunhui Zhao, | (参考訳) 一般化ゼロショット学習 (GZSL) は、目に見えないクラスと見えないクラスをドメインシフト問題 (DSP) に対して認識することに焦点を当てている。
しかし、既存のGZSLは依然として見るドメインに限られている。
現在の研究では、GZSLを未確認領域に向けるクロスドメインGZSL(CDGZSL)を開拓している。
意味のある未確認クラスの特徴を生成することでDSPを緩和する既存のGZSLメソッドとは異なり、CDGZSLはドメイン間で共通の特徴空間を構築し、ドメイン間で共有される固有の意味論を取得して、目に見えないドメインから未知のドメインへ転送する必要がある。
大規模言語モデル(LLM)に注釈付けされた冗長なクラスセマンティクスによる情報非対称性の問題を考慮して,メタドメインアライメント・セマンティック・リファインメント(MDASR)を提案する。
技術的には、MDASRは2つの部分から構成される: クラス間類似性アライメント(ISA)は、クラス間特徴関係の指導の下ですべてのドメイン間で共有されていない非内在的意味論を排除し、Unseen-class Meta Generation(UMG)は、特徴生成をシミュレートすることで、見かけたクラスと見えないクラス間の接続を維持するために内在的意味論を保存する。
MDASRは、冗長な意味空間と共通の特徴空間を効果的に整合させ、CDGZSLにおける情報の非対称性を緩和する。
MDASRの有効性はOffice-HomeとMini-DomainNetで実証され、これらのデータセットに対するLLMベースのセマンティクスをベンチマークとして共有した。
Generalized zero-shot learning (GZSL) focuses on recognizing seen and unseen classes against domain shift problem (DSP) where data of unseen classes may be misclassified as seen classes. However, existing GZSL is still limited to seen domains. In the current work, we pioneer cross-domain GZSL (CDGZSL) which addresses GZSL towards unseen domains. Different from existing GZSL methods which alleviate DSP by generating features of unseen classes with semantics, CDGZSL needs to construct a common feature space across domains and acquire the corresponding intrinsic semantics shared among domains to transfer from seen to unseen domains. Considering the information asymmetry problem caused by redundant class semantics annotated with large language models (LLMs), we present Meta Domain Alignment Semantic Refinement (MDASR). Technically, MDASR consists of two parts: Inter-class Similarity Alignment (ISA), which eliminates the non-intrinsic semantics not shared across all domains under the guidance of inter-class feature relationships, and Unseen-class Meta Generation (UMG), which preserves intrinsic semantics to maintain connectivity between seen and unseen classes by simulating feature generation. MDASR effectively aligns the redundant semantic space with the common feature space, mitigating the information asymmetry in CDGZSL. The effectiveness of MDASR is demonstrated on the Office-Home and Mini-DomainNet, and we have shared the LLM-based semantics for these datasets as the benchmark. | 翻訳日:2024-08-07 19:12:22 公開日:2024-08-06 |
# マルチモーダル推論のためのブループリントの議論パラダイム
A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning ( http://arxiv.org/abs/2403.14972v2 ) ライセンス: Link先を確認 | Changmeng Zheng, Dayong Liang, Wengyu Zhang, Xiao-Yong Wei, Tat-Seng Chua, Qing Li, | (参考訳) 本稿では,マルチモーダル推論にマルチエージェントの議論を導入することを目的としたパイロット研究を提案する。
この研究は、過剰な要約による意見の自明化と、画像から導入された散逸した概念による焦点の転換という2つの主要な課題に対処する。
これらの課題は、既存の議論スキームの帰納的(ボットアップ)性に起因している。
この問題に対処するため,BDoG (Blueprint Debate on Graphs) と呼ばれる演目的(トップダウン)な議論手法を提案する。
BDoGでは、議論は世界レベルの要約による意見の自明化を防ぐために青写真グラフに限られる。
さらに、グラフ内の枝にエビデンスを格納することで、BDoGは頻繁だが無関係な概念によって引き起こされる散逸を緩和する。
大規模な実験により、BDoGはScienceQAとMMBenchで最先端の結果を得ることができ、従来の方法よりも大幅に改善されている。
ソースコードはhttps://github.com/thecharm/BDoGでアクセスできる。
This paper presents a pilot study aimed at introducing multi-agent debate into multimodal reasoning. The study addresses two key challenges: the trivialization of opinions resulting from excessive summarization and the diversion of focus caused by distractor concepts introduced from images. These challenges stem from the inductive (bottom-up) nature of existing debating schemes. To address the issue, we propose a deductive (top-down) debating approach called Blueprint Debate on Graphs (BDoG). In BDoG, debates are confined to a blueprint graph to prevent opinion trivialization through world-level summarization. Moreover, by storing evidence in branches within the graph, BDoG mitigates distractions caused by frequent but irrelevant concepts. Extensive experiments validate that BDoG is able to achieve state-of-the-art results in ScienceQA and MMBench with significant improvements over previous methods. The source code can be accessed at https://github.com/thecharm/BDoG. | 翻訳日:2024-08-07 19:12:22 公開日:2024-08-06 |
# CR3DT:3D検出・追跡のためのカメラ・レーダー融合
CR3DT: Camera-RADAR Fusion for 3D Detection and Tracking ( http://arxiv.org/abs/2403.15313v2 ) ライセンス: Link先を確認 | Nicolas Baumann, Michael Baumgartner, Edoardo Ghignone, Jonas Kühne, Tobias Fischer, Yung-Hsu Yang, Marc Pollefeys, Michele Magno, | (参考訳) 周囲の物体の正確な検出・追跡を可能にすることが重要である。
Light Detection and Ranging (LiDAR)センサーは高性能システムのベンチマークを設定しているが、カメラのみのソリューションの魅力はコスト効率にある。
特に、自動車システムでRadio Detection and Ranging(RADAR)センサーが広く使われているにもかかわらず、その3D検出と追跡の可能性は、データ空間と測定ノイズのために無視されている。
近年、RADARとカメラの組み合わせが、将来性のあるソリューションとして浮上している。
本稿では,3次元物体検出のためのカメラ・レーダ融合モデルであるカメラ・レーダ3D検出・追跡(CR3DT)とマルチオブジェクト追跡(MOT)について述べる。
State-of-the-Art (SotA)カメラのみのBEVDetアーキテクチャの基礎の上に構築されたCR3DTは、RADARセンサの空間情報と速度情報を組み込むことで、検出と追跡の両方の能力を大幅に改善した。
実験により,平均精度(mAP)が5.3%,平均多物体追跡精度(AMOTA)が14.9%向上した。
CR3DTは、自動車応用におけるRADARのユビキタスな存在に乗じることで、自動運転における高性能と費用効率の高い認識システム間のギャップを埋める。
コードは、https://github.com/ETH-PBL/CR3DTで入手できる。
To enable self-driving vehicles accurate detection and tracking of surrounding objects is essential. While Light Detection and Ranging (LiDAR) sensors have set the benchmark for high-performance systems, the appeal of camera-only solutions lies in their cost-effectiveness. Notably, despite the prevalent use of Radio Detection and Ranging (RADAR) sensors in automotive systems, their potential in 3D detection and tracking has been largely disregarded due to data sparsity and measurement noise. As a recent development, the combination of RADARs and cameras is emerging as a promising solution. This paper presents Camera-RADAR 3D Detection and Tracking (CR3DT), a camera-RADAR fusion model for 3D object detection, and Multi-Object Tracking (MOT). Building upon the foundations of the State-of-the-Art (SotA) camera-only BEVDet architecture, CR3DT demonstrates substantial improvements in both detection and tracking capabilities, by incorporating the spatial and velocity information of the RADAR sensor. Experimental results demonstrate an absolute improvement in detection performance of 5.3% in mean Average Precision (mAP) and a 14.9% increase in Average Multi-Object Tracking Accuracy (AMOTA) on the nuScenes dataset when leveraging both modalities. CR3DT bridges the gap between high-performance and cost-effective perception systems in autonomous driving, by capitalizing on the ubiquitous presence of RADAR in automotive applications. The code is available at: https://github.com/ETH-PBL/CR3DT. | 翻訳日:2024-08-07 19:12:22 公開日:2024-08-06 |
# Egocentric Hand Interactions with Objects における Pose Estimation のベンチマークと課題
Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects ( http://arxiv.org/abs/2403.16428v2 ) ライセンス: Link先を確認 | Zicong Fan, Takehiko Ohkawa, Linlin Yang, Nie Lin, Zhishan Zhou, Shihao Zhou, Jiajun Liang, Zhong Gao, Xuanyang Zhang, Xue Zhang, Fei Li, Zheng Liu, Feng Lu, Karim Abou Zeid, Bastian Leibe, Jeongwan On, Seungryul Baek, Aditya Prakash, Saurabh Gupta, Kun He, Yoichi Sato, Otmar Hilliges, Hyung Jin Chang, Angela Yao, | (参考訳) 私たちは自分の手で世界と対話し、自分達の(自我中心の)視点でそれを見るのです。
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、エゴセントリックな視点からこのようなインタラクションを理解することは重要である。
このような相互作用を3Dで正確に再構築することは、重閉塞、視点バイアス、カメラ歪み、頭部運動からの運動ぼけなどにより困難である。
この目的のために、慎重に設計されたトレーニングとテストの分割により、アセンブリHandsとARCTICデータセットに基づいたHANDS23チャレンジを設計しました。
提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
本分析は,自己中心型カメラに特有の歪みに対処し,複雑な手動物体の相互作用を学習するために高容量トランスフォーマーを採用し,異なる視点から予測を融合させることの有効性を示した。
本研究は,手の動きの速さ,自我中心の狭い視点からの物体再構成,両手と物体の密接な接触など,最先端の手法で難解なシナリオを明らかにした。
我々の取り組みは、コミュニティの知識基盤を充実させ、エゴセントリックな手-物間相互作用に関する将来の手の研究を促進する。
We interact with the world with our hands and see it through our own (egocentric) perspective. A holistic 3Dunderstanding of such interactions from egocentric views is important for tasks in robotics, AR/VR, action recognition and motion generation. Accurately reconstructing such interactions in 3D is challenging due to heavy occlusion, viewpoint bias, camera distortion, and motion blur from the head movement. To this end, we designed the HANDS23 challenge based on the AssemblyHands and ARCTIC datasets with carefully designed training and testing splits. Based on the results of the top submitted methods and more recent baselines on the leaderboards, we perform a thorough analysis on 3D hand(-object) reconstruction tasks. Our analysis demonstrates the effectiveness of addressing distortion specific to egocentric cameras, adopting high-capacity transformers to learn complex hand-object interactions, and fusing predictions from different views. Our study further reveals challenging scenarios intractable with state-of-the-art methods, such as fast hand motion, object reconstruction from narrow egocentric views, and close contact between two hands and objects. Our efforts will enrich the community's knowledge foundation and facilitate future hand studies on egocentric hand-object interactions. | 翻訳日:2024-08-07 19:02:36 公開日:2024-08-06 |
# テキスト・ツー・イメージモデルにおける空間整合性の改善
Getting it Right: Improving Spatial Consistency in Text-to-Image Models ( http://arxiv.org/abs/2404.01197v2 ) ライセンス: Link先を確認 | Agneet Chatterjee, Gabriela Ben Melech Stan, Estelle Aflalo, Sayak Paul, Dhruba Ghosh, Tejas Gokhale, Ludwig Schmidt, Hannaneh Hajishirzi, Vasudev Lal, Chitta Baral, Yezhou Yang, | (参考訳) 現在のテキスト・トゥ・イメージ(T2I)モデルにおける重要な欠点の1つは、テキスト・プロンプトで指定された空間的関係を忠実に追従するイメージを一貫して生成できないことである。
本稿では,この制限を包括的に検討するとともに,T2Iモデルにおける空間推論を改善するためのアルゴリズムソリューションをサポートするデータセットや手法を開発する。
空間的関係は、現在の視覚言語データセットに見られる画像記述に不足していることがわかった。
このボトルネックを軽減するために、SPRIGHTは、4つの広く使用されている視覚データセットから600万の画像を再カプセル化し、3倍の評価と分析パイプラインを通して、空間的焦点を絞った最初の大規模データセットであるSPRIGHTを作成し、既存のデータセットにおける空間的関係の比率を改善することを示す。
SPRIGHTデータの有効性を示すために,SPRIGHTの$\sim$0.25%しか使用せず,空間的精度が22%向上し,FIDとCMMDのスコアも改善した。
また,T2I-CompBench の空間スコア0.2133 での<500画像の微調整など,多数の物体を含む画像のトレーニングにより空間的一貫性が大幅に向上することが確認された。
そこで本研究では,テキスト・ツー・イメージ・モデルにおける空間的一貫性に影響を与える要因の解明を目的とした,今後の研究を支援するための新たな知見について述べる。
One of the key shortcomings in current text-to-image (T2I) models is their inability to consistently generate images which faithfully follow the spatial relationships specified in the text prompt. In this paper, we offer a comprehensive investigation of this limitation, while also developing datasets and methods that support algorithmic solutions to improve spatial reasoning in T2I models. We find that spatial relationships are under-represented in the image descriptions found in current vision-language datasets. To alleviate this data bottleneck, we create SPRIGHT, the first spatially focused, large-scale dataset, by re-captioning 6 million images from 4 widely used vision datasets and through a 3-fold evaluation and analysis pipeline, show that SPRIGHT improves the proportion of spatial relationships in existing datasets. We show the efficacy of SPRIGHT data by showing that using only $\sim$0.25% of SPRIGHT results in a 22% improvement in generating spatially accurate images while also improving FID and CMMD scores. We also find that training on images containing a larger number of objects leads to substantial improvements in spatial consistency, including state-of-the-art results on T2I-CompBench with a spatial score of 0.2133, by fine-tuning on <500 images. Through a set of controlled experiments and ablations, we document additional findings that could support future work that seeks to understand factors that affect spatial consistency in text-to-image models. | 翻訳日:2024-08-07 19:02:36 公開日:2024-08-06 |
# LoSA: エンド・ツー・エンド時空間動作ローカライゼーションのための長距離適応器
LoSA: Long-Short-range Adapter for Scaling End-to-End Temporal Action Localization ( http://arxiv.org/abs/2404.01282v2 ) ライセンス: Link先を確認 | Akshita Gupta, Gaurav Mittal, Ahmed Magooda, Ye Yu, Graham W. Taylor, Mei Chen, | (参考訳) 時間的アクションローカライゼーション(TAL)は、未トリミングビデオ中のアクションスニペットのローカライズと分類を含む。
大規模なビデオ基盤モデルの出現により、RGBのみのビデオバックボーンは、RGBと光フローのモダリティの両方を必要とする従来の手法より優れている。
これらの大きなモデルの活用は、ビデオバックボーンをTALに適応させるのに必要な、非常に大きなGPUメモリのため、TALヘッドのみのトレーニングに制限されることが多い。
この制限を克服するため,最初のメモリ/パラメータ効率のバックボーンアダプタであるLoSAを導入する。
LoSAは、ビデオバックボーンの中間層を異なる時間範囲に適応させるLong-Short-range Adapterを導入することでTALを特化している。
これらのアダプタはビデオバックボーンと並列に動作し、メモリフットプリントを大幅に削減する。
LoSAには、ビデオバックボーン層からこれらのアダプタの出力を戦略的に組み合わせ、TALヘッドに提供されるビデオ機能を強化するLong-Short-range Gated Fusionも含まれている。
実験の結果、LoSA は標準的なTALベンチマーク THUMOS-14 や ActivityNet-v1.3 で、ビデオMAEv2~(ViT-g) のような数十億パラメータ超過モデルへのエンドツーエンドのバックボーン適応を拡大し、ヘッドオンリーのトランスファー学習を超えてそれらを活用することによって、既存のメソッド全てを著しく上回っていることがわかった。
Temporal Action Localization (TAL) involves localizing and classifying action snippets in an untrimmed video. The emergence of large video foundation models has led RGB-only video backbones to outperform previous methods needing both RGB and optical flow modalities. Leveraging these large models is often limited to training only the TAL head due to the prohibitively large GPU memory required to adapt the video backbone for TAL. To overcome this limitation, we introduce LoSA, the first memory-and-parameter-efficient backbone adapter designed specifically for TAL to handle untrimmed videos. LoSA specializes for TAL by introducing Long-Short-range Adapters that adapt the intermediate layers of the video backbone over different temporal ranges. These adapters run parallel to the video backbone to significantly reduce memory footprint. LoSA also includes Long-Short-range Gated Fusion that strategically combines the output of these adapters from the video backbone layers to enhance the video features provided to the TAL head. Experiments show that LoSA significantly outperforms all existing methods on standard TAL benchmarks, THUMOS-14 and ActivityNet-v1.3, by scaling end-to-end backbone adaptation to billion-parameter-plus models like VideoMAEv2~(ViT-g) and leveraging them beyond head-only transfer learning. | 翻訳日:2024-08-07 19:02:36 公開日:2024-08-06 |
# 正確性を超えて:大規模言語モデルの推論行動を評価する -- 調査
Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey ( http://arxiv.org/abs/2404.01869v2 ) ライセンス: Link先を確認 | Philipp Mondorf, Barbara Plank, | (参考訳) 大規模言語モデル(LLM)は、最近、推論を含むタスクにおいて印象的なパフォーマンスを示しており、これらのモデルが人間に似た推論能力を持っているかどうかを活発に議論している。
しかし、これらの成功にもかかわらず、LLMの推論能力の深さは未だ不明である。
この不確実性の一部は、モデルの推論動作を徹底的に調査するのではなく、浅い精度のメトリクスを通して測定されるタスクパフォーマンスに主に焦点をあてることに由来する。
本稿では,タスクの精度を超える研究を包括的にレビューし,モデルの推論プロセスに関する深い洞察を提供することにより,このギャップに対処することを目的とする。
さらに, LLMの推論行動を評価するための一般的な手法を調査し, 現状を強調し, よりニュアンスな推論分析への取り組みについて検討した。
我々のレビューでは、LCMは高度な推論能力よりも、トレーニングデータの表面レベルのパターンや相関に頼っている傾向が示唆されている。
さらに、人間とLLMに基づく推論の主な相違点を示すさらなる研究の必要性も確認する。
本調査では,LSMの複雑な推論プロセスについて光を当てることを目的としている。
Large language models (LLMs) have recently shown impressive performance on tasks involving reasoning, leading to a lively debate on whether these models possess reasoning capabilities similar to humans. However, despite these successes, the depth of LLMs' reasoning abilities remains uncertain. This uncertainty partly stems from the predominant focus on task performance, measured through shallow accuracy metrics, rather than a thorough investigation of the models' reasoning behavior. This paper seeks to address this gap by providing a comprehensive review of studies that go beyond task accuracy, offering deeper insights into the models' reasoning processes. Furthermore, we survey prevalent methodologies to evaluate the reasoning behavior of LLMs, emphasizing current trends and efforts towards more nuanced reasoning analyses. Our review suggests that LLMs tend to rely on surface-level patterns and correlations in their training data, rather than on sophisticated reasoning abilities. Additionally, we identify the need for further research that delineates the key differences between human and LLM-based reasoning. Through this survey, we aim to shed light on the complex reasoning processes within LLMs. | 翻訳日:2024-08-07 19:02:36 公開日:2024-08-06 |
# 個人と集団の行動の混合によるアウト・オブ・ラインモビリティの予測
Mixing Individual and Collective Behaviours to Predict Out-of-Routine Mobility ( http://arxiv.org/abs/2404.02740v2 ) ライセンス: Link先を確認 | Sebastiano Bontorin, Simone Centellegher, Riccardo Gallotti, Luca Pappalardo, Bruno Lepri, Massimiliano Luca, | (参考訳) 都市デザイン、交通渋滞、疫病管理、移住動態など、様々な社会的課題に対処するためには、人的変位の予測が不可欠である。
ディープラーニングやマルコフモデルのような予測モデルは、個々のモビリティに関する洞察を提供するが、それらはしばしば非ルーチン的な振る舞いに苦しむ。
本研究では,個人と集団の移動行動を動的に統合し,集団知能を活用して予測精度を向上させる手法を提案する。
アメリカの3つの都市における何百万ものプライバシー保護トラジェクトリのモデルを評価することで、より高度なディープラーニング手法を超越した、ルーチン外モビリティの予測における優れたパフォーマンスを実証する。
空間分析は、集合行動がモビリティに強く影響を及ぼす関心点の密度の高い都市部におけるモデルの有効性を強調している。
新型コロナウイルス(COVID-19)のパンデミックのような破壊的なイベントの間、私たちのモデルは個人ベースのモデルとは異なり、予測能力を保持します。
個人的行動と集団的行動のギャップを埋めることによって、我々のアプローチは透明性と正確な予測を提供し、現代のモビリティ問題に対処するために不可欠である。
Predicting human displacements is crucial for addressing various societal challenges, including urban design, traffic congestion, epidemic management, and migration dynamics. While predictive models like deep learning and Markov models offer insights into individual mobility, they often struggle with out-of-routine behaviours. Our study introduces an approach that dynamically integrates individual and collective mobility behaviours, leveraging collective intelligence to enhance prediction accuracy. Evaluating the model on millions of privacy-preserving trajectories across three US cities, we demonstrate its superior performance in predicting out-of-routine mobility, surpassing even advanced deep learning methods. Spatial analysis highlights the model's effectiveness near urban areas with a high density of points of interest, where collective behaviours strongly influence mobility. During disruptive events like the COVID-19 pandemic, our model retains predictive capabilities, unlike individual-based models. By bridging the gap between individual and collective behaviours, our approach offers transparent and accurate predictions, crucial for addressing contemporary mobility challenges. | 翻訳日:2024-08-07 19:02:36 公開日:2024-08-06 |
# バナッハ空間値ガウス確率変数の条件付け:マルティンガレスに基づく近似的アプローチ
Conditioning of Banach Space Valued Gaussian Random Variables: An Approximation Approach Based on Martingales ( http://arxiv.org/abs/2404.03453v3 ) ライセンス: Link先を確認 | Ingo Steinwart, | (参考訳) 本稿では,2つのバナッハ空間の条件分布について検討する。
これらの条件分布は再びガウス的であり、それらの手段と共分散は、マルティンゲールアプローチに基づく一般的な有限次元近似スキームによって決定されることを示す。
特に、このスキームで生じる共分散作用素は核ノルムに関して収束し、条件確率は弱収束する。
さらに、我々の近似スキームがヒルベルト空間や連続函数の空間といった重要なバナッハ空間のいくつかのクラスでどのように実装できるかを詳細に議論する。
例えば、連続経路が部分的だが無限的な経路の観測に条件づけられたガウス過程の場合には、一般結果を適用する。
ここでは、十分リッチで、有限個の観測の集合が増加すると、一貫した近似、すなわち平均関数と共分散関数が一様収束し、条件確率が弱収束することを示す。
さらに,機械学習におけるガウス過程の理解を深める方法について考察する。
In this paper we investigate the conditional distributions of two Banach space valued, jointly Gaussian random variables. We show that these conditional distributions are again Gaussian and that their means and covariances are determined by a general finite dimensional approximation scheme based upon a martingale approach. In particular, it turns out that the covariance operators occurring in this scheme converge with respect to the nuclear norm and that the conditional probabilities converge weakly. Moreover, we discuss in detail, how our approximation scheme can be implemented in several classes of important Banach spaces such as (reproducing kernel) Hilbert spaces and spaces of continuous functions. As an example, we then apply our general results to the case of Gaussian processes with continuous paths conditioned to partial but infinite observations of their paths. Here we show that conditioning on sufficiently rich, increasing sets of finitely many observations leads to consistent approximations, that is, both the mean and covariance functions converge uniformly and the conditional probabilities converge weakly. Moreover, we discuss how these results improve our understanding of the popular Gaussian processes for machine learning. | 翻訳日:2024-08-07 19:02:36 公開日:2024-08-06 |
# 解き放つLLM:動的知識グラフにおける潜在表現の進化
Unveiling LLMs: The Evolution of Latent Representations in a Dynamic Knowledge Graph ( http://arxiv.org/abs/2404.03623v2 ) ライセンス: Link先を確認 | Marco Bronzini, Carlo Nicolini, Bruno Lepri, Jacopo Staiano, Andrea Passerini, | (参考訳) 大規模言語モデル(LLM)は、広範囲の事実的知識を思い出すための印象的な能力を示している。
しかし、この知識を利用するための基礎となる推論と内部メカニズムを理解することは、依然として重要な研究領域である。
この研究は、LLMが文レベルのクレーム検証のために内部的に表現する事実情報を明らかにする。
本稿では,トークン表現に埋め込まれた事実知識をベクトル空間から接地述語集合にデコードするエンド・ツー・エンドのフレームワークを提案する。
本フレームワークでは,推論中にトークン表現を変更するベクトルレベル手法であるアクティベーションパッチを用いて,符号化された知識を抽出する。
したがって、トレーニングや外部モデルに依存していません。
2つのクレーム検証データセットの事実的および常識的クレームを用いて、局所的およびグローバルなレベルで解釈可能性の分析を示す。
局所分析では、主張関連情報やマルチホップ推論から誤評価の原因となる表現誤りまで、LCM推論におけるエンティティ中心性を強調している。
一方、世界は、単語ベースの知識がクレーム関連の事実に進化するなど、その基盤となる進化の傾向を明らかにしている。
LLMの潜在表現から意味論を解釈し、グラフ関連の分析を可能にすることにより、この研究は事実知識解決プロセスの理解を深める。
Large Language Models (LLMs) demonstrate an impressive capacity to recall a vast range of factual knowledge. However, understanding their underlying reasoning and internal mechanisms in exploiting this knowledge remains a key research area. This work unveils the factual information an LLM represents internally for sentence-level claim verification. We propose an end-to-end framework to decode factual knowledge embedded in token representations from a vector space to a set of ground predicates, showing its layer-wise evolution using a dynamic knowledge graph. Our framework employs activation patching, a vector-level technique that alters a token representation during inference, to extract encoded knowledge. Accordingly, we neither rely on training nor external models. Using factual and common-sense claims from two claim verification datasets, we showcase interpretability analyses at local and global levels. The local analysis highlights entity centrality in LLM reasoning, from claim-related information and multi-hop reasoning to representation errors causing erroneous evaluation. On the other hand, the global reveals trends in the underlying evolution, such as word-based knowledge evolving into claim-related facts. By interpreting semantics from LLM latent representations and enabling graph-related analyses, this work enhances the understanding of the factual knowledge resolution process. | 翻訳日:2024-08-07 19:02:36 公開日:2024-08-06 |
# ベスト・オブ・フェノム: 選好データを注入してRLHFを攻撃
Best-of-Venom: Attacking RLHF by Injecting Poisoned Preference Data ( http://arxiv.org/abs/2404.05530v2 ) ライセンス: Link先を確認 | Tim Baumgärtner, Yang Gao, Dana Alon, Donald Metzler, | (参考訳) ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデル(LM)を人間の価値観や嗜好と整合させる一般的な手法である。
RLHFはトレーニングデータとして多数の選好ペアを必要としており、Supervised Fine-TuningとReward Modelトレーニングの両方でよく使用される。
本研究では,これらのデータセットとRLHFトレーニングプロセスに有害な選好ペアを注入することにより,悪意あるアクターがLM世代をどの程度操作できるかを検討する。
そこで我々は,有毒な選好ペアを構築し,広く使用されている2つの選好データセットを汚染することにより,その性能をテストする戦略を提案する。
その結果,少量の有毒データ(原データセットの1~5倍)を注入することで,LMを効果的に操作し,対象の感情(肯定的あるいは否定的)で対象の実体を生成できることがわかった。
実験の結果は、嗜好中毒の予防戦略にも光を当てた。
Reinforcement Learning from Human Feedback (RLHF) is a popular method for aligning Language Models (LM) with human values and preferences. RLHF requires a large number of preference pairs as training data, which are often used in both the Supervised Fine-Tuning and Reward Model training and therefore publicly available datasets are commonly used. In this work, we study to what extent a malicious actor can manipulate the LMs generations by poisoning the preferences, i.e., injecting poisonous preference pairs into these datasets and the RLHF training process. We propose strategies to build poisonous preference pairs and test their performance by poisoning two widely used preference datasets. Our results show that preference poisoning is highly effective: injecting a small amount of poisonous data (1-5\% of the original dataset), we can effectively manipulate the LM to generate a target entity in a target sentiment (positive or negative). The findings from our experiments also shed light on strategies to defend against the preference poisoning attack. | 翻訳日:2024-08-07 19:02:36 公開日:2024-08-06 |
# AIシステムにおけるクロス層エネルギー最適化に向けて
Toward Cross-Layer Energy Optimizations in AI Systems ( http://arxiv.org/abs/2404.06675v2 ) ライセンス: Link先を確認 | Jae-Won Chung, Nishil Talati, Mosharaf Chowdhury, | (参考訳) DOEの"AI for Science, Energy, and Security"レポートでは、幅広いDOEミッションに対する基礎的な影響に対して、人工知能ワークフローの開発と最適化に重点を置いている。
人工知能(AI)や機械学習(ML)ツールや技術の普及によって、そのエネルギー効率が採用への歯止め要因になりそうである。
例えば、Amazonで200ビリオンパラメータの大言語モデル(LLM)をトレーニングするには11.9GWhを要したと見積もられている。
推論はさらにエネルギーを消費する。
このスケールを考えると、AIワークロードに特化した新しいスーパーコンピュータやデータセンターの構築と運用において、高エネルギー効率が電力配信問題に対処する鍵となる。
その点に関して、ソフトウェアとアーキテクチャレベルの研究課題と機会を概説し、AIシステムにおける階層間エネルギー最適化のステージを設定します。
The "AI for Science, Energy, and Security" report from DOE outlines a significant focus on developing and optimizing artificial intelligence workflows for a foundational impact on a broad range of DOE missions. With the pervasive usage of artificial intelligence (AI) and machine learning (ML) tools and techniques, their energy efficiency is likely to become the gating factor toward adoption. This is because generative AI (GenAI) models are massive energy hogs: for instance, training a 200-billion parameter large language model (LLM) at Amazon is estimated to have taken 11.9 GWh, which is enough to power more than a thousand average U.S. households for a year. Inference consumes even more energy, because a model trained once serve millions. Given this scale, high energy efficiency is key to addressing the power delivery problem of constructing and operating new supercomputers and datacenters specialized for AI workloads. In that regard, we outline software- and architecture-level research challenges and opportunities, setting the stage for creating cross-layer energy optimizations in AI systems. | 翻訳日:2024-08-07 19:02:36 公開日:2024-08-06 |
# 一般化可能なガウススプレイティングによる強化学習
Reinforcement Learning with Generalizable Gaussian Splatting ( http://arxiv.org/abs/2404.07950v3 ) ライセンス: Link先を確認 | Jiaxu Wang, Qiang Zhang, Jingkai Sun, Jiahang Cao, Gang Han, Wen Zhao, Weining Zhang, Yecheng Shao, Yijie Guo, Renjing Xu, | (参考訳) 優れた表現は強化学習(RL)のパフォーマンス、特に視覚に基づく強化学習において重要である。
環境表現の質は学習課題の達成に直接影響を及ぼす。
従来の視覚ベースのRLは、画像、点、ボクセル、神経放射場などの環境を表現するために、明示的または暗黙的な方法を使用するのが一般的である。
しかし、これらの表現にはいくつかの欠点がある。
複雑な局所的な地形を記述することも、見えない場面によく一般化することも、正確な前景マスクを必要とすることもできない。
さらに、これらの暗黙的な神経表現は『ブラックボックス』に似たものであり、解釈可能性を大幅に妨げている。
3D Gaussian Splatting (3DGS) は、その明示的なシーン表現と微分可能なレンダリング特性を持ち、再構築と表現方法の革新的変化と見なされている。
本稿では、GSRLと呼ばれるRLタスクを表現するための新しい一般化可能なガウス分割フレームワークを提案する。
提案手法は,RoboMimic環境での検証により,複数のタスクにおいて他のベースラインよりも優れた結果が得られ,最も難しいタスクのベースラインに比べて10%,44%,15%の性能向上が達成される。
この研究は、RLの表現として一般化可能な3DGSを活用する最初の試みである。
An excellent representation is crucial for reinforcement learning (RL) performance, especially in vision-based reinforcement learning tasks. The quality of the environment representation directly influences the achievement of the learning task. Previous vision-based RL typically uses explicit or implicit ways to represent environments, such as images, points, voxels, and neural radiance fields. However, these representations contain several drawbacks. They cannot either describe complex local geometries or generalize well to unseen scenes, or require precise foreground masks. Moreover, these implicit neural representations are akin to a ``black box", significantly hindering interpretability. 3D Gaussian Splatting (3DGS), with its explicit scene representation and differentiable rendering nature, is considered a revolutionary change for reconstruction and representation methods. In this paper, we propose a novel Generalizable Gaussian Splatting framework to be the representation of RL tasks, called GSRL. Through validation in the RoboMimic environment, our method achieves better results than other baselines in multiple tasks, improving the performance by 10%, 44%, and 15% compared with baselines on the hardest task. This work is the first attempt to leverage generalizable 3DGS as a representation for RL. | 翻訳日:2024-08-07 19:02:36 公開日:2024-08-06 |
# 定理証明のための深層学習に関する調査研究
A Survey on Deep Learning for Theorem Proving ( http://arxiv.org/abs/2404.09939v2 ) ライセンス: Link先を確認 | Zhaoyu Li, Jialiang Sun, Logan Murphy, Qidong Su, Zenan Li, Xian Zhang, Kaiyu Yang, Xujie Si, | (参考訳) 定理証明は数学の基本的な側面であり、自然言語における非公式な推論から形式体系における厳密な導出にまで及ぶ。
近年、ディープラーニングの進歩、特に大規模言語モデルの台頭は、これらの手法を探求し、定理証明のプロセスを強化する顕著な研究の急増を引き起こしている。
本稿では,提案する定理証明のためのディープラーニングに関する包括的調査について述べる。
一 自己書式化、前提選択、証明工程生成、証明探索等の様々な業務における既存のアプローチの徹底的な見直し
(二 合成データ生成のためのキュレートされたデータセット及び戦略の広範な概要
三 評価指標の詳細な分析及び最先端手法の性能
(四)持続的課題と今後の探査への有望な道についての批判的議論。
我々の調査は、この急速に成長する分野におけるさらなる研究の成果を実証し、刺激し、触媒する深層学習アプローチの基盤となる基準として機能することを目的としている。
キュレートされた論文のリストはhttps://github.com/zhaoyu-li/DL4TPで公開されている。
Theorem proving is a fundamental aspect of mathematics, spanning from informal reasoning in natural language to rigorous derivations in formal systems. In recent years, the advancement of deep learning, especially the emergence of large language models, has sparked a notable surge of research exploring these techniques to enhance the process of theorem proving. This paper presents a comprehensive survey of deep learning for theorem proving by offering (i) a thorough review of existing approaches across various tasks such as autoformalization, premise selection, proofstep generation, and proof search; (ii) an extensive summary of curated datasets and strategies for synthetic data generation; (iii) a detailed analysis of evaluation metrics and the performance of state-of-the-art methods; and (iv) a critical discussion on the persistent challenges and the promising avenues for future exploration. Our survey aims to serve as a foundational reference for deep learning approaches in theorem proving, inspiring and catalyzing further research endeavors in this rapidly growing field. A curated list of papers is available at https://github.com/zhaoyu-li/DL4TP. | 翻訳日:2024-08-07 19:02:36 公開日:2024-08-06 |
# MambaMOS:動き認識状態空間モデルによるLiDARによる3次元移動物体のセグメンテーション
MambaMOS: LiDAR-based 3D Moving Object Segmentation with Motion-aware State Space Model ( http://arxiv.org/abs/2404.12794v2 ) ライセンス: Link先を確認 | Kang Zeng, Hao Shi, Jiacheng Lin, Siyu Li, Jintao Cheng, Kaiwei Wang, Zhiyong Li, Kailun Yang, | (参考訳) LiDARベースの移動物体分割(Motion Object Segmentation, MOS)は、現在のスキャンの点雲における移動物体の位置とセグメントを、以前のスキャンからの動き情報を用いて求めることを目的としている。
従来のMOS手法による有望な結果にもかかわらず、時間的・空間的な情報の弱い結合などいくつかの重要な問題はまだ研究が必要である。
本稿では,動き認識状態空間モデル(MambaMOS)を用いた新しいLiDARベースの3次元移動物体セグメンテーションを提案する。
まず,新しい組込みモジュールであるTime Clue Bootstrapping Embedding (TCBE)を開発した。
次に、動作認識状態空間モデル(MSSM)を導入し、異なる時間ステップで同じ物体の時間的相関を理解する能力を持つモデルを提案する。
特に、MSSMは2つの異なる時間的モデリングと相関ステップを通して、同じ物体の運動状態を異なる時間ステップで強調する。
我々は、これらの運動差を表すために改良された状態空間モデルを使用し、運動状態を大幅にモデル化する。
最後に、SemanticKITTI-MOSとKITTI-Roadベンチマークに関する広範な実験により、提案したMambaMOSが最先端のパフォーマンスを達成することを示した。
ソースコードはhttps://github.com/Terminal-K/MambaMOSで公開されている。
LiDAR-based Moving Object Segmentation (MOS) aims to locate and segment moving objects in point clouds of the current scan using motion information from previous scans. Despite the promising results achieved by previous MOS methods, several key issues, such as the weak coupling of temporal and spatial information, still need further study. In this paper, we propose a novel LiDAR-based 3D Moving Object Segmentation with Motion-aware State Space Model, termed MambaMOS. Firstly, we develop a novel embedding module, the Time Clue Bootstrapping Embedding (TCBE), to enhance the coupling of temporal and spatial information in point clouds and alleviate the issue of overlooked temporal clues. Secondly, we introduce the Motion-aware State Space Model (MSSM) to endow the model with the capacity to understand the temporal correlations of the same object across different time steps. Specifically, MSSM emphasizes the motion states of the same object at different time steps through two distinct temporal modeling and correlation steps. We utilize an improved state space model to represent these motion differences, significantly modeling the motion states. Finally, extensive experiments on the SemanticKITTI-MOS and KITTI-Road benchmarks demonstrate that the proposed MambaMOS achieves state-of-the-art performance. The source code is publicly available at https://github.com/Terminal-K/MambaMOS. | 翻訳日:2024-08-07 19:02:36 公開日:2024-08-06 |
# XRオブジェクトを用いた拡張オブジェクトインテリジェンス
Augmented Object Intelligence with XR-Objects ( http://arxiv.org/abs/2404.13274v3 ) ライセンス: Link先を確認 | Mustafa Doga Dogan, Eric J. Gonzalez, Karan Ahuja, Ruofei Du, Andrea Colaço, Johnny Lee, Mar Gonzalez-Franco, David Kim, | (参考訳) 対話型デジタルエンティティとしての物理オブジェクトのシームレスな統合は、空間コンピューティングの課題である。
本稿では,XR(Artificial Object Intelligence, AOI)の文脈において,現実世界のオブジェクトをまるでデジタルであるかのように操作できる能力と,あらゆるオブジェクトがデジタル機能のためのポータルとして機能する能力を備えることによって,デジタルと物理的の境界を曖昧にすることを目的としたインタラクションパラダイムについて検討する。
提案手法では,複数モーダル大規模言語モデル(MLLM)のパワーと組み合わさって,オブジェクトの事前登録を必要とせず,これらのインタラクションを容易にする。
我々は,AOIの概念を,オブジェクトベースのコンテキストメニューを用いて,物理的環境をコンテキスト的に関連付けるためのプラットフォームを提供する,オープンソースのプロトタイプシステムであるXR-Objectsの形で実装する。
このシステムにより、アナログオブジェクトが情報を伝えるだけでなく、細部への問い合わせやタスクの実行といったデジタルアクションを開始することができる。
1)従来のAIアシスタントよりもAOIの概念を定義し、その利点を詳述し、(2)XR-Objectsシステムのオープンソース設計と実装を詳述し、(3)様々なユースケースとユーザスタディを通じてその汎用性を示す。
Seamless integration of physical objects as interactive digital entities remains a challenge for spatial computing. This paper explores Artificial Object Intelligence (AOI) in the context of XR, an interaction paradigm that aims to blur the lines between digital and physical by equipping real-world objects with the ability to interact as if they were digital, where every object has the potential to serve as a portal to digital functionalities. Our approach utilizes real-time object segmentation and classification, combined with the power of Multimodal Large Language Models (MLLMs), to facilitate these interactions without the need for object pre-registration. We implement the AOI concept in the form of XR-Objects, an open-source prototype system that provides a platform for users to engage with their physical environment in contextually relevant ways using object-based context menus. This system enables analog objects to not only convey information but also to initiate digital actions, such as querying for details or executing tasks. Our contributions are threefold: (1) we define the AOI concept and detail its advantages over traditional AI assistants, (2) detail the XR-Objects system's open-source design and implementation, and (3) show its versatility through various use cases and a user study. | 翻訳日:2024-08-07 19:02:36 公開日:2024-08-06 |
# 現実世界のAI生成顔:Twitterプロフィール画像の大規模ケーススタディ
AI-Generated Faces in the Real World: A Large-Scale Case Study of Twitter Profile Images ( http://arxiv.org/abs/2404.14244v2 ) ライセンス: Link先を確認 | Jonas Ricker, Dennis Assenmacher, Thorsten Holz, Asja Fischer, Erwin Quiring, | (参考訳) 生成人工知能(AI)分野の最近の進歩は、真のコンテンツと機械生成コンテンツの境界を曖昧にしており、人間がそのようなメディアを区別することはほとんど不可能である。
顕著な結果のひとつは、ソーシャルメディア上のフェイクプロフィールにAI生成イメージを使用することだ。
これまでいくつかの偽情報キャンペーンや同様の事件が報告されてきたが、体系的な分析は乏しい。
本研究では,Twitter上でのAI生成プロフィール画像の普及状況について,大規模な調査を行った。
我々は,様々なデータソースを注意深く統合し,多段階検出パイプラインを設計することで,実世界の計測研究の課題に取り組む。
約1500万枚のTwitterプロフィール写真を分析したところ、0.052%が人工的に生成され、プラットフォーム上での存在が確認された。
我々はこれらのアカウントの特徴とそのつぶやき内容について包括的に検討し、協調した不正確な行動のパターンを明らかにする。
結果は、スパムや政治的増幅キャンペーンなど、いくつかの動機も明らかにしている。
我々の研究は、将来、生成AIの潜在的な負の効果に対処するための効果的な検出と緩和戦略の必要性を再確認する。
Recent advances in the field of generative artificial intelligence (AI) have blurred the lines between authentic and machine-generated content, making it almost impossible for humans to distinguish between such media. One notable consequence is the use of AI-generated images for fake profiles on social media. While several types of disinformation campaigns and similar incidents have been reported in the past, a systematic analysis has been lacking. In this work, we conduct the first large-scale investigation of the prevalence of AI-generated profile pictures on Twitter. We tackle the challenges of a real-world measurement study by carefully integrating various data sources and designing a multi-stage detection pipeline. Our analysis of nearly 15 million Twitter profile pictures shows that 0.052% were artificially generated, confirming their notable presence on the platform. We comprehensively examine the characteristics of these accounts and their tweet content, and uncover patterns of coordinated inauthentic behavior. The results also reveal several motives, including spamming and political amplification campaigns. Our research reaffirms the need for effective detection and mitigation strategies to cope with the potential negative effects of generative AI in the future. | 翻訳日:2024-08-07 19:02:36 公開日:2024-08-06 |
# ORBIT:オークリッジベースモデルによる地球システムの予測可能性
ORBIT: Oak Ridge Base Foundation Model for Earth System Predictability ( http://arxiv.org/abs/2404.14712v2 ) ライセンス: Link先を確認 | Xiao Wang, Siyan Liu, Aristeidis Tsaris, Jong-Youl Choi, Ashwin Aji, Ming Fan, Wei Zhang, Junqi Yin, Moetasim Ashfaq, Dan Lu, Prasanna Balaprakash, | (参考訳) 地球系の予測可能性には、環境力学の複雑さと、関連する変数の多さがある。
現在のAI基盤モデルは、大規模で異質なデータを活用することで進歩しているが、そのサイズとデータ統合によって制約されることが多く、地球系の予測問題に対処する上での有効性を制限している。
これらの制限を克服するために、新しいハイブリッドテンソルデータ直交並列化技術を用いて、最大130億のパラメータをスケールする先進的な視覚トランスフォーマーモデルであるOak Ridge Base Foundation Model for Earth System Predictability (ORBIT)を導入する。
この種の最大のモデルとして、ORBITは現在の気候AIファンデーションモデルサイズを1000倍に超えている。
Frontierスーパーコンピュータで実施された性能スケーリングテストでは、ORBITは684ペタFLOPSから1.6エキサFLOPSの持続スループットを実現し、49,152AMDGPUで41%から85%のスケーリング効率を維持した。
これらのブレークスルーは、AI駆動の気候モデリングの新たな進歩を確立し、地球系の予測可能性を大幅に改善する約束を実証する。
Earth system predictability is challenged by the complexity of environmental dynamics and the multitude of variables involved. Current AI foundation models, although advanced by leveraging large and heterogeneous data, are often constrained by their size and data integration, limiting their effectiveness in addressing the full range of Earth system prediction challenges. To overcome these limitations, we introduce the Oak Ridge Base Foundation Model for Earth System Predictability (ORBIT), an advanced vision transformer model that scales up to 113 billion parameters using a novel hybrid tensor-data orthogonal parallelism technique. As the largest model of its kind, ORBIT surpasses the current climate AI foundation model size by a thousandfold. Performance scaling tests conducted on the Frontier supercomputer have demonstrated that ORBIT achieves 684 petaFLOPS to 1.6 exaFLOPS sustained throughput, with scaling efficiency maintained at 41% to 85% across 49,152 AMD GPUs. These breakthroughs establish new advances in AI-driven climate modeling and demonstrate promise to significantly improve the Earth system predictability. | 翻訳日:2024-08-07 18:52:52 公開日:2024-08-06 |
# T-Explainer: 勾配に基づくモデルに依存しない説明可能性フレームワーク
T-Explainer: A Model-Agnostic Explainability Framework Based on Gradients ( http://arxiv.org/abs/2404.16495v2 ) ライセンス: Link先を確認 | Evandro S. Ortigossa, Fábio F. Dias, Brian Barr, Claudio T. Silva, Luis Gustavo Nonato, | (参考訳) 近年、機械学習アプリケーションの開発は、大量のデータセットに隠された複雑なパターンを発見し、一般化する学習駆動システムの驚くべき能力に動機付けられている。
現代の学習モデルは、強力ではあるが、しばしば不透明なブラックボックスを発生させるレベルの複雑さを持ち、その結果透明性の欠如が彼らの推論を解読する能力を妨げている。
Opacityは、機械学習の解釈可能性と実践的応用に挑戦する。
説明可能な人工知能(XAI)はその課題に対処し、解明された説明を提供することでブラックボックスの複雑さを解き放つ。
様々なXAIアプローチの中で、特徴属性/重要度は、その予測プロセスにおける入力特徴の重要性を明記する能力において際立っている。
しかし、既存の帰属法の多くは不安定性のような制限があり、発散した説明が類似または同一の例から生じることがある。
この研究はT-Explainerを導入し、Taylorの拡張に基づく新しい局所的な帰属説明器を紹介した。
局所的精度や一貫性などの望ましい特性があり、T-Explainerは複数の実行で安定している。
我々はT-Explainerの有効性を、よく知られた帰属法に対する定量的なベンチマーク実験で実証する。
さらに、説明を評価し視覚化するためのツールをいくつか提供し、T-Explainerを総合的なXAIフレームワークに変換する。
The development of machine learning applications has increased significantly in recent years, motivated by the remarkable ability of learning-powered systems to discover and generalize intricate patterns hidden in massive datasets. Modern learning models, while powerful, often have a level of complexity that renders them opaque black boxes, resulting in a notable lack of transparency that hinders our ability to decipher their reasoning. Opacity challenges the interpretability and practical application of machine learning, especially in critical domains where understanding the underlying reasons is essential for informed decision-making. Explainable Artificial Intelligence (XAI) rises to address that challenge, unraveling the complexity of black boxes by providing elucidating explanations. Among the various XAI approaches, feature attribution/importance stands out for its capacity to delineate the significance of input features in the prediction process. However, most existing attribution methods have limitations, such as instability, when divergent explanations may result from similar or even the same instance. This work introduces T-Explainer, a novel local additive attribution explainer based on Taylor expansion. It has desirable properties, such as local accuracy and consistency, making T-Explainer stable over multiple runs. We demonstrate T-Explainer's effectiveness in quantitative benchmark experiments against well-known attribution methods. Additionally, we provide several tools to evaluate and visualize explanations, turning T-Explainer into a comprehensive XAI framework. | 翻訳日:2024-08-07 18:52:52 公開日:2024-08-06 |
# SafePaint: ドメイン適応による反法医学的イメージの塗布
SafePaint: Anti-forensic Image Inpainting with Domain Adaptation ( http://arxiv.org/abs/2404.18136v2 ) ライセンス: Link先を確認 | Dunyun Chen, Xin Liao, Xiaoshuai Wu, Shiwei Chen, | (参考訳) 既存の画像塗装法は、しばしばより複雑な構造的テクスチャを生み出す傾向に伴って、視覚的に魅力的な結果を生み出すことで、優れた成果を上げている。
しかし、これらのモデルはよりリアルな画像コンテンツを作るのに優れていますが、しばしば目立った改ざんの痕跡を残し、セキュリティに重大な脅威をもたらします。
本研究は,まず, SafePaint と名づけられた反法医学的イメージペイントのためのエンドツーエンドのトレーニングフレームワークを提案することで, 反法医学的能力を考慮に入れた。
具体的には,画像のインパインティングを,意味論的に妥当なコンテンツ補完と領域最適化の2つの主要なタスクとして,革新的に定式化した。
前者は、破損した画像の欠落した領域を復元することを目的とした、現在の塗装法と似ている。
後者は、ドメイン適応を通じて、塗装された地域と修正されていない地域との間の不一致を和らげて、反法学的な目標を達成する試みである。
包括的理論的解析を通じて,抗法医学的パフォーマンスに対するドメイン適応の有効性を検証した。
さらに、我々は、我々の反法医学の目的と整合するだけでなく、モデルの性能を向上させるような、地域的に分離された注意(RWSA)モジュールを慎重に構築した。
広範に質的,定量的な評価を行った結果,既存の画像塗布法に匹敵する結果が得られた。
Existing image inpainting methods have achieved remarkable accomplishments in generating visually appealing results, often accompanied by a trend toward creating more intricate structural textures. However, while these models excel at creating more realistic image content, they often leave noticeable traces of tampering, posing a significant threat to security. In this work, we take the anti-forensic capabilities into consideration, firstly proposing an end-to-end training framework for anti-forensic image inpainting named SafePaint. Specifically, we innovatively formulated image inpainting as two major tasks: semantically plausible content completion and region-wise optimization. The former is similar to current inpainting methods that aim to restore the missing regions of corrupted images. The latter, through domain adaptation, endeavors to reconcile the discrepancies between the inpainted region and the unaltered area to achieve anti-forensic goals. Through comprehensive theoretical analysis, we validate the effectiveness of domain adaptation for anti-forensic performance. Furthermore, we meticulously crafted a region-wise separated attention (RWSA) module, which not only aligns with our objective of anti-forensics but also enhances the performance of the model. Extensive qualitative and quantitative evaluations show our approach achieves comparable results to existing image inpainting methods while offering anti-forensic capabilities not available in other methods. | 翻訳日:2024-08-07 18:52:52 公開日:2024-08-06 |
# LMM-PCQA:LMMによるポイントクラウド品質評価を支援する
LMM-PCQA: Assisting Point Cloud Quality Assessment with LMM ( http://arxiv.org/abs/2404.18203v2 ) ライセンス: Link先を確認 | Zicheng Zhang, Haoning Wu, Yingjie Zhou, Chunyi Li, Wei Sun, Chaofeng Chen, Xiongkuo Min, Xiaohong Liu, Weisi Lin, Guangtao Zhai, | (参考訳) 大規模マルチモダリティモデル (LMM) は様々な品質アセスメント研究において広範な探索と応用が見られたが、ポイントクラウド品質アセスメント (PCQA) への統合は未だ検討されていない。
低レベルの視力と品質評価タスクにおけるLMMの異常な性能と堅牢性を考えると,本研究はテキスト管理を通じてPCQA知識をLMMに付与する可能性を検討することを目的としている。
これを実現するために、我々は品質ラベルを微調整段階のテキスト記述に変換することで、LMMが点雲の2次元投影から品質評価ロジットを導出できるようにする。
3D領域における知覚の喪失を補うために、構造的特徴も抽出する。
これらの品質ロジットと構造的特徴を結合し、品質スコアに回帰する。
提案手法の有効性を実証し,モデル理解と評価精度を高めるPCQAへのLMMの新たな統合を示す。
我々は,LMMとPCQAの融合に関するその後の調査を刺激し,3次元視覚的品質分析の進歩を促すことを願っている。
コードはhttps://github.com/zzc-1998/LMM-PCQAで公開されている。
Although large multi-modality models (LMMs) have seen extensive exploration and application in various quality assessment studies, their integration into Point Cloud Quality Assessment (PCQA) remains unexplored. Given LMMs' exceptional performance and robustness in low-level vision and quality assessment tasks, this study aims to investigate the feasibility of imparting PCQA knowledge to LMMs through text supervision. To achieve this, we transform quality labels into textual descriptions during the fine-tuning phase, enabling LMMs to derive quality rating logits from 2D projections of point clouds. To compensate for the loss of perception in the 3D domain, structural features are extracted as well. These quality logits and structural features are then combined and regressed into quality scores. Our experimental results affirm the effectiveness of our approach, showcasing a novel integration of LMMs into PCQA that enhances model understanding and assessment accuracy. We hope our contributions can inspire subsequent investigations into the fusion of LMMs with PCQA, fostering advancements in 3D visual quality analysis and beyond. The code is available at https://github.com/zzc-1998/LMM-PCQA. | 翻訳日:2024-08-07 18:52:52 公開日:2024-08-06 |
# SimEndoGS:物理埋め込み3Dガウスによるロボット手術映像を用いた効率的なデータ駆動シーンシミュレーション
SimEndoGS: Efficient Data-driven Scene Simulation using Robotic Surgery Videos via Physics-embedded 3D Gaussians ( http://arxiv.org/abs/2405.00956v3 ) ライセンス: Link先を確認 | Zhenya Yang, Kai Chen, Yonghao Long, Qi Dou, | (参考訳) 手術シーンシミュレーションは,外科教育とシミュレータに基づくロボット学習において重要な役割を担っている。
これらの環境を外科的シーンで作る従来のアプローチは、デザイナーがソフトボディシミュレーションのためのテクスチャとジオメトリーを備えた手作りの組織をモデル化する、労働集約的なプロセスを含んでいる。
この手動のアプローチは時間を要するだけでなく、スケーラビリティやリアリズムにも制限があります。
対照的に、データ駆動シミュレーションは魅力的な代替手段を提供する。
実世界の手術映像データから3Dの手術シーンを自動的に再構築し、ソフトボディ物理を応用する可能性がある。
しかし、この地域は比較的無漁である。
本研究では3D Gaussianを手術シーンの学習可能な表現として紹介し,立体内視鏡映像から学習した。
これらのシーンの過度な適合を防止し、幾何学的正当性を確保するため、奥行き監視と異方性正規化をガウス学習プロセスに組み込む。
さらに,3次元ガウスに物理特性を統合したマテリアルポイント法を適用し,現実的なシーン変形を実現する。
本手法を社内および公開外科用ビデオデータセットで評価した。
以上の結果から, 内視鏡的画像からの手術シーンの再構築とシミュレーションを効率的に行うことができ, 手術シーンの再構築に数分しかかからず, リアルタイムに近づく速度で視覚的, 身体的両面の変形を生成できることが示唆された。
その結果,手術教育やロボット学習で利用可能なシミュレーションの効率性と多様性を高めるための提案手法の可能性が示唆された。
Surgical scene simulation plays a crucial role in surgical education and simulator-based robot learning. Traditional approaches for creating these environments with surgical scene involve a labor-intensive process where designers hand-craft tissues models with textures and geometries for soft body simulations. This manual approach is not only time-consuming but also limited in the scalability and realism. In contrast, data-driven simulation offers a compelling alternative. It has the potential to automatically reconstruct 3D surgical scenes from real-world surgical video data, followed by the application of soft body physics. This area, however, is relatively uncharted. In our research, we introduce 3D Gaussian as a learnable representation for surgical scene, which is learned from stereo endoscopic video. To prevent over-fitting and ensure the geometrical correctness of these scenes, we incorporate depth supervision and anisotropy regularization into the Gaussian learning process. Furthermore, we apply the Material Point Method, which is integrated with physical properties, to the 3D Gaussians to achieve realistic scene deformations. Our method was evaluated on our collected in-house and public surgical videos datasets. Results show that it can reconstruct and simulate surgical scenes from endoscopic videos efficiently-taking only a few minutes to reconstruct the surgical scene-and produce both visually and physically plausible deformations at a speed approaching real-time. The results demonstrate great potential of our proposed method to enhance the efficiency and variety of simulations available for surgical education and robot learning. | 翻訳日:2024-08-07 18:52:52 公開日:2024-08-06 |
# 概念以上の意味を持つ関係:CoReXによる分類決定の探索と評価
When a Relation Tells More Than a Concept: Exploring and Evaluating Classifier Decisions with CoReX ( http://arxiv.org/abs/2405.01661v3 ) ライセンス: Link先を確認 | Bettina Finzel, Patrick Hilme, Johannes Rabold, Ute Schmid, | (参考訳) 入力画素の関連性に基づく畳み込みニューラルネットワーク(CNN)の解説は、どの入力特徴がモデル決定にどのように影響するかを評価するには、あまり特異ではないかもしれない。
特に生物学のような複雑な現実世界の領域では、特定の概念の存在と概念間の関係はクラス間で区別される。
ピクセルの関連性はこの種の情報を伝えるのに十分ではない。
結果として、モデル評価は制限され、データに関連性があり、モデル決定に影響を与えることは見過ごされかねない。
本研究では,概念と関係に基づく説明器(CoReX)を用いて,CNNモデルの説明と評価を行う新しい手法を提案する。
決定過程から関連する概念をマスキングし,学習した解釈可能なサロゲートモデルにおける関係を拘束することにより,画像の集合上でのモデルの予測挙動を説明する。
いくつかの画像データセットとCNNアーキテクチャでアプローチをテストする。
結果から,CNNモデルに対するCReXの説明は予測結果に忠実であることが示唆された。
さらに,人間による評価を通じて,CNNの分類品質を評価する上で,CReXは複合的な説明を生成するのに適したツールであることを示す。
さらに,CoReXが不正確な分類や曖昧な分類の識別と再分類を支援することを示す。
Explanations for Convolutional Neural Networks (CNNs) based on relevance of input pixels might be too unspecific to evaluate which and how input features impact model decisions. Especially in complex real-world domains like biology, the presence of specific concepts and of relations between concepts might be discriminating between classes. Pixel relevance is not expressive enough to convey this type of information. In consequence, model evaluation is limited and relevant aspects present in the data and influencing the model decisions might be overlooked. This work presents a novel method to explain and evaluate CNN models, which uses a concept- and relation-based explainer (CoReX). It explains the predictive behavior of a model on a set of images by masking (ir-)relevant concepts from the decision-making process and by constraining relations in a learned interpretable surrogate model. We test our approach with several image data sets and CNN architectures. Results show that CoReX explanations are faithful to the CNN model in terms of predictive outcomes. We further demonstrate through a human evaluation that CoReX is a suitable tool for generating combined explanations that help assessing the classification quality of CNNs. We further show that CoReX supports the identification and re-classification of incorrect or ambiguous classifications. | 翻訳日:2024-08-07 18:52:52 公開日:2024-08-06 |
# 連続的ブラウン橋拡散によるフレーム補間
Frame Interpolation with Consecutive Brownian Bridge Diffusion ( http://arxiv.org/abs/2405.05953v4 ) ライセンス: Link先を確認 | Zonglin Lyu, Ming Li, Jianbo Jiao, Chen Chen, | (参考訳) ビデオフレーム補間(VFI)における最近の研究は、拡散に基づく条件付き画像生成問題としてVFIを定式化しようと試み、ランダムなノイズと隣接するフレームを与えられた中間フレームを合成している。
ビデオの解像度が比較的高いため、LDM(Latent Diffusion Models)が条件生成モデルとして使われ、オートエンコーダは画像をラテント表現に圧縮し、これらのラテント表現からイメージを再構成する。
このような定式化は重要な課題である: VFI は出力が決定論的に基底真理中間フレームに等しいことを期待するが、LCM はモデルが複数回実行されると、ランダムに異なる画像の集合を生成する。
多様な生成の理由は、LDMにおける生成された潜在表現の累積分散(生成の各ステップで蓄積される分散)が大きいからである。
これによりサンプリング軌道はランダムになり、決定論的世代よりも多様になる。
この問題に対処するため,我々は,Branian Bridge Diffusionを用いたフレーム補間法を提案する。
具体的には、決定論的初期値を入力とし、生成した潜在表現の累積分散をはるかに小さくする、連続的なブラウン橋拡散を提案する。
実験の結果,本手法はオートエンコーダの改良とともに改良され,VFIの最先端性能が向上し,さらなる向上の可能性が残っていることが示唆された。
Recent work in Video Frame Interpolation (VFI) tries to formulate VFI as a diffusion-based conditional image generation problem, synthesizing the intermediate frame given a random noise and neighboring frames. Due to the relatively high resolution of videos, Latent Diffusion Models (LDMs) are employed as the conditional generation model, where the autoencoder compresses images into latent representations for diffusion and then reconstructs images from these latent representations. Such a formulation poses a crucial challenge: VFI expects that the output is deterministically equal to the ground truth intermediate frame, but LDMs randomly generate a diverse set of different images when the model runs multiple times. The reason for the diverse generation is that the cumulative variance (variance accumulated at each step of generation) of generated latent representations in LDMs is large. This makes the sampling trajectory random, resulting in diverse rather than deterministic generations. To address this problem, we propose our unique solution: Frame Interpolation with Consecutive Brownian Bridge Diffusion. Specifically, we propose consecutive Brownian Bridge diffusion that takes a deterministic initial value as input, resulting in a much smaller cumulative variance of generated latent representations. Our experiments suggest that our method can improve together with the improvement of the autoencoder and achieve state-of-the-art performance in VFI, leaving strong potential for further enhancement. | 翻訳日:2024-08-07 18:52:52 公開日:2024-08-06 |
# Calo-VQ:カロリメータシミュレーションにおけるベクトル量子化された2段階生成モデル
Calo-VQ: Vector-Quantized Two-Stage Generative Model in Calorimeter Simulation ( http://arxiv.org/abs/2405.06605v3 ) ライセンス: Link先を確認 | Qibin Liu, Chase Shimmin, Xiulong Liu, Eli Shlizerman, Shu Li, Shih-Chieh Hsu, | (参考訳) 本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)を応用した,温度計応答の高速シミュレーションのための機械学習手法を提案する。
そこで本モデルでは,まずジオメトリ・アウェア・カロリーメータデータを離散潜在空間に圧縮し,次に列モデルを用いて潜在トークンを学習・生成する。
Calo-Challengeデータセットの大規模な実験は,2000年の因子による従来の手法と比較して,生成速度が著しく向上したことを示す。
顕著なことに、我々のモデルはミリ秒以内のカロリーメータシャワーを発生させる。
さらに, 様々な測定値の総合的な定量的評価を行い, 生成の物理性能を検証した。
We introduce a novel machine learning method developed for the fast simulation of calorimeter detector response, adapting vector-quantized variational autoencoder (VQ-VAE). Our model adopts a two-stage generation strategy: initially compressing geometry-aware calorimeter data into a discrete latent space, followed by the application of a sequence model to learn and generate the latent tokens. Extensive experimentation on the Calo-challenge dataset underscores the efficiency of our approach, showcasing a remarkable improvement in the generation speed compared with conventional method by a factor of 2000. Remarkably, our model achieves the generation of calorimeter showers within milliseconds. Furthermore, comprehensive quantitative evaluations across various metrics are performed to validate physics performance of generation. | 翻訳日:2024-08-07 18:52:52 公開日:2024-08-06 |
# 逆生成によるテキスト毒性の緩和
Mitigating Text Toxicity with Counterfactual Generation ( http://arxiv.org/abs/2405.09948v2 ) ライセンス: Link先を確認 | Milan Bhan, Jean-Noel Vittaut, Nina Achache, Victor Legrand, Nicolas Chesneau, Annabelle Blangero, Juliette Murris, Marie-Jeanne Lesot, | (参考訳) 毒性の緩和は、攻撃的または有害な意味を取り除くためにテキストを言い換えることである。
ニューラル自然言語処理(NLP)モデルは、テキスト毒性を標的とし緩和するために広く利用されている。
しかし、既存のメソッドは、最初の非有毒な意味を同時に保存しながら、テキストをデトックスすることができない。
そこで本研究では,eXplainable AI(XAI)フィールドからの反ファクト生成手法を,テキスト毒性の標的と軽減に応用することを提案する。
特に,有毒テキストと非有毒テキストを区別した毒性分類器に,局所的特徴重要度と反事実生成法を適用して,テキストの解毒を行う。
3つのデータセットの反ファクト生成を通じてテキストデトックスを行い、我々のアプローチを3つの競合相手と比較する。
近年開発されたNLPカウンターファクトジェネレータは, 従来の解毒法と比較して, 初期テキストの意味を保存し, 毒性を正確に低減できることがわかった。
最後に、自動解毒ツールの使用から一歩後退し、毒性の多義性や有害な解毒ツールの使用リスクの管理方法について論じる。
この研究は、アンチファクト生成とテキストのデトックス化のギャップを埋め、より実用的なXAI手法への道を開く最初のものである。
Toxicity mitigation consists in rephrasing text in order to remove offensive or harmful meaning. Neural natural language processing (NLP) models have been widely used to target and mitigate textual toxicity. However, existing methods fail to detoxify text while preserving the initial non-toxic meaning at the same time. In this work, we propose to apply counterfactual generation methods from the eXplainable AI (XAI) field to target and mitigate textual toxicity. In particular, we perform text detoxification by applying local feature importance and counterfactual generation methods to a toxicity classifier distinguishing between toxic and non-toxic texts. We carry out text detoxification through counterfactual generation on three datasets and compare our approach to three competitors. Automatic and human evaluations show that recently developed NLP counterfactual generators can mitigate toxicity accurately while better preserving the meaning of the initial text as compared to classical detoxification methods. Finally, we take a step back from using automated detoxification tools, and discuss how to manage the polysemous nature of toxicity and the risk of malicious use of detoxification tools. This work is the first to bridge the gap between counterfactual generation and text detoxification and paves the way towards more practical application of XAI methods. | 翻訳日:2024-08-07 18:52:52 公開日:2024-08-06 |
# コンピュータ閾値のトレーニング:AI規制の特徴と機能
Training Compute Thresholds: Features and Functions in AI Regulation ( http://arxiv.org/abs/2405.10799v2 ) ライセンス: Link先を確認 | Lennart Heim, Leonie Koessler, | (参考訳) 米国とEUのレギュレータは、トレーニング計算に基づくしきい値(GPAI(General-purpose Artificial Intelligence)モデルを特定するために、トレーニングで使用される計算操作の数)を使用している。
現在、トレーニング計算は、規制の監視とさらなる精査に値するGPAIモデルを特定するのに最も適した指標である、と我々は主張する。
トレーニングは、モデル能力とリスクと相関し、定量化され、AIライフサイクルの初期段階で測定され、外部アクターによって検証される。
これらの特徴は、追加の規制要件と精査をトリガーする初期フィルタとして機能する他の提案されたメトリクスよりも、計算しきい値がかなり適している。
しかし、トレーニング計算はリスクに対する不完全なプロキシである。
そのため、適切な緩和策を決定するために計算しきい値を単独で使用するべきではない。
その代わりに、通知要求などの規制上の監督を保証し、モデル評価やリスク評価を通じてさらなる監視を行うような、潜在的に危険なGPAIモデルを検出するために使用すべきであり、その結果は、どの緩和措置が適切であるかを知らせる可能性がある。
実際、これは今日の計算しきい値の使用方法と大きく一致しているように見える。
GPAI技術と市場構造が進化するにつれて、規制当局は計算しきい値を更新し、他のメトリクスを規制審査プロセスに補完する必要がある。
Regulators in the US and EU are using thresholds based on training compute--the number of computational operations used in training--to identify general-purpose artificial intelligence (GPAI) models that may pose risks of large-scale societal harm. We argue that training compute currently is the most suitable metric to identify GPAI models that deserve regulatory oversight and further scrutiny. Training compute correlates with model capabilities and risks, is quantifiable, can be measured early in the AI lifecycle, and can be verified by external actors, among other advantageous features. These features make compute thresholds considerably more suitable than other proposed metrics to serve as an initial filter to trigger additional regulatory requirements and scrutiny. However, training compute is an imperfect proxy for risk. As such, compute thresholds should not be used in isolation to determine appropriate mitigation measures. Instead, they should be used to detect potentially risky GPAI models that warrant regulatory oversight, such as through notification requirements, and further scrutiny, such as via model evaluations and risk assessments, the results of which may inform which mitigation measures are appropriate. In fact, this appears largely consistent with how compute thresholds are used today. As GPAI technology and market structures evolve, regulators should update compute thresholds and complement them with other metrics into regulatory review processes. | 翻訳日:2024-08-07 18:52:52 公開日:2024-08-06 |
# Hummer: 限定的な競合的推論データセットを目指して
Hummer: Towards Limited Competitive Preference Dataset ( http://arxiv.org/abs/2405.11647v3 ) ライセンス: Link先を確認 | Li Jiang, Yusen Wu, Junwu Xiong, Jingqing Ruan, Yichuan Ding, Qingpei Guo, Zujie Wen, Jun Zhou, Xiaotie Deng, | (参考訳) 優先データセットは、人間の好みを事前訓練された言語モデルに組み込むのに不可欠であり、ヒューマンフィードバックからの強化学習の成功に重要な役割を果たす。
しかし、これらのデータセットは矛盾するアライメントの目的を示すことが多く、ジェイルブレイク攻撃に対する脆弱性の増加や、下流のタスクを適用して特定のアライメントの目的を、他人に悪影響を及ぼすことなく優先順位付けする際の課題に繋がる。
本研究では,選好データセット内の競合の度合いを定量化するために,新しい統計量であるアライメント・ディメンション・コンフリクトを導入する。
次に,その微粒な変種である \texttt{Hummer-F} を,縮小コンフリクトなアライメント目的を持つイノベーティブなペアワイズ選好データセットとして提示する。
texttt{Hummer}はUltraFeedbackに基づいて構築されており、GPT-4からのAIフィードバックによって強化されている。
さらに,HummerRMとHummerRM-Fという,多様なアライメント目的を効果的にバランスさせるハイブリッドサンプリング手法を開発した。
このサンプリング方法は、HummerRMをドメイン固有のさらなる微調整と攻撃に対する脆弱性の低減のための理想的なモデルとして位置づける。
Preference datasets are essential for incorporating human preferences into pre-trained language models, playing a key role in the success of Reinforcement Learning from Human Feedback. However, these datasets often demonstrate conflicting alignment objectives, leading to increased vulnerability to jailbreak attacks and challenges in adapting downstream tasks to prioritize specific alignment objectives without negatively impacting others. In this work, we introduce a novel statistical metric, Alignment Dimension Conflict, to quantify the degree of conflict within preference datasets. We then present \texttt{Hummer} and its fine-grained variant, \texttt{Hummer-F}, as innovative pairwise preference datasets with reduced-conflict alignment objectives. \texttt{Hummer} is built based on UltraFeedback and is enhanced by AI feedback from GPT-4, marking as the first preference dataset aimed at reducing the competition between alignment objectives. Furthermore, we develop reward models, HummerRM and HummerRM-F, which employ a hybrid sampling approach to balance diverse alignment objectives effectively. This sampling method positions HummerRM as an ideal model for domain-specific further fine-tuning and reducing vulnerabilities to attacks. | 翻訳日:2024-08-07 18:52:52 公開日:2024-08-06 |
# PT43D:高輝度RGB画像から3次元形状を生成する確率変換器
PT43D: A Probabilistic Transformer for Generating 3D Shapes from Single Highly-Ambiguous RGB Images ( http://arxiv.org/abs/2405.11914v2 ) ライセンス: Link先を確認 | Yiheng Xiong, Angela Dai, | (参考訳) ロボット工学などの様々な応用において,単一のRGB画像から3次元形状を生成することが不可欠である。
現行のアプローチでは、物体の鮮明で完全な視覚的記述を含むイメージをターゲットとしており、物体の観察がおおむね無視される、あるいは取り消される、一般的な現実的なケースを考慮しない。
そこで本稿では,RGB画像上の3次元形状の確率分布を生成するトランスフォーマーを用いた自己回帰モデルを提案する。
閉塞や視野の切り離しといった現実的なシナリオに対処するために、実世界のシナリオの微調整を改善するために、シミュレートされた画像と形状のトレーニングペアを作成します。
次に、入力画像から最も関連性の高い領域を効果的に識別し、形状生成を行う。
これにより、適切な多様性と入力画像との強い整合性を持つサンプル形状の推測が可能となる。
合成データに基づいてモデルをトレーニングし、テストし、微調整し、実世界のデータでテストします。
実験により、どちらのシナリオにおいても、我々のモデルは最先端よりも優れています。
Generating 3D shapes from single RGB images is essential in various applications such as robotics. Current approaches typically target images containing clear and complete visual descriptions of the object, without considering common realistic cases where observations of objects that are largely occluded or truncated. We thus propose a transformer-based autoregressive model to generate the probabilistic distribution of 3D shapes conditioned on an RGB image containing potentially highly ambiguous observations of the object. To handle realistic scenarios such as occlusion or field-of-view truncation, we create simulated image-to-shape training pairs that enable improved fine-tuning for real-world scenarios. We then adopt cross-attention to effectively identify the most relevant region of interest from the input image for shape generation. This enables inference of sampled shapes with reasonable diversity and strong alignment with the input image. We train and test our model on our synthetic data then fine-tune and test it on real-world data. Experiments demonstrate that our model outperforms state of the art in both scenarios. | 翻訳日:2024-08-07 18:52:52 公開日:2024-08-06 |
# 任意の領域上の時空間偏微分方程式に対する有限要素に基づく物理インフォームド演算子学習フレームワーク
A finite element-based physics-informed operator learning framework for spatiotemporal partial differential equations on arbitrary domains ( http://arxiv.org/abs/2405.12465v3 ) ライセンス: Link先を確認 | Yusuke Yamazaki, Ali Harandi, Mayu Muramatsu, Alexandre Viardin, Markus Apel, Tim Brepols, Stefanie Reese, Shahed Rezaei, | (参考訳) 偏微分方程式(PDE)によって支配される時空間力学を予測できる,有限要素に基づく物理インフォームド演算子学習フレームワークを提案する。
提案フレームワークは、有限要素法(FEM)にヒントを得た損失関数と、暗黙のオイラー時間積分方式を用いる。
過渡的な熱伝導問題は、性能をベンチマークするために考慮される。
提案した演算子学習フレームワークは、現在の時間ステップで温度場を入力として、次の時間ステップで温度場を予測する。
熱方程式の離散化弱定式化は、有限作用素学習(FOL)と呼ばれる損失関数に物理学を組み込むために用いられる。
トレーニング中、ネットワークは、FEM溶液と比較して高い精度で初期温度場の時間的変化を予測することに成功した。
この枠組みは、不均一な熱伝導率と任意の幾何学にも適用可能であることが確認されている。
まず、トレーニングは教師なしの方法で行われ、コストのかかるシミュレーションや実験で準備された大規模なデータセットが不要になる。
代わりに、ガウス乱数過程とフーリエ級数によって生成されたランダムな温度パターンと一定の温度場が組み合わさって起こりうる温度ケースをカバーするためのトレーニングデータとして使用される。
第二に、整形関数と後方差分近似が領域の離散化に利用され、純粋に代数方程式となる。
これにより、重みとバイアスを最適化する際の時間を要する自動微分を回避し、識別エラーを許容しながら、トレーニング効率を高めることができる。
最後に、FEMの補間力のおかげで、任意の幾何学はFOLで扱える。
We propose a novel finite element-based physics-informed operator learning framework that allows for predicting spatiotemporal dynamics governed by partial differential equations (PDEs). The proposed framework employs a loss function inspired by the finite element method (FEM) with the implicit Euler time integration scheme. A transient thermal conduction problem is considered to benchmark the performance. The proposed operator learning framework takes a temperature field at the current time step as input and predicts a temperature field at the next time step. The Galerkin discretized weak formulation of the heat equation is employed to incorporate physics into the loss function, which is coined finite operator learning (FOL). Upon training, the networks successfully predict the temperature evolution over time for any initial temperature field at high accuracy compared to the FEM solution. The framework is also confirmed to be applicable to a heterogeneous thermal conductivity and arbitrary geometry. The advantages of FOL can be summarized as follows: First, the training is performed in an unsupervised manner, avoiding the need for a large data set prepared from costly simulations or experiments. Instead, random temperature patterns generated by the Gaussian random process and the Fourier series, combined with constant temperature fields, are used as training data to cover possible temperature cases. Second, shape functions and backward difference approximation are exploited for the domain discretization, resulting in a purely algebraic equation. This enhances training efficiency, as one avoids time-consuming automatic differentiation when optimizing weights and biases while accepting possible discretization errors. Finally, thanks to the interpolation power of FEM, any arbitrary geometry can be handled with FOL, which is crucial to addressing various engineering application scenarios. | 翻訳日:2024-08-07 18:42:52 公開日:2024-08-06 |
# 自動グラフトポロジ対応変圧器
Automatic Graph Topology-Aware Transformer ( http://arxiv.org/abs/2405.19779v2 ) ライセンス: Link先を確認 | Chao Wang, Jiaxuan Zhao, Lingling Li, Licheng Jiao, Fang Liu, Shuyuan Yang, | (参考訳) 既存の取り組みは、グラフ変換器のための多くのトポロジとグラフ認識戦略の設計に重点を置いており、モデルの表現能力を大幅に改善している。
しかし、特定のグラフデータセットやタスクに適したTransformerアーキテクチャを手動で決定するには、豊富な専門知識と精巧な試行が必要だ。
本稿では,強力なグラフ変換器の構築を自動化するために,進化的グラフ変換器アーキテクチャ探索フレームワーク(EGTAS)を提案する。
マイクロレベルおよびマクロレベルの設計による包括的グラフトランスフォーマー検索空間を構築した。
EGTASはマクロレベルでのグラフトランスフォーマートポロジとマイクロレベルでのグラフ認識戦略を進化させる。
さらに、グラフ変換器の性能を直接予測するために、汎用的なアーキテクチャ符号化に基づく代理モデルを提案し、進化的探索の評価コストを大幅に削減した。
グラフレベルおよびノードレベルのタスクにまたがるEGTASの有効性を実証し、小規模および大規模のグラフデータセットを包含する。
実験結果とアブレーション研究により、EGTASは最先端のマニュアルや自動化ベースラインに匹敵する高性能なアーキテクチャを構築することができることが示された。
Existing efforts are dedicated to designing many topologies and graph-aware strategies for the graph Transformer, which greatly improve the model's representation capabilities. However, manually determining the suitable Transformer architecture for a specific graph dataset or task requires extensive expert knowledge and laborious trials. This paper proposes an evolutionary graph Transformer architecture search framework (EGTAS) to automate the construction of strong graph Transformers. We build a comprehensive graph Transformer search space with the micro-level and macro-level designs. EGTAS evolves graph Transformer topologies at the macro level and graph-aware strategies at the micro level. Furthermore, a surrogate model based on generic architectural coding is proposed to directly predict the performance of graph Transformers, substantially reducing the evaluation cost of evolutionary search. We demonstrate the efficacy of EGTAS across a range of graph-level and node-level tasks, encompassing both small-scale and large-scale graph datasets. Experimental results and ablation studies show that EGTAS can construct high-performance architectures that rival state-of-the-art manual and automated baselines. | 翻訳日:2024-08-07 18:42:52 公開日:2024-08-06 |
# 微調整パラドックス:LLM能力を犠牲にすることなく翻訳品質を高める
The Fine-Tuning Paradox: Boosting Translation Quality Without Sacrificing LLM Abilities ( http://arxiv.org/abs/2405.20089v2 ) ライセンス: Link先を確認 | David Stap, Eva Hasler, Bill Byrne, Christof Monz, Ke Tran, | (参考訳) 機械翻訳のための微調整大型言語モデル(LLM)は、全体的な翻訳品質が改善されている。
しかし、ステアビリティ、本質的な文書レベルの翻訳能力、リテラルの少ない翻訳能力など、ニューラルネットワーク翻訳モデルに存在しない望ましいLCM動作に微調整が与える影響は明らかでない。
モデルサイズは70億から65億のパラメータまで様々である。
その結果, 微調整によりLLMの翻訳品質は向上するが, いくつかの能力は低下することがわかった。
特に、フォーマルなステアリングを行う能力の低下、少数例による技術的翻訳の作成、文書レベルの翻訳を行う能力の低下を観察する。
一方,並列データに微調整を施した後のリテラルの減少が観察された。
細調整データの一部として単言語データを含めることで,全体の翻訳品質を同時に向上しながら能力を維持することができることを示す。
本研究は,機械翻訳におけるLLMの利点を保った微調整戦略の必要性を強調した。
Fine-tuning large language models (LLMs) for machine translation has shown improvements in overall translation quality. However, it is unclear what is the impact of fine-tuning on desirable LLM behaviors that are not present in neural machine translation models, such as steerability, inherent document-level translation abilities, and the ability to produce less literal translations. We perform an extensive translation evaluation on the LLaMA and Falcon family of models with model size ranging from 7 billion up to 65 billion parameters. Our results show that while fine-tuning improves the general translation quality of LLMs, several abilities degrade. In particular, we observe a decline in the ability to perform formality steering, to produce technical translations through few-shot examples, and to perform document-level translation. On the other hand, we observe that the model produces less literal translations after fine-tuning on parallel data. We show that by including monolingual data as part of the fine-tuning data we can maintain the abilities while simultaneously enhancing overall translation quality. Our findings emphasize the need for fine-tuning strategies that preserve the benefits of LLMs for machine translation. | 翻訳日:2024-08-07 18:42:52 公開日:2024-08-06 |
# ペナルタイズリーストスクエアを用いたシンボリック回帰における形状制約
Shape Constraints in Symbolic Regression using Penalized Least Squares ( http://arxiv.org/abs/2405.20800v2 ) ライセンス: Link先を確認 | Viktor Martinek, Julia Reuter, Ophelia Frotscher, Sanaz Mostaghim, Markus Richter, Roland Herzog, | (参考訳) 記号回帰 (SR) のパラメータ識別段階において, 形状制約 (SC) の追加とその考慮について検討した。
SCは、他の未知のモデル関数の形状に関する事前知識をSRに導入する手段として機能する。
SRでSCを探索した以前の研究とは異なり、勾配に基づく数値最適化を用いてパラメータ識別時にSC違反を最小限に抑えることを提案する。
合成されたデータセットから3つのシンボリック表現を同定し,その性能を評価するために,3つのアルゴリズム変種を検証した。
本稿では,騒音レベルが異なる場合と,トレーニングデータの量が少ない場合の2つのベンチマークシナリオについて検討する。
その結果,データ不足時にSCを表現検索に組み込むことが特に有用であることが示唆された。
選択プロセスでのみSCを使用する場合と比較して,パラメータ識別時の違反を最小限に抑えるというアプローチは,いくつかのテストケースで統計的に有意なメリットを示し,いずれの場合も著しく悪化することはなかった。
We study the addition of shape constraints (SC) and their consideration during the parameter identification step of symbolic regression (SR). SC serve as a means to introduce prior knowledge about the shape of the otherwise unknown model function into SR. Unlike previous works that have explored SC in SR, we propose minimizing SC violations during parameter identification using gradient-based numerical optimization. We test three algorithm variants to evaluate their performance in identifying three symbolic expressions from synthetically generated data sets. This paper examines two benchmark scenarios: one with varying noise levels and another with reduced amounts of training data. The results indicate that incorporating SC into the expression search is particularly beneficial when data is scarce. Compared to using SC only in the selection process, our approach of minimizing violations during parameter identification shows a statistically significant benefit in some of our test cases, without being significantly worse in any instance. | 翻訳日:2024-08-07 18:42:52 公開日:2024-08-06 |
# 検索機能強化画像キャプションにおける検索ロバストさの理解
Understanding Retrieval Robustness for Retrieval-Augmented Image Captioning ( http://arxiv.org/abs/2406.02265v3 ) ライセンス: Link先を確認 | Wenyan Li, Jiaang Li, Rita Ramos, Raphael Tang, Desmond Elliott, | (参考訳) 画像キャプションのための検索強化モデルの最近の進歩は、強力なドメイン転送能力を持つ効率的で軽量なモデルに対して、関連キャプションを検索する利点を浮き彫りにしている。
これらのモデルが検索拡張の成功を示す一方で、検索モデルは実際には完璧には程遠い。
本稿では,検索強化キャプションモデルであるSmallCapのロバスト性を解析する。
分析の結果,検索したキャプションの大多数に現れるトークンに対して,モデルが敏感であること,および入力属性は,これらのトークンが生成された出力にコピーされる可能性が示唆された。
これらの結果を踏まえ、より多様な集合から抽出したキャプションを抽出してモデルを訓練することを提案する。
これにより、モデルがマジョリティトークンをコピーする機会が減り、ドメイン内とクロスドメインのパフォーマンスが向上する。
Recent advances in retrieval-augmented models for image captioning highlight the benefit of retrieving related captions for efficient, lightweight models with strong domain-transfer capabilities. While these models demonstrate the success of retrieval augmentation, retrieval models are still far from perfect in practice: the retrieved information can sometimes mislead the model, resulting in incorrect generation and worse performance. In this paper, we analyze the robustness of a retrieval-augmented captioning model SmallCap. Our analysis shows that the model is sensitive to tokens that appear in the majority of the retrieved captions, and the input attribution shows that those tokens are likely copied into the generated output. Given these findings, we propose to train the model by sampling retrieved captions from more diverse sets. This decreases the chance that the model learns to copy majority tokens, and improves both in-domain and cross-domain performance. | 翻訳日:2024-08-07 18:42:52 公開日:2024-08-06 |
# GenAI Arena: 生成モデルのためのオープンな評価プラットフォーム
GenAI Arena: An Open Evaluation Platform for Generative Models ( http://arxiv.org/abs/2406.04485v3 ) ライセンス: Link先を確認 | Dongfu Jiang, Max Ku, Tianle Li, Yuansheng Ni, Shizhuo Sun, Rongqi Fan, Wenhu Chen, | (参考訳) 生成AIは、画像やビデオ生成などの分野に革命を起こすために、目覚ましい努力をしてきた。
これらの進歩は革新的なアルゴリズム、アーキテクチャ、データによって駆動される。
しかし、生成モデルの急速な普及は、信頼に値する評価指標の欠如という重大なギャップを浮き彫りにした。
FID、CLIP、FVDなどの現在の自動評価は、生成出力に関連する微妙な品質とユーザの満足度を捉えるのに失敗することが多い。
本稿では,様々な画像および映像生成モデルを評価するためのオープンプラットフォームGenAI-Arenaを提案する。
GenAI-Arenaは、ユーザからのフィードバックと投票の集合を利用して、より民主的で正確なモデルパフォーマンス測定を提供することを目指している。
テキスト・ツー・イメージ・ジェネレーション、テキスト・ツー・ビデオ・ジェネレーション、画像編集の3つのアリーナをカバーしている。
現在、27のオープンソース生成モデルをカバーしています。
GenAI-Arenaは4ヶ月前から運営しており、コミュニティから6000票以上を集めている。
当社のプラットフォームを記述し、データを解析し、モデルランキングの統計手法を説明します。
モデルに基づく評価指標の構築に関する研究をさらに促進するため,GenAI-Benchという3つのタスクの選好データのクリーン化版をリリースする。
GeminiやGPT-4oのような既存のマルチモーダルモデルに、人間の投票を模倣するよう促します。
モデル投票と人投票の相関関係を計算し,その判断能力について考察する。
GPT-4oの最適モデルでさえ、品質サブスコアの0.22のピアソン相関を達成でき、他人のランダムな推測のように振る舞う。
Generative AI has made remarkable strides to revolutionize fields such as image and video generation. These advancements are driven by innovative algorithms, architecture, and data. However, the rapid proliferation of generative models has highlighted a critical gap: the absence of trustworthy evaluation metrics. Current automatic assessments such as FID, CLIP, FVD, etc often fail to capture the nuanced quality and user satisfaction associated with generative outputs. This paper proposes an open platform GenAI-Arena to evaluate different image and video generative models, where users can actively participate in evaluating these models. By leveraging collective user feedback and votes, GenAI-Arena aims to provide a more democratic and accurate measure of model performance. It covers three arenas for text-to-image generation, text-to-video generation, and image editing respectively. Currently, we cover a total of 27 open-source generative models. GenAI-Arena has been operating for four months, amassing over 6000 votes from the community. We describe our platform, analyze the data, and explain the statistical methods for ranking the models. To further promote the research in building model-based evaluation metrics, we release a cleaned version of our preference data for the three tasks, namely GenAI-Bench. We prompt the existing multi-modal models like Gemini, GPT-4o to mimic human voting. We compute the correlation between model voting with human voting to understand their judging abilities. Our results show existing multimodal models are still lagging in assessing the generated visual content, even the best model GPT-4o only achieves a Pearson correlation of 0.22 in the quality subscore, and behaves like random guessing in others. | 翻訳日:2024-08-07 18:42:52 公開日:2024-08-06 |
# OpenECAD: 編集可能な3D-CAD設計のための効率的なビジュアル言語モデル
OpenECAD: An Efficient Visual Language Model for Editable 3D-CAD Design ( http://arxiv.org/abs/2406.09913v3 ) ライセンス: Link先を確認 | Zhe Yuan, Jianqi Shi, Yanhong Huang, | (参考訳) コンピュータ支援デザイン(CAD)ツールは、カップから宇宙船まであらゆるものをモデリングするために製造業界で利用されている。
これらのプログラムは使用が複雑で、通常、習得するには何年ものトレーニングと経験が必要です。
CADモデリングの重要な要素は、構造的かつ制約の厳しい2Dスケッチと3D構成である。
優れたCADモデルを製造工程にシームレスに統合することにより、生産効率を向上させることができる。
3次元形状の深部生成モデルと3次元オブジェクト再構成モデルは、重要な研究の関心を集めている。
しかし、これらのモデルのほとんどは編集不可能な離散的な3Dオブジェクトを生成する。
さらに、CAD操作に基づく数少ないモデルには、かなりの入力制限があることが多い。
本研究では,OpenECADモデル(0.55B,0.89B,2.4B,3.1B)を作成するために,学習済みモデルを微調整し,視覚的,論理的,コーディング的,汎用的な機能を活用する。
OpenECADモデルは、入力として3Dデザインの画像を処理することができ、高度に構造化された2Dスケッチと3D構築コマンドを生成し、設計が編集可能であることを保証する。
これらの出力は、プロジェクトファイルを生成するために既存のCADツールのAPIで直接使用することができる。
ネットワークをトレーニングするために、一連のOpenECADデータセットを作成しました。
これらのデータセットは既存のCADデータセットから派生したもので、視覚言語モデル(VLM)トレーニングの特定の要件を満たすように調整および拡張されている。
さらに、依存関係関係を利用してスケッチを定義し、生成し、データセットの内容と機能をさらに強化するアプローチも導入しました。
Computer-aided design (CAD) tools are utilized in the manufacturing industry for modeling everything from cups to spacecraft. These programs are complex to use and typically require years of training and experience to master. Structured and well-constrained 2D sketches and 3D constructions are crucial components of CAD modeling. A well-executed CAD model can be seamlessly integrated into the manufacturing process, thereby enhancing production efficiency. Deep generative models of 3D shapes and 3D object reconstruction models have garnered significant research interest. However, most of these models produce discrete forms of 3D objects that are not editable. Moreover, the few models based on CAD operations often have substantial input restrictions. In this work, we fine-tuned pre-trained models to create OpenECAD models (0.55B, 0.89B, 2.4B and 3.1B), leveraging the visual, logical, coding, and general capabilities of visual language models. OpenECAD models can process images of 3D designs as input and generate highly structured 2D sketches and 3D construction commands, ensuring that the designs are editable. These outputs can be directly used with existing CAD tools' APIs to generate project files. To train our network, we created a series of OpenECAD datasets. These datasets are derived from existing public CAD datasets, adjusted and augmented to meet the specific requirements of vision language model (VLM) training. Additionally, we have introduced an approach that utilizes dependency relationships to define and generate sketches, further enriching the content and functionality of the datasets. | 翻訳日:2024-08-07 18:42:52 公開日:2024-08-06 |
# STAR: レッドチーム言語モデルに対する社会技術的アプローチ
STAR: SocioTechnical Approach to Red Teaming Language Models ( http://arxiv.org/abs/2406.11757v3 ) ライセンス: Link先を確認 | Laura Weidinger, John Mellor, Bernat Guillen Pegueroles, Nahema Marchal, Ravin Kumar, Kristian Lum, Canfer Akbulut, Mark Diaz, Stevie Bergman, Mikel Rodriguez, Verena Rieser, William Isaac, | (参考訳) 本研究は,大規模言語モデルのレッド・チーム・セーフ化に向けた現在のベストプラクティスを改善するための社会技術フレームワークSTARを紹介する。
STARは、人間のレッドチームのためにパラメータ化された命令を生成することによって、ステアビリティを高めることで、リスクサーフェスのカバレッジを向上する。
パラメータ化された命令はまた、コストの上昇なしにモデル失敗に関するより詳細な洞察を提供する。
第2に、STARは、特定のグループに対する害を評価するために、人口層をマッチングすることで信号品質を改善し、より敏感なアノテーションをもたらす。
STARはさらに、多様な視点を活用し、ラベルの信頼性を向上させるための新たな調停のステップを採用し、不一致をノイズとしてではなく、信号品質への価値ある貢献として扱う。
This research introduces STAR, a sociotechnical framework that improves on current best practices for red teaming safety of large language models. STAR makes two key contributions: it enhances steerability by generating parameterised instructions for human red teamers, leading to improved coverage of the risk surface. Parameterised instructions also provide more detailed insights into model failures at no increased cost. Second, STAR improves signal quality by matching demographics to assess harms for specific groups, resulting in more sensitive annotations. STAR further employs a novel step of arbitration to leverage diverse viewpoints and improve label reliability, treating disagreement not as noise but as a valuable contribution to signal quality. | 翻訳日:2024-08-07 18:42:52 公開日:2024-08-06 |
# インターリーブ型テキスト・画像生成のためのホロスティック評価
Holistic Evaluation for Interleaved Text-and-Image Generation ( http://arxiv.org/abs/2406.14643v2 ) ライセンス: Link先を確認 | Minqian Liu, Zhiyang Xu, Zihao Lin, Trevor Ashby, Joy Rimchala, Jiaxin Zhang, Lifu Huang, | (参考訳) インターリーブされたテキスト・画像生成は興味深い研究方向であり、モデルが任意の順序で画像とテキストの両方を生成する必要がある。
インターリーブ世代の発展にもかかわらず、その評価の進歩は依然として著しく遅れている。
既存の評価ベンチマークでは、入力と出力の両方に対して任意にインターリーブされた画像とテキストをサポートしておらず、限られた数のドメインとユースケースしかカバーしていない。
また、現在の作業では、オープンエンドのシナリオの品質を評価するのに不足する類似度ベースのメトリクスを主に使用しています。
この目的のために、インターリーブドベンチ(InterleavedBench)を導入し、インターリーブドテキスト・画像生成の評価を慎重に行う。
InterleavedBenchは、さまざまな現実世界のユースケースをカバーする、豊富なタスク群を備えている。
また、GPT-4oをベースとした強力な基準フリーメトリックであるInterleavedEvalを提案し、正確で説明可能な評価を行う。
テキスト品質,知覚品質,画像コヒーレンス,画像コヒーレンス,テキスト画像コヒーレンス,有用性など,InterleavedEvalに不可欠な5つの側面を慎重に定義し,包括的かつきめ細かな評価を確実にする。
本研究では,従来の基準基準を超越した人的判断と強い相関関係を持つ既存モデルの評価を,広範囲にわたる実験と厳密な人的評価を通じて効果的に行うことができることを示す。
我々はまた、インターリーブ世代における今後の研究を促進するための重要な知見と洞察を与え、その評価を行った。
Interleaved text-and-image generation has been an intriguing research direction, where the models are required to generate both images and text pieces in an arbitrary order. Despite the emerging advancements in interleaved generation, the progress in its evaluation still significantly lags behind. Existing evaluation benchmarks do not support arbitrarily interleaved images and text for both inputs and outputs, and they only cover a limited number of domains and use cases. Also, current works predominantly use similarity-based metrics which fall short in assessing the quality in open-ended scenarios. To this end, we introduce InterleavedBench, the first benchmark carefully curated for the evaluation of interleaved text-and-image generation. InterleavedBench features a rich array of tasks to cover diverse real-world use cases. In addition, we present InterleavedEval, a strong reference-free metric powered by GPT-4o to deliver accurate and explainable evaluation. We carefully define five essential evaluation aspects for InterleavedEval, including text quality, perceptual quality, image coherence, text-image coherence, and helpfulness, to ensure a comprehensive and fine-grained assessment. Through extensive experiments and rigorous human evaluation, we show that our benchmark and metric can effectively evaluate the existing models with a strong correlation with human judgments surpassing previous reference-based metrics. We also provide substantial findings and insights to foster future research in interleaved generation and its evaluation. | 翻訳日:2024-08-07 18:42:52 公開日:2024-08-06 |
# 2次元における量子臨界基底状態の不均一な断熱準備
Inhomogeneous adiabatic preparation of a quantum critical ground state in two dimensions ( http://arxiv.org/abs/2406.14989v2 ) ライセンス: Link先を確認 | Ihor Sokolov, Francis A. Bayocboc Jr., Marek M. Rams, Jacek Dziarmaga, | (参考訳) 臨界基底状態の断熱的調製は、システムサイズが大きくなるにつれてエネルギーギャップの閉鎖によって妨げられる。
しかし、このギャップは、ハミルトニアンの制御パラメータが量子臨界点に向かって一様に調整される一様ランプにのみ直接関係している。
ここでは不均質なランプを2次元で考える: まず、パラメータは格子の中心で臨界となり、そこで臨界領域は一定の速度で膨張する。
1Dおよび2D量子イジングモデルでは、臨界点における音速が明確に定義された場合、ランプは亜音速で断熱する。
このサブソニックランプは、均一なランプよりも早く臨界状態を作成することができる。
さらに、$p$波対2Dフェルミオンモデルと北エフモデルの両方のモデルでは、臨界分散は異方性であり、一方は非ゼロ速度、もう一方は二次性を持つが、そのギャップは臨界領域の線形サイズに逆比例し、非ゼロ速度に比例する。
これにより、不均一ランプの断面積を有限交叉速度以下に抑え、同次ランプよりも優れている。
Adiabatic preparation of a critical ground state is hampered by the closing of its energy gap as the system size increases. However, this gap is directly relevant only for a uniform ramp, where a control parameter in the Hamiltonian is tuned uniformly in space towards the quantum critical point. Here, we consider inhomogeneous ramps in two dimensions: initially, the parameter is made critical at the center of a lattice, from where the critical region expands at a fixed velocity. In the 1D and 2D quantum Ising models, which have a well-defined speed of sound at the critical point, the ramp becomes adiabatic with a subsonic velocity. This subsonic ramp can prepare the critical state faster than a uniform one. Moreover, in both a model of $p$-wave paired 2D fermions and the Kitaev model, the critical dispersion is anisotropic -- linear with a nonzero velocity in one direction and quadratic in the other -- but the gap is still inversely proportional to the linear size of the critical region, with a coefficient proportional to the nonzero velocity. This suffices to make the inhomogeneous ramp adiabatic below a finite crossover velocity and superior to the homogeneous one. | 翻訳日:2024-08-07 18:42:52 公開日:2024-08-06 |
# バイアニソトロピックマイクロ波共振器の全誘電体正方格子アレイのエッジ状態
Edge states in all-dielectric square-lattice arrays of bianisotropic microwave resonators ( http://arxiv.org/abs/2406.15246v2 ) ライセンス: Link先を確認 | Alina D. Rozenblit, Georgiy D. Kurganov, Nikita A. Olekhno, | (参考訳) 誘電体共振器のミラー対称性に付随するバイアニソトロピック応答は、そのような共振器の単純な正方格子配列でバンドギャップを開くことができることを示す。
提案方式は、GHz周波数で動作する高密度セラミック共振器のアレイとして実現し、両異方性共振器の対向方向と単一領域と自由空間の境界における界面におけるエッジ状態の存在を数値的および実験的に示す。
いずれの場合も, エッジ状態の分散, 鋭い屈曲に沿った伝播, 様々な幾何学的欠陥に対する反発性, 円偏光励起の場合のスピンモーメントロック一方向伝播を特徴付ける。
検討された設計は、異なる共振器領域または共振器領域と自由空間の間の界面にエッジ状態を含む光学構造とマイクロ波構造を同時に構築する新たな可能性を開く。
We demonstrate that a bianisotropic response associated with a broken mirror symmetry of a dielectric resonator allows opening the bandgap in simple square lattice arrays of such resonators. Realizing the proposed system as an array of high-index ceramic resonators working at GHz frequencies, we numerically and experimentally demonstrate the presence of edge states at the interface between two domains with opposite orientations of the bianisotropic resonators as well as at the boundary between a single domain and free space. For both cases, we characterize the dispersion of edge states, examine their propagation along sharp bends, their resilience towards various types of geometrical defects, and a spin-momentum locked unidirectional propagation in the case of circularly polarized excitation. The considered design opens novel possibilities in constructing optical and microwave structures simultaneously featuring edge states at the interfaces between distinct resonator domains or a resonator domain and free space. | 翻訳日:2024-08-07 18:42:52 公開日:2024-08-06 |
# 法的判断予測のためのLLMにおける識別的推論
Enabling Discriminative Reasoning in LLMs for Legal Judgment Prediction ( http://arxiv.org/abs/2407.01964v4 ) ライセンス: Link先を確認 | Chenlong Deng, Kelong Mao, Yuyao Zhang, Zhicheng Dou, | (参考訳) 司法効率を高めるためには法的判断の予測が不可欠である。
本研究では,既存の大規模言語モデル (LLM) が,ケースの複雑さを理解し,類似の電荷を区別することの難しさから,この領域で性能が低下していることを明らかにする。
有効な法的判断予測にLLMを適用するために,人間の司法的推論に触発されたAsk-Discriminate-Predict(ADAPT)推論の枠組みを導入する。
ADAPTは、ケース事実を分解し、潜在的な電荷を識別し、最終的な判断を予測する。
我々は,多タスク合成軌道の微調整によりLLMをさらに強化し,ADAPTフレームワークの法定判定精度と効率を向上させる。
広範に使われている2つのデータセットで実施された大規模な実験は、特に複雑で紛らわしい電荷を扱う場合、法的な判断の予測において、我々のフレームワークの優れた性能を示す。
Legal judgment prediction is essential for enhancing judicial efficiency. In this work, we identify that existing large language models (LLMs) underperform in this domain due to challenges in understanding case complexities and distinguishing between similar charges. To adapt LLMs for effective legal judgment prediction, we introduce the Ask-Discriminate-Predict (ADAPT) reasoning framework inspired by human judicial reasoning. ADAPT involves decomposing case facts, discriminating among potential charges, and predicting the final judgment. We further enhance LLMs through fine-tuning with multi-task synthetic trajectories to improve legal judgment prediction accuracy and efficiency under our ADAPT framework. Extensive experiments conducted on two widely-used datasets demonstrate the superior performance of our framework in legal judgment prediction, particularly when dealing with complex and confusing charges. | 翻訳日:2024-08-07 18:42:52 公開日:2024-08-06 |
# LOGIC-LM++:シンボリックな定式化のためのマルチステップリファインメント
LOGIC-LM++: Multi-Step Refinement for Symbolic Formulations ( http://arxiv.org/abs/2407.02514v3 ) ライセンス: Link先を確認 | Shashank Kirtania, Priyanshu Gupta, Arjun Radhakirshna, | (参考訳) 本稿では,複雑な推論タスクに対するLarge Language Models(LLM)の限界について検討する。
最近の研究は、推論タスクの中間表現として形式言語を使い始めたが、それらの形式仕様を正確に生成し、修正して正確性を保証するという課題に直面していることが多い。
そこで本研究では,Logic-LM++の改良であるLogic-LM++を提案する。
LLMの機能をペアで比較し、LLMが提案する改善点の評価を可能にする。
この論文は、Logic-LM++が3つのデータセット(FOLIO、ProofWriter、AR-LSAT)で自然言語推論タスクにまたがってLogic-LMや他の現代の技術よりも優れており、標準のプロンプトでは平均18.5%、思考の連鎖では12.3%、Logic-LMでは5%であることを示した。
In this paper we examine the limitations of Large Language Models (LLMs) for complex reasoning tasks. Although recent works have started to employ formal languages as an intermediate representation for reasoning tasks, they often face challenges in accurately generating and refining these formal specifications to ensure correctness. To address these issues, this paper proposes Logic-LM++, an improvement on Logic-LM . It uses the ability of LLMs to do pairwise comparisons, allowing the evaluation of the refinements suggested by the LLM. The paper demonstrates that Logic-LM++ outperforms Logic-LM and other contemporary techniques across natural language reasoning tasks on three datasets, FOLIO, ProofWriter and AR-LSAT, with an average improvement of 18.5% on standard prompting, 12.3% on chain of thought prompting and 5% on Logic-LM. | 翻訳日:2024-08-07 18:32:55 公開日:2024-08-06 |
# MVGT:脳波認識のための空間関係に基づく多視点グラフ変換器
MVGT: A Multi-view Graph Transformer Based on Spatial Relations for EEG Emotion Recognition ( http://arxiv.org/abs/2407.03131v3 ) ライセンス: Link先を確認 | Yanjie Cui, Xiaohong Liu, Jing Liang, Yamin Fu, | (参考訳) 脳波(Electroencephalography、EEG)は、電極を介して脳構造の頭皮電気活動を捉える医療画像技術である。
脳波の空間領域は感情情報に富んでいる。
しかし、空間領域における幾何的構造と解剖学的構造の複数の視点から脳波信号を同時に分析する研究はほとんどない。
本稿では,空間的関係に基づく多視点グラフ変換器(MVGT)を提案し,幾何学的・解剖学的構造を含む時間的・周波数的・空間的領域の情報を統合することにより,モデルの表現力を包括的に向上させる。
脳波チャネルの空間情報を符号化としてモデルに組み込むことにより,脳波チャネルの空間構造を知覚する能力を向上させる。
一方, 公開データセットに基づく実験結果から, 提案手法は近年, 最先端の手法よりも優れていることが示された。
さらに、MVGTは複数の領域から情報を抽出し、脳波の感情認識タスクにおけるチャネル間関係を効果的に捉えることができることを示した。
Electroencephalography (EEG), a medical imaging technique that captures scalp electrical activity of brain structures via electrodes, has been widely used in affective computing. The spatial domain of EEG is rich in affective information. However, few of the existing studies have simultaneously analyzed EEG signals from multiple perspectives of geometric and anatomical structures in spatial domain. In this paper, we propose a multi-view Graph Transformer (MVGT) based on spatial relations, which integrates information from the temporal, frequency and spatial domains, including geometric and anatomical structures, so as to enhance the expressive power of the model comprehensively. We incorporate the spatial information of EEG channels into the model as encoding, thereby improving its ability to perceive the spatial structure of the channels. Meanwhile, experimental results based on publicly available datasets demonstrate that our proposed model outperforms state-of-the-art methods in recent years. In addition, the results also show that the MVGT could extract information from multiple domains and capture inter-channel relationships in EEG emotion recognition tasks effectively. | 翻訳日:2024-08-07 18:32:55 公開日:2024-08-06 |
# LLMの敵攻撃に対する防御としての自己評価
Self-Evaluation as a Defense Against Adversarial Attacks on LLMs ( http://arxiv.org/abs/2407.03234v3 ) ライセンス: Link先を確認 | Hannah Brown, Leon Lin, Kenji Kawaguchi, Michael Shieh, | (参考訳) 自己評価を生かした LLM に対する敵攻撃に対する防御策を導入する。
本手法では, モデルファインタニングを必要とせず, 生成モデルの入力と出力を評価するために事前学習モデルを用いることで, 他のファインタニング法と比較して実装コストを大幅に削減する。
提案手法は,Llama-Guard2や一般的に使用されているコンテンツモデレーションAPIによって実証された,オープンおよびクローズドソースLLMの攻撃成功率を大幅に低減することができる。
提案手法の有効性について分析し, 各種設定で評価器を攻撃しようとする試みを含め, 既存の手法よりも攻撃に対する耐性が高いことを示す。
コードとデータはhttps://github.com/Linlt-leon/self-eval.comで公開される。
We introduce a defense against adversarial attacks on LLMs utilizing self-evaluation. Our method requires no model fine-tuning, instead using pre-trained models to evaluate the inputs and outputs of a generator model, significantly reducing the cost of implementation in comparison to other, finetuning-based methods. Our method can significantly reduce the attack success rate of attacks on both open and closed-source LLMs, beyond the reductions demonstrated by Llama-Guard2 and commonly used content moderation APIs. We present an analysis of the effectiveness of our method, including attempts to attack the evaluator in various settings, demonstrating that it is also more resilient to attacks than existing methods. Code and data will be made available at https://github.com/Linlt-leon/self-eval. | 翻訳日:2024-08-07 18:32:55 公開日:2024-08-06 |
# VCHAR:生成表現を用いた可変駆動型複合人間活動認識フレームワーク
VCHAR:Variance-Driven Complex Human Activity Recognition framework with Generative Representation ( http://arxiv.org/abs/2407.03291v2 ) ライセンス: Link先を確認 | Yuan Sun, Navid Salami Pargoo, Taqiya Ehsan, Zhao Zhang, Jorge Ortiz, | (参考訳) 複雑なヒューマンアクティビティ認識(CHAR)は、ユビキタスコンピューティング、特にスマート環境における重要な課題である。
既存の研究は通常、原子活動と複雑な活動の両方を綿密にラベル付けする必要がある。
これまでのほとんどの研究は、原子活動の正確なラベル付けを行うデータセットや、実世界の環境では非現実的なシーケンスアプローチに重点を置いてきた。それに対して、我々は、原子活動のアウトプットを指定された間隔の分布として扱う新しいフレームワークであるVCHAR(Variance-Driven Complex Human Activity Recognition)を紹介した。
生成方法論を活用することで、VCHARは、ビデオベースの説明を通じて複雑なアクティビティ分類の背後にある理由を解明する。
VCHARは、原子活動の正確な時間的・シーケンシャルなラベル付けを必要とせず、複雑な活動認識の精度を高めることを示す。
さらに、ユーザ研究により、VCHARの説明は既存の手法よりも理解しやすいことが確認され、非専門家の間での複雑な活動認識のより広範な理解が促進される。
Complex human activity recognition (CHAR) remains a pivotal challenge within ubiquitous computing, especially in the context of smart environments. Existing studies typically require meticulous labeling of both atomic and complex activities, a task that is labor-intensive and prone to errors due to the scarcity and inaccuracies of available datasets. Most prior research has focused on datasets that either precisely label atomic activities or, at minimum, their sequence approaches that are often impractical in real world settings.In response, we introduce VCHAR (Variance-Driven Complex Human Activity Recognition), a novel framework that treats the outputs of atomic activities as a distribution over specified intervals. Leveraging generative methodologies, VCHAR elucidates the reasoning behind complex activity classifications through video-based explanations, accessible to users without prior machine learning expertise. Our evaluation across three publicly available datasets demonstrates that VCHAR enhances the accuracy of complex activity recognition without necessitating precise temporal or sequential labeling of atomic activities. Furthermore, user studies confirm that VCHAR's explanations are more intelligible compared to existing methods, facilitating a broader understanding of complex activity recognition among non-experts. | 翻訳日:2024-08-07 18:32:55 公開日:2024-08-06 |
# Autoverse: ロバストなエージェントを学習するための進化可能なゲーム言語
Autoverse: An Evolvable Game Language for Learning Robust Embodied Agents ( http://arxiv.org/abs/2407.04221v2 ) ライセンス: Link先を確認 | Sam Earle, Julian Togelius, | (参考訳) シングルプレイヤーの2Dグリッドベースのゲームのための進化可能なドメイン固有言語であるAutoverseを導入し、Open-Ended Learning (OEL)アルゴリズムのスケーラブルなトレーニンググラウンドとしての利用を実証する。
Autoverseはセルラーオートマトンのようなリライトルールを使用してゲームメカニックを記述し、強化学習(RL)エージェントの一般的なテストベッドである様々なゲーム環境(例えば迷路、ダンジョン、ソコバンパズル)を表現できる。
各リライトルールは一連の単純な畳み込みとして表現することができ、GPU上で環境を並列化することで、RLトレーニングを劇的に加速することができる。
本稿では,Autoverseを用いて,探索からの模倣学習によるジャンプ開始型オープンエンド学習を提案する。
このようなアプローチでは、まずAutoverse環境(ルールと初期地図トポロジー)を進化させ、グリージーツリー探索に必要なイテレーション数を最大化し、新しい最良のソリューションを発見し、ますます複雑な環境とプレイトレイスのカリキュラムを作成します。
次に、これらの専門家のプレイトレースを模倣学習を用いてニューラルネットワークベースのポリシーに蒸留する。
最後に、学習したポリシーをオープンエンドRLの出発点として使用し、新たなトレーニング環境を継続的に進化させ、RLプレーヤの値関数エラー(後悔のプロキシ、あるいは生成された環境の学習可能性)を最大化する。
We introduce Autoverse, an evolvable, domain-specific language for single-player 2D grid-based games, and demonstrate its use as a scalable training ground for Open-Ended Learning (OEL) algorithms. Autoverse uses cellular-automaton-like rewrite rules to describe game mechanics, allowing it to express various game environments (e.g. mazes, dungeons, sokoban puzzles) that are popular testbeds for Reinforcement Learning (RL) agents. Each rewrite rule can be expressed as a series of simple convolutions, allowing for environments to be parallelized on the GPU, thereby drastically accelerating RL training. Using Autoverse, we propose jump-starting open-ended learning by imitation learning from search. In such an approach, we first evolve Autoverse environments (their rules and initial map topology) to maximize the number of iterations required by greedy tree search to discover a new best solution, producing a curriculum of increasingly complex environments and playtraces. We then distill these expert playtraces into a neural-network-based policy using imitation learning. Finally, we use the learned policy as a starting point for open-ended RL, where new training environments are continually evolved to maximize the RL player agent's value function error (a proxy for its regret, or the learnability of generated environments), finding that this approach improves the performance and generality of resultant player agents. | 翻訳日:2024-08-07 18:32:55 公開日:2024-08-06 |
# DICOM構造化レポートを用いたフェデレーション学習のためのマルチモーダルデータセット作成
Multi-Modal Dataset Creation for Federated Learning with DICOM Structured Reports ( http://arxiv.org/abs/2407.09064v2 ) ライセンス: Link先を確認 | Malte Tölle, Lukas Burger, Halvar Kelm, Florian André, Peter Bannas, Gerhard Diller, Norbert Frey, Philipp Garthe, Stefan Groß, Anja Hennemuth, Lars Kaderali, Nina Krüger, Andreas Leha, Simon Martin, Alexander Meyer, Eike Nagel, Stefan Orwat, Clemens Scherer, Moritz Seiffert, Jan Moritz Seliger, Stefan Simm, Tim Friede, Tim Seidler, Sandy Engelhardt, | (参考訳) 目的: フェデレーショントレーニングは,多種多様なデータストレージオプション,一貫性のない命名方式,さまざまなアノテーション手順,ラベル品質の相違などにより,不均一なデータセットによって妨げられることが多い。
これは、均一なデータ表現とフィルタリングオプションを含むデータセット調和が最重要となる、新興のマルチモーダル学習パラダイムにおいて特に顕著である。
メソッド: DICOM構造化レポートは、イメージングドメインを超えて任意の情報の標準化されたリンクを可能にする。
これに基づいて、マルチモーダルデータセットの組み立てプロセスを簡単にする、データ統合と対話型フィルタリング機能のためのオープンプラットフォームを開発した。
結果: 本研究は,ドイツにある8つの大学病院のコンソーシアムにおけるフェデレーショントレーニングのためのデータセットの合理化とともに, より多種多様なデータタイプに適用可能性を示すことによって, これまでの作業を拡張した。
最小侵襲心弁置換術後の結果を予測するため,全部位に調和したマルチモーダルデータセットを作成した。
データはDICOMデータ(CT画像、心電図スキャン)、アノテーション(石灰化セグメンテーション、ポイントセット、ペースメーカー依存性)、メタデータ(補綴、診断)を含む。
結論: 構造化レポートは、画像システムと情報システムの間の伝統的なギャップを橋渡しする。
固有のDICOM参照システムを利用することで、任意のデータ型を同時にクエリして、臨床的研究に意味のあるコホートを作成することができる。
グラフィカルインターフェースと構造化レポートテンプレートの例が公開される予定だ。
Purpose: Federated training is often hindered by heterogeneous datasets due to divergent data storage options, inconsistent naming schemes, varied annotation procedures, and disparities in label quality. This is particularly evident in the emerging multi-modal learning paradigms, where dataset harmonization including a uniform data representation and filtering options are of paramount importance. Methods: DICOM structured reports enable the standardized linkage of arbitrary information beyond the imaging domain and can be used within Python deep learning pipelines with highdicom. Building on this, we developed an open platform for data integration and interactive filtering capabilities that simplifies the process of assembling multi-modal datasets. Results: In this study, we extend our prior work by showing its applicability to more and divergent data types, as well as streamlining datasets for federated training within an established consortium of eight university hospitals in Germany. We prove its concurrent filtering ability by creating harmonized multi-modal datasets across all locations for predicting the outcome after minimally invasive heart valve replacement. The data includes DICOM data (i.e. computed tomography images, electrocardiography scans) as well as annotations (i.e. calcification segmentations, pointsets and pacemaker dependency), and metadata (i.e. prosthesis and diagnoses). Conclusion: Structured reports bridge the traditional gap between imaging systems and information systems. Utilizing the inherent DICOM reference system arbitrary data types can be queried concurrently to create meaningful cohorts for clinical studies. The graphical interface as well as example structured report templates will be made publicly available. | 翻訳日:2024-08-07 18:32:55 公開日:2024-08-06 |
# 量子シミュレータ上での状態の断熱的調製によるシュウィンガーモデルの位相図
Phase Diagram of the Schwinger Model by Adiabatic Preparation of States on a Quantum Simulator ( http://arxiv.org/abs/2407.09224v2 ) ライセンス: Link先を確認 | Oleg Kaikov, Theo Saporiti, Vasily Sazonov, Mohamed Tamaazousti, | (参考訳) 我々は、状態の断熱的準備を通じて量子デバイス上の量子物理系の位相構造を研究することが可能であると主張している。
位相的$\theta$-term の存在下で、新しい手法を導入し、Schwinger モデルに適用することに成功した。
対応する相図の1次相転移領域と非相転移領域について検討する。
この方法の中核となる考え方は、時間依存のハミルトニアンで基底と最初の励起状態を別々に発展させることであり、その時間依存性は$\theta$の異なる値の間を補間する。
我々のアプローチは断熱的定理の直接的な応用であるにもかかわらず、いくつかのケースでは、断熱的状態の準備を兼ね備えた文献と異なる方法と比較してその利点を実証することができる。
We argue the feasibility to study the phase structure of a quantum physical system on quantum devices via adiabatic preparation of states. We introduce a novel method and successfully test it in application to the Schwinger model in the presence of a topological $\theta$-term. We explore the first-order-phase-transition and the no-transition regions of the corresponding phase diagram. The core idea of the method is to separately evolve the ground and the first excited states with a time-dependent Hamiltonian, the time-dependence of which interpolates between different values of $\theta$. Despite our approach being a direct application of the adiabatic theorem, in some cases we are able to demonstrate its advantages in comparison to a different method from the literature that also employs adiabatic state preparation. | 翻訳日:2024-08-07 18:32:55 公開日:2024-08-06 |
# Think-on-Graph 2.0:知識グラフ誘導検索による深層および解釈可能な大規模言語モデル推論
Think-on-Graph 2.0: Deep and Interpretable Large Language Model Reasoning with Knowledge Graph-guided Retrieval ( http://arxiv.org/abs/2407.10805v3 ) ライセンス: Link先を確認 | Shengjie Ma, Chengjin Xu, Xuhui Jiang, Muzhi Li, Huaren Qu, Jian Guo, | (参考訳) Retrieval-augmented Generation (RAG) は、動的情報検索により、生成コンテンツにおける知識ギャップと幻覚を軽減することにより、かなり高度な大規模言語モデル(LLM)を持つ。
しかし、これらのシステムは様々なクエリにまたがる複雑な推論と一貫性に悩まされることが多い。
本稿では,知識グラフと質問を一致させてナビゲーションツールとして使用する拡張RAGフレームワークであるThink-on-Graph 2.0について紹介する。
KG誘導ナビゲーションは、論理的一貫性を保ち、精度と相互運用性の検索範囲を最適化するために、深い、長距離の関連を奨励する。
協調して、事実整合性は、厳密な指示によって導かれる意味的類似性によってより確実にすることができる。
ToG${2.0}$は、LLMの応答の精度と信頼性を向上させるだけでなく、LLM推論を大幅に進歩させるハイブリッド構造化知識システムの可能性を示し、人間に近い性能に近づける。
提案手法の利点をベースラインと比較し,4つの公開データセットについて広範な実験を行った。
Retrieval-augmented generation (RAG) has significantly advanced large language models (LLMs) by enabling dynamic information retrieval to mitigate knowledge gaps and hallucinations in generated content. However, these systems often falter with complex reasoning and consistency across diverse queries. In this work, we present Think-on-Graph 2.0, an enhanced RAG framework that aligns questions with the knowledge graph and uses it as a navigational tool, which deepens and refines the RAG paradigm for information collection and integration. The KG-guided navigation fosters deep and long-range associations to uphold logical consistency and optimize the scope of retrieval for precision and interoperability. In conjunction, factual consistency can be better ensured through semantic similarity guided by precise directives. ToG${2.0}$ not only improves the accuracy and reliability of LLMs' responses but also demonstrates the potential of hybrid structured knowledge systems to significantly advance LLM reasoning, aligning it closer to human-like performance. We conducted extensive experiments on four public datasets to demonstrate the advantages of our method compared to the baseline. | 翻訳日:2024-08-07 18:32:55 公開日:2024-08-06 |
# $^6$Beからの2陽子放出におけるスピン絡み合い
Spin entanglement in two-proton emission from $^6$Be ( http://arxiv.org/abs/2407.11136v2 ) ライセンス: Link先を確認 | Tomohiro Oishi, | (参考訳) 本稿では,2陽子(2p$)放射性発光における結合スピン絡みの理論的評価について述べる。
実験エネルギー放出を再現するために調整された陽子-陽子相互作用を持つ$^{6}$Beの3体モデルを利用する。
時間依存計算を行い、放出された2つの陽子の結合スピン状態を算出する。
スピン相関関数 $S$ をクレイザー・ホーネ・シモニー・ホルト(CHSH)指標として、$\abs{S} \cong 2.65$ として評価する。
すなわち、局所隠れ変数(LHV)理論の限界を超える2p$スピンの絡み合いが示唆される。
この絡み合いは陽子-陽子相互作用に敏感である。
短寿命(広幅)の2p$~状態は、より弱いスピン絡みを持つ。
平行して、コア-プロトン相互作用は、時間依存の崩壊過程におけるこの絡み合いに害を与えない。
CHSH測定は、有限系内の効果的な核相互作用の新たなプローブとなる。
This paper presents a theoretical evaluation of coupled-spin entanglement in the two-proton ($2p$) radioactive emission. The three-body model of $^{6}$Be with the proton-proton interaction, which is adjusted to reproduce the experimental energy release, is utilized. Time-dependent calculation is performed to compute the coupled-spin state of the emitted two protons. The spin-correlation function $S$ as the Clauser-Horne-Shimony-Holt (CHSH) indicator is evaluated as $\abs{S} \cong 2.65$. Namely, the $2p$-spin entanglement beyond the limit of local-hidden-variable (LHV) theory is suggested. This entanglement is sensitive to the proton-proton interaction. The short-lived (broad-width) $2p$~state has the weaker spin entanglement. In parallel, the core-proton interactions do not harm this entanglement during the time-dependent decaying process. The CHSH measurement can be a novel probe into the effective nuclear interaction inside finite systems. | 翻訳日:2024-08-07 18:32:55 公開日:2024-08-06 |
# CCVA-FL:医療画像のための適応的フェデレーション学習
CCVA-FL: Cross-Client Variations Adaptive Federated Learning for Medical Imaging ( http://arxiv.org/abs/2407.11652v4 ) ライセンス: Link先を確認 | Sunny Gupta, Amit Sethi, | (参考訳) Federated Learning(FL)は、分散データ上でモデルをトレーニングするためのプライバシ保護アプローチを提供する。
医療におけるそのポテンシャルは重要であるが、制限されたアノテーションによって悪化する医療画像データの横断的変動によって、課題が生じる。
本稿では,これらの問題に対処するため,CCVA-FL(Cross-Client Variations Adaptive Federated Learning)を提案する。
CCVA-FLは、画像を共通の特徴空間に変換することで、クロスクライアントの変動を最小限にすることを目的としている。
各クライアントからのイメージのサブセットを専門的にアノテーションし、続いてターゲットとして最もデータ複雑性の低いクライアントを選択する。
次に、ターゲットクライアントの注釈付き画像に基づいて、変換器付きスケーラブル拡散モデル(DiT)を用いて合成医療画像を生成する。
これらの合成画像は多様性を捉え、元のデータを表現し、他のクライアントと共有する。
各クライアントは、画像から画像への変換を使用して、そのローカル画像を対象のイメージ空間に変換する。
翻訳された画像は、その後、サーバモデルを開発するための連合学習設定で使用される。
その結果、CCVA-FLはプライバシーを損なうことなく、クライアント間でのデータ分散の違いを効果的に解決することで、Vanilla Federated Averagingよりも優れていることが示された。
Federated Learning (FL) offers a privacy-preserving approach to train models on decentralized data. Its potential in healthcare is significant, but challenges arise due to cross-client variations in medical image data, exacerbated by limited annotations. This paper introduces Cross-Client Variations Adaptive Federated Learning (CCVA-FL) to address these issues. CCVA-FL aims to minimize cross-client variations by transforming images into a common feature space. It involves expert annotation of a subset of images from each client, followed by the selection of a client with the least data complexity as the target. Synthetic medical images are then generated using Scalable Diffusion Models with Transformers (DiT) based on the target client's annotated images. These synthetic images, capturing diversity and representing the original data, are shared with other clients. Each client then translates its local images into the target image space using image-to-image translation. The translated images are subsequently used in a federated learning setting to develop a server model. Our results demonstrate that CCVA-FL outperforms Vanilla Federated Averaging by effectively addressing data distribution differences across clients without compromising privacy. | 翻訳日:2024-08-07 18:32:55 公開日:2024-08-06 |
# 近藤効果における異方性の関係-シンプレクティックケースからの教訓-
Relevance of Anisotropy in the Kondo Effect -- Lessons From the Symplectic Case ( http://arxiv.org/abs/2407.12093v2 ) ライセンス: Link先を確認 | Matan Lotem, Sarath Sankar, Tianhao Ren, Moshe Goldstein, Elio. J. König, Andreas Weichselbaum, Eran Sela, Alexei M. Tsvelik, | (参考訳) シンプレクティック対称性を持つ近藤模型は, 超伝導アイランドデバイスの有効低エネルギー理論として最近提案された。
非フェルミ液体物理学と有効エノンを持つこのモデルは、位相的近藤効果のクラスに属すると論じられた。
ここでは、ボゾン化と共形場理論とともに摂動的および数値的再正規化群を用いて、その異方的不動点の安定性の程度を明らかにする。
従来の主張とは対照的に、鉛とのカップリングにおける非対称性が非フェルミ液体を不安定化することを示す。
その他の不安定な摂動には、超伝導対の非対称性や、島内の個々の量子ドットの内部エネルギーが含まれる。
それでもこれらの摂動は、すべて同じ関連する作用素を生成する。
したがって、結合を個別に調整する必要は少なく、これらは実験的な利便性に応じて選択できる。
本結果は,近藤結合における異方性は常に無関係であるという共通の誤解を浮き彫りにしている。
証明されたように、群生成元が不純物作用素の全空間にまたがらないとき、関連する用語が現れる。
これは、大スピン不純物やSO(M)コンドモデルのような、この性質を示すモデルのより詳細な検査を要求する。
A Kondo model with symplectic symmetry was recently put forward as the effective low-energy theory of a superconducting-island device coupled to multiple leads. This model, which possesses non-Fermi liquid physics and effective anyons, was argued to belong to the class of topological Kondo effects. Here, we clarify the extent of stability of its exotic fixed point using perturbative and numerical renormalization group in conjunction with bosonization and conformal field theory. In contrast to previous claims, we show that asymmetry in the coupling to the leads destabilizes the non-Fermi liquid. Other destabilizing perturbations include asymmetry in the superconducting pairing or internal energy of the individual quantum dots in the island. Nevertheless, these perturbations all generate the same relevant operators. Thus, only a small number of couplings need to be tuned individually, and these can be selected according to experimental convenience. Our results highlight a common misconception that anisotropy in the Kondo coupling is always irrelevant. As demonstrated, relevant terms will emerge whenever the group generators do not span the full space of impurity operators. This calls for a more detailed inspection of models that exhibit this property, such as large-spin impurities and SO(M) Kondo models | 翻訳日:2024-08-07 18:32:55 公開日:2024-08-06 |
# IMAGDressing-v1: カスタマイズ可能な仮想描画
IMAGDressing-v1: Customizable Virtual Dressing ( http://arxiv.org/abs/2407.12705v2 ) ライセンス: Link先を確認 | Fei Shen, Xin Jiang, Xin He, Hu Ye, Cong Wang, Xiaoyu Du, Zechao Li, Jinhui Tang, | (参考訳) 最近の進歩は、潜伏拡散モデルを用いた局所的な衣料塗布によるリアルな仮想試着(VTON)を実現し、消費者のオンラインショッピング体験を著しく向上させた。
しかしながら、既存のVTON技術は、衣料品、オプションの顔、ポーズ、シーンの柔軟な制御など、商人が衣料品を包括的に展示する必要性を無視している。
この問題に対処するために、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成することに焦点を当てた仮想ドレッシング(VD)タスクを定義する。
一方、生成した画像と参照衣料との整合性を評価するために、包括的親和性指標(CAMI)を設計する。
次に,CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んだIMAGDressing-v1を提案する。
本稿では,凍結した自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。
IMAGDressing-v1は、ControlNetやIP-Adapterといった他の拡張プラグインと組み合わせることで、生成された画像の多様性と制御性を高めることができる。
さらに、データ不足に対処するため、30万組以上の衣服と着替え画像を含む対話型衣服ペアリング(IGPair)データセットをリリースし、データアセンブリの標準パイプラインを確立する。
我々のIMAGDressing-v1は、様々な制御条件下で、最先端のヒト画像合成性能を達成することを実証した。
コードとモデルはhttps://github.com/muzishen/IMAGDressing.comから入手できる。
Latest advances have achieved realistic virtual try-on (VTON) through localized garment inpainting using latent diffusion models, significantly enhancing consumers' online shopping experience. However, existing VTON technologies neglect the need for merchants to showcase garments comprehensively, including flexible control over garments, optional faces, poses, and scenes. To address this issue, we define a virtual dressing (VD) task focused on generating freely editable human images with fixed garments and optional conditions. Meanwhile, we design a comprehensive affinity metric index (CAMI) to evaluate the consistency between generated images and reference garments. Then, we propose IMAGDressing-v1, which incorporates a garment UNet that captures semantic features from CLIP and texture features from VAE. We present a hybrid attention module, including a frozen self-attention and a trainable cross-attention, to integrate garment features from the garment UNet into a frozen denoising UNet, ensuring users can control different scenes through text. IMAGDressing-v1 can be combined with other extension plugins, such as ControlNet and IP-Adapter, to enhance the diversity and controllability of generated images. Furthermore, to address the lack of data, we release the interactive garment pairing (IGPair) dataset, containing over 300,000 pairs of clothing and dressed images, and establish a standard pipeline for data assembly. Extensive experiments demonstrate that our IMAGDressing-v1 achieves state-of-the-art human image synthesis performance under various controlled conditions. The code and model will be available at https://github.com/muzishen/IMAGDressing. | 翻訳日:2024-08-07 18:32:55 公開日:2024-08-06 |
# MMTrail: 言語と音楽の説明付きマルチモーダルトレーサビデオデータセット
MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions ( http://arxiv.org/abs/2407.20962v2 ) ライセンス: Link先を確認 | Xiaowei Chi, Yatian Wang, Aosong Cheng, Pengjun Fang, Zeyue Tian, Yingqing He, Zhaoyang Liu, Xingqun Qi, Jiahao Pan, Rongyu Zhang, Mengfei Li, Ruibin Yuan, Yanbing Jiang, Wei Xue, Wenhan Luo, Qifeng Chen, Shanghang Zhang, Qifeng Liu, Yike Guo, | (参考訳) 大規模なマルチモダリティデータセットは、大規模なビデオ言語モデルの成功を促進する上で重要な役割を果たす。
しかし、現在のビデオ言語データセットは、音声が弱い関連情報であることを考慮して、主に視覚フレームのテキスト記述を提供する。
彼らは通常、固有のオーディオと視覚の相関の可能性を探り、包括的で正確な記述ではなく、各モダリティ内で単調なアノテーションをもたらす。
このような無知は、複数のモダリティ研究の難しさをもたらす。
このギャップを埋めるため、MMTrailは、ビジュアルキャプション付き2000万本以上のトレーラークリップと、マルチモーダルキャプション付き2万本以上の高品質クリップを組み込んだ大規模なマルチモーダルビデオ言語データセットである。
トレーラーはフル長のビデオ作品をプレビューし、コンテキスト、ビジュアルフレーム、バックグラウンド音楽を統合する。
特に、トレーラーには、(1)トピックは多様であり、コンテンツキャラクタは、例えば、映画、ニュース、ゲームなど、多種多様である。
2) 対応する背景音楽はカスタム設計され,視覚的コンテキストとの一貫性が向上する。
これらの知見に基づき,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
ここでは,視覚的文脈の権威を保ちながら音楽の視点を確実に保ちつつ,全てのアノテーションを適応的にマージする高度LLMを活用する。
このようにして、我々のMMtrailデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
実験では,データセット上で評価指標とベンチマーク結果を提供し,アノテーションの高品質さとモデルトレーニングの有効性を実証した。
Massive multi-modality datasets play a significant role in facilitating the success of large video-language models. However, current video-language datasets primarily provide text descriptions for visual frames, considering audio to be weakly related information. They usually overlook exploring the potential of inherent audio-visual correlation, leading to monotonous annotation within each modality instead of comprehensive and precise descriptions. Such ignorance results in the difficulty of multiple cross-modality studies. To fulfill this gap, we present MMTrail, a large-scale multi-modality video-language dataset incorporating more than 20M trailer clips with visual captions, and 2M high-quality clips with multimodal captions. Trailers preview full-length video works and integrate context, visual frames, and background music. In particular, the trailer has two main advantages: (1) the topics are diverse, and the content characters are of various types, e.g., film, news, and gaming. (2) the corresponding background music is custom-designed, making it more coherent with the visual context. Upon these insights, we propose a systemic captioning framework, achieving various modality annotations with more than 27.1k hours of trailer videos. Here, to ensure the caption retains music perspective while preserving the authority of visual context, we leverage the advanced LLM to merge all annotations adaptively. In this fashion, our MMtrail dataset potentially paves the path for fine-grained large multimodal-language model training. In experiments, we provide evaluation metrics and benchmark results on our dataset, demonstrating the high quality of our annotation and its effectiveness for model training. | 翻訳日:2024-08-07 18:32:55 公開日:2024-08-06 |
# 物理誘導型アクティブサンプル再加重による都市流れ予測
Physics-guided Active Sample Reweighting for Urban Flow Prediction ( http://arxiv.org/abs/2407.13605v2 ) ライセンス: Link先を確認 | Wei Jiang, Tong Chen, Guanhua Ye, Wentao Zhang, Lizhen Cui, Zi Huang, Hongzhi Yin, | (参考訳) 都市フロー予測は、バス、タクシー、ライドシェアリングといった交通サービスのスループットを推定する時空間モデリングタスクであり、データ駆動モデルが過去10年で最もポピュラーなソリューションとなっている。
一方、歴史的観測と予測対象との暗黙的に学習されたマッピングは、現実世界の都市流れのダイナミクスを過度に単純化し、最適以下の予測をもたらす傾向にある。
最近の時空間予測ソリューションは、物理誘導機械学習(PGML)の概念を取り入れ、時空間データをニュアンスと原理化された物理法則で記述し、予測精度と解釈可能性の両方を高める。
しかし、これらの時空間PGML法は、観測されたデータが物理系を定義する微分方程式に完全に適合しているという強い仮定に基づいており、都市流予測タスクにおいて急速に悪影響を及ぼす可能性がある。
観測された都市流データ、特に予測を容易にするために時間依存スナップショットにスライスされた場合、典型的には不完全でスパースであり、収集過程において固有のノイズが発生する傾向にある。
その結果,データとPGMLモデルの物理的不整合性は,解の予測力やロバスト性を著しく制限することがわかった。
さらに,多くの交通機関におけるデータ提出の間隔に基づく予測や断続的な性質から,都市流れの瞬時的ダイナミクスを捉えることは困難であり,微分方程式に基づく連続モデリングはこの設定に適している。
これらの課題を克服するために、離散化物理誘導ネットワーク(PN)を開発し、PNを強化するために、P-GASR(Physical-Guided Active Sample Reweighting)を提案する。
実世界の4つのデータセットによる実験結果から,本手法はロバスト性の向上を実証し,最先端の性能を実現していることが示された。
Urban flow prediction is a spatio-temporal modeling task that estimates the throughput of transportation services like buses, taxis, and ride-sharing, where data-driven models have become the most popular solution in the past decade. Meanwhile, the implicitly learned mapping between historical observations to the prediction targets tend to over-simplify the dynamics of real-world urban flows, leading to suboptimal predictions. Some recent spatio-temporal prediction solutions bring remedies with the notion of physics-guided machine learning (PGML), which describes spatio-temporal data with nuanced and principled physics laws, thus enhancing both the prediction accuracy and interpretability. However, these spatio-temporal PGML methods are built upon a strong assumption that the observed data fully conforms to the differential equations that define the physical system, which can quickly become ill-posed in urban flow prediction tasks. The observed urban flow data, especially when sliced into time-dependent snapshots to facilitate predictions, is typically incomplete and sparse, and prone to inherent noise incurred in the collection process. As a result, such physical inconsistency between the data and PGML model significantly limits the predictive power and robustness of the solution. Moreover, due to the interval-based predictions and intermittent nature of data filing in many transportation services, the instantaneous dynamics of urban flows can hardly be captured, rendering differential equation-based continuous modeling a loose fit for this setting. To overcome the challenges, we develop a discretized physics-guided network (PN), and propose a data-aware framework Physics-guided Active Sample Reweighting (P-GASR) to enhance PN. Experimental results in four real-world datasets demonstrate that our method achieves state-of-the-art performance with a demonstrable improvement in robustness. | 翻訳日:2024-08-07 18:22:38 公開日:2024-08-06 |
# 埋め込みと時間相関:JDEに基づくリアルタイムマルチオブジェクト追跡の第2世代に向けて
Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking ( http://arxiv.org/abs/2407.14086v2 ) ライセンス: Link先を確認 | Yunfei Zhang, Chao Liang, Jin Gao, Zhipeng Zhang, Weiming Hu, Stephen Maybank, Xue Zhou, Liang Li, | (参考訳) 共同検出・埋め込み(JDE)トラッカーは,マルチオブジェクト追跡(MOT)タスクにおいて,ReID(Re-Identification Task)を検知器に埋め込むことにより,外観特徴の抽出を補助タスクとして取り入れ,推論速度と追跡性能のバランスをとることにより,優れた性能を示した。
しかし,検出器と特徴抽出器の競合を解消することは常に困難であった。
一方、ReIDタスクを直接MOTに組み込むという問題は未解決のままである。
外観の特徴に高い差別性が欠如していることは、その実用性に限界をもたらす。
本稿では,物体の時間的情報を取得するために相互相関を用いた新しい学習手法を提案する。
特徴抽出ネットワークは、もはや各フレームの外観特徴のみに基づいて訓練されるのではなく、連続するフレームからの特徴ヒートマップを利用してよりリッチな動作特徴を学習し、クラス間特徴類似性の課題に対処する。
さらに,提案手法はより軽量な特徴抽出ネットワークに適用され,得られた特徴とMOTタスクとの整合性を反映した適切な重み計算により,特徴マッチングスコアを補助的手がかりではなく強い手がかりとして扱う。
TCBTrackと名付けられた私たちのトラッカーは、複数の公開ベンチマーク、すなわちMOT17、MOT20、DanceTrackデータセットで最先端のパフォーマンスを実現しています。
特にDanceTrackテストセットでは56.8 HOTA,58.1 IDF1,92.5 MOTAを達成し,リアルタイムのパフォーマンスを実現するオンライントラッカーとして最高のものとなった。
他のトラッカーとの比較により,トラッカーの速度,頑健性,精度のバランスが良好であることが確認された。
コードはhttps://github.com/yfzhang1214/TCBTrack.comから入手できる。
Joint Detection and Embedding (JDE) trackers have demonstrated excellent performance in Multi-Object Tracking (MOT) tasks by incorporating the extraction of appearance features as auxiliary tasks through embedding Re-Identification task (ReID) into the detector, achieving a balance between inference speed and tracking performance. However, solving the competition between the detector and the feature extractor has always been a challenge. Meanwhile, the issue of directly embedding the ReID task into MOT has remained unresolved. The lack of high discriminability in appearance features results in their limited utility. In this paper, a new learning approach using cross-correlation to capture temporal information of objects is proposed. The feature extraction network is no longer trained solely on appearance features from each frame but learns richer motion features by utilizing feature heatmaps from consecutive frames, which addresses the challenge of inter-class feature similarity. Furthermore, our learning approach is applied to a more lightweight feature extraction network, and treat the feature matching scores as strong cues rather than auxiliary cues, with an appropriate weight calculation to reflect the compatibility between our obtained features and the MOT task. Our tracker, named TCBTrack, achieves state-of-the-art performance on multiple public benchmarks, i.e., MOT17, MOT20, and DanceTrack datasets. Specifically, on the DanceTrack test set, we achieve 56.8 HOTA, 58.1 IDF1 and 92.5 MOTA, making it the best online tracker capable of achieving real-time performance. Comparative evaluations with other trackers prove that our tracker achieves the best balance between speed, robustness and accuracy. Code is available at https://github.com/yfzhang1214/TCBTrack. | 翻訳日:2024-08-07 18:22:38 公開日:2024-08-06 |
# DiffX: クロスモーダルな生成モデルにレイアウトをガイドする
DiffX: Guide Your Layout to Cross-Modal Generative Modeling ( http://arxiv.org/abs/2407.15488v3 ) ライセンス: Link先を確認 | Zeyu Wang, Jingyu Lin, Yifei Qian, Yi Huang, Shicen Tian, Bosong Chai, Juncan Deng, Lan Du, Cunjian Chen, Yufei Guo, Kejie Huang, | (参考訳) 拡散モデルは言語駆動とレイアウト駆動の画像生成において大きな進歩を遂げている。
しかし、ほとんどの拡散モデルは可視RGB画像生成に限られている。
実際、世界の人間の知覚は、色調コントラスト、熱照明、深度情報といった様々な視点によって豊かになっている。
本稿では,DiffXと呼ばれる一般レイアウト誘導型クロスモーダル生成のための新しい拡散モデルを提案する。
特に、DiffXは単純だが効果的なクロスモーダル生成モデリングパイプラインを示し、モダリティ共有潜在空間において拡散および偏極過程を実行する。
さらに,JME(Joint-Modality Embedder)を導入し,アテンション機構を組み込むことで,レイアウトとテキスト条件の相互作用を強化する。
一方、高度なLong-CLIPは、ユーザ教育のためのロングキャプション埋め込みに使用される。
ユーザによる生成訓練を容易にするために,LMM(Large-Multimodal Model)を用いた詳細なテキストキャプションを用いたクロスモーダル画像データセットを構築した。
広範な実験を通じて、DiffXは、さまざまなレイアウト条件でガイドされる3つの`RGB+X'データセット、FLIR、MFNet、COME15K間のクロスモーダル生成の堅牢性を示す。
また、 '`RGB+X+Y+Z'' 画像の適応生成や、COME15K と MCXFace データセットのより多様なモダリティの可能性を示している。
私たちのコードとクロスモーダルなイメージデータセットはhttps://github.com/zeyuwang-zju/DiffX.comで公開されています。
Diffusion models have made significant strides in language-driven and layout-driven image generation. However, most diffusion models are limited to visible RGB image generation. In fact, human perception of the world is enriched by diverse viewpoints, such as chromatic contrast, thermal illumination, and depth information. In this paper, we introduce a novel diffusion model for general layout-guided cross-modal generation, called DiffX. Notably, DiffX presents a simple yet effective cross-modal generative modeling pipeline, which conducts diffusion and denoising processes in the modality-shared latent space. Moreover, we introduce the Joint-Modality Embedder (JME) to enhance interaction between layout and text conditions by incorporating a gated attention mechanism. Meanwhile, the advanced Long-CLIP is employed for long caption embedding for user instruction. To facilitate the user-instructed generative training, we construct the cross-modal image datasets with detailed text captions assisted by the Large-Multimodal Model (LMM). Through extensive experiments, DiffX demonstrates robustness in cross-modal generation across three ``RGB+X'' datasets: FLIR, MFNet, and COME15K, guided by various layout conditions. It also shows the potential for the adaptive generation of ``RGB+X+Y+Z'' images or more diverse modalities on COME15K and MCXFace datasets. Our code and constructed cross-modal image datasets are available at https://github.com/zeyuwang-zju/DiffX. | 翻訳日:2024-08-07 18:22:38 公開日:2024-08-06 |
# 未来のモバイルネットワーク:マルチシグナル管理のためのデジタルツインアプローチ
Future-Proofing Mobile Networks: A Digital Twin Approach to Multi-Signal Management ( http://arxiv.org/abs/2407.15520v2 ) ライセンス: Link先を確認 | Roberto Morabito, Bivek Pandey, Paulius Daubaris, Yasith R Wanigarathna, Sasu Tarkoma, | (参考訳) デジタルツイン(DT)は、将来の無線ネットワークにおいて鍵となる技術となり、ネットワーク管理における利用が著しく増加する。
我々は、ネットワークアクセス技術の異質性を生かしたDTフレームワークを開発し、ネットワーク性能と管理を向上し、物理ネットワークにおけるスマートデータ処理を可能にする。
このフレームワークは,キャンパスエリアネットワーク環境において,様々なデータソースを統合し,ネットワーク性能と環境センシングに関するリアルタイムで総合的な洞察を提供する。
私たちはまた、従来の分析が、現在の分析機能を活用しながら、Generative AI(GenAI)のような新しいAIモデルに依存するように進化することを期待しています。
このキャパシティは、高度なMLモデルによる分析プロセスを単純化し、統一された方法で記述、診断、予測、規範分析を可能にする。
最後に、相互運用性に関する具体的な研究機会を示し、進化したAI統合によるDT技術の進歩の整合を構想する。
Digital Twins (DTs) are set to become a key enabling technology in future wireless networks, with their use in network management increasing significantly. We developed a DT framework that leverages the heterogeneity of network access technologies as a resource for enhanced network performance and management, enabling smart data handling in the physical network. Tested in a Campus Area Network environment, our framework integrates diverse data sources to provide real-time, holistic insights into network performance and environmental sensing. We also envision that traditional analytics will evolve to rely on emerging AI models, such as Generative AI (GenAI), while leveraging current analytics capabilities. This capacity can simplify analytics processes through advanced ML models, enabling descriptive, diagnostic, predictive, and prescriptive analytics in a unified fashion. Finally, we present specific research opportunities concerning interoperability aspects and envision aligning advancements in DT technology with evolved AI integration. | 翻訳日:2024-08-07 18:22:38 公開日:2024-08-06 |
# 効率的な骨格に基づく行動認識のための多モード共学習
Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition ( http://arxiv.org/abs/2407.15706v5 ) ライセンス: Link先を確認 | Jinfu Liu, Chen Chen, Mengyuan Liu, | (参考訳) スケルトンをベースとした行動認識は、簡潔で弾力性のある骨格の利用により、大きな注目を集めている。
それでも、骨格に詳細なボディ情報がないことは性能を制限しているが、他のマルチモーダル手法ではかなりの推論資源が必要であり、トレーニングと推論の段階でマルチモーダルデータを使用する場合、非効率である。
そこで本研究では,マルチモーダル・コラーニング(MMCL)フレームワークを,マルチモーダル・大規模言語モデル(LLM)を,学習段階における多モーダル・コラーニング(マルチモーダル・コラーニング)に係わる効率的な骨格に基づく行動認識のための補助ネットワークとして活用し,推論における簡潔なスケルトンのみを用いることで,効率を保ちながら,補完的なマルチモーダル・コラーニング(MMCL)フレームワークを提案する。
私たちのMMCLフレームワークは主に2つのモジュールで構成されています。
まず、FAM(Feature Alignment Module)は、ビデオフレームからリッチなRGB機能を抽出し、コントラスト学習を通じてグローバルなスケルトン機能と整合させる。
第二に、FRM(Feature Refinement Module)は、時間的情報とテキスト命令を備えたRGBイメージを使用して、マルチモーダルLLMの強力な一般化に基づくインストラクティブな特徴を生成する。
これらのインストラクティブテキストの特徴は、さらに分類スコアを洗練させ、洗練されたスコアは、ソフトラベルに似た方法でモデルの堅牢性と一般化を強化する。
NTU RGB+D, NTU RGB+D 120, Northwestern-UCLAベンチマークに対する大規模な実験は, 既存の骨格に基づく行動認識法よりも優れたMMCLの有効性を一貫して検証している。
一方、UTD-MHADとSYSU-Actionデータセットの実験は、ゼロショットおよびドメイン適応的行動認識におけるMMCLの可換な一般化を実証している。
私たちのコードは、https://github.com/liujf69/MMCL-Action.comで公開されています。
Skeleton-based action recognition has garnered significant attention due to the utilization of concise and resilient skeletons. Nevertheless, the absence of detailed body information in skeletons restricts performance, while other multimodal methods require substantial inference resources and are inefficient when using multimodal data during both training and inference stages. To address this and fully harness the complementary multimodal features, we propose a novel multi-modality co-learning (MMCL) framework by leveraging the multimodal large language models (LLMs) as auxiliary networks for efficient skeleton-based action recognition, which engages in multi-modality co-learning during the training stage and keeps efficiency by employing only concise skeletons in inference. Our MMCL framework primarily consists of two modules. First, the Feature Alignment Module (FAM) extracts rich RGB features from video frames and aligns them with global skeleton features via contrastive learning. Second, the Feature Refinement Module (FRM) uses RGB images with temporal information and text instruction to generate instructive features based on the powerful generalization of multimodal LLMs. These instructive text features will further refine the classification scores and the refined scores will enhance the model's robustness and generalization in a manner similar to soft labels. Extensive experiments on NTU RGB+D, NTU RGB+D 120 and Northwestern-UCLA benchmarks consistently verify the effectiveness of our MMCL, which outperforms the existing skeleton-based action recognition methods. Meanwhile, experiments on UTD-MHAD and SYSU-Action datasets demonstrate the commendable generalization of our MMCL in zero-shot and domain-adaptive action recognition. Our code is publicly available at: https://github.com/liujf69/MMCL-Action. | 翻訳日:2024-08-07 18:22:38 公開日:2024-08-06 |
# セマンティックセルを用いたポリセミズムの進化解析
Analyzing Polysemy Evolution Using Semantic Cells ( http://arxiv.org/abs/2407.16110v3 ) ライセンス: Link先を確認 | Yukio Ohsawa, Dingming Xue, Kaira Sekiguchi, | (参考訳) 言葉の感覚は進化する。
同じ単語の感覚は、今日から明日に変化し、同じ単語の複数の感覚は、お互いの進化の結果であるかもしれない。
Jubaを進化するエコシステムとみなすならば、言葉の感覚で動かない正しい答えを学ぶというパラダイムはもはや有効ではありません。
本論文は, 単語の多義性は, 著者らが提示したセマンティックセルの改変の進化的帰結であることを示すケーススタディであり, 短い文の現在の集合を分析する例として, 初期状態に少量の多様性を導入することによって, 著者らが提示した。
特に、Chat GPTを用いて収集された単語Springの4つの感覚のそれぞれに対して、ある順序で1000文の文列を解析すると、その単語が、その感覚が進化した順番に配列されたときに、分析において最も多節的に取得されることを示す。
言い換えれば、単語の獲得したポリセミーのダイナミズムを進化とともに分析する方法と、同時に、学習ベースではなく進化フレームワークからポリセミーを見る方法を提案する。
The senses of words evolve. The sense of the same word may change from today to tomorrow, and multiple senses of the same word may be the result of the evolution of each other, that is, they may be parents and children. If we view Juba as an evolving ecosystem, the paradigm of learning the correct answer, which does not move with the sense of a word, is no longer valid. This paper is a case study that shows that word polysemy is an evolutionary consequence of the modification of Semantic Cells, which has al-ready been presented by the author, by introducing a small amount of diversity in its initial state as an example of analyzing the current set of short sentences. In particular, the analysis of a sentence sequence of 1000 sentences in some order for each of the four senses of the word Spring, collected using Chat GPT, shows that the word acquires the most polysemy monotonically in the analysis when the senses are arranged in the order in which they have evolved. In other words, we present a method for analyzing the dynamism of a word's acquiring polysemy with evolution and, at the same time, a methodology for viewing polysemy from an evolutionary framework rather than a learning-based one. | 翻訳日:2024-08-07 18:22:38 公開日:2024-08-06 |
# 非凸非滑らかな合成最適化のための適応二階法
An Adaptive Second-order Method for a Class of Nonconvex Nonsmooth Composite Optimization ( http://arxiv.org/abs/2407.17216v2 ) ライセンス: Link先を確認 | Hao Wang, Xiangyu Yang, Yichen Zhu, | (参考訳) 本稿では,非凸空間空間の正規化問題,すなわち$\ell_p$-norm正規化を含む問題と,連続的に微分可能な損失関数を併用した特定のタイプの非凸空間空間空間の正規化問題について検討する。
本稿では,この難解な非凸問題と非滑らかな問題に効果的に対処するために,いくつかの革新的な特徴を示す新しい2次アルゴリズムを提案する。
(i)reweighted $\ell_1$ regularized subproblemと部分空間近似ニュートンステップを解くための交互戦略の使用。
(ii)reweighted $\ell_1$ regularized subproblem は凸近似を非凸正規化項に頼り、軟弱作用素を特徴とする閉形式解を可能にする。
本手法は, 様々な非凸正規化問題に適用可能である。
3) このアルゴリズムは, 繰り返しが符号値を維持することを保証し, 非零成分が十分な回数の反復のために0から遠ざけられ, 最終的に摂動ニュートン法に遷移する。
(4)このアルゴリズムでは,大域収束の理論的保証,クルディカ・オジャシエヴィチ(KL)特性の存在による局所超線型収束,およびニュートンの正確なステップを用いる場合の局所二次収束について述べる。
また,様々なモデル予測問題に対する実験を通じて,本手法の有効性を示す。
This paper explores a specific type of nonconvex sparsity-promoting regularization problems, namely those involving $\ell_p$-norm regularization, in conjunction with a twice continuously differentiable loss function. We propose a novel second-order algorithm designed to effectively address this class of challenging nonconvex and nonsmooth problems, showcasing several innovative features: (i) The use of an alternating strategy to solve a reweighted $\ell_1$ regularized subproblem and the subspace approximate Newton step. (ii) The reweighted $\ell_1$ regularized subproblem relies on a convex approximation to the nonconvex regularization term, enabling a closed-form solution characterized by the soft-thresholding operator. This feature allows our method to be applied to various nonconvex regularization problems. (iii) Our algorithm ensures that the iterates maintain their sign values and that nonzero components are kept away from 0 for a sufficient number of iterations, eventually transitioning to a perturbed Newton method. (iv) We provide theoretical guarantees of global convergence, local superlinear convergence in the presence of the Kurdyka-\L ojasiewicz (KL) property, and local quadratic convergence when employing the exact Newton step in our algorithm. We also showcase the effectiveness of our approach through experiments on a diverse set of model prediction problems. | 翻訳日:2024-08-07 18:22:38 公開日:2024-08-06 |
# MMRA:大規模視覚言語モデルにおける多粒度・多画像関連関連性評価のためのベンチマーク
MMRA: A Benchmark for Evaluating Multi-Granularity and Multi-Image Relational Association Capabilities in Large Visual Language Models ( http://arxiv.org/abs/2407.17379v2 ) ライセンス: Link先を確認 | Siwei Wu, Kang Zhu, Yu Bai, Yiming Liang, Yizhi Li, Haoning Wu, J. H. Liu, Ruibo Liu, Xingwei Qu, Xuxin Cheng, Ge Zhang, Wenhao Huang, Chenghua Lin, | (参考訳) 画像認識タスクにおいて大きな視覚言語モデル(LVLM)が達成されたことを考えると、LVLMが人間のように世界を知覚する試みが注目されている。
現在のマルチモーダルベンチマークは、主に個々の画像に含まれる事実や特定のトピック関連の知識に焦点を当てている。
しかし、それらは複数の画像間の関連性を見落とし、異なる画像に存在する実体や内容間の類似性の識別と分析を必要とする。
そこで,本研究では,1024個のサンプルからなるマルチイメージ関係関連課題と,細心にキュレートされたマルチグラニュラリティ・マルチイメージ関係性アソシエーション(MMRA)ベンチマークを提案する。
本研究では,11のサブタスク(UsageSimilarity,SubEvent)を2つの粒度レベル(画像と実体)に含めた画像間の関連関係システムを構築する。
実験の結果,MMRAベンチマークでは,現在のマルチイメージLVLMは様々なサブタスクに対して異なる利点と欠点を示すことがわかった。
特に、細粒度で実体レベルのマルチイメージ認識タスクは、画像レベルのタスクよりもLVLMにとって大きな課題となる。
さらに、LVLMは空間的関連タスクでは不十分であり、LVLMは空間的認識が限られていることが示唆された。
さらに,LVLMは画像の詳細を知覚する強力な能力を示し,複数の画像ヒンジにまたがる情報を関連付ける能力を高め,言語モデルコンポーネントの推論能力の向上に寄与することが示唆された。
さらに,マルチイメージアソシエーションタスクのコンテキスト内で画像シーケンスを知覚するLVLMの能力についても検討した。
実験の結果,現在のLVLMの大多数は,事前学習過程において画像列を適切にモデル化していないことがわかった。
Given the remarkable success that large visual language models (LVLMs) have achieved in image perception tasks, the endeavor to make LVLMs perceive the world like humans is drawing increasing attention. Current multi-modal benchmarks primarily focus on facts or specific topic-related knowledge contained within individual images. However, they often overlook the associative relations between multiple images, which require the identification and analysis of similarities among entities or content present in different images. Therefore, we propose the multi-image relation association task and a meticulously curated Multi-granularity Multi-image Relational Association (MMRA) benchmark, comprising 1,024 samples. In order to systematically and comprehensively evaluate current LVLMs, we establish an associational relation system among images that contain 11 subtasks (e.g, UsageSimilarity, SubEvent) at two granularity levels (i.e., image and entity) according to the relations in ConceptNet. Our experiments reveal that on the MMRA benchmark, current multi-image LVLMs exhibit distinct advantages and disadvantages across various subtasks. Notably, fine-grained, entity-level multi-image perception tasks pose a greater challenge for LVLMs compared to image-level tasks. Moreover, LVLMs perform poorly on spatial-related tasks, indicating that LVLMs still have limited spatial awareness. Additionally, our findings indicate that while LVLMs demonstrate a strong capability to perceive image details, enhancing their ability to associate information across multiple images hinges on improving the reasoning capabilities of their language model component. Moreover, we explored the ability of LVLMs to perceive image sequences within the context of our multi-image association task. Our experiments show that the majority of current LVLMs do not adequately model image sequences during the pre-training process. | 翻訳日:2024-08-07 18:22:38 公開日:2024-08-06 |
# 科学的発見のための自動説明選択
Automated Explanation Selection for Scientific Discovery ( http://arxiv.org/abs/2407.17454v3 ) ライセンス: Link先を確認 | Markus Iser, | (参考訳) 自動推論は、若いが急速に成長する説明可能な人工知能(XAI)の分野で重要な技術である。
説明責任は、単なる予測精度と堅牢性を超えて、人工知能システムへの信頼を構築するのに役立つ。
本稿では,機械学習と自動推論を組み合わせた科学的発見のサイクルを提案する。
本稿では,社会学と認知科学の知見に基づく説明選択問題の分類について述べる。
これらの選択基準は、既存の概念を仮定し、それらを新しい性質で拡張する。
Automated reasoning is a key technology in the young but rapidly growing field of Explainable Artificial Intelligence (XAI). Explanability helps build trust in artificial intelligence systems beyond their mere predictive accuracy and robustness. In this paper, we propose a cycle of scientific discovery that combines machine learning with automated reasoning for the generation and the selection of explanations. We present a taxonomy of explanation selection problems that draws on insights from sociology and cognitive science. These selection criteria subsume existing notions and extend them with new properties. | 翻訳日:2024-08-07 18:22:38 公開日:2024-08-06 |
# CityX: 無制限3D都市のための制御可能な手続き型コンテンツ生成
CityX: Controllable Procedural Content Generation for Unbounded 3D Cities ( http://arxiv.org/abs/2407.17572v3 ) ライセンス: Link先を確認 | Shougao Zhang, Mengqi Zhou, Yuxi Wang, Chuanchen Luo, Rongyu Wang, Yiwei Li, Xucheng Yin, Zhaoxiang Zhang, Junran Peng, | (参考訳) 現実的で大規模な3D仮想都市を生成することは、多くの3D資産、様々な都市スタイル、厳格なレイアウト制約が関与しているため、依然として複雑な課題である。
既存のアプローチは、Blenderエージェントを使用して大規模なシーンを作成するための手続き的コンテンツ生成のための有望な試みを提供する。
しかし、生成能力のスケールアップの難しさや、セマンティックレイアウトのレベルできめ細かい制御を実現するといった、重要な問題に直面している。
このような問題に対処するために,OSM,セマンティックマップ,衛星画像などを含む複数レイアウト条件でガイドされるリアルで非有界な3D都市生成を向上する,CityXという,マルチモーダル制御可能なプロシージャコンテンツ生成手法を提案する。
具体的には、様々なPCGプラグインを統合するための一般的なプロトコルと、命令を実行可能なBlenderアクションに変換するためのマルチエージェントフレームワークを含む。
この効果的な枠組みを通じて、CityXは、生成された資産の品質と産業要件のギャップを埋めることで、3Dシーン生成のための革新的なエコシステムを構築する可能性を示している。
マルチモーダル条件で案内された高品質・多様・無制限の都市を創出する上で,本手法の有効性を実証した。
プロジェクトページはhttps://cityx-lab.github.ioです。
Generating a realistic, large-scale 3D virtual city remains a complex challenge due to the involvement of numerous 3D assets, various city styles, and strict layout constraints. Existing approaches provide promising attempts at procedural content generation to create large-scale scenes using Blender agents. However, they face crucial issues such as difficulties in scaling up generation capability and achieving fine-grained control at the semantic layout level. To address these problems, we propose a novel multi-modal controllable procedural content generation method, named CityX, which enhances realistic, unbounded 3D city generation guided by multiple layout conditions, including OSM, semantic maps, and satellite images. Specifically, the proposed method contains a general protocol for integrating various PCG plugins and a multi-agent framework for transforming instructions into executable Blender actions. Through this effective framework, CityX shows the potential to build an innovative ecosystem for 3D scene generation by bridging the gap between the quality of generated assets and industrial requirements. Extensive experiments have demonstrated the effectiveness of our method in creating high-quality, diverse, and unbounded cities guided by multi-modal conditions. Our project page: https://cityx-lab.github.io. | 翻訳日:2024-08-07 18:22:38 公開日:2024-08-06 |
# 包括的帰属:特徴検出器を用いた忠実に説明可能な視覚モデル
Comprehensive Attribution: Inherently Explainable Vision Model with Feature Detector ( http://arxiv.org/abs/2407.19308v2 ) ライセンス: Link先を確認 | Xianren Zhang, Dongwon Lee, Suhang Wang, | (参考訳) 深層視覚モデルの人気が急速に高まるにつれて、モデル予測の説明に重点が置かれている。
本手法は, 予測に大きく寄与する画像の重要領域を特定することにより, モデル行動の理解を深めることを目的としている。
これは、セレクタ(重要な特徴を特定するために属性マップを生成する)と予測器(識別された特徴を用いた予測を行う)を協調的に訓練することで達成される。
多くの進歩にもかかわらず、既存の手法では識別的特徴が隠蔽される不完全性問題や、非最適化セレクタが最初にノイズを選択したインターロック問題に悩まされ、予測者がこのノイズに適合しサイクルを持続する。
これらの課題に対処するため,マスクアウト領域における識別的特徴の存在を回避し,特徴選択の包括性を向上する新たな目的を導入する。
マスクアウト領域の識別特徴を検出するために、事前訓練された検出器を導入する。
セレクタが識別的特徴ではなくノイズを選択すると、検出器はセレクタをペナルティ化して連動状況を観察し破ることができる。
大規模な実験により,本モデルは通常のブラックボックスモデルよりも精度の高い精度で正確な予測を行い,高い特徴カバレッジ,局所化能力,忠実度,堅牢性を備えた属性マップを生成することがわかった。
私たちのコードは、 \href{https://github.com/Zood123/COMET}{https://github.com/Zood123/COMET}で利用可能です。
As deep vision models' popularity rapidly increases, there is a growing emphasis on explanations for model predictions. The inherently explainable attribution method aims to enhance the understanding of model behavior by identifying the important regions in images that significantly contribute to predictions. It is achieved by cooperatively training a selector (generating an attribution map to identify important features) and a predictor (making predictions using the identified features). Despite many advancements, existing methods suffer from the incompleteness problem, where discriminative features are masked out, and the interlocking problem, where the non-optimized selector initially selects noise, causing the predictor to fit on this noise and perpetuate the cycle. To address these problems, we introduce a new objective that discourages the presence of discriminative features in the masked-out regions thus enhancing the comprehensiveness of feature selection. A pre-trained detector is introduced to detect discriminative features in the masked-out region. If the selector selects noise instead of discriminative features, the detector can observe and break the interlocking situation by penalizing the selector. Extensive experiments show that our model makes accurate predictions with higher accuracy than the regular black-box model, and produces attribution maps with high feature coverage, localization ability, fidelity and robustness. Our code will be available at \href{https://github.com/Zood123/COMET}{https://github.com/Zood123/COMET}. | 翻訳日:2024-08-07 18:22:38 公開日:2024-08-06 |
# 旅行メールマン:ユーザ中心再限定のためのトポロジ的最適化手法
The Traveling Mailman: Topological Optimization Methods for User-Centric Redistricting ( http://arxiv.org/abs/2407.19535v2 ) ライセンス: Link先を確認 | Nelson A. Colón Vargas, | (参考訳) 本研究では,US Postal Service ネットワークを用いた地域間接続性評価手法を提案する。
我々は、地域境界がコミュニティの整合性に与える影響を評価するために、トポロジカルデータ分析とマルコフ・チェイン・モンテカルロ法を組み合わせる。
アイオワ州をケーススタディとして、KMeansクラスタリングと確率的再バランスを用いて地区計画を作成し、洗練する。
提案手法は, ゆるやかな条件下でのアイオワ州の公式計画よりも, カットエッジが少なく, コンパクトな形状の計画を生成する。
正式な計画ほど破壊的な計画を見つける可能性が低いことは、既存の境界における潜在的な非効率性を示唆している。
ガウス混合モデル解析により、地区景観における3つの異なる分布が明らかになった。
このフレームワークは、より公平な政治的表現のためのコミュニティの相互作用をより正確に反映する。
This study introduces a new districting approach using the US Postal Service network to measure community connectivity. We combine Topological Data Analysis with Markov Chain Monte Carlo methods to assess district boundaries' impact on community integrity. Using Iowa as a case study, we generate and refine districting plans using KMeans clustering and stochastic rebalancing. Our method produces plans with fewer cut edges and more compact shapes than the official Iowa plan under relaxed conditions. The low likelihood of finding plans as disruptive as the official one suggests potential inefficiencies in existing boundaries. Gaussian Mixture Model analysis reveals three distinct distributions in the districting landscape. This framework offers a more accurate reflection of community interactions for fairer political representation. | 翻訳日:2024-08-07 18:22:38 公開日:2024-08-06 |
# 拡散フィードバックがCLIPの改善に役立つ
Diffusion Feedback Helps CLIP See Better ( http://arxiv.org/abs/2407.20171v2 ) ライセンス: Link先を確認 | Wenxuan Wang, Quan Sun, Fan Zhang, Yepeng Tang, Jing Liu, Xinlong Wang, | (参考訳) ドメインやモダリティ間のオープンワールド表現を抽象化するコントラスト言語-画像事前学習(CLIP)は、さまざまなビジョンやマルチモーダルタスクの基盤となっている。
しかし、最近の研究では、CLIPには、方向、量、色、構造などの区別がほとんどできない、深刻な視覚的欠点があることが示されている。
これらの視覚的欠点は、CLIP上に構築されたマルチモーダルな大規模言語モデル(MLLM)の認識能力を制限している。
主な理由は、CLIPのトレーニングに使用される画像テキストペアが、テキストの特異性や画像の多様性が欠如しているため、本質的にバイアスがあるためかもしれない。
本稿では,CLIPモデルに対して,自己教師付き拡散プロセスを通じて視覚的欠点を克服する,簡単なポストトレーニング手法を提案する。
私たちはDIVAを導入し、DIffusionモデルをCLIPのビジュアルアシスタントとして使用します。
特に、DIVAはテキストから画像への拡散モデルからの生成的フィードバックを活用して、画像のみ(対応するテキストなしで)CLIP表現を最適化する。
本研究では,MMVP-VLMベンチマークにおけるCLIPの性能向上を実証し,マルチモーダル理解とセグメンテーションタスクにおけるMLLMとビジョンモデルの性能向上を図る。
29の画像分類と検索ベンチマークの大規模な評価により、我々のフレームワークはCLIPの強力なゼロショット能力を保っていることを確認した。
コードはhttps://github.com/baaivision/DIVA.comで公開されている。
Contrastive Language-Image Pre-training (CLIP), which excels at abstracting open-world representations across domains and modalities, has become a foundation for a variety of vision and multimodal tasks. However, recent studies reveal that CLIP has severe visual shortcomings, such as which can hardly distinguish orientation, quantity, color, structure, etc. These visual shortcomings also limit the perception capabilities of multimodal large language models (MLLMs) built on CLIP. The main reason could be that the image-text pairs used to train CLIP are inherently biased, due to the lack of the distinctiveness of the text and the diversity of images. In this work, we present a simple post-training approach for CLIP models, which largely overcomes its visual shortcomings via a self-supervised diffusion process. We introduce DIVA, which uses the DIffusion model as a Visual Assistant for CLIP. Specifically, DIVA leverages generative feedback from text-to-image diffusion models to optimize CLIP representations, with only images (without corresponding text). We demonstrate that DIVA improves CLIP's performance on the challenging MMVP-VLM benchmark which assesses fine-grained visual abilities to a large extent (e.g., 3-7%), and enhances the performance of MLLMs and vision models on multimodal understanding and segmentation tasks. Extensive evaluation on 29 image classification and retrieval benchmarks confirms that our framework preserves CLIP's strong zero-shot capabilities. The code is available at https://github.com/baaivision/DIVA. | 翻訳日:2024-08-07 18:22:38 公開日:2024-08-06 |
# 知識ピラミッドを用いたマルチレベルクエリ
Multi-Level Querying using A Knowledge Pyramid ( http://arxiv.org/abs/2407.21276v2 ) ライセンス: Link先を確認 | Rubing Chen, Xulu Zhang, Jiaxin Wu, Wenqi Fan, Xiao-Yong Wei, Qing Li, | (参考訳) 本稿では,リコールの強化に主眼を置き,既存のRetrieval-Augmented Generation(RAG)手法の精度向上の必要性に対処する。
精度とリコールのバランスを改善するために,RAGフレームワーク内の多層知識ピラミッドアプローチを提案する。
知識ピラミッドはオントロジー、知識グラフ(KG)、チャンクベースの生テキストの3層で構成されている。
我々は,オントロジースキーマとインスタンスの包括的知識カバレッジと動的更新のために,層間拡張技術を採用している。
コンパクト性を確保するため,KGの知識凝縮に層間フィルタリング法を用いる。
我々のアプローチであるPolyRAGは、ピラミッドの頂上からスタートし、自信ある答えが得られるまで進行する、検索のためのウォーターフォールモデルに従っています。
ドメイン固有の知識検索のためのベンチマークを2つ導入する。1つは学術ドメイン、もう1つは金融ドメインである。
提案手法の有効性は, 総合的な実験により評価され, 19SOTA法より優れていた。
提案手法はGPT-4を改良し, 0.1636 から 0.8109 に改良することで 395 % F1 ゲインを提供する。
This paper addresses the need for improved precision in existing Retrieval-Augmented Generation (RAG) methods that primarily focus on enhancing recall. We propose a multi-layer knowledge pyramid approach within the RAG framework to achieve a better balance between precision and recall. The knowledge pyramid consists of three layers: Ontologies, Knowledge Graphs (KGs), and chunk-based raw text. We employ cross-layer augmentation techniques for comprehensive knowledge coverage and dynamic updates of the Ontology schema and instances. To ensure compactness, we utilize cross-layer filtering methods for knowledge condensation in KGs. Our approach, named PolyRAG, follows a waterfall model for retrieval, starting from the top of the pyramid and progressing down until a confident answer is obtained. We introduce two benchmarks for domain-specific knowledge retrieval, one in the academic domain and the other in the financial domain. The effectiveness of the methods has been validated through comprehensive experiments by outperforming 19 SOTA methods. An encouraging observation is that the proposed method has augmented the GPT-4, providing 395\% F1 gain by improving its performance from 0.1636 to 0.8109. | 翻訳日:2024-08-07 16:27:42 公開日:2024-08-06 |
# 病理基礎モデル
Pathology Foundation Models ( http://arxiv.org/abs/2407.21317v2 ) ライセンス: Link先を確認 | Mieko Ochi, Daisuke Komura, Shumpei Ishikawa, | (参考訳) 病理学は、長年にわたり外科と生検から得られた患者組織サンプルの診断と評価に重要な役割を果たしてきた。
Whole Slide Scannersの出現とディープラーニング技術の発展はこの分野を大きく進歩させ、病理学AI(Artificial Intelligence)の広範な研究と開発につながった。
これらの進歩は、病理医の作業量を減らし、治療計画における意思決定を支援することに寄与している。
近年では、従来のAIと比較して、より正確で幅広いタスクに適用可能な、ファンデーションモデル(FM)と呼ばれる大規模なAIモデルが登場し、医療分野での応用範囲を広げている。
疾患診断,まれな癌診断,予後予測,バイオマーカー発現予測,免疫組織化学的発現強度の評価など,様々な課題にFMが応用されていることが報告されている。
しかし、医療専門家がユーザとして認識しなければならないFMの臨床応用には、いくつかの課題が残っている。
研究はこれらの課題に対処し続けている。
今後,病的FMと他の医療領域のFMを統合した一般医用AIの開発が進むことが期待され,精度とパーソナライズド医療を促進するために,臨床現場でのAIの有効活用が期待できる。
Pathology has played a crucial role in the diagnosis and evaluation of patient tissue samples obtained from surgeries and biopsies for many years. The advent of Whole Slide Scanners and the development of deep learning technologies have significantly advanced the field, leading to extensive research and development in pathology AI (Artificial Intelligence). These advancements have contributed to reducing the workload of pathologists and supporting decision-making in treatment plans. Recently, large-scale AI models known as Foundation Models (FMs), which are more accurate and applicable to a wide range of tasks compared to traditional AI, have emerged, and expanded their application scope in the healthcare field. Numerous FMs have been developed in pathology, and there are reported cases of their application in various tasks, such as disease diagnosis, rare cancer diagnosis, patient survival prognosis prediction, biomarker expression prediction, and the scoring of immunohistochemical expression intensity. However, several challenges remain for the clinical application of FMs, which healthcare professionals, as users, must be aware of. Research is ongoing to address these challenges. In the future, it is expected that the development of Generalist Medical AI, which integrates pathology FMs with FMs from other medical domains, will progress, leading to the effective utilization of AI in real clinical settings to promote precision and personalized medicine. | 翻訳日:2024-08-07 16:27:42 公開日:2024-08-06 |
# eSPARQL: RDF-star Knowledge GraphsにおけるAgnosticおよびAtheistic Beliefの表現と再構成
eSPARQL: Representing and Reconciling Agnostic and Atheistic Beliefs in RDF-star Knowledge Graphs ( http://arxiv.org/abs/2407.21483v3 ) ライセンス: Link先を確認 | Xinyi Pan, Daniel Hernández, Philipp Seifer, Ralf Lämmel, Steffen Staab, | (参考訳) 過去数年間、複数の情報源からの情報を組み合わせた大きな知識グラフが出現してきた。
この情報は時として、他のアサーションに関するアサーションの形式で提供され、アサーションが有効なコンテキストを定義する。
RDF-starと呼ばれるステートメントに対するステートメントを認めるRDFへの最近の拡張は、W3C標準になるように改訂されている。
しかしながら、これらのRDF星のステートメントのセマンティクスや、それらを操作するためのビルトイン設備の提案はない。
本稿では,eSPARQLと呼ばれる4値論理に基づく認識型RDF星メタデータのクエリ言語を提案する。
提案する問合せ言語は,RDF-starの問合せ言語であるSPARQL-starを拡張した。
提案したクエリ言語は,以下の機能を含む4つのユースケースクエリを表現可能であることを示す。
一 個人の信条を問うこと。
(二)信条の集約
三 誰かと対立している者を問うこと、
(四)信仰に関する信仰(すなわち信仰の営巣)
Over the past few years, we have seen the emergence of large knowledge graphs combining information from multiple sources. Sometimes, this information is provided in the form of assertions about other assertions, defining contexts where assertions are valid. A recent extension to RDF which admits statements over statements, called RDF-star, is in revision to become a W3C standard. However, there is no proposal for a semantics of these RDF-star statements nor a built-in facility to operate over them. In this paper, we propose a query language for epistemic RDF-star metadata based on a four-valued logic, called eSPARQL. Our proposed query language extends SPARQL-star, the query language for RDF-star, with a new type of FROM clause to facilitate operating with multiple and sometimes conflicting beliefs. We show that the proposed query language can express four use case queries, including the following features: (i) querying the belief of an individual, (ii) the aggregating of beliefs, (iii) querying who is conflicting with somebody, and (iv) beliefs about beliefs (i.e., nesting of beliefs). | 翻訳日:2024-08-07 16:27:42 公開日:2024-08-06 |
# MoMa: Modality-Aware Expertsを併用した効率的な早期フュージョン事前トレーニング
MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts ( http://arxiv.org/abs/2407.21770v2 ) ライセンス: Link先を確認 | Xi Victoria Lin, Akshat Shrivastava, Liang Luo, Srinivasan Iyer, Mike Lewis, Gargi Gosh, Luke Zettlemoyer, Armen Aghajanyan, | (参考訳) 混合モーダル・アーリーフュージョン言語モデルの事前学習用に設計された新しいモダリティ対応ミックス・オブ・エキスパート(MoE)アーキテクチャであるMoMaを紹介する。
MoMaは、専門家モジュールをモダリティ固有のグループに分割することで、任意のシーケンスで画像とテキストを処理する。
これらのグループは、意味的にインフォメーションされた適応性を維持するために、各グループ内で学習されたルーティングを使用しながら、指定されたトークンを排他的に処理する。
実験結果から, このモーダリティ比パラメータ割り当てにより, 事前学習効率が著しく向上することがわかった。
1トリルのトレーニング予算の下では、MoMa 1.4Bモデルは4人のテキスト専門家と4人の画像専門家をフィーチャーし、FLOPの大幅な節約を実現している: 全体として3.7倍、テキストは2.6倍、画像処理は5.2倍である。
これは8つの混合モードの専門家による標準的な専門家選択MoEよりも優れており、FLOP全体の3倍の節約(テキストでは3倍、画像では2.8倍)を実現している。
MoMaとミキシング・オブ・ディープス(MoD)を組み合わせることで、FLOPの事前トレーニングは4.2倍(テキスト:3.4倍、画像:5.3倍)に改善されるが、この組み合わせはルータ精度に対する感度の向上による因果推論の性能を損なう。
これらの結果は、MoMaが混合モーダル、アーリーフュージョン言語モデルの事前トレーニングの効率を大幅に向上する可能性を示し、よりリソース効率が高く有能なマルチモーダルAIシステムへの道を開いた。
We introduce MoMa, a novel modality-aware mixture-of-experts (MoE) architecture designed for pre-training mixed-modal, early-fusion language models. MoMa processes images and text in arbitrary sequences by dividing expert modules into modality-specific groups. These groups exclusively process designated tokens while employing learned routing within each group to maintain semantically informed adaptivity. Our empirical results reveal substantial pre-training efficiency gains through this modality-specific parameter allocation. Under a 1-trillion-token training budget, the MoMa 1.4B model, featuring 4 text experts and 4 image experts, achieves impressive FLOPs savings: 3.7x overall, with 2.6x for text and 5.2x for image processing compared to a compute-equivalent dense baseline, measured by pre-training loss. This outperforms the standard expert-choice MoE with 8 mixed-modal experts, which achieves 3x overall FLOPs savings (3x for text, 2.8x for image). Combining MoMa with mixture-of-depths (MoD) further improves pre-training FLOPs savings to 4.2x overall (text: 3.4x, image: 5.3x), although this combination hurts performance in causal inference due to increased sensitivity to router accuracy. These results demonstrate MoMa's potential to significantly advance the efficiency of mixed-modal, early-fusion language model pre-training, paving the way for more resource-efficient and capable multimodal AI systems. | 翻訳日:2024-08-07 16:27:42 公開日:2024-08-06 |
# 過パラメータ化物理インフォームニューラルネットワークにおける自然勾配の収束解析
Convergence Analysis of Natural Gradient Descent for Over-parameterized Physics-Informed Neural Networks ( http://arxiv.org/abs/2408.00573v2 ) ライセンス: Link先を確認 | Xianliang Xu, Ting Du, Wang Kong, Ye Li, Zhongyi Huang, | (参考訳) 勾配降下(GD)や確率勾配降下(SGD)のような一階法はニューラルネットワークのトレーニングに有効であることが証明されている。
過パラメータ化の文脈では、ランダムに初期化された(確率的な)勾配勾配が二次損失関数の線形収束速度で大域最適解に収束することを示す一連の研究がある。
しかし, 2層ニューラルネットワークの学習におけるGDの学習速度は, サンプルサイズやグラムマトリックスへの依存度が低く, 学習過程が遅い。
本稿では,$L^2$回帰問題に対して,学習率が$\mathcal{O}(\lambda_0/n^2)$から$\mathcal{O}(1/\|\bm{H}^{\infty}\|_2)$に改善できることを示し,GDが実際により高速な収束率を享受していることを示す。
さらに,2層式物理情報ニューラルネットワーク(PINN)の学習におけるGDへの一般化を行い,学習率の類似性を示した。
学習率の向上はグラム行列に軽度に依存するが、グラム行列の未知の固有値のため、実際には十分小さく設定する必要がある。
さらに重要なことに、収束率はグラム行列の最小固有値と結びついており、収束が遅くなる可能性がある。
本研究では,2層PINNの学習における自然勾配降下(NGD)の収束解析を行い,学習率が$\mathcal{O}(1)$であることを示す。
First-order methods, such as gradient descent (GD) and stochastic gradient descent (SGD), have been proven effective in training neural networks. In the context of over-parameterization, there is a line of work demonstrating that randomly initialized (stochastic) gradient descent converges to a globally optimal solution at a linear convergence rate for the quadratic loss function. However, the learning rate of GD for training two-layer neural networks exhibits poor dependence on the sample size and the Gram matrix, leading to a slow training process. In this paper, we show that for the $L^2$ regression problems, the learning rate can be improved from $\mathcal{O}(\lambda_0/n^2)$ to $\mathcal{O}(1/\|\bm{H}^{\infty}\|_2)$, which implies that GD actually enjoys a faster convergence rate. Furthermore, we generalize the method to GD in training two-layer Physics-Informed Neural Networks (PINNs), showing a similar improvement for the learning rate. Although the improved learning rate has a mild dependence on the Gram matrix, we still need to set it small enough in practice due to the unknown eigenvalues of the Gram matrix. More importantly, the convergence rate is tied to the least eigenvalue of the Gram matrix, which can lead to slow convergence. In this work, we provide the convergence analysis of natural gradient descent (NGD) in training two-layer PINNs, demonstrating that the learning rate can be $\mathcal{O}(1)$, and at this rate, the convergence rate is independent of the Gram matrix. | 翻訳日:2024-08-07 16:27:42 公開日:2024-08-06 |
# SentenceVAE: 高速,高精度,コンテキストの長い大規模言語モデルの次文予測を可能にする
SentenceVAE: Enable Next-sentence Prediction for Large Language Models with Faster Speed, Higher Accuracy and Longer Context ( http://arxiv.org/abs/2408.00655v3 ) ライセンス: Link先を確認 | Hongjun An, Yifan Chen, Xiaozhen Qiao, Zhe Sun, Xuelong Li, | (参考訳) 現在の大規模言語モデル (LLM) は、主に推論に次トーケン予測法を用いており、処理速度を著しく損なう。
本稿では,LLMの推論効率を向上させることを目的とした,次世代予測と呼ばれる新しい推論手法を提案する。
文変分オートエンコーダ(文変分自動エンコーダ)は,文変分自動エンコーダ(文変分自動エンコーダ)と文変分自動エンコーダ(文変分自動エンコーダ)からなる小型モデルである。
Sentence Encoderは文内の情報を単一のトークンに効果的にコンデンスすることができ、Sentence Decoderは圧縮されたトークンを文に再構築することができる。
LLMの入力層と出力層にSentenceVAEを組み込むことで,文ごとの推論手法を用いたSLLM(Sentence-level LLM)を開発する。
さらに、SLLMのSentenceVAEモジュールは、コンテキストを文にセグメント化することで、元の意味内容の完全性を維持することができ、推論速度を向上しながら精度を向上させることができる。
さらに、従来のLLMと比較して、SLLMは等価コンテキスト長よりも少ないトークンを処理し、自己アテンション計算のメモリ要求を著しく低減し、より長いコンテキストの処理を容易にする。
Wanjuanデータセットの大規模な実験により、提案手法は推論速度を204〜365%高速化し、パープレキシティ(PPL)を46~75%削減し、メモリオーバーヘッドをトークン・バイ・トークン法と比較して86~91%削減できることが明らかになった。
Current large language models (LLMs) primarily utilize next-token prediction method for inference, which significantly impedes their processing speed. In this paper, we introduce a novel inference methodology termed next-sentence prediction, aimed at enhancing the inference efficiency of LLMs. We present Sentence Variational Autoencoder (SentenceVAE), a tiny model consisting of a Sentence Encoder and a Sentence Decoder. The Sentence Encoder can effectively condense the information within a sentence into a singular token, while the Sentence Decoder can reconstruct this compressed token back into sentence. By integrating SentenceVAE into the input and output layers of LLMs, we develop Sentence-level LLMs (SLLMs) that employ a sentence-by-sentence inference method. In addition, the SentenceVAE module of SLLMs can maintain the integrity of the original semantic content by segmenting the context into sentences, thereby improving accuracy while boosting inference speed. Moreover, compared to previous LLMs, SLLMs process fewer tokens over equivalent context length, significantly reducing memory demands for self-attention computation and facilitating the handling of longer context. Extensive experiments on Wanjuan dataset have reveal that the proposed method can accelerate inference speed by 204~365%, reduce perplexity (PPL) to 46~75% of its original metric, and decrease memory overhead by 86~91% for the equivalent context length, compared to the token-by-token method. | 翻訳日:2024-08-07 16:27:42 公開日:2024-08-06 |
# セグメンテーションモデル2--2次元および3次元医用画像への応用
Segment anything model 2: an application to 2D and 3D medical images ( http://arxiv.org/abs/2408.00756v2 ) ライセンス: Link先を確認 | Haoyu Dong, Hanxue Gu, Yaqian Chen, Jichen Yang, Maciej A. Mazurowski, | (参考訳) Segment Anything Model (SAM) は、様々なオブジェクトを画像にセグメント化できることから注目されている。
最近開発されたSAM 2は、この機能をビデオ入力に拡張した。
これにより、SAMを3D画像に適用する機会が開ける。
本稿では,CT (Computed tomography) やMRI (MRI) やポジトロン・エミッション・トモグラフィ (PET) などの一般的な3Dモダリティや,X線や超音波などの2Dモダリティを含む18の医用画像データセットを収集することにより,SAM2の2次元画像と3次元画像の両方を分割する能力を広く評価する。
SAM2の評価パイプラインは、(1)ボリュームから選択された1つまたは複数のスライスに対してプロンプトが提供されるマルチフレーム3Dセグメンテーションと、(2)スライス毎にプロンプトが提供されるシングルフレーム2Dセグメンテーションである。
前者は3Dモダリティにのみ適用され、後者は2Dモダリティと3Dモダリティの両方に適用される。
その結果,SAM2は単フレーム2次元セグメンテーションにおいてSAMと同等の性能を示し,アノテートするスライスの選択,伝搬方向,伝搬中に利用した予測などに応じて,多フレーム3次元セグメンテーション下での変動性能を示すことがわかった。
Segment Anything Model (SAM) has gained significant attention because of its ability to segment varous objects in images given a prompt. The recently developed SAM 2 has extended this ability to video inputs. This opens an opportunity to apply SAM to 3D images, one of the fundamental tasks in the medical imaging field. In this paper, we extensively evaluate SAM 2's ability to segment both 2D and 3D medical images by first collecting 18 medical imaging datasets, including common 3D modalities such as computed tomography (CT), magnetic resonance imaging (MRI), and positron emission tomography (PET) as well as 2D modalities such as X-ray and ultrasound. Two evaluation pipelines of SAM 2 are considered: (1) multi-frame 3D segmentation, where prompts are provided to one or multiple slice(s) selected from the volume, and (2) single-frame 2D segmentation, where prompts are provided to each slice. The former is only applicable to 3D modalities, while the latter applies to both 2D and 3D modalities. Our results show that SAM 2 exhibits similar performance as SAM under single-frame 2D segmentation, and has variable performance under multi-frame 3D segmentation depending on the choices of slices to annotate, the direction of the propagation, the predictions utilized during the propagation, etc. | 翻訳日:2024-08-07 16:27:42 公開日:2024-08-06 |
# 推薦システムにおけるインデックス構築と検索のための深部不確実性に基づく探索
Deep Uncertainty-Based Explore for Index Construction and Retrieval in Recommendation System ( http://arxiv.org/abs/2408.00799v2 ) ライセンス: Link先を確認 | Xin Jiang, Kaiqiang Wang, Yinlong Wang, Fengchang Lv, Taiyang Peng, Shuai Yang, Xianteng Wu, Pengye Zhang, Shuo Yuan, Yifan Zeng, | (参考訳) レコメンデーションシステムでは、最終結果の妥当性と新規性は、マッチング->ランキング->戦略のカスケードシステムを介して選択される。
マッチングモデルはパイプラインの開始点として機能し、その後のステージの上限を決定する。
マッチング結果の妥当性と斬新さのバランスをとることは、レコメンデーションシステムの設計と最適化における重要なステップであり、レコメンデーション品質の改善に大きく貢献します。
しかし、典型的なマッチングアルゴリズムは、その妥当性と新規性を完全には解決していない。
1つの主な理由は、長い尾のアイテム(例えば、訓練サンプルが不足しているため)を推定する際に、深いマッチングアルゴリズムが重大な不確実性を示すことである。
本稿では,UICR (Uncertainty-based Explor for Index Construction and Retrieval) アルゴリズムを提案し,マッチング段階における不確実性モデルの概念を導入し,モデル不確実性と指標不確実性のマルチタスクモデリングを実現する。
モデルにより推定された関連点と不確実点を組み合わせることにより、最終的なマッチング結果を得る。
実世界の産業生産環境と複数のオープンソースデータセットとの関係を犠牲にすることなく,UICRが新規性を向上することを示す実験結果が得られた。
興味深いことに、Shopeeにおけるディスプレイ広告のオンラインA/Bテストの結果は、提案アルゴリズムの有効性を実証している。
In recommendation systems, the relevance and novelty of the final results are selected through a cascade system of Matching -> Ranking -> Strategy. The matching model serves as the starting point of the pipeline and determines the upper bound of the subsequent stages. Balancing the relevance and novelty of matching results is a crucial step in the design and optimization of recommendation systems, contributing significantly to improving recommendation quality. However, the typical matching algorithms have not simultaneously addressed the relevance and novelty perfectly. One main reason is that deep matching algorithms exhibit significant uncertainty when estimating items in the long tail (e.g., due to insufficient training samples) items.The uncertainty not only affects the training of the models but also influences the confidence in the index construction and beam search retrieval process of these models. This paper proposes the UICR (Uncertainty-based explore for Index Construction and Retrieval) algorithm, which introduces the concept of uncertainty modeling in the matching stage and achieves multi-task modeling of model uncertainty and index uncertainty. The final matching results are obtained by combining the relevance score and uncertainty score infered by the model. Experimental results demonstrate that the UICR improves novelty without sacrificing relevance on realworld industrial productive environments and multiple open-source datasets. Remarkably, online A/B test results of display advertising in Shopee demonstrates the effectiveness of the proposed algorithm. | 翻訳日:2024-08-07 16:27:42 公開日:2024-08-06 |
# ESGとAIの統合: 総合責任AIアセスメントフレームワーク
Integrating ESG and AI: A Comprehensive Responsible AI Assessment Framework ( http://arxiv.org/abs/2408.00965v2 ) ライセンス: Link先を確認 | Sung Une Lee, Harsha Perera, Yue Liu, Boming Xia, Qinghua Lu, Liming Zhu, Jessica Cairns, Moana Nottage, | (参考訳) 人工知能(AI)は、業界全体で広く開発され、採用されている技術である。
環境、社会、ガバナンス(ESG)とAI投資を統合することは、倫理的かつ持続可能な技術進歩の確保に不可欠である。
特に投資家の視点では、この統合はリスクを軽減するだけでなく、AIイニシアティブをより広範な社会的目標と整合させることで、長期的な価値創造を促進する。
しかし、この領域は学術と産業の両方であまり調査されていない。
このギャップを埋めるために,28社の企業との関わりから洞察を得て開発され,3つの重要なコンポーネントから構成されるESG-AIフレームワークを導入する。
このフレームワークは、業界関係者とのコラボレーションによって開発された、この統合に対する構造化されたアプローチを提供する。
ESG-AIフレームワークは、AIアプリケーションの環境および社会的影響の概要を提供する。
さらに、投資家は、構造化されたエンゲージメントと特定のリスク領域の徹底的な評価を通じて、責任あるAIに対する企業のコミットメントを評価することができる。
我々は2024年4月にフレームワークとツールキットを公開し、投資コミュニティから大きな注目を集め、肯定的なフィードバックを受けています。
本稿では、現実世界の文脈における適用可能性とその倫理的AI投資を導く可能性を示す、フレームワークの各コンポーネントについて詳述する。
Artificial Intelligence (AI) is a widely developed and adopted technology across entire industry sectors. Integrating environmental, social, and governance (ESG) considerations with AI investments is crucial for ensuring ethical and sustainable technological advancement. Particularly from an investor perspective, this integration not only mitigates risks but also enhances long-term value creation by aligning AI initiatives with broader societal goals. Yet, this area has been less explored in both academia and industry. To bridge the gap, we introduce a novel ESG-AI framework, which is developed based on insights from engagements with 28 companies and comprises three key components. The framework provides a structured approach to this integration, developed in collaboration with industry practitioners. The ESG-AI framework provides an overview of the environmental and social impacts of AI applications, helping users such as investors assess the materiality of AI use. Moreover, it enables investors to evaluate a company's commitment to responsible AI through structured engagements and thorough assessment of specific risk areas. We have publicly released the framework and toolkit in April 2024, which has received significant attention and positive feedback from the investment community. This paper details each component of the framework, demonstrating its applicability in real-world contexts and its potential to guide ethical AI investments. | 翻訳日:2024-08-07 16:27:42 公開日:2024-08-06 |
# Hide and Seek: 進化的学習による大規模言語モデルのフィンガープリント
Hide and Seek: Fingerprinting Large Language Models with Evolutionary Learning ( http://arxiv.org/abs/2408.02871v1 ) ライセンス: Link先を確認 | Dmitri Iourovitski, Sanat Sharma, Rakshak Talwar, | (参考訳) LLM(Large Language Model)が生成するコンテンツが指数関数的に増加するにつれて、そのようなテキストを正確に識別し、フィンガープリントする能力はますます重要になっている。
そこで本研究では,LLMのラインナップに含まれるモデル群(Such as Llama, Mistral, Gemmaなど)を識別する際, 72%の精度で指紋認証を行う新しいブラックボックス手法を提案する。
我々は,あるLLMの能力を活用して,他のLLMを識別する上で最も有能な特徴を発見する進化的戦略を提案する。
本手法では,識別的プロンプトを生成する独自の「Hide and Seek」アルゴリズムを用いて,対象モデルの指紋に対する応答を検知する。
このアプローチは、LLM駆動モデル同定の実現可能性を示すだけでなく、異なるLLMファミリーのセマンティック多様体に関する洞察も示している。
テキスト内学習を通じてプロンプトを反復的に精錬することにより、モデル出力の微妙な区別を明らかにし、LLM分析と検証のための強力なツールを提供する。
この研究は、LLMの振る舞いを理解するための新しい道を開き、モデル帰属、セキュリティ、そしてAI透明性の幅広い分野に重大な影響を与える。
As content generated by Large Language Model (LLM) has grown exponentially, the ability to accurately identify and fingerprint such text has become increasingly crucial. In this work, we introduce a novel black-box approach for fingerprinting LLMs, achieving an impressive 72% accuracy in identifying the correct family of models (Such as Llama, Mistral, Gemma, etc) among a lineup of LLMs. We present an evolutionary strategy that leverages the capabilities of one LLM to discover the most salient features for identifying other LLMs. Our method employs a unique "Hide and Seek" algorithm, where an Auditor LLM generates discriminative prompts, and a Detective LLM analyzes the responses to fingerprint the target models. This approach not only demonstrates the feasibility of LLM-driven model identification but also reveals insights into the semantic manifolds of different LLM families. By iteratively refining prompts through in-context learning, our system uncovers subtle distinctions between model outputs, providing a powerful tool for LLM analysis and verification. This research opens new avenues for understanding LLM behavior and has significant implications for model attribution, security, and the broader field of AI transparency. | 翻訳日:2024-08-07 15:19:13 公開日:2024-08-06 |
# ソフトウェア信頼を高める - リスクランドスケープの展開と定量化
Elevating Software Trust: Unveiling and Quantifying the Risk Landscape ( http://arxiv.org/abs/2408.02876v1 ) ライセンス: Link先を確認 | Sarah Ali Siddiqui, Chandra Thapa, Rayne Holland, Wei Shao, Seyit Camtepe, | (参考訳) ソフトウェア開発における脅威の状況と急速な変化を考慮し、リスク評価フレームワークSRiQT(Software Risk Quantification through Trust)を提案する。
このフレームワークは、ソフトウェアサプライチェーンのリスクを定量化する動的でデータ駆動で適応可能なプロセスの必要性に基づいている。
通常、そのようなフレームワークを定式化する場合、静的な事前定義された重み付けは、個々のパラメータを集約して結果のリスクスコアを計算しながら、各コントリビューションパラメータの影響を反映するように割り当てられる。
これにより、柔軟性が損なわれ、適応性が欠如し、精度が低下し、デジタル世界の変化に適さない。
我々は、信頼のレンズを通してリスクを調べ、人間の側面を取り入れることで、新しい視点を採用する。
さらに、リスク要素を定量的に評価・定式化し、動的データ駆動重み付けを探索することにより、個々のソフトウェアに関連するリスクを定量化する。
これにより、ソフトウェア開発とプロセス全体に関わるさまざまなアクターに関連する、進化するリスク要因に対応するためのフレームワークの感度が向上します。
考案されたフレームワークは、9000のサンプル、包括的なシナリオ、アセスメント、専門家の意見を含むデータセットを通じてテストされる。
さらに,OpenSSFスコアカード,OWASPリスク計算機,提案したSRiQTフレームワークによるスコアの比較を行った。
その結果、SRiQTは主観性を軽減し、動的データ駆動重みとリスクスコアを生じることが示唆された。
Considering the ever-evolving threat landscape and rapid changes in software development, we propose a risk assessment framework SRiQT (Software Risk Quantification through Trust). This framework is based on the necessity of a dynamic, data-driven, and adaptable process to quantify risk in the software supply chain. Usually, when formulating such frameworks, static pre-defined weights are assigned to reflect the impact of each contributing parameter while aggregating these individual parameters to compute resulting risk scores. This leads to inflexibility, a lack of adaptability, and reduced accuracy, making them unsuitable for the changing nature of the digital world. We adopt a novel perspective by examining risk through the lens of trust and incorporating the human aspect. Moreover, we quantify risk associated with individual software by assessing and formulating risk elements quantitatively and exploring dynamic data-driven weight assignment. This enhances the sensitivity of the framework to cater to the evolving risk factors associated with software development and the different actors involved in the entire process. The devised framework is tested through a dataset containing 9000 samples, comprehensive scenarios, assessments, and expert opinions. Furthermore, a comparison between scores computed by the OpenSSF scorecard, OWASP risk calculator, and the proposed SRiQT framework has also been presented. The results suggest that SRiQT mitigates subjectivity and yields dynamic data-driven weights as well as risk scores. | 翻訳日:2024-08-07 15:19:13 公開日:2024-08-06 |
# 彼女の身体:エンド・ツー・エンドヒューマノイド剤に関する予備研究
Body of Her: A Preliminary Study on End-to-End Humanoid Agent ( http://arxiv.org/abs/2408.02879v1 ) ライセンス: Link先を確認 | Tenglong Ao, | (参考訳) 対話型仮想ヒューマノイドエージェントは物理世界にとって重要なインターフェースである。
比較的完全なヒューマノイド剤は、まず顔と体を持ち、次に言語と非言語の両方の能力(例えば、アイコンタクト、表情、唇の動き、ジェスチャー、操作)を持ち、最後に、リアルタイムの二重コミュニケーション、例えば会話を積極的に中断する能力を持つ。
以前のほとんどのシステムは、通常これらの要素のサブセットのみを考慮し、現実的なヒューマノイドエージェントとのギャップを残している。
本研究では,対話,応答,アイドリング,操作など,現実的なエージェント行動のモデル化が可能なリアルタイム・二重化・対話型エンド・ツー・エンド・ネットワークを提案する。
このシステムは、事前訓練された大言語モデル(LLM)から拡張された音声と視覚入力を統合したマルチモーダルモデルである。
約20万時間のオーディオ、約13万時間のビデオデータ、約2万のアライメントサンプルを収集してモデルを構築しています。
最終モデルは、一般化されたオブジェクト操作のような、以前のシステムでは達成が難しい機能を示す。
この研究は、この分野でエンド・ツー・エンドのアプローチを予備的な調査を行い、スケールアップに向けたさらなる研究を刺激することを目的としている。
Interactive virtual humanoid agent is a crucial interface with the physical world. A relatively complete humanoid agent first needs to have face and body, then possess both verbal and non-verbal (such as eye contact, facial expression, lip motion, gesture, and manipulation) abilities, and finally, it is capable of real-time duplex communication, e.g., the ability to actively interrupt conversations. Most prior systems typically only consider a subset of these elements, leaving a gap from realistic humanoid agent. In this work, we propose a real-time, duplex, interactive end-to-end network capable of modeling realistic agent behaviors, including speech, full-body movements for talking, responding, idling, and manipulation. This system is a multimodal model integrating audio and visual inputs, extended from a pre-trained large language model (LLM). We collect approximately 200,000 hours of audio, around 130,000 hours of video data, and about 20,000 alignment samples to build the model. The final model demonstrates capabilities that are difficult to achieve in previous systems, such as generalized object manipulation. This work performs a preliminary exploration of the end-to-end approach in this field, aiming to inspire further research towards scaling up. | 翻訳日:2024-08-07 15:19:13 公開日:2024-08-06 |
# コンテキスト的バックドアアタックによる身体的エージェントの妥協
Compromising Embodied Agents with Contextual Backdoor Attacks ( http://arxiv.org/abs/2408.02882v1 ) ライセンス: Link先を確認 | Aishan Liu, Yuguang Zhou, Xianglong Liu, Tianyuan Zhang, Siyuan Liang, Jiakai Wang, Yanjun Pu, Tianlin Li, Junqi Zhang, Wenbo Zhou, Qing Guo, Dacheng Tao, | (参考訳) 大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
いくつかの文脈的なデモを提供することで、開発者はLLMの内部知識を利用して、抽象言語で記述された複雑なタスクをコードスニペットのシーケンスに変換することができる。
しかし,本研究では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにし,新しい手法である 'method{} を提案する。
ほんの少しの文脈的デモンストレーションを毒殺することで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽し、コンテキスト依存の欠陥を持つプログラムを生成する。
これらのプログラムは論理的に健全に見えるが、操作エージェントが対話環境で特定のトリガーに遭遇したときに意図しない動作を活性化し誘発する欠陥を含んでいる。
LLMの文脈環境を損なうため,LLM の審査員がこれらの有害なプロンプトを評価し,さらに LLM に,チェーン・オブ・ソート・推論を用いた2人の対戦型ゲームにおけるデモンストレーションを反復的に最適化する旨を報告した。
下流エージェントにおけるコンテキスト依存的な動作を可能にするために、テキストおよび視覚的トリガによるプログラム欠陥の生成と実行の両方を制御するデュアルモードアクティベーション戦略を実装した。
エンボディエージェントの機密性、完全性、可用性の重要な側面を損なう5つのプログラム欠陥モードを開発することで、攻撃の範囲を広げる。
提案手法の有効性を検証するため,ロボット計画,ロボット操作,構成的視覚的推論など,様々なタスクにまたがる広範な実験を行った。
さらに、現実の自動運転システムへの攻撃に成功して、我々のアプローチの潜在的影響を実証する。
Large language models (LLMs) have transformed the development of embodied intelligence. By providing a few contextual demonstrations, developers can utilize the extensive internal knowledge of LLMs to effortlessly translate complex tasks described in abstract language into sequences of code snippets, which will serve as the execution logic for embodied agents. However, this paper uncovers a significant backdoor security threat within this process and introduces a novel method called \method{}. By poisoning just a few contextual demonstrations, attackers can covertly compromise the contextual environment of a black-box LLM, prompting it to generate programs with context-dependent defects. These programs appear logically sound but contain defects that can activate and induce unintended behaviors when the operational agent encounters specific triggers in its interactive environment. To compromise the LLM's contextual environment, we employ adversarial in-context generation to optimize poisoned demonstrations, where an LLM judge evaluates these poisoned prompts, reporting to an additional LLM that iteratively optimizes the demonstration in a two-player adversarial game using chain-of-thought reasoning. To enable context-dependent behaviors in downstream agents, we implement a dual-modality activation strategy that controls both the generation and execution of program defects through textual and visual triggers. We expand the scope of our attack by developing five program defect modes that compromise key aspects of confidentiality, integrity, and availability in embodied agents. To validate the effectiveness of our approach, we conducted extensive experiments across various tasks, including robot planning, robot manipulation, and compositional visual reasoning. Additionally, we demonstrate the potential impact of our approach by successfully attacking real-world autonomous driving systems. | 翻訳日:2024-08-07 15:19:13 公開日:2024-08-06 |
# 真に一貫性のない操作による状態変換性
State convertibility under genuinely incoherent operations ( http://arxiv.org/abs/2408.02885v1 ) ライセンス: Link先を確認 | Zhaofang Bai, Shuanping Du, | (参考訳) 状態変換性は、量子コヒーレンス(英語版)の資源理論の研究において基本的なものである。
これは、あるコヒーレントな状態が、非コヒーレントな操作のみを使用して、いつ他のコヒーレントな状態に変換できるかを特定することを目的としている。
本稿では,真に不整合な動作下での状態変換性の完全な評価について述べる。
その結果、コヒーレンスの堅牢性の凸性は中心的な役割を担っていることがわかった。
これに基づいて、厳密な不整合操作の下で純状態から混合状態への変換可能性を決定する大域化条件が提供される。
さらに、固定対角要素を持つ全ての状態の集合における最大コヒーレントな状態が決定される。
コヒーレンスの堅牢性の凸性もまた、コヒーレント状態の非対角部分間の変換を決定することができる。
これは、不整合操作下での混合状態に対する状態変換可能性の問題に完全に答える大きなステップかもしれない。
State convertibility is fundamental in the study of resource theory of quantum coherence. It is aimed at identifying when it is possible to convert a given coherent state to another using only incoherent operations. In this paper, we give a complete characterization of state convertibility under genuinely incoherent operations. It is found that the convexity of the robustness of coherence plays a central role. Based on this, the majorization condition of determining convertibility from pure states to mixed states under strictly incoherent operations is provided. Moreover, maximally coherent states in the set of all states with fixed diagonal elements are determined. It is somewhat surprising that the convexity of the robustness of coherence can also decide conversion between off-diagonal parts of coherent states. This might be a big step to answer completely the question of state convertibility for mixed states under incoherent operations. | 翻訳日:2024-08-07 15:19:13 公開日:2024-08-06 |
# VizECGNet:マルチモーダルトレーニングと知識蒸留による心血管疾患分類のためのビジュアル心電図画像ネットワーク
VizECGNet: Visual ECG Image Network for Cardiovascular Diseases Classification with Multi-Modal Training and Knowledge Distillation ( http://arxiv.org/abs/2408.02888v1 ) ライセンス: Link先を確認 | Ju-Hyeon Nam, Seo-Hyung Park, Su Jung Kim, Sang-Chul Lee, | (参考訳) 心電図(ECG)は、心臓の電気信号を捉え、様々な心臓状態を評価する。
実際には、ECGデータはデジタル化された信号または印刷された画像として格納される。
デジタル化された信号のための多くのディープラーニングモデルが出現したにもかかわらず、多くの病院はコストを考慮して画像記憶を好む。
本研究は,心電図のみを用いて,複数の心血管疾患の予後を判定するVizECGNetを提案する。
トレーニング中、相互注意モジュール(CMAM)は画像と信号の2つのモードからの情報を統合するために使用され、一方、自己注意モジュール(SMAM)は各モードのECGデータに固有の長距離依存関係をキャプチャする。
さらに、知識蒸留を利用して、各モードストリームからの2つの異なる予測の類似性を改善する。
この革新的なマルチモーダルディープラーニングアーキテクチャは、推論中にECG画像のみを活用することができる。
VizECGNetは、信号ベースのECG分類モデルと比較して精度、リコール、F1-Scoreが向上し、それぞれ3.50%、8.21%、および7.38%の改善がある。
An electrocardiogram (ECG) captures the heart's electrical signal to assess various heart conditions. In practice, ECG data is stored as either digitized signals or printed images. Despite the emergence of numerous deep learning models for digitized signals, many hospitals prefer image storage due to cost considerations. Recognizing the unavailability of raw ECG signals in many clinical settings, we propose VizECGNet, which uses only printed ECG graphics to determine the prognosis of multiple cardiovascular diseases. During training, cross-modal attention modules (CMAM) are used to integrate information from two modalities - image and signal, while self-modality attention modules (SMAM) capture inherent long-range dependencies in ECG data of each modality. Additionally, we utilize knowledge distillation to improve the similarity between two distinct predictions from each modality stream. This innovative multi-modal deep learning architecture enables the utilization of only ECG images during inference. VizECGNet with image input achieves higher performance in precision, recall, and F1-Score compared to signal-based ECG classification models, with improvements of 3.50%, 8.21%, and 7.38%, respectively. | 翻訳日:2024-08-07 15:19:13 公開日:2024-08-06 |
# セマンティックコーディネーションを維持した多変量生成:オブジェクト検出のための拡散に基づくデータ拡張法
Diverse Generation while Maintaining Semantic Coordination: A Diffusion-Based Data Augmentation Method for Object Detection ( http://arxiv.org/abs/2408.02891v1 ) ライセンス: Link先を確認 | Sen Nie, Zhuo Wang, Xinxin Wang, Kun He, | (参考訳) 近年の研究では、オブジェクト検出モデルの性能向上におけるデータ拡張の重要な役割を強調している。
しかし,既存の手法は,データセットの多様性とセマンティック・コーディネートを効果的に調和させることに苦慮することが多く,このギャップを埋めるために,事前学習した条件付き拡散モデルを利用してこのバランスを仲介する革新的な拡張手法を導入する。
提案手法は,データセットの多様性向上を念頭に設計したカテゴリ親和性マトリックスと,拡張画像におけるセマンティックコーディネーションの保存を確実にする周辺領域アライメント戦略の開発を包含する。
大規模な実験により,セマンティック・コーディネーションをシームレスに維持しつつ,データセットの多様性を充実させる手法の有効性が確認された。
本手法は,既存の3種類の物体検出モデルに対して,+1.4AP,+0.9AP,+3.4APの精度向上を実現している。
Recent studies emphasize the crucial role of data augmentation in enhancing the performance of object detection models. However,existing methodologies often struggle to effectively harmonize dataset diversity with semantic coordination.To bridge this gap, we introduce an innovative augmentation technique leveraging pre-trained conditional diffusion models to mediate this balance. Our approach encompasses the development of a Category Affinity Matrix, meticulously designed to enhance dataset diversity, and a Surrounding Region Alignment strategy, which ensures the preservation of semantic coordination in the augmented images. Extensive experimental evaluations confirm the efficacy of our method in enriching dataset diversity while seamlessly maintaining semantic coordination. Our method yields substantial average improvements of +1.4AP, +0.9AP, and +3.4AP over existing alternatives on three distinct object detection models, respectively. | 翻訳日:2024-08-07 15:19:13 公開日:2024-08-06 |
# 多部系における最小濃度の強い非局所集合
Strongest nonlocal sets with minimum cardinality in multipartite systems ( http://arxiv.org/abs/2408.02894v1 ) ライセンス: Link先を確認 | Hong-Run Li, Hui-Juan Zuo, Fei Shi, Shao-Ming Fei, | (参考訳) 状態判別に基づく量子非局所性は、直交状態の集合のグローバルな性質を記述し、量子暗号プロトコルにおける幅広い応用を持つ。
強い非局所性は、最近多部量子系において提示された量子非局所性の最も強い形式である: 直交多部量子状態の集合が最強非局所性であるなら、すべての分割のサブシステムにおける唯一の直交保存局所測定が自明である。
この研究により、$\mathbb{C}^{d_{1}}\otimes \mathbb{C}^{d_{2}}\otimes \mathbb{C}^{d_{3}}$$(2\leq d_{1}\leq d_{2}\leq d_{3})$ of size $d_2d_3+1$。
すると、$d^3+1$ 四部系において最も強い非局所集合が得られ、$\mathbb{C}^d\otimes \mathbb{C}^{d}\otimes \mathbb{C}^{d}\otimes \mathbb{C}^{d}$ $(d\geq2)$ および$d_{2}d_{3}d_{4}+1 の直交状態が $\mathbb{C}^{d_{2}}\otimes \mathbb{C}^{d_{2}}\otimes \mathbb{C}^{d_{3}}\otimes \mathbb{C}^{d_{4}}$ $(2\leq d_{1}\leq d_{2}\leq d_{3}\leq d_{4}$) となる。
驚いたことに、上記の構成のすべての要素の数は、最近予想された下界に完全に到達し、$\mathbb{C}^{d}\otimes \mathbb{C}^{d}\otimes \mathbb{C}^{d}\otimes \mathbb{C}^{d}\otimes \mathbb{C}^{d}$ of [\href{https://doi.org/10.1103/PhysRevA.108.062407}{Physにおける最強非局所集合のサイズを減少させる。
A \textbf{108}, 062407 (2023)}] by $d-2$.
特に、4粒子系における最強非局所集合の一般的な最適構成は、初めて完全に解決され、状態判別の観点から量子非局所性の理論をさらに強調する。
Quantum nonlocality based on state discrimination describes the global property of the set of orthogonal states and has a wide range of applications in quantum cryptographic protocols. Strongest nonlocality is the strongest form of quantum nonlocality recently presented in multipartite quantum systems: a set of orthogonal multipartite quantum states is strongest nonlocal if the only orthogonality-preserving local measurements on the subsystems in every bipartition are trivial. In this work, we found a construction of strongest nonlocal sets in $\mathbb{C}^{d_{1}}\otimes \mathbb{C}^{d_{2}}\otimes \mathbb{C}^{d_{3}}$ $(2\leq d_{1}\leq d_{2}\leq d_{3})$ of size $d_2d_3+1$ without stopper states. Then we obtain the strongest nonlocal sets in four-partite systems with $d^3+1$ orthogonal states in $\mathbb{C}^d\otimes \mathbb{C}^{d}\otimes \mathbb{C}^{d}\otimes \mathbb{C}^{d}$ $(d\geq2)$ and $d_{2}d_{3}d_{4}+1$ orthogonal states in $\mathbb{C}^{d_{1}}\otimes \mathbb{C}^{d_{2}}\otimes \mathbb{C}^{d_{3}}\otimes \mathbb{C}^{d_{4}}$ $(2\leq d_{1}\leq d_{2}\leq d_{3}\leq d_{4})$. Surprisingly, the number of the elements in all above constructions perfectly reaches the recent conjectured lower bound and reduces the size of the strongest nonlocal set in $\mathbb{C}^{d}\otimes \mathbb{C}^{d}\otimes \mathbb{C}^{d}\otimes \mathbb{C}^{d}$ of [\href{https://doi.org/10.1103/PhysRevA.108.062407}{Phys. Rev. A \textbf{108}, 062407 (2023)}] by $d-2$. In particular, the general optimal construction of the strongest nonlocal set in four-partite system is completely solved for the first time, which further highlights the theory of quantum nonlocality from the perspective of state discrimination. | 翻訳日:2024-08-07 15:19:13 公開日:2024-08-06 |
# 混合精密訓練における計量駆動的アプローチ
A Metric Driven Approach to Mixed Precision Training ( http://arxiv.org/abs/2408.02897v1 ) ライセンス: Link先を確認 | Mitchelle Rasquinha, Gil Tabak, | (参考訳) ディープラーニングの方法論が発展するにつれて、ニューラルネットワークのサイズの増加がモデルの品質を向上させることが一般的に合意されている。
しかし、これはメモリと計算の要求を犠牲にしており、その必要も増す必要がある。
ハードウェアコストを抑えるために様々な効率性技術が提案されている。
最近のアクセラレーターは、数値の観点からDNNに対応するために、いくつかの異なる8ビットデータ型を導入している。
本稿では,数値の選択を支援するための計量駆動手法を同定する。
このような方法論が言語表現モデルのスケールトレーニングにどのように役立つかを実証する。
この技術は他のモデルアーキテクチャにも応用できる。
As deep learning methodologies have developed, it has been generally agreed that increasing neural network size improves model quality. However, this is at the expense of memory and compute requirements, which also need to be increased. Various efficiency techniques have been proposed to rein in hardware costs, one being the use of low precision numerics. Recent accelerators have introduced several different 8-bit data types to help accommodate DNNs in terms of numerics. In this paper, we identify a metric driven methodology to aid in the choice of numerics. We demonstrate how such a methodology can help scale training of a language representation model. The technique can be generalized to other model architectures. | 翻訳日:2024-08-07 15:19:13 公開日:2024-08-06 |
# SETN: テキストとネットワーク情報で強化されたストック埋め込み
SETN: Stock Embedding Enhanced with Textual and Network Information ( http://arxiv.org/abs/2408.02899v1 ) ライセンス: Link先を確認 | Takehiro Takayanagi, Hiroki Sakaji, Kiyoshi Izumi, | (参考訳) ストック埋め込みは、ストックのベクトル表現の方法である。
株式のベクター表現、すなわち、資産管理部門における株式の埋め込みに対する需要が高まっており、この手法は、株価予測、ポートフォリオ最適化、および類似のファンド識別といった様々なタスクに応用されている。
ストック埋め込みは、ストック間の相対関係の定量化を可能にする利点があり、テキストやネットワークデータのような構造化されていないデータから有用な情報を抽出することができる。
本研究では,テキスト情報とネットワーク情報(SETN)で強化されたストック埋め込みについて,ドメイン適応型事前学習型トランスフォーマーモデルを用いて,テキスト情報とグラフニューラルネットワークモデルを用いてネットワーク情報の把握を行う。
本稿では,企業情報抽出タスクにおける提案モデルの性能評価を行う。
また,提案モデルから得られたストック埋め込みは,基本的手法から得られたものよりもテーマ的資金の創出に優れており,富裕管理産業における様々な応用に期待できる道筋であることを示す。
Stock embedding is a method for vector representation of stocks. There is a growing demand for vector representations of stock, i.e., stock embedding, in wealth management sectors, and the method has been applied to various tasks such as stock price prediction, portfolio optimization, and similar fund identifications. Stock embeddings have the advantage of enabling the quantification of relative relationships between stocks, and they can extract useful information from unstructured data such as text and network data. In this study, we propose stock embedding enhanced with textual and network information (SETN) using a domain-adaptive pre-trained transformer-based model to embed textual information and a graph neural network model to grasp network information. We evaluate the performance of our proposed model on related company information extraction tasks. We also demonstrate that stock embeddings obtained from the proposed model perform better in creating thematic funds than those obtained from baseline methods, providing a promising pathway for various applications in the wealth management industry. | 翻訳日:2024-08-07 15:19:13 公開日:2024-08-06 |
# MedTrinity-25M : 医用マルチグラニュラーアノテーションを用いた大規模マルチモーダルデータセット
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine ( http://arxiv.org/abs/2408.02900v1 ) ライセンス: Link先を確認 | Yunfei Xie, Ce Zhou, Lang Gao, Juncheng Wu, Xianhang Li, Hong-Yu Zhou, Sheng Liu, Lei Xing, James Zou, Cihang Xie, Yuyin Zhou, | (参考訳) 本稿では,MedTrinity-25Mについて紹介する。MedTrinity-25Mは総合的かつ大規模な医療用マルチモーダルデータセットで,10つのモダリティにまたがる2500万以上の画像をカバーし,65以上の疾患に対する多彩なアノテーションを提供する。
これらの豊富なアノテーションは、病気/病気のタイプ、モダリティ、地域固有の記述、地域間関係などのグローバルなテキスト情報と、境界ボックス、セグメンテーションマスクを含む関心領域(ROI)の詳細なローカルアノテーションの両方を含んでいる。
画像-テキストペアの可用性によって制限される既存のアプローチとは異なり、我々は、ペアのテキスト記述を必要とせずに、多言語的な視覚的およびテクスチャ的なアノテーション(画像-ROI-記述三重項の形式で)を生成することで、マルチモーダルデータのスケールアップを行う最初の自動パイプラインを開発した。
具体的には、異常領域に関連するROIを特定するために、ドメイン固有の専門家モデルを使用して、90以上の異なるソースからのデータを収集し、前処理し、接地した。
次に、包括的知識ベースを構築し、マルチモーダルな大規模言語モデルに対して、特定されたROIをガイダンスとして検索拡張生成を実行させ、その結果、多言語的テクスチュアな記述をもたらす。
既存のデータセットと比較すると、MedTrinity-25Mは最もリッチなアノテーションを提供し、キャプションやレポート生成といった包括的なマルチモーダルタスクと、分類やセグメンテーションといったビジョン中心のタスクをサポートする。
MedTrinity-25Mの事前学習により,VQA-RADとPathVQAの最先端性能を達成し,マルチモーダルな大規模言語モデルと他の代表的SoTAアプローチを超越した。
このデータセットは、マルチモーダル医療AIモデルの大規模事前トレーニングをサポートするために利用することもできる。
This paper introduces MedTrinity-25M, a comprehensive, large-scale multimodal dataset for medicine, covering over 25 million images across 10 modalities, with multigranular annotations for more than 65 diseases. These enriched annotations encompass both global textual information, such as disease/lesion type, modality, region-specific descriptions, and inter-regional relationships, as well as detailed local annotations for regions of interest (ROIs), including bounding boxes, segmentation masks. Unlike existing approach which is limited by the availability of image-text pairs, we have developed the first automated pipeline that scales up multimodal data by generating multigranular visual and texual annotations (in the form of image-ROI-description triplets) without the need for any paired text descriptions. Specifically, data from over 90 different sources have been collected, preprocessed, and grounded using domain-specific expert models to identify ROIs related to abnormal regions. We then build a comprehensive knowledge base and prompt multimodal large language models to perform retrieval-augmented generation with the identified ROIs as guidance, resulting in multigranular texual descriptions. Compared to existing datasets, MedTrinity-25M provides the most enriched annotations, supporting a comprehensive range of multimodal tasks such as captioning and report generation, as well as vision-centric tasks like classification and segmentation. Pretraining on MedTrinity-25M, our model achieves state-of-the-art performance on VQA-RAD and PathVQA, surpassing both multimodal large language models and other representative SoTA approaches. This dataset can also be utilized to support large-scale pre-training of multimodal medical AI models, contributing to the development of future foundation models in the medical domain. | 翻訳日:2024-08-07 15:19:13 公開日:2024-08-06 |
# Lighthouse: 再現可能なビデオモーメント検索とハイライト検出のためのユーザフレンドリーなライブラリ
Lighthouse: A User-Friendly Library for Reproducible Video Moment Retrieval and Highlight Detection ( http://arxiv.org/abs/2408.02901v1 ) ライセンス: Link先を確認 | Taichi Nishimura, Shota Nakada, Hokuto Munakata, Tatsuya Komatsu, | (参考訳) 再現可能なビデオモーメント検索とハイライト検出(MR-HD)のためのユーザフレンドリーなライブラリであるLighthouseを提案する。
研究者は様々なMR-HDアプローチを提案したが、研究コミュニティには2つの主要な課題がある。
1つ目は、さまざまなメソッド、データセット、ビデオテキスト機能にまたがる包括的な再現可能な実験の欠如である。
これは、統一的なトレーニングや評価コードベースが複数の設定をカバーしていないためです。
2つ目はユーザーフレンドリーなデザインです。
以前の研究では異なるライブラリを使用していたため、研究者は個別の環境を構築した。
加えて、ほとんどの作業はトレーニングコードのみをリリースし、MR-HDの全推論プロセスを実装する必要がある。
Lighthouseは6つのモデル、3つの機能、5つのデータセットを含む再現可能なコードベースを統一して実装することで、これらの問題に対処する。
さらに、推論APIとWebデモを提供し、これらのメソッドが研究者や開発者にとって容易にアクセスできるようにする。
我々の実験は、Lighthouseが参照論文で報告されたスコアを一般的に再現していることを示している。
コードはhttps://github.com/line/lighthouse.comで公開されている。
We propose Lighthouse, a user-friendly library for reproducible video moment retrieval and highlight detection (MR-HD). Although researchers proposed various MR-HD approaches, the research community holds two main issues. The first is a lack of comprehensive and reproducible experiments across various methods, datasets, and video-text features. This is because no unified training and evaluation codebase covers multiple settings. The second is user-unfriendly design. Because previous works use different libraries, researchers set up individual environments. In addition, most works release only the training codes, requiring users to implement the whole inference process of MR-HD. Lighthouse addresses these issues by implementing a unified reproducible codebase that includes six models, three features, and five datasets. In addition, it provides an inference API and web demo to make these methods easily accessible for researchers and developers. Our experiments demonstrate that Lighthouse generally reproduces the reported scores in the reference papers. The code is available at https://github.com/line/lighthouse. | 翻訳日:2024-08-07 15:09:28 公開日:2024-08-06 |
# 非線形表面からの空間的絡み合った光子対を用いた量子イメージング
Quantum Imaging Using Spatially Entangled Photon Pairs from a Nonlinear Metasurface ( http://arxiv.org/abs/2408.02903v1 ) ライセンス: Link先を確認 | Jinyong Ma, Jinliang Ren, Jihua Zhang, Jiajun Meng, Caitlin McManus-Barrett, Kenneth B. Crozier, Andrey A. Sukhorukov, | (参考訳) 近年, 波長以下の厚さを持つ非線形準曲面が, 絡み合った光子対の強化および調整可能な生成のための多目的プラットフォームとして確立されている。
集積準曲面源の小さな次元と固有の安定性は、量子通信、センシング、イメージングにおける自由空間の応用には魅力的であるが、この顕著なポテンシャルは未解明のままである。
ここでは、赤外波長における量子イメージングのための非線形準曲面の特異な利点と実用的可能性を定式化し、実験により示し、ゴーストと全光走査イメージングを併用した効率的なプロトコルを創出する。
メタサイトは、ニオブ酸リチウム薄膜上に転移するサブ波長スケールシリカを包含する。
その特徴は、ポンプビームの波長を調整するだけで、格子を横切る方向の光子放射角を全光学的にスキャンする能力である。
同時に、光子の放出は広く、格子方向に沿って反相関しており、ゴーストイメージングを可能にしている。
これにより,信号経路内の1次元検出器アレイとバケット検出器のみを用いて2次元物体の像を再構成し,ポンプ波長における光子偶然の依存性を記録する。
その結果, 従来のバルク結晶の光子対と比較して, 超広視野での量子イメージングの新たな可能性を明らかにし, 画像分解能の向上を図った。
実証された概念は、マルチ波長演算や量子オブジェクト追跡などの応用にまで拡張することができ、超コンパクトナノ構造メタ曲面を用いた量子技術の進歩への道を開くことができる。
Nonlinear metasurfaces with subwavelength thickness were recently established as versatile platforms for the enhanced and tailorable generation of entangled photon pairs. The small dimensions and inherent stability of integrated metasurface sources are attractive for free-space applications in quantum communications, sensing, and imaging, yet this remarkable potential remained unexplored. Here, we formulate and experimentally demonstrate the unique benefits and practical potential of nonlinear metasurfaces for quantum imaging at infrared wavelengths, facilitating an efficient protocol combining ghost and all-optical scanning imaging. The metasurface incorporates a subwavelength-scale silica metagrating on a lithium niobate thin film. Its distinguishing feature is the capability to all-optically scan the photon emission angle in the direction across the grating simply by tuning the pump beam wavelength. Simultaneously, the photon emission is broad and anti-correlated along the grating direction, allowing for ghost imaging. Thereby, we reconstruct the images of 2D objects using just a 1D detector array in the idler path and a bucket detector in the signal path, by recording the dependencies of photon coincidences on the pump wavelength. Our results reveal new possibilities for quantum imaging with ultra-large field of view and improved imaging resolution as compared to photon pairs from conventional bulky crystals. The demonstrated concept can be extended to multi-wavelength operation and other applications such as quantum object tracking, paving the way for advancements in quantum technologies using ultra-compact nanostructured metasurfaces. | 翻訳日:2024-08-07 15:09:28 公開日:2024-08-06 |
# インテリジェントトラヒックシステムの実現:アラビアナンバープレートの正確な認識のための深層学習手法
Enabling Intelligent Traffic Systems: A Deep Learning Method for Accurate Arabic License Plate Recognition ( http://arxiv.org/abs/2408.02904v1 ) ライセンス: Link先を確認 | M. A. Sayedelahl, | (参考訳) 本稿では,エジプト自動車ナンバープレート認識(EVLPR)のための新しい2段階フレームワークを提案する。
第1段では、画像処理技術を用いてライセンスプレートを確実にローカライズし、第2段では、アラビア文字認識のためのカスタム設計のディープラーニングモデルを使用する。
提案システムは,既存手法を超越した多種多様なデータセットにおいて,99.3%の精度を実現する。
その潜在的な応用は、交通違反の検出や駐車最適化を含むインテリジェントな交通管理にまで及んでいる。
今後の研究は、アーキテクチャの洗練、データセットの拡張、システムの依存関係への対処などを通じて、システムの能力向上に注力する予定である。
This paper introduces a novel two-stage framework for accurate Egyptian Vehicle License Plate Recognition (EVLPR). The first stage employs image processing techniques to reliably localize license plates, while the second stage utilizes a custom-designed deep learning model for robust Arabic character recognition. The proposed system achieves a remarkable 99.3% accuracy on a diverse dataset, surpassing existing approaches. Its potential applications extend to intelligent traffic management, including traffic violation detection and parking optimization. Future research will focus on enhancing the system's capabilities through architectural refinements, expanded datasets, and addressing system dependencies. | 翻訳日:2024-08-07 15:09:28 公開日:2024-08-06 |
# 位相空間量子力学における量子エネルギーテレポーテーション
Quantum energy teleportation in phase space quantum mechanics ( http://arxiv.org/abs/2408.02905v1 ) ライセンス: Link先を確認 | M. M. Sanchez-Cordova, Jasel Berra-Montiel, | (参考訳) 本稿では,量子力学の位相空間定式化における量子エネルギーテレポーテーションプロトコルについて検討する。
ウィグナー準確率分布と星生成物を用いることで、テレポートされたエネルギーは、初期基底状態に存在する絡み合いの量に比例することを示す。
さらに,系のウェルルエントロピーを決定するために,ブロッホコヒーレント状態にフシミ$Q$関数を導入する。
最後に、Wherlエントロピーにより、プロトコル全体のコヒーレンスと絡み合いの消費を計算することができる。
In this paper, we investigate the Quantum Energy Teleportation protocol within the phase space formulation of quantum mechanics. By employing the Wigner quasi-probability distribution and the star product, we show that the teleported energy is proportional to the amount of entanglement present in the initial ground state. Further, we introduce the Husimi $Q$-function on a Bloch coherent state in order to determine the Wehrl entropy of the system. Finally, the Wherl entropy enable us to compute the consumption of coherence and entanglement throughout the protocol. | 翻訳日:2024-08-07 15:09:28 公開日:2024-08-06 |
# 深部ニューラルネットワークにおけるデュアルビューピラミッドポーリングによる医用画像分類と信頼性校正
Dual-View Pyramid Pooling in Deep Neural Networks for Improved Medical Image Classification and Confidence Calibration ( http://arxiv.org/abs/2408.02906v1 ) ライセンス: Link先を確認 | Xiaoqing Zhang, Qiushi Nie, Zunjie Xiao, Jilu Zhao, Xiao Wu, Pengxin Guo, Runzhi Li, Jin Liu, Yanjie Wei, Yi Pan, | (参考訳) 空間プーリング(SP)とクロスチャネルプーリング(CCP)演算子は,それぞれディープニューラルネットワーク(DNN)の特徴マップから空間的特徴と画素的特徴を集約するために応用されている。
主な目標は、DNNのパフォーマンスを視覚的に低下させることなく、計算とメモリオーバーヘッドを削減することである。
しかし、SPは微妙な特徴表現を失う問題にしばしば直面するが、CCPは有能な特徴表現を無視する可能性が高く、信頼性の問題の誤校正と医療分類結果の準正に繋がる可能性がある。
そこで本稿では,SPとCCPの相対的役割を,空間的特徴と画素的特徴の差を解析して体系的に研究する,新しいデュアルビューフレームワークを提案する。
本稿では,DVPP(Dual-view pyramid pooling)と呼ばれる新しいプール手法を提案する。
DVPPは、SPおよびCCPオペレータのメリットを両軸の観点から完全に活用することにより、医用画像分類と信頼性校正性能の両立を目指している。
さらに、5つのパラメータフリー実装でDVPPを実現する方法について論じる。
6つの2D/3D医用画像分類タスクにおける広範囲な実験により、DVPPは、医療画像分類結果と異なるDNN間の信頼性校正の点から、最先端のプール法を超越していることが示された。
Spatial pooling (SP) and cross-channel pooling (CCP) operators have been applied to aggregate spatial features and pixel-wise features from feature maps in deep neural networks (DNNs), respectively. Their main goal is to reduce computation and memory overhead without visibly weakening the performance of DNNs. However, SP often faces the problem of losing the subtle feature representations, while CCP has a high possibility of ignoring salient feature representations, which may lead to both miscalibration of confidence issues and suboptimal medical classification results. To address these problems, we propose a novel dual-view framework, the first to systematically investigate the relative roles of SP and CCP by analyzing the difference between spatial features and pixel-wise features. Based on this framework, we propose a new pooling method, termed dual-view pyramid pooling (DVPP), to aggregate multi-scale dual-view features. DVPP aims to boost both medical image classification and confidence calibration performance by fully leveraging the merits of SP and CCP operators from a dual-axis perspective. Additionally, we discuss how to fulfill DVPP with five parameter-free implementations. Extensive experiments on six 2D/3D medical image classification tasks show that our DVPP surpasses state-of-the-art pooling methods in terms of medical image classification results and confidence calibration across different DNNs. | 翻訳日:2024-08-07 15:09:28 公開日:2024-08-06 |
# 大規模言語モデルに基づく質問応答における単語間相互作用の活用
Leveraging Inter-Chunk Interactions for Enhanced Retrieval in Large Language Model-Based Question Answering ( http://arxiv.org/abs/2408.02907v1 ) ライセンス: Link先を確認 | Tiezheng Guo, Chen Wang, Yanyi Liu, Jiawei Tang, Pan Li, Sai Xu, Qingwen Yang, Xianlin Gao, Zhi Li, Yingyou Wen, | (参考訳) 外部知識の取得と関連する情報による大規模言語モデルの促進は,質問応答タスクの性能向上に有効なパラダイムである。
従来の研究では、外部文書からの段落を個別に扱うことが一般的であり、特にマルチドキュメントや複雑なタスクにおいて、文脈やあいまいな参照が欠如している。
これらの課題を克服するために, チャンク間相互作用を利用した検索フレームワークIIERを提案する。
このフレームワークは、構造、キーワード、セマンティックという3つのタイプの相互作用を考慮し、ドキュメントチャンク間の内部接続をキャプチャする。
次に、すべての外部文書を包括的に表現するために、統合されたチャンク・インタラクショングラフを構築します。
さらに,従来の経路とチャンク相互作用を利用して検索プロセスを導出するグラフベースのエビデンスチェーン検索器を設計する。
対象の質問に基づいて複数のシードノードを特定し、関連するチャンクを反復的に検索して、支持する証拠を収集する。
この検索プロセスは、コンテキストと推論チェーンを洗練し、推論と回答の生成において大きな言語モデルを支援する。
大規模な実験により、IIERは4つのデータセットで強力なベースラインを上回り、検索と推論能力を改善する効果を強調している。
Retrieving external knowledge and prompting large language models with relevant information is an effective paradigm to enhance the performance of question-answering tasks. Previous research typically handles paragraphs from external documents in isolation, resulting in a lack of context and ambiguous references, particularly in multi-document and complex tasks. To overcome these challenges, we propose a new retrieval framework IIER, that leverages Inter-chunk Interactions to Enhance Retrieval. This framework captures the internal connections between document chunks by considering three types of interactions: structural, keyword, and semantic. We then construct a unified Chunk-Interaction Graph to represent all external documents comprehensively. Additionally, we design a graph-based evidence chain retriever that utilizes previous paths and chunk interactions to guide the retrieval process. It identifies multiple seed nodes based on the target question and iteratively searches for relevant chunks to gather supporting evidence. This retrieval process refines the context and reasoning chain, aiding the large language model in reasoning and answer generation. Extensive experiments demonstrate that IIER outperforms strong baselines across four datasets, highlighting its effectiveness in improving retrieval and reasoning capabilities. | 翻訳日:2024-08-07 15:09:28 公開日:2024-08-06 |
# KOI: ハイブリッドキーステートガイダンスによるオンライン模倣学習の高速化
KOI: Accelerating Online Imitation Learning via Hybrid Key-state Guidance ( http://arxiv.org/abs/2408.02912v1 ) ライセンス: Link先を確認 | Jingxian Lu, Wenke Xia, Dong Wang, Zhigang Wang, Bin Zhao, Di Hu, Xuelong Li, | (参考訳) オンライン・イミテーション・ラーニング手法は、広範囲のオンライン探索空間と限られた専門家軌道とのギャップに苦慮し、不正確なタスク認識報酬推定のために効率的な探索を妨げている。
課題分解が効率的な学習のための認知処理を促進するという認知神経科学の知見に触発されて,ターゲットタスクを「すべきこと」の目的と「すべきこと」のメカニズムに分解することで,エージェントが効率的なオンライン探索のための正確なタスク認識模倣報酬を推定できるのではないか,という仮説を立てた。
本研究では,タスク認識型報酬推定のためのガイダンスとして,意味と動きのキー状態の統合を活用するハイブリッドなキーステートガイド型オンライン模倣(KOI)学習手法を提案する。
まず、視覚言語モデルを用いて、専門家の軌跡を意味的なキー状態に分割し、「何をすべきか」の目的を示す。
セマンティックキー状態間の間隔内では、動作キー状態のキャプチャに光学的フローが使用され、「どのように行うか」のプロセスが理解される。
セマンティックキー状態と動作キー状態の両方を徹底的に把握することにより、軌道整合報酬計算を洗練し、効率的なオンライン模倣学習のためのタスク認識探索を奨励する。
実験の結果,メタワールド環境とLIBERO環境において,本手法がより効率的であることが確認された。
また,本手法の有効性を検証するために実世界のロボット操作実験を行い,本手法の有効性を実証した。
Online Imitation Learning methods struggle with the gap between extensive online exploration space and limited expert trajectories, which hinder efficient exploration due to inaccurate task-aware reward estimation. Inspired by the findings from cognitive neuroscience that task decomposition could facilitate cognitive processing for efficient learning, we hypothesize that an agent could estimate precise task-aware imitation rewards for efficient online exploration by decomposing the target task into the objectives of "what to do" and the mechanisms of "how to do". In this work, we introduce the hybrid Key-state guided Online Imitation (KOI) learning approach, which leverages the integration of semantic and motion key states as guidance for task-aware reward estimation. Initially, we utilize the visual-language models to segment the expert trajectory into semantic key states, indicating the objectives of "what to do". Within the intervals between semantic key states, optical flow is employed to capture motion key states to understand the process of "how to do". By integrating a thorough grasp of both semantic and motion key states, we refine the trajectory-matching reward computation, encouraging task-aware exploration for efficient online imitation learning. Our experiment results prove that our method is more sample efficient in the Meta-World and LIBERO environments. We also conduct real-world robotic manipulation experiments to validate the efficacy of our method, demonstrating the practical applicability of our KOI method. | 翻訳日:2024-08-07 15:09:28 公開日:2024-08-06 |
# データチェックリスト: 利用可能な情報を備えた単体テストデータセット
Data Checklist: On Unit-Testing Datasets with Usable Information ( http://arxiv.org/abs/2408.02919v1 ) ライセンス: Link先を確認 | Heidi C. Zhang, Shabnam Behzad, Kawin Ethayarajh, Dan Jurafsky, | (参考訳) モデルチェックリスト(Ribeiro et al , 2020)は、ソフトウェア工学における単体テストに類似したLCMの振る舞いを理解するための有用なツールとして登場した。
しかし、データセットがモデル行動の重要な決定要因であるにもかかわらず、例えば、アノテーションアーティファクトの存在についてデータセットを評価することは、主にアドホックである。
本研究は,V-情報文献に基づく分類法を提案することにより,より原理化された手法を単位検定データセットに適用する。
このようなユニットテストのコレクションをデータチェックリストと呼びます。
チェックリストを使用することで、SNLIのようなよく知られたデータセットで既知のアーティファクトを復元できるだけでなく、LLMアライメントのための選好データセットで、これまで知られていなかったアーティファクトも発見できる。
データチェックリストはさらに、リセプションアライメントの有効性とデータ効率を改善するために、新しい種類のデータフィルタリングを可能にする。
Model checklists (Ribeiro et al., 2020) have emerged as a useful tool for understanding the behavior of LLMs, analogous to unit-testing in software engineering. However, despite datasets being a key determinant of model behavior, evaluating datasets, e.g., for the existence of annotation artifacts, is largely done ad hoc, once a problem in model behavior has already been found downstream. In this work, we take a more principled approach to unit-testing datasets by proposing a taxonomy based on the V-information literature. We call a collection of such unit tests a data checklist. Using a checklist, not only are we able to recover known artifacts in well-known datasets such as SNLI, but we also discover previously unknown artifacts in preference datasets for LLM alignment. Data checklists further enable a new kind of data filtering, which we use to improve the efficacy and data efficiency of preference alignment. | 翻訳日:2024-08-07 15:09:28 公開日:2024-08-06 |
# 基礎モデルに基づくエージェントのためのアーキテクチャオプションの分類:分析と決定モデル
A Taxonomy of Architecture Options for Foundation Model-based Agents: Analysis and Decision Model ( http://arxiv.org/abs/2408.02920v1 ) ライセンス: Link先を確認 | Jingwen Zhou, Qinghua Lu, Jieshan Chen, Liming Zhu, Xiwei Xu, Zhenchang Xing, Stefan Harrer, | (参考訳) AI技術の急速な進歩により、エージェントシステムは様々な領域に広く応用されている。
しかし、詳細なアーキテクチャ設計の必要性は、これらのシステムを設計し、運用する上で大きな課題をもたらす。
本稿では,基礎モデルに基づくエージェントのアーキテクチャに着目し,機能的機能や非機能的品質といった重要な側面に対処する分類法を提案する。
また、設計時と実行時の両方のフェーズに関わる操作についても論じ、アーキテクチャ設計と運用特性の総合的なビューを提供する。
分類学は,これらの分類を統一し,詳細化することにより,基礎モデルに基づくエージェントの設計を改善することを目的としている。
さらに,重要な設計と実行時決定を導く決定モデルを確立し,基礎モデルに基づくエージェントの開発を促進するための構造的アプローチを提案する。
私たちのコントリビューションには、構造化アーキテクチャ設計オプションの提供や、ファンデーションモデルに基づくエージェントの開発プロセスの指導などが含まれます。
The rapid advancement of AI technology has led to widespread applications of agent systems across various domains. However, the need for detailed architecture design poses significant challenges in designing and operating these systems. This paper introduces a taxonomy focused on the architectures of foundation-model-based agents, addressing critical aspects such as functional capabilities and non-functional qualities. We also discuss the operations involved in both design-time and run-time phases, providing a comprehensive view of architectural design and operational characteristics. By unifying and detailing these classifications, our taxonomy aims to improve the design of foundation-model-based agents. Additionally, the paper establishes a decision model that guides critical design and runtime decisions, offering a structured approach to enhance the development of foundation-model-based agents. Our contributions include providing a structured architecture design option and guiding the development process of foundation-model-based agents, thereby addressing current fragmentation in the field. | 翻訳日:2024-08-07 15:09:28 公開日:2024-08-06 |
# スマートコミュニティにおける相互運用性とAIによるゼロデイ攻撃検出プロセス
Interoperability and Explicable AI-based Zero-Day Attacks Detection Process in Smart Community ( http://arxiv.org/abs/2408.02921v1 ) ライセンス: Link先を確認 | Mohammad Sayduzzaman, Jarin Tasnim Tamanna, Dipanjali Kundu, Tawhidur Rahman, | (参考訳) システム、技術、プロトコル、インフラストラクチャはすべて相互運用性の課題に直面しています。
これは現実世界の有効性を与える上で最も重要なパラメータの1つである。
相互運用性を実現する組織は、国際規模の適切な保護を識別し、予防し、提供することができる。
本稿では,6Gモバイル通信,インターネット・オブ・エコノミクス(IoE),人工知能(AI),スマートコントラクトを組み込んだWPA3プロトコルベースのWiFi-8が連携して,既知の攻撃ベクトルを防止し,ゼロデイ攻撃に対する保護を提供し,スマートシティにインテリジェントなソリューションを提供する方法について説明する。
ゼロデイ」というフレーズは、脆弱性の公開やベンダーへの開示の日のゼロに発生する攻撃を指す。
既存のシステムは追加のセキュリティ層を必要とする。
セキュリティの世界では、相互運用性は、異なるセキュリティソリューションとシステムがシームレスに協調することを可能にする。
AIは、ゼロデイ攻撃の検出、応答、防止の能力を改善することで、サイバーセキュリティを改善している。
相互運用性と説明可能な人工知能(XAI)がサイバーセキュリティに統合されると、ゼロデイ攻撃に対する強力な保護が形成される。
さらに,攻撃パターンや異常を効率的に解析するために必要な精度と時間に基づいて,いくつかのパラメータを評価する。
Systems, technologies, protocols, and infrastructures all face interoperability challenges. It is among the most crucial parameters to give real-world effectiveness. Organizations that achieve interoperability will be able to identify, prevent, and provide appropriate protection on an international scale, which can be relied upon. This paper aims to explain how future technologies such as 6G mobile communication, Internet of Everything (IoE), Artificial Intelligence (AI), and Smart Contract embedded WPA3 protocol-based WiFi-8 can work together to prevent known attack vectors and provide protection against zero-day attacks, thus offering intelligent solutions for smart cities. The phrase zero-day refers to an attack that occurs on the day zero of the vulnerability's disclosure to the public or vendor. Existing systems require an extra layer of security. In the security world, interoperability enables disparate security solutions and systems to collaborate seamlessly. AI improves cybersecurity by enabling improved capabilities for detecting, responding, and preventing zero-day attacks. When interoperability and Explainable Artificial Intelligence (XAI) are integrated into cybersecurity, they form a strong protection against zero-day assaults. Additionally, we evaluate a couple of parameters based on the accuracy and time required for efficiently analyzing attack patterns and anomalies. | 翻訳日:2024-08-07 15:09:28 公開日:2024-08-06 |
# 擬似魔法:ハイブリッドマンバGCNネットワークを用いた効率的で時間的に一貫性のある人間の擬似感情推定
Pose Magic: Efficient and Temporally Consistent Human Pose Estimation with a Hybrid Mamba-GCN Network ( http://arxiv.org/abs/2408.02922v1 ) ライセンス: Link先を確認 | Xinyi Zhang, Qiqi Bao, Qinpeng Cui, Wenming Yang, Qingmin Liao, | (参考訳) HPE(3D Human Pose Estimation)におけるSOTA(State-of-the-art)法は主にトランスフォーマーに基づいている。
しかし、既存のTransformerベースの3D HPEバックボーンは、精度と計算効率のトレードオフに遭遇することが多い。
上記のジレンマを解決するために,本稿では状態空間モデルの最近の進歩を活用し,高品質で効率的な長距離モデリングにマンバを用いる。
それでもMambaは,関節間のローカル依存関係を正確に活用する上で,依然として課題に直面している。
これらの課題に対処するために,Hybrid Mamba-GCN (Pose Magic) という,注目のない新しいハイブリッド時空間アーキテクチャを提案する。
このアーキテクチャは、隣接する関節間の関係を捉えることによってGCNによる局所的な拡張を導入し、Mambaの出力を補完する新しい表現を生成する。
MambaとGCNの表現を適応的に融合させることで、Pose Magicは基礎となる3D構造を学ぶ上で優れた能力を示している。
リアルタイム推論の要件を満たすため、完全な因果バージョンも提供します。
大規模な実験によると、Pose Magicは新たなSOTA結果(\downarrow 0.9 mm$)を達成し、74.1\%のFLOPを節約している。
さらに、Pose Magicは最適な動きの一貫性と、目に見えないシーケンス長に一般化する能力を示す。
Current state-of-the-art (SOTA) methods in 3D Human Pose Estimation (HPE) are primarily based on Transformers. However, existing Transformer-based 3D HPE backbones often encounter a trade-off between accuracy and computational efficiency. To resolve the above dilemma, in this work, leveraging recent advances in state space models, we utilize Mamba for high-quality and efficient long-range modeling. Nonetheless, Mamba still faces challenges in precisely exploiting the local dependencies between joints. To address these issues, we propose a new attention-free hybrid spatiotemporal architecture named Hybrid Mamba-GCN (Pose Magic). This architecture introduces local enhancement with GCN by capturing relationships between neighboring joints, thus producing new representations to complement Mamba's outputs. By adaptively fusing representations from Mamba and GCN, Pose Magic demonstrates superior capability in learning the underlying 3D structure. To meet the requirements of real-time inference, we also provide a fully causal version. Extensive experiments show that Pose Magic achieves new SOTA results ($\downarrow 0.9 mm$) while saving $74.1\%$ FLOPs. In addition, Pose Magic exhibits optimal motion consistency and the ability to generalize to unseen sequence lengths. | 翻訳日:2024-08-07 15:09:28 公開日:2024-08-06 |
# 中間的直接選好最適化
Intermediate direct preference optimization ( http://arxiv.org/abs/2408.02923v1 ) ライセンス: Link先を確認 | Atsushi Kojima, | (参考訳) 本稿では,大言語モデル(LLM)を微調整するための補助的損失として,選択した中間層におけるDPO損失を計算するための中間的直接選好最適化(DPO)手法を提案する。
従来のDPO法では、最終層からのロジットを用いてDPO損失を計算することにより、教師付き微調整(SFT)モデルを微調整する。
中間DPO法では, K選択中間層からのロジットを用いてDPO損失を算出し, 中間DPO損失を得る。
中間DPOモデルのトレーニングでは、DPOの重み付け和と中間DPOの損失を計算して最終損失を求める。
推論中、中間DPOモデルは、従来のDPOモデルと同様に最終層ロジットを用いて復号する。
ウルトラフィードバックデータセットを用いた実験では, 中間DPOモデルの性能をGPT-4を用いて評価した。
その結果、32層SFTモデルの22層で算出した中間DPO損失を用いてトレーニングした中間DPOモデルは、従来のDPOモデルとSFTモデルに対して52.5%、67.5%の勝利率を達成し、提案手法の有効性を実証した。
さらに,選択した中間層の位置,層数,性能の関係について報告する。
We propose the intermediate direct preference optimization (DPO) method to calculate the DPO loss at selected intermediate layers as an auxiliary loss for finetuning large language models (LLMs). The conventional DPO method fine-tunes a supervised fine-tuning (SFT) model by calculating the DPO loss using logits from the final layer. In our intermediate DPO approach, DPO losses are calculated using the logits from K-selected intermediate layers and averaged to obtain the intermediate DPO loss. For training the intermediate DPO model, the final loss is obtained by calculating the weighted sum of the DPO and intermediate DPO losses. During inference, the intermediate DPO model decodes using the final layer logits similarly to the conventional DPO model. In experiments using the ultrafeedback dataset, the performance of the intermediate DPO model was evaluated using GPT-4. As a result, the intermediate DPO model trained using the intermediate DPO loss calculated at the 22nd layer of a 32-layer SFT model achieved win rates of 52.5% and 67.5% against the conventional DPO and SFT models, respectively, demonstrating the effectiveness of the proposed method. Furthermore, we report the relationships among the position of the selected intermediate layers, the number of layers, and performance. | 翻訳日:2024-08-07 15:09:28 公開日:2024-08-06 |
# セグメンションモデル2の評価:水中環境におけるSAM2の役割
Evaluation of Segment Anything Model 2: The Role of SAM2 in the Underwater Environment ( http://arxiv.org/abs/2408.02924v1 ) ライセンス: Link先を確認 | Shijie Lian, Hua Li, | (参考訳) 大規模モデリングのブレークスルーにより、Segment Anything Model(SAM)とその拡張は海洋科学における様々な水中可視化タスクへの応用のために試みられ、学術界に大きな影響を与えた。
近年,Segment Anything Model 2 (SAM2) が開発され,前モデルに比べて動作速度とセグメンテーション精度が大幅に向上した。
本報告は, 海洋科学におけるSAM2の可能性について, UIIS と USIS10K を用いた水中インスタンスセグメンテーションベンチマークを用いて検討することを目的とする。
実験の結果,SAM2の性能はユーザが提供するプロンプトの種類に極めて依存していることがわかった。
地上の真理境界ボックスをプロンプトとして使用する場合、SAM2は水中のインスタンスセグメンテーション領域において優れた性能を示した。
しかしながら、自動モードで走る場合、SAM2は水中のインスタンスを検知し分割するポイントプロンプトを持つ能力は著しく低下する。
本論文は,水中領域におけるSAMモデルファミリーのさらなる探索を研究者に促すことが期待されている。
本論文の結果と評価コードはhttps://github.com/LiamLian0727/UnderwaterSAM2Eval.comで公開されている。
With breakthroughs in large-scale modeling, the Segment Anything Model (SAM) and its extensions have been attempted for applications in various underwater visualization tasks in marine sciences, and have had a significant impact on the academic community. Recently, Meta has further developed the Segment Anything Model 2 (SAM2), which significantly improves running speed and segmentation accuracy compared to its predecessor. This report aims to explore the potential of SAM2 in marine science by evaluating it on the underwater instance segmentation benchmark datasets UIIS and USIS10K. The experiments show that the performance of SAM2 is extremely dependent on the type of user-provided prompts. When using the ground truth bounding box as prompt, SAM2 performed excellently in the underwater instance segmentation domain. However, when running in automatic mode, SAM2's ability with point prompts to sense and segment underwater instances is significantly degraded. It is hoped that this paper will inspire researchers to further explore the SAM model family in the underwater domain. The results and evaluation codes in this paper are available at https://github.com/LiamLian0727/UnderwaterSAM2Eval. | 翻訳日:2024-08-07 15:09:28 公開日:2024-08-06 |
# HARMONIC: タブラルデータ合成とプライバシ保護のためのハーネスリングLLM
HARMONIC: Harnessing LLMs for Tabular Data Synthesis and Privacy Protection ( http://arxiv.org/abs/2408.02927v1 ) ライセンス: Link先を確認 | Yuxin Wang, Duanyu Feng, Yongfu Dai, Zhengyu Chen, Jimin Huang, Sophia Ananiadou, Qianqian Xie, Hao Wang, | (参考訳) データは、深層学習、特に構造化フォーマットで表される表形式のデータを、モデリングに非常に適した基礎となる。
しかし、LLMの時代でさえ、機密ドメインから表データを取得することは、プライバシや著作権上の懸念から、依然として課題である。
したがって、LLMのようなモデルを効果的に活用して、現実的でプライバシに保護された合成表データを生成する方法については、急務である。
本稿では、表データ生成と評価のための新しいフレームワークであるHARMONICを導入することにより、表データ合成とプライバシー保護のためのLCMについて検討する。
我々のフレームワークの表形式のデータ生成では、継続事前学習に依存する従来の小規模LCMベースの方法とは異なり、タブ形式のデータを生成し、プライバシーを高めるために微調整を施した大規模LCMについて検討する。
k-nearest neighborsアルゴリズムのアイデアに基づいて、命令微調整データセットを構築し、LLMを刺激してロー間関係を発見する。
次に、微調整により、LLMはデータ自体よりもデータのフォーマットと接続を記憶するように訓練されるため、プライバシリークのリスクが軽減される。
本フレームワークの評価部では、LLM合成データ生成のための特定のプライバシリスク指標DLTと、下流LLMタスクのための性能評価指標LLEを開発する。
実験の結果, この表形式のデータ生成フレームワークは, 従来の手法と同等の性能を示し, また, LLMシナリオにおける合成データの有効性とプライバシリスクを評価するための評価フレームワークを実証した。
Data serves as the fundamental foundation for advancing deep learning, particularly tabular data presented in a structured format, which is highly conducive to modeling. However, even in the era of LLM, obtaining tabular data from sensitive domains remains a challenge due to privacy or copyright concerns. Hence, exploring how to effectively use models like LLMs to generate realistic and privacy-preserving synthetic tabular data is urgent. In this paper, we take a step forward to explore LLMs for tabular data synthesis and privacy protection, by introducing a new framework HARMONIC for tabular data generation and evaluation. In the tabular data generation of our framework, unlike previous small-scale LLM-based methods that rely on continued pre-training, we explore the larger-scale LLMs with fine-tuning to generate tabular data and enhance privacy. Based on idea of the k-nearest neighbors algorithm, an instruction fine-tuning dataset is constructed to inspire LLMs to discover inter-row relationships. Then, with fine-tuning, LLMs are trained to remember the format and connections of the data rather than the data itself, which reduces the risk of privacy leakage. In the evaluation part of our framework, we develop specific privacy risk metrics DLT for LLM synthetic data generation, as well as performance evaluation metrics LLE for downstream LLM tasks. Our experiments find that this tabular data generation framework achieves equivalent performance to existing methods with better privacy, which also demonstrates our evaluation framework for the effectiveness of synthetic data and privacy risks in LLM scenarios. | 翻訳日:2024-08-07 15:09:28 公開日:2024-08-06 |
# 新しいラベリング・ストラテジーを用いた小脳卒中病変の分離
Segmenting Small Stroke Lesions with Novel Labeling Strategies ( http://arxiv.org/abs/2408.02929v1 ) ライセンス: Link先を確認 | Liang Shang, Zhengyang Lou, Andrew L. Alexander, Vivek Prabhakaran, William A. Sethares, Veena A. Nair, Nagesh Adluru, | (参考訳) 深部神経回路は脳卒中病変のセグメンテーションにおいて異常な有効性を示した。
しかし,脳梗塞の診断に重要な小病変の脱線はいまだに課題である。
本研究では, マルチサイズラベル (MSL) とディスタンスベースラベル (DBL) の2つのネットワークにシームレスに統合可能な, 単純かつ強力なアプローチを提案する。
MSLは病変の体積に基づいて病変マスクを様々なカテゴリに分割し、DBLは病変の境界を強調する。
Anatomical Tracings of Lesions After Stroke (ATLAS) v2.0データセットの実験的評価では、MSLとDBLのアンサンブルは、2022 MICCAI ATLAS Challengeの上位1位でそれぞれ小さな病変のみを含むサブセットとデータセット全体を含むサブセットと比較して、リコール(3.6%と3.7%)、F1(2.4%と1.5%)、Diceスコア(1.3%と0.0%)において一貫して良いあるいは等しいパフォーマンスを達成する。
特に、ミニレシオンサブセットでは、1つのMSLモデルが前回のベストアンサンブル戦略を上回り、F1とDiceのスコアは1.0%と0.3%に向上した。
私たちのコードは、https://github.com/nadluru/StrokeLesSegで利用可能です。
Deep neural networks have demonstrated exceptional efficacy in stroke lesion segmentation. However, the delineation of small lesions, critical for stroke diagnosis, remains a challenge. In this study, we propose two straightforward yet powerful approaches that can be seamlessly integrated into a variety of networks: Multi-Size Labeling (MSL) and Distance-Based Labeling (DBL), with the aim of enhancing the segmentation accuracy of small lesions. MSL divides lesion masks into various categories based on lesion volume while DBL emphasizes the lesion boundaries. Experimental evaluations on the Anatomical Tracings of Lesions After Stroke (ATLAS) v2.0 dataset showcase that an ensemble of MSL and DBL achieves consistently better or equal performance on recall (3.6% and 3.7%), F1 (2.4% and 1.5%), and Dice scores (1.3% and 0.0%) compared to the top-1 winner of the 2022 MICCAI ATLAS Challenge on both the subset only containing small lesions and the entire dataset, respectively. Notably, on the mini-lesion subset, a single MSL model surpasses the previous best ensemble strategy, with enhancements of 1.0% and 0.3% on F1 and Dice scores, respectively. Our code is available at: https://github.com/nadluru/StrokeLesSeg. | 翻訳日:2024-08-07 15:09:28 公開日:2024-08-06 |
# ビッグワールドシミュレーターの必要性 : 継続的な学習への科学的挑戦
The Need for a Big World Simulator: A Scientific Challenge for Continual Learning ( http://arxiv.org/abs/2408.02930v1 ) ライセンス: Link先を確認 | Saurabh Kumar, Hong Jun Jeon, Alex Lewandowski, Benjamin Van Roy, | (参考訳) 小さなエージェント、大きな世界」のフレームは、継続的な学習の必要性を動機づける概念的な視点を提供する。
考えでは、もっと大きな世界で活動している小さなエージェントは、世界が提供しなければならないすべての情報を保存できない。
適切に機能させるためには、エージェントは適切な情報を取り込み、保持し、放出するように慎重に設計されなければならない。
高性能連続学習エージェントの開発を可能にするため,多くの合成環境が提案されている。
しかし、これらのベンチマークは「小さなエージェント、大きな世界」フレーミングに対する不自然な分布シフトや忠実さの欠如など、制限に悩まされている。
本稿では,将来のシミュレート環境設計のための2つのデシデラタを形式化する。
これらの2つの基準は、アルゴリズムの高速なプロトタイピングを小さなスケールで実現しつつ、実践的な環境での継続的な学習の目的と複雑さを反映することを目的としている。
The "small agent, big world" frame offers a conceptual view that motivates the need for continual learning. The idea is that a small agent operating in a much bigger world cannot store all information that the world has to offer. To perform well, the agent must be carefully designed to ingest, retain, and eject the right information. To enable the development of performant continual learning agents, a number of synthetic environments have been proposed. However, these benchmarks suffer from limitations, including unnatural distribution shifts and a lack of fidelity to the "small agent, big world" framing. This paper aims to formalize two desiderata for the design of future simulated environments. These two criteria aim to reflect the objectives and complexity of continual learning in practical settings while enabling rapid prototyping of algorithms on a smaller scale. | 翻訳日:2024-08-07 14:59:44 公開日:2024-08-06 |
# Marcus Mappingによる二重確率適応近傍クラスタリング
Doubly Stochastic Adaptive Neighbors Clustering via the Marcus Mapping ( http://arxiv.org/abs/2408.02932v1 ) ライセンス: Link先を確認 | Jinghui Yuan, Chusheng Zeng, Fangyuan Xie, Zhe Cao, Rong Wang, Feiping Nie, Xuelong Li, | (参考訳) クラスタリングは機械学習とデータサイエンスにおける基本的なタスクであり、類似性グラフベースのクラスタリングはこの領域において重要なアプローチである。
二重確率対称類似性グラフはクラスタリング問題や下流タスクに多くの利点をもたらすが、そのようなグラフの学習は依然として大きな課題である。
マーカスの定理は、厳密な正対称行列は対角行列によって二重確率対称行列に変換できると述べている。
しかし,クラスタリングでは,スパース行列の学習が計算効率に不可欠である。
マーカスの定理は、あるスパース行列が対角行列を介して二重確率対称行列に変換可能であることを示すマーカス写像によって拡張される。
さらに,クラスタリング問題にランク制約を導入し,Marcus Mapping (ANCMM) に基づくDouubly Stochastic Adaptive Neighbors Clusteringアルゴリズムを提案する。
これにより、学習したグラフが、望まれる数のクラスタに自然に分割されることが保証される。
我々は、最先端のアルゴリズムと広範囲に比較して、アルゴリズムの有効性を検証する。
最後に、マーカス写像と最適輸送の関係について検討する。
マーカス写像が特定の種類の最適輸送問題を解くことを証明し、マーカス写像によるこの問題の解法が最適輸送法を直接適用するよりも効率的であることを証明した。
Clustering is a fundamental task in machine learning and data science, and similarity graph-based clustering is an important approach within this domain. Doubly stochastic symmetric similarity graphs provide numerous benefits for clustering problems and downstream tasks, yet learning such graphs remains a significant challenge. Marcus theorem states that a strictly positive symmetric matrix can be transformed into a doubly stochastic symmetric matrix by diagonal matrices. However, in clustering, learning sparse matrices is crucial for computational efficiency. We extend Marcus theorem by proposing the Marcus mapping, which indicates that certain sparse matrices can also be transformed into doubly stochastic symmetric matrices via diagonal matrices. Additionally, we introduce rank constraints into the clustering problem and propose the Doubly Stochastic Adaptive Neighbors Clustering algorithm based on the Marcus Mapping (ANCMM). This ensures that the learned graph naturally divides into the desired number of clusters. We validate the effectiveness of our algorithm through extensive comparisons with state-of-the-art algorithms. Finally, we explore the relationship between the Marcus mapping and optimal transport. We prove that the Marcus mapping solves a specific type of optimal transport problem and demonstrate that solving this problem through Marcus mapping is more efficient than directly applying optimal transport methods. | 翻訳日:2024-08-07 14:59:44 公開日:2024-08-06 |
# テンソル最適化によるエンサンブル法
Achieving More with Less: A Tensor-Optimization-Powered Ensemble Method ( http://arxiv.org/abs/2408.02936v1 ) ライセンス: Link先を確認 | Jinghui Yuan, Weijin Jiang, Zhe Cao, Fangyuan Xie, Rong Wang, Feiping Nie, Xuelong Li, | (参考訳) アンサンブル学習(英: Ensemble learning)は、弱い学習者を利用して強力な学習者を生み出す方法である。
しかし、大量の基礎学習者を得るには、かなりの時間と計算資源が必要である。
そのため,多くの基礎学習者を対象に,ごくわずかの時間で得られる演奏の達成方法を研究することが重要である。
これを実現するためには,アンサンブル過程における分類性能と一般化能力の両立が不可欠である。
モデルの精度を高めるために、各弱いベース学習者はより効率的に統合する必要がある。
異なる学習者に対して,異なるクラスを予測する際に,様々な精度の学習者が現れることが観察された。
これを活用するために、信頼性テンソル$\tilde{\mathbf{\Theta}}$と$\tilde{\mathbf{\Theta}}_{rst}$を導入する。
我々の知る限りでは、異なるクラス間での基底分類器の性能評価が提案されたのはこれが初めてである。
提案した信頼度テンソルは,各基本分類器の長所と短所を異なるクラスで補正し,より少ない基礎学習者で優れた結果が得られるようにした。
一般化性能を向上させるために,マージンの概念を生かした円滑で凸な目的関数を設計し,学習者の識別性を向上する。
さらに、損失関数の勾配行列において、各列の要素の和がゼロであることが証明され、勾配法を用いて制約付き最適化問題を解くことができる。
そして、アルゴリズムを10倍の大きさのランダムな森林や、多くのデータセットにまたがる古典的な手法と比較し、アプローチの優位性を実証する。
Ensemble learning is a method that leverages weak learners to produce a strong learner. However, obtaining a large number of base learners requires substantial time and computational resources. Therefore, it is meaningful to study how to achieve the performance typically obtained with many base learners using only a few. We argue that to achieve this, it is essential to enhance both classification performance and generalization ability during the ensemble process. To increase model accuracy, each weak base learner needs to be more efficiently integrated. It is observed that different base learners exhibit varying levels of accuracy in predicting different classes. To capitalize on this, we introduce confidence tensors $\tilde{\mathbf{\Theta}}$ and $\tilde{\mathbf{\Theta}}_{rst}$ signifies that the $t$-th base classifier assigns the sample to class $r$ while it actually belongs to class $s$. To the best of our knowledge, this is the first time an evaluation of the performance of base classifiers across different classes has been proposed. The proposed confidence tensor compensates for the strengths and weaknesses of each base classifier in different classes, enabling the method to achieve superior results with a smaller number of base learners. To enhance generalization performance, we design a smooth and convex objective function that leverages the concept of margin, making the strong learner more discriminative. Furthermore, it is proved that in gradient matrix of the loss function, the sum of each column's elements is zero, allowing us to solve a constrained optimization problem using gradient-based methods. We then compare our algorithm with random forests of ten times the size and other classical methods across numerous datasets, demonstrating the superiority of our approach. | 翻訳日:2024-08-07 14:59:44 公開日:2024-08-06 |
# 無線通信システムにおけるLLMを利用した資源配分
LLM-Empowered Resource Allocation in Wireless Communications Systems ( http://arxiv.org/abs/2408.02944v1 ) ライセンス: Link先を確認 | Woongsup Lee, Jeonghun Park, | (参考訳) 近年の大規模言語モデル(LLM)の成功は、様々な分野でその応用を加速させている。
特に、無線通信システムの様々な側面にLCMを統合する取り組みが進められている。
無線通信システムにおけるLLMの使用は、人工知能(AGI)対応無線ネットワークを実現する可能性がある。
本稿では,無線通信システムにおけるLLMに基づくリソース割り当て方式について検討する。
具体的には、2つの送信ペアを含む単純なリソース割り当て問題を定式化し、エネルギー効率とスペクトル効率を最大化するLLMベースのリソース割り当て手法を開発する。
さらに,LLM方式の信頼性欠陥を補うために,低複雑資源割当手法の併用を検討する。
LLMによる資源割り当ての適用性と実現可能性を確認した上で,実際にLLMを適用する上でのいくつかの重要な技術的課題に対処する。
The recent success of large language models (LLMs) has spurred their application in various fields. In particular, there have been efforts to integrate LLMs into various aspects of wireless communication systems. The use of LLMs in wireless communication systems has the potential to realize artificial general intelligence (AGI)-enabled wireless networks. In this paper, we investigate an LLM-based resource allocation scheme for wireless communication systems. Specifically, we formulate a simple resource allocation problem involving two transmit pairs and develop an LLM-based resource allocation approach that aims to maximize either energy efficiency or spectral efficiency. Additionally, we consider the joint use of low-complexity resource allocation techniques to compensate for the reliability shortcomings of the LLM-based scheme. After confirming the applicability and feasibility of LLM-based resource allocation, we address several key technical challenges that remain in applying LLMs in practice. | 翻訳日:2024-08-07 14:59:44 公開日:2024-08-06 |
# マルチチャネルニューラルトランスデューサのための自己教師付き学習
Self-Supervised Learning for Multi-Channel Neural Transducer ( http://arxiv.org/abs/2408.02945v1 ) ライセンス: Link先を確認 | Atsushi Kojima, | (参考訳) wav2vec 2.0フレームワークのような自己教師型学習は、エンドツーエンドの自動音声認識(ASR)の精度を大幅に向上させる。
Wav2vec 2.0 はシングルチャネルのエンドツーエンド ASR モデルに適用されている。
本研究では,wav2vec 2.0フレームワークに基づくマルチチャネルエンドツーエンドASRモデルの自己教師型学習手法について検討した。
マルチチャネル終端ASRモデルとして、我々はマルチチャネルニューラルトランスデューサに焦点を当てた。
事前学習において,マルチチャンネルコンバータオーディオエンコーダを学習するために,特徴量化のための3つの異なる手法を比較した。
微調整ではマルチチャネルコンバータ変換器を訓練した。
すべての実験は遠距離場内およびCHiME-4データセットを用いて行われた。
実験の結果, 特徴量化法が最も有効であることが示唆された。
我々は,遠距離フィールド内データセットの事前学習を行わないモデルと比較して,文字誤り率を66%削減した。
Self-supervised learning, such as with the wav2vec 2.0 framework significantly improves the accuracy of end-to-end automatic speech recognition (ASR). Wav2vec 2.0 has been applied to single-channel end-to-end ASR models. In this work, we explored a self-supervised learning method for a multi-channel end-to-end ASR model based on the wav2vec 2.0 framework. As the multi-channel end-to-end ASR model, we focused on a multi-channel neural transducer. In pre-training, we compared three different methods for feature quantization to train a multi-channel conformer audio encoder: joint quantization, feature-wise quantization and channel-wise quantization. In fine-tuning, we trained the multi-channel conformer-transducer. All experiments were conducted using the far-field in-house and CHiME-4 datasets. The results of the experiments showed that feature-wise quantization was the most effective among the methods. We observed a 66% relative reduction in character error rate compared with the model without any pre-training for the far-field in-house dataset. | 翻訳日:2024-08-07 14:59:44 公開日:2024-08-06 |
# LLMにおけるデータポジショニングのスケーリング法則
Scaling Laws for Data Poisoning in LLMs ( http://arxiv.org/abs/2408.02946v1 ) ライセンス: Link先を確認 | Dillon Bowen, Brendan Murphy, Will Cai, David Khachaturov, Adam Gleave, Kellin Pelrine, | (参考訳) 近年の研究では、LSMは部分的に破損したデータや有害なデータに基づいて訓練されるデータ中毒に弱いことが示されている。
汚染されたデータは検出しにくく、ガードレールを壊し、望ましくない有害な行動を引き起こす。
より大きく、より有能なLSMを訓練し、展開する研究所を指導する強力な取り組みを考えると、データ中毒のリスクはスケールによって自然に軽減されるのか、それが脅威の増加なのかを問うことが重要である。
我々は、悪意のある微調整、不完全なデータキュレーション、意図的なデータ汚染の3つの脅威モデルを考える。
実験では,データ中毒が,脅威モデルに対応する3つのデータセットに対する15~72億のパラメータから,フロンティアのLLMに対する影響を評価した。
より大きなLSMはますます脆弱になってきており、睡眠薬の行動を含む有害な行動の学習は、データ中毒を最小限に抑える小さなLSMよりもはるかに速くなっています。
これらの結果は、より大きなLSMにおけるデータ中毒に対する堅牢な保護の必要性を浮き彫りにした。
Recent work shows that LLMs are vulnerable to data poisoning, in which they are trained on partially corrupted or harmful data. Poisoned data is hard to detect, breaks guardrails, and leads to undesirable and harmful behavior. Given the intense efforts by leading labs to train and deploy increasingly larger and more capable LLMs, it is critical to ask if the risk of data poisoning will be naturally mitigated by scale, or if it is an increasing threat. We consider three threat models by which data poisoning can occur: malicious fine-tuning, imperfect data curation, and intentional data contamination. Our experiments evaluate the effects of data poisoning on 23 frontier LLMs ranging from 1.5-72 billion parameters on three datasets which speak to each of our threat models. We find that larger LLMs are increasingly vulnerable, learning harmful behavior -- including sleeper agent behavior -- significantly more quickly than smaller LLMs with even minimal data poisoning. These results underscore the need for robust safeguards against data poisoning in larger LLMs. | 翻訳日:2024-08-07 14:59:44 公開日:2024-08-06 |
# 女性大工はブルーバナナが好きか? 職業性特例のコーパス調査
Are Female Carpenters like Blue Bananas? A Corpus Investigation of Occupation Gender Typicality ( http://arxiv.org/abs/2408.02948v1 ) ライセンス: Link先を確認 | Da Ju, Karen Ulrich, Adina Williams, | (参考訳) 例えば、バナナが青である場合、黄色である場合よりも色に言及する傾向があります。
この事実は、黄さがバナナの典型的な特徴であり、青さは例外的であることを示唆している。
バナナの黄色い色が典型的であるのと同様に、職業の典型的な性別も存在する。
本研究では,情報理論とコーパス統計解析を組み合わせた手法を用いて,この問題を考察する。
2つの異なる大きなコーパスでは、職業や性別がバナナや色と同じパターンを示すという強い証拠は見つからない。
むしろ、性別の言及は特に女性の職業性と相関していることがわかり、おそらく女性支配の職業は、男性支配の職業よりも「より性的な」ものとして見なされ、それによって全体としての性別の言及が促進されると考えられる。
People tend to use language to mention surprising properties of events: for example, when a banana is blue, we are more likely to mention color than when it is yellow. This fact is taken to suggest that yellowness is somehow a typical feature of bananas, and blueness is exceptional. Similar to how a yellow color is typical of bananas, there may also be genders that are typical of occupations. In this work, we explore this question using information theoretic techniques coupled with corpus statistic analysis. In two distinct large corpora, we do not find strong evidence that occupations and gender display the same patterns of mentioning as do bananas and color. Instead, we find that gender mentioning is correlated with femaleness of occupation in particular, suggesting perhaps that woman-dominated occupations are seen as somehow ``more gendered'' than male-dominated ones, and thereby they encourage more gender mentioning overall. | 翻訳日:2024-08-07 14:59:44 公開日:2024-08-06 |
# 模擬最大展開ギャップによるドメインシフト下でのスクーピング
Few-shot Scooping Under Domain Shift via Simulated Maximal Deployment Gaps ( http://arxiv.org/abs/2408.02949v1 ) ライセンス: Link先を確認 | Yifan Zhu, Pranay Thangeda, Erica L Tevere, Ashish Goel, Erik Kramer, Hari D Nayar, Melkior Ornik, Kris Hauser, | (参考訳) 地球外天体の自律着陸ミッションでは、サンプリング戦略が地球上で広範囲に調整されている場合でも、ドメインシフトに対処しながら、粒状物質をサンプリングする必要がある。
この課題に対処するため,本研究では,新しいメタトレーニング戦略で訓練されたディープカーネルガウスプロセス手法を用いて,分布外のターゲット地形における極めて限られた経験からオンライン学習を行う,視覚に基づく適応型スクーピング戦略を提案する。
私たちのDeep Kernel Calibration with Maximal Deployment Gaps (kCMD)戦略は、トレーニング中にこれらのデプロイメントギャップを克服するために、オフライントレーニングデータセットとトレーニングモデルからシミュレーションされた最大デプロイメントギャップを作成し、大きなドメインシフトに対応するように、ディープカーネルモデルを明示的にトレーニングします。
ベイズ最適化シーケンシャルな意思決定フレームワークに採用され、いくつかの試みを経て、ロボットが分布外の地形に対して高品質なスクーピング動作を行うことを可能にする。
提案手法はまた、将来的な惑星ミッションの最先端シミュレータとして機能するNASA OWLATプラットフォームに順応したゼロショット転送能力を示す。
これらの結果は、高容量モデルにおけるより一般化可能なメタラーニングのための、デプロイギャップをシミュレーションした深層モデルのトレーニングの可能性を示している。
さらに,地球と地球外天体の展開ギャップを克服し,自律型ランダーサンプリングミッションにおける本手法の可能性を強調した。
Autonomous lander missions on extraterrestrial bodies need to sample granular materials while coping with domain shifts, even when sampling strategies are extensively tuned on Earth. To tackle this challenge, this paper studies the few-shot scooping problem and proposes a vision-based adaptive scooping strategy that uses the deep kernel Gaussian process method trained with a novel meta-training strategy to learn online from very limited experience on out-of-distribution target terrains. Our Deep Kernel Calibration with Maximal Deployment Gaps (kCMD) strategy explicitly trains a deep kernel model to adapt to large domain shifts by creating simulated maximal deployment gaps from an offline training dataset and training models to overcome these deployment gaps during training. Employed in a Bayesian Optimization sequential decision-making framework, the proposed method allows the robot to perform high-quality scooping actions on out-of-distribution terrains after a few attempts, significantly outperforming non-adaptive methods proposed in the excavation literature as well as other state-of-the-art meta-learning methods. The proposed method also demonstrates zero-shot transfer capability, successfully adapting to the NASA OWLAT platform, which serves as a state-of-the-art simulator for potential future planetary missions. These results demonstrate the potential of training deep models with simulated deployment gaps for more generalizable meta-learning in high-capacity models. Furthermore, they highlight the promise of our method in autonomous lander sampling missions by enabling landers to overcome the deployment gap between Earth and extraterrestrial bodies. | 翻訳日:2024-08-07 14:59:44 公開日:2024-08-06 |
# Kolmogorov-Arnold PointNet:不規則測地における流体場の予測のためのディープラーニング
Kolmogorov-Arnold PointNet: Deep learning for prediction of fluid fields on irregular geometries ( http://arxiv.org/abs/2408.02950v1 ) ライセンス: Link先を確認 | Ali Kashefi, | (参考訳) 本研究では,不規則領域における非圧縮性定常流体場予測のための新しい深層学習フレームワークとして,Kolmogorov-Arnold PointNet(KA-PointNet)を提案する。
KA-PointNetでは、PointNetアーキテクチャのセグメンテーションブランチに共有KANを実装した。
我々はジャコビ多項式を用いて共有カンを構成する。
ベンチマークテストケースとして,シリンダー上の非圧縮性層状定常流を考察する。
本稿では,異なる次数を持つヤコビ多項式と,ルジャンドル多項式,第1次および第2次チェビシェフ多項式,ゲゲンバウアー多項式などのヤコビ多項式の特別な場合の計算コストとテストセットの予測精度について検討する。
さらに、PointNetと共有kan(KA-PointNet)と共有Multilayer Perceptrons(MLP)を比較した。
トレーニング可能なパラメータの数がほぼ等しい場合、共有kan(KA-PointNet)を持つPointNetは、共有MLPを持つPointNetより優れる。
We present Kolmogorov-Arnold PointNet (KA-PointNet) as a novel supervised deep learning framework for the prediction of incompressible steady-state fluid flow fields in irregular domains, where the predicted fields are a function of the geometry of the domains. In KA-PointNet, we implement shared Kolmogorov-Arnold Networks (KANs) in the segmentation branch of the PointNet architecture. We utilize Jacobi polynomials to construct shared KANs. As a benchmark test case, we consider incompressible laminar steady-state flow over a cylinder, where the geometry of its cross-section varies over the data set. We investigate the performance of Jacobi polynomials with different degrees as well as special cases of Jacobi polynomials such as Legendre polynomials, Chebyshev polynomials of the first and second kinds, and Gegenbauer polynomials, in terms of the computational cost of training and accuracy of prediction of the test set. Additionally, we compare the performance of PointNet with shared KANs (i.e., KA-PointNet) and PointNet with shared Multilayer Perceptrons (MLPs). It is observed that when the number of trainable parameters is approximately equal, PointNet with shared KANs (i.e., KA-PointNet) outperforms PointNet with shared MLPs. | 翻訳日:2024-08-07 14:59:44 公開日:2024-08-06 |
# WWW:マルチモーダルディープフェイク検出における解釈可能性の向上
WWW: Where, Which and Whatever Enhancing Interpretability in Multimodal Deepfake Detection ( http://arxiv.org/abs/2408.02954v1 ) ライセンス: Link先を確認 | Juho Jung, Sangyoun Lee, Jooeon Kang, Yunjin Na, | (参考訳) マルチモーダルディープフェイク検出のための現在のベンチマークは、様々な生成技術を用いてフレーム全体を操作し、ビデオレベルの分類では、過飽和検出精度が94%を超えた。
しかし、これらのベンチマークは、現実世界のシナリオで提示されるフレーム単位の変更による動的ディープフェイク攻撃を検出するのに苦労している。
この制限に対処するために、ビデオとオーディオの両方で操作されたセグメントを特定し、ディープフェイクの起源を知ることを目的とした、クリップレベルの新しい評価ベンチマークであるFakeMixを紹介する。
さらに,新しい評価指標である時間精度(TA)とフレームワイド判別基準(FDM)を提案し,深度検出モデルのロバスト性を評価する。
様々なディープフェイクベンチマーク、特にFakeMixに対する最先端モデルの評価は、我々のアプローチの有効性を包括的に示す。
具体的には、ビデオレベルでの平均精度(AP)が94.2%に達する一方で、提案した指標であるTAとFDMを用いたクリップレベルでの既存モデルの評価は、それぞれ53.1%、52.1%と急激な低下を示した。
All current benchmarks for multimodal deepfake detection manipulate entire frames using various generation techniques, resulting in oversaturated detection accuracies exceeding 94% at the video-level classification. However, these benchmarks struggle to detect dynamic deepfake attacks with challenging frame-by-frame alterations presented in real-world scenarios. To address this limitation, we introduce FakeMix, a novel clip-level evaluation benchmark aimed at identifying manipulated segments within both video and audio, providing insight into the origins of deepfakes. Furthermore, we propose novel evaluation metrics, Temporal Accuracy (TA) and Frame-wise Discrimination Metric (FDM), to assess the robustness of deepfake detection models. Evaluating state-of-the-art models against diverse deepfake benchmarks, particularly FakeMix, demonstrates the effectiveness of our approach comprehensively. Specifically, while achieving an Average Precision (AP) of 94.2% at the video-level, the evaluation of the existing models at the clip-level using the proposed metrics, TA and FDM, yielded sharp declines in accuracy to 53.1%, and 52.1%, respectively. | 翻訳日:2024-08-07 14:59:44 公開日:2024-08-06 |
# バルクn-AlGaAs中の緩やかに生成する異方性大核場
Slowly generated anomalously large nuclear field in bulk n-AlGaAs ( http://arxiv.org/abs/2408.02956v1 ) ライセンス: Link先を確認 | A. Shen, J. Chen, R. Kaji, S. Yamamoto, H. Sasakura, T. Uemura, S. Adachi, | (参考訳) アルミニウム濃度の異なる3つのAl$_x$Ga$_{1-x}$Asバルク試料を0,0,05,0。
時間分解カーローテーション技術は主に用いられた。
x=$ 0.05 と 0.15 のサンプルは、適用磁場の2倍の$\sim$1.1 Tという異常に大きな核磁場を示した。
この観察はバルク半導体では珍しく、通常は弱い超微細な相互作用を示す。
さらなる調査により、長い核場形成時間が明らかとなり、2段階形成のダイナミクスが明らかとなった。
そこで本研究では,核四極子相互作用による低速核スピン拡散が核場の形成を促進することを結論付けた。
This study investigated the dynamics of an electron--nuclear spin-coupled system using three Al$_x$Ga$_{1-x}$As bulk samples with different aluminum concentrations $x$ of 0, 0.05, and 0.15. The time-resolved Kerr rotation technique was primarily used. The samples with $x=$ 0.05 and 0.15 exhibited an anomalously large nuclear magnetic field of $\sim$1.1 T, which was twice the applied magnetic field. This observation is unusual for bulk semiconductors, which typically exhibit weak hyperfine interactions. Further investigations revealed a long nuclear field formation time, which indicated clear two-stage formation dynamics. Thus, this study concluded that slow nuclear spin diffusion owing to the nuclear quadrupole interaction facilitates the formation process of the nuclear field. | 翻訳日:2024-08-07 14:59:44 公開日:2024-08-06 |
# メモリ拡張型変圧器を用いたオンライン時間行動定位
Online Temporal Action Localization with Memory-Augmented Transformer ( http://arxiv.org/abs/2408.02957v1 ) ライセンス: Link先を確認 | Youngkil Song, Dongkeun Kim, Minsu Cho, Suha Kwak, | (参考訳) オンライン時間的アクションローカライゼーション(On-TAL)は、ストリーミングビデオが与えられた複数のアクションインスタンスを特定するタスクである。
既存の手法は、イテレーション毎に一定サイズのビデオセグメントのみを入力とするため、長期的コンテキストを考慮し、セグメントサイズを慎重に調整する必要がある。
これらの制限を克服するため,メモリ拡張トランス (MATR) を提案する。
MATRはメモリキューを利用して過去のセグメントの特徴を選択的に保存し、推論に長期的コンテキストを活用する。
また,現在進行中の動作の終了時刻を予測するために入力セグメントを観測し,メモリキューにアクセスして動作開始時刻を推定する新たな動作ローカライズ手法を提案する。
提案手法は, THUMOS14 と MUSES という2つのデータセット上で既存の手法よりも優れており, オンライン環境での TAL 法だけでなく, オフラインの TAL 法も上回っている。
Online temporal action localization (On-TAL) is the task of identifying multiple action instances given a streaming video. Since existing methods take as input only a video segment of fixed size per iteration, they are limited in considering long-term context and require tuning the segment size carefully. To overcome these limitations, we propose memory-augmented transformer (MATR). MATR utilizes the memory queue that selectively preserves the past segment features, allowing to leverage long-term context for inference. We also propose a novel action localization method that observes the current input segment to predict the end time of the ongoing action and accesses the memory queue to estimate the start time of the action. Our method outperformed existing methods on two datasets, THUMOS14 and MUSES, surpassing not only TAL methods in the online setting but also some offline TAL methods. | 翻訳日:2024-08-07 14:59:44 公開日:2024-08-06 |
# 適応的遅延に基づくヒューリスティックによる任意のマルチエージェントパス検出
Anytime Multi-Agent Path Finding with an Adaptive Delay-Based Heuristic ( http://arxiv.org/abs/2408.02960v1 ) ライセンス: Link先を確認 | Thomy Phan, Benran Zhang, Shao-Hung Chan, Sven Koenig, | (参考訳) Anytime Multi-Adnt Path Finding (MAPF) はマルチエージェントシステムにおけるスケーラブルパス最適化への有望なアプローチである。
MAPF-LNSはLarge Neborhood Search (LNS)に基づいており、高速初期解を反復的に最適化し、選択した経路を破壊・修復する手法である。
現在のMAPF-LNS変種は、適応的な選択機構を用いて複数の破壊ヒューリスティックを選択する。
しかし、有望な破壊ヒューリスティックスを決定するためには、MAPF-LNSは相当な時間を要する。
一般的な破壊ヒューリスティックは適応的ではないため、これらのヒューリスティックによって引き起こされるパフォーマンスボトルネックは、適応ヒューリスティック選択だけでは克服できないため、ソリューションコストの観点からMAPF-LNSの全体的な有効性を制限することができる。
本稿では,MAPF-LNSの単一デストロジヒューリスティック変種として,adaptive Delay-based Destroy-and-Repair Enhanced with Success-based Self-Learning (ADDRESS)を提案する。
ADDRESSは制限されたトンプソンサンプリングを最も遅延したエージェントのトップK集合に適用し、適応的なLSN近傍生成のためのシードエージェントを選択する。
我々は、MAPFベンチマークセットから複数の地図でADDRESSを評価し、1000エージェントまでの大規模シナリオにおいて、従来のMAPF-LNSや他の最先端手法と比較して、少なくとも50%のコスト改善を実証した。
Anytime multi-agent path finding (MAPF) is a promising approach to scalable path optimization in multi-agent systems. MAPF-LNS, based on Large Neighborhood Search (LNS), is the current state-of-the-art approach where a fast initial solution is iteratively optimized by destroying and repairing selected paths of the solution. Current MAPF-LNS variants commonly use an adaptive selection mechanism to choose among multiple destroy heuristics. However, to determine promising destroy heuristics, MAPF-LNS requires a considerable amount of exploration time. As common destroy heuristics are non-adaptive, any performance bottleneck caused by these heuristics cannot be overcome via adaptive heuristic selection alone, thus limiting the overall effectiveness of MAPF-LNS in terms of solution cost. In this paper, we propose Adaptive Delay-based Destroy-and-Repair Enhanced with Success-based Self-Learning (ADDRESS) as a single-destroy-heuristic variant of MAPF-LNS. ADDRESS applies restricted Thompson Sampling to the top-K set of the most delayed agents to select a seed agent for adaptive LNS neighborhood generation. We evaluate ADDRESS in multiple maps from the MAPF benchmark set and demonstrate cost improvements by at least 50% in large-scale scenarios with up to a thousand agents, compared with the original MAPF-LNS and other state-of-the-art methods. | 翻訳日:2024-08-07 14:59:44 公開日:2024-08-06 |
# スパイク間隔を用いたシナプス変調によるスパイクニューラルネットワークのエネルギー効率向上
Synaptic Modulation using Interspike Intervals Increases Energy Efficiency of Spiking Neural Networks ( http://arxiv.org/abs/2408.02961v1 ) ライセンス: Link先を確認 | Dylan Adams, Magda Zajaczkowska, Ashiq Anjum, Andrea Soltoggio, Shirin Dora, | (参考訳) Spiking Neural Networks(SNN)とArtificial Neural Networks(ANN)の基本的な違いにもかかわらず、SNNに関するほとんどの研究は、SNNにANNベースの手法を適用することを含んでいる。
プルーニング(ドロップ接続)と量子化(還元精度)は、しばしばSNNのエネルギー効率を改善するために使われる。
これらの方法は、シナプス上で伝達される信号によってエネルギー需要が決定されるANNにとって非常に効果的である。
しかし、SNNのイベント駆動パラダイムは、エネルギーがスパイクによって消費されることを意味する。
本稿では,2つのスパイク間の時間差として,Interspike Intervals (ISI) によって重みを変調した新しいシナプスモデルを提案する。
ISI Modulated SNN(IMSNN)と呼ばれるこのシナプスモデルからなるSNNは、シナプスパラメータの更新後にニューロンのISIがどのように変化するかを推定するために勾配降下を利用することができる。
より高いISIはスパイクと逆転を減らすことを意味する。
IMSNNの学習アルゴリズムは、この情報を利用して、より少ないスパイクを生成するネットワークとなるISIを増大させることによって学習が達成されるような勾配を選択的に伝播する。
MNISTおよびFashionMNISTデータセットを用いて,高密度・畳み込み層を有するIMSNNの性能を分類精度およびスパイク数の観点から評価した。
従来のSNNと比較して、IMSNNは、類似の分類精度を維持しつつ、スパイク数を最大90%削減することを示した。
Despite basic differences between Spiking Neural Networks (SNN) and Artificial Neural Networks (ANN), most research on SNNs involve adapting ANN-based methods for SNNs. Pruning (dropping connections) and quantization (reducing precision) are often used to improve energy efficiency of SNNs. These methods are very effective for ANNs whose energy needs are determined by signals transmitted on synapses. However, the event-driven paradigm in SNNs implies that energy is consumed by spikes. In this paper, we propose a new synapse model whose weights are modulated by Interspike Intervals (ISI) i.e. time difference between two spikes. SNNs composed of this synapse model, termed ISI Modulated SNNs (IMSNN), can use gradient descent to estimate how the ISI of a neuron changes after updating its synaptic parameters. A higher ISI implies fewer spikes and vice-versa. The learning algorithm for IMSNNs exploits this information to selectively propagate gradients such that learning is achieved by increasing the ISIs resulting in a network that generates fewer spikes. The performance of IMSNNs with dense and convolutional layers have been evaluated in terms of classification accuracy and the number of spikes using the MNIST and FashionMNIST datasets. The performance comparison with conventional SNNs shows that IMSNNs exhibit upto 90% reduction in the number of spikes while maintaining similar classification accuracy. | 翻訳日:2024-08-07 14:59:44 公開日:2024-08-06 |
# オープンソーステキスト分類モデルとファインチューニングチェーンの逆ロバスト性
Adversarial Robustness of Open-source Text Classification Models and Fine-Tuning Chains ( http://arxiv.org/abs/2408.02963v1 ) ライセンス: Link先を確認 | Hao Qin, Mingyang Li, Junjie Wang, Qing Wang, | (参考訳) コンテキスト:人工知能(AI)技術と応用の進歩により、多くのAIモデルが開発され、Hugging Face(HF)のようなオープンソースのモデルホスティングプラットフォームが出現した。
これらのプラットフォームのおかげで、個人はモデルを直接ダウンロードして使用でき、さらにドメイン固有のモデルを構築するための微調整もできる。
しかし、従来のソフトウェアサプライチェーンがセキュリティリスクに直面しているのと同じように、AIモデルや微調整チェーンも敵攻撃のような新たなセキュリティリスクに直面している。
したがって、これらのモデルの敵対的堅牢性は注目を集め、オープンソースモデルに対する人々の選択に影響を与える可能性がある。
目的:本稿は,オープンソースAIモデルと上流-下流関係によって形成されるチェーンの敵対的堅牢性について,微調整により検討し,潜在的な敵対的リスクについて考察することを目的とする。
方法:我々はHF上のテキスト分類モデルを収集し,細調整チェーンの構築を行い,既存の敵攻撃によるモデル再利用と関連するロバストネスリスクの実証分析を行った。
結果: モデルが広くダウンロードおよび再利用されているにもかかわらず、一般的には敵の攻撃リスクに敏感であり、平均52.70%の攻撃成功率である。
さらに、微調整は一般的にこのリスクを悪化させ、平均12.60%の攻撃成功率をもたらす。
また、アタックテクニックやデータセット、モデルアーキテクチャといった要因が、成功率やモデルチェーンに沿った推移性に与える影響についても調べています。
Context:With the advancement of artificial intelligence (AI) technology and applications, numerous AI models have been developed, leading to the emergence of open-source model hosting platforms like Hugging Face (HF). Thanks to these platforms, individuals can directly download and use models, as well as fine-tune them to construct more domain-specific models. However, just like traditional software supply chains face security risks, AI models and fine-tuning chains also encounter new security risks, such as adversarial attacks. Therefore, the adversarial robustness of these models has garnered attention, potentially influencing people's choices regarding open-source models. Objective:This paper aims to explore the adversarial robustness of open-source AI models and their chains formed by the upstream-downstream relationships via fine-tuning to provide insights into the potential adversarial risks. Method:We collect text classification models on HF and construct the fine-tuning chains.Then, we conduct an empirical analysis of model reuse and associated robustness risks under existing adversarial attacks from two aspects, i.e., models and their fine-tuning chains. Results:Despite the models' widespread downloading and reuse, they are generally susceptible to adversarial attack risks, with an average of 52.70% attack success rate. Moreover, fine-tuning typically exacerbates this risk, resulting in an average 12.60% increase in attack success rates. We also delve into the influence of factors such as attack techniques, datasets, and model architectures on the success rate, as well as the transitivity along the model chains. | 翻訳日:2024-08-07 14:59:44 公開日:2024-08-06 |
# 登録栄養士試験におけるLDMの精度と一貫性:プロンプト工学と知識検索の影響
Accuracy and Consistency of LLMs in the Registered Dietitian Exam: The Impact of Prompt Engineering and Knowledge Retrieval ( http://arxiv.org/abs/2408.02964v1 ) ライセンス: Link先を確認 | Iman Azimi, Mohan Qi, Li Wang, Amir M. Rahmani, Youlin Li, | (参考訳) 大規模言語モデル(LLMs)は、患者のエンゲージメントの向上、臨床的意思決定の促進、医療教育の促進など、健康と幸福な領域における人間の直面する応用を根本的に変えつつある。
現状のLSMはいくつかの会話的応用において優れた性能を示したが、栄養学や食事学における評価はいまだに不十分である。
本稿では,栄養クエリの精度と整合性を評価するため,登録栄養士試験(RD)を用いて,最先端LCM,GPT-4o,Claude 3.5 Sonnet,Gemini 1.5 Proの標準的かつ包括的な評価を行う。
評価対象は,栄養問題と熟練度を含む1050のRD試験質問項目を含む。
また,ゼロショット (ZS) , 思考の連鎖 (CoT) , 自己一貫性の連鎖 (CoT-SC) , 思考の連鎖 (RAP) が応答の正確性と整合性に与える影響を初めて検討した。
以上の結果から,これらのLSMは総合的な性能は許容できるものの,異なるプロンプトや問合せ領域とは大きく異なることが明らかとなった。
GPT-4oとCoT-SCは他の手法よりも優れており、Gemini 1.5 ProとZSは高い一貫性を示した。
GPT-4oとClaude 3.5では、CoTは精度を向上し、CoT-SCは精度と一貫性の両方を改善した。
RAP は GPT-4o がエキスパートレベルの質問に答えるのに特に有効であった。
したがって、習熟度や特定のドメインに合わせて適切なLLMとプロンプト技術を選択することで、食事や栄養チャットボットのエラーや潜在的なリスクを軽減することができる。
Large language models (LLMs) are fundamentally transforming human-facing applications in the health and well-being domains: boosting patient engagement, accelerating clinical decision-making, and facilitating medical education. Although state-of-the-art LLMs have shown superior performance in several conversational applications, evaluations within nutrition and diet applications are still insufficient. In this paper, we propose to employ the Registered Dietitian (RD) exam to conduct a standard and comprehensive evaluation of state-of-the-art LLMs, GPT-4o, Claude 3.5 Sonnet, and Gemini 1.5 Pro, assessing both accuracy and consistency in nutrition queries. Our evaluation includes 1050 RD exam questions encompassing several nutrition topics and proficiency levels. In addition, for the first time, we examine the impact of Zero-Shot (ZS), Chain of Thought (CoT), Chain of Thought with Self Consistency (CoT-SC), and Retrieval Augmented Prompting (RAP) on both accuracy and consistency of the responses. Our findings revealed that while these LLMs obtained acceptable overall performance, their results varied considerably with different prompts and question domains. GPT-4o with CoT-SC prompting outperformed the other approaches, whereas Gemini 1.5 Pro with ZS recorded the highest consistency. For GPT-4o and Claude 3.5, CoT improved the accuracy, and CoT-SC improved both accuracy and consistency. RAP was particularly effective for GPT-4o to answer Expert level questions. Consequently, choosing the appropriate LLM and prompting technique, tailored to the proficiency level and specific domain, can mitigate errors and potential risks in diet and nutrition chatbots. | 翻訳日:2024-08-07 14:49:26 公開日:2024-08-06 |
# 条件拡散モデルとニューラル演算子を用いたデータ駆動確率閉包モデル
Data-Driven Stochastic Closure Modeling via Conditional Diffusion Model and Neural Operator ( http://arxiv.org/abs/2408.02965v1 ) ライセンス: Link先を確認 | Xinghao Dong, Chuanqi Chen, Jin-Long Wu, | (参考訳) クロージャモデルは、乱流や地球系のような複雑なマルチスケールの力学系をシミュレートするために広く使われており、全てのスケールを解く直接数値シミュレーションは高価すぎることが多い。
明確なスケール分離のないシステムでは、決定論的および局所的なクロージャモデルは、多くの実世界のアプリケーションでの性能を制限する十分な一般化能力に欠けることが多い。
本研究では,条件付き拡散モデルとニューラル演算子を用いて確率的および非局所的クロージャモデルを構築するための,データ駆動型モデリングフレームワークを提案する。
具体的には、フーリエ神経演算子は、偏微分方程式(PDE)によって支配される複雑な力学系のデータ駆動確率的閉包モデルとして機能するスコアベース拡散モデルに組み込まれる。
また,データ駆動型確率閉包モデルの高速化を実証する。
提案手法は, 連続時空間をもつマルチスケール動的システムのためのデータ駆動確率閉包モデルを構築するための, 生成機械学習手法による体系的アプローチを提供することを示す。
Closure models are widely used in simulating complex multiscale dynamical systems such as turbulence and the earth system, for which direct numerical simulation that resolves all scales is often too expensive. For those systems without a clear scale separation, deterministic and local closure models often lack enough generalization capability, which limits their performance in many real-world applications. In this work, we propose a data-driven modeling framework for constructing stochastic and non-local closure models via conditional diffusion model and neural operator. Specifically, the Fourier neural operator is incorporated into a score-based diffusion model, which serves as a data-driven stochastic closure model for complex dynamical systems governed by partial differential equations (PDEs). We also demonstrate how accelerated sampling methods can improve the efficiency of the data-driven stochastic closure model. The results show that the proposed methodology provides a systematic approach via generative machine learning techniques to construct data-driven stochastic closure models for multiscale dynamical systems with continuous spatiotemporal fields. | 翻訳日:2024-08-07 14:49:26 公開日:2024-08-06 |
# コンテキストベース残差符号化とINRベースリファインメントによる高速点雲形状圧縮
Fast Point Cloud Geometry Compression with Context-based Residual Coding and INR-based Refinement ( http://arxiv.org/abs/2408.02966v1 ) ライセンス: Link先を確認 | Hao Xu, Xi Zhang, Xiaolin Wu, | (参考訳) 整列されていない点の集合を圧縮することは、不規則な点配置で隣り合う関係を特徴づけることの難しさから、通常のサンプルグリッドの画像や映像を圧縮するよりもはるかに難しい。
多くの研究者は正則性を導入するためにボキセル化を利用するが、このアプローチは量子化損失に悩まされる。
そこで本研究では,KNN法を用いて生表面点の近傍を推定する。
これにより、3次元点の潜伏した特徴が算術符号によって圧縮される空間的文脈を決定することができる。
このように、条件付き確率モデルは局所幾何学に適応し、大きな速度減少をもたらす。
さらに,非学習ベース層が低複雑性で点雲の主構造を再構築する双層アーキテクチャを提案する。
この設計により、SOTA法に比べてモデル複雑性と符号化遅延が2桁減少する。
さらに、暗黙のニューラル表現(INR)を精製層に組み込み、デコーダは任意の密度で基底表面上の点をサンプリングする。
この研究は、不規則な生の点雲を圧縮し、高い速度歪曲性能、低複雑性を実現し、任意のスケールのアップサンプリングネットワークとして機能するための、コンテンツ対応ローカルコンテキストを効果的に活用する最初のものである。
Compressing a set of unordered points is far more challenging than compressing images/videos of regular sample grids, because of the difficulties in characterizing neighboring relations in an irregular layout of points. Many researchers resort to voxelization to introduce regularity, but this approach suffers from quantization loss. In this research, we use the KNN method to determine the neighborhoods of raw surface points. This gives us a means to determine the spatial context in which the latent features of 3D points are compressed by arithmetic coding. As such, the conditional probability model is adaptive to local geometry, leading to significant rate reduction. Additionally, we propose a dual-layer architecture where a non-learning base layer reconstructs the main structures of the point cloud at low complexity, while a learned refinement layer focuses on preserving fine details. This design leads to reductions in model complexity and coding latency by two orders of magnitude compared to SOTA methods. Moreover, we incorporate an implicit neural representation (INR) into the refinement layer, allowing the decoder to sample points on the underlying surface at arbitrary densities. This work is the first to effectively exploit content-aware local contexts for compressing irregular raw point clouds, achieving high rate-distortion performance, low complexity, and the ability to function as an arbitrary-scale upsampling network simultaneously. | 翻訳日:2024-08-07 14:49:26 公開日:2024-08-06 |
# EC-Guide: インストラクションチューニングと量子化のための総合的なEコマースガイド
EC-Guide: A Comprehensive E-Commerce Guide for Instruction Tuning and Quantization ( http://arxiv.org/abs/2408.02970v1 ) ライセンス: Link先を確認 | Zhaopeng Feng, Zijie Meng, Zuozhu Liu, | (参考訳) 大規模言語モデル (LLM) は、様々な課題に対するコスト効率のよい解決策、特に命令チューニングや量子化の進歩により、様々な分野で大きな注目を集めている。
複雑なタスクと広範囲な製品-ユーザインタラクションを備えたeコマースは、LLMにとって有望なアプリケーション領域を提供する。
しかし、eコマースに固有のドメイン固有の概念と知識は、一般的なLLMを適用する上で大きな課題となる。
この問題に対処するため,LLMのチューニングと量子化のための総合的なeコマースガイドであるEC-Guide \href{https://github.com/fzp0424/EC-Guide-KDDUP-2024} を開発した。
また,計算性能を向上させるため,推論中にCoT(Chain-of-Thought)をヒューリスティックに統合した。
我々は,Amazon KDD Cup'24 \href{https://www.aicrowd.com/challenges/amazon-kdd-cup-2024-multi-task-onpping-challenge-for-llms}において,トラック2とトラック5の2位を獲得した。
さらに、当社のソリューションはモデルに依存しないため、大規模システムにまたがる効率的なスケーラビリティを実現しています。
Large language models (LLMs) have attracted considerable attention in various fields for their cost-effective solutions to diverse challenges, especially with advancements in instruction tuning and quantization. E-commerce, with its complex tasks and extensive product-user interactions, presents a promising application area for LLMs. However, the domain-specific concepts and knowledge inherent in e-commerce pose significant challenges for adapting general LLMs. To address this issue, we developed EC-Guide \href{https://github.com/fzp0424/EC-Guide-KDDUP-2024}, a comprehensive e-commerce guide for instruction tuning and quantization of LLMs. We also heuristically integrated Chain-of-Thought (CoT) during inference to enhance arithmetic performance. Our approach achieved the 2nd place in Track 2 and 5th place in Track 5 at the Amazon KDD Cup'24 \href{https://www.aicrowd.com/challenges/amazon-kdd-cup-2024-multi-task-online-shopping-challenge-for-llms }. Additionally, our solution is model-agnostic, enabling effective scalability across larger systems. | 翻訳日:2024-08-07 14:49:26 公開日:2024-08-06 |
# 波動補間ニューラル演算子:非拘束波長における電界の補間予測
Wave Interpolation Neural Operator: Interpolated Prediction of Electric Fields Across Untrained Wavelengths ( http://arxiv.org/abs/2408.02971v1 ) ライセンス: Link先を確認 | Joonhyuk Seo, Chanik Kang, Dongjin Seo, Haejun Chung, | (参考訳) フォトニック構造の設計には、しばしば高い計算コストを必要とする電磁シミュレーションが必要である。
研究者は、計算問題を緩和するために電場を予測するための代理解法を開発した。
しかし、既存のサロゲート解法は、固定されたシミュレーション条件下での推論に限られており、異なる条件で再訓練する必要がある。
そこで本研究では,広帯域波長連続スペクトルにおけるシミュレーション条件補間を可能にする新しいサロゲート解法であるWave Interpolation Neural Operator (WINO)を提案する。
WINOは、Fourier Group Convolution Shuffling演算子と、トレーニングされた波長データとトレーニングされていない波長データの両方から電場を効率的に予測する新しい条件付け手法を導入し、パラメータ効率とスペクトル補間性能を大幅に改善した。
本モデルでは,従来の有限差分周波数領域シミュレーションの約100倍の性能を示す。
さらに、最先端モデルと比較して、74%のパラメータの削減、80.5%の未トレーニング波長の予測精度の改善、13.2%のトレーニング波長の改善を実現している。
Designing photonic structures requires electromagnetic simulations, which often require high computational costs. Researchers have developed surrogate solvers for predicting electric fields to alleviate the computational issues. However, existing surrogate solvers are limited to performing inference at fixed simulation conditions and require retraining for different conditions. To address this, we propose Wave Interpolation Neural Operator (WINO), a novel surrogate solver enabling simulation condition interpolation across a continuous spectrum of broadband wavelengths. WINO introduces the Fourier Group Convolution Shuffling operator and a new conditioning method to efficiently predict electric fields from both trained and untrained wavelength data, achieving significant improvements in parameter efficiency and spectral interpolation performance. Our model demonstrates approximately 100 times faster performance than traditional finite-difference frequency-domain simulations. Moreover, compared to the state-of-the-art model, we achieve a 74% reduction in parameters and 80.5% improvements in prediction accuracy for untrained wavelengths, and 13.2% improvements for trained wavelengths. | 翻訳日:2024-08-07 14:49:26 公開日:2024-08-06 |
# 共感反応生成のための強化学習による共感レベルアライメント
Empathy Level Alignment via Reinforcement Learning for Empathetic Response Generation ( http://arxiv.org/abs/2408.02976v1 ) ライセンス: Link先を確認 | Hui Ma, Bo Zhang, Bo Xu, Jian Wang, Hongfei Lin, Xiao Sun, | (参考訳) ユーザの状況や感情を理解し,共感的に反応することを目的とした共感的応答生成は,人間のような対話システムを構築する上で重要である。
従来の手法は主に、生成した応答とターゲット応答の共感レベルアライメントを考慮せずに、応答生成モデルの学習目標として、最大推定を最大限に活用することに焦点を当てていた。
そこで本研究では,強化学習(EmpRL)フレームワークを用いた共感応答生成を提案する。
このフレームワークは、効果的な共感報酬関数を設計し、強化学習により期待される報酬を最大化することにより共感応答を生成する。
事前訓練された言語モデルの強力なテキスト生成能力を考えると、EmpRLは事前訓練されたT5モデルをジェネレータとして利用し、ポリシーの初期化のためにさらなる訓練を行う。
3つの共感コミュニケーション機構、すなわち、感情反応、解釈、探索を含む共感報酬関数を、予め設計された、訓練済みの共感識別子を用いて構築する。
最後に、近似ポリシー最適化アルゴリズムを用いて、共感応答を生成するためのポリシーをさらに訓練する。
自動評価と手動評価の両方により,提案したEmpRLフレームワークは,生成した応答の質を向上し,生成した応答と対象応答の共感レベル類似性を向上し,情緒的応答と認知的応答の両方をカバーできることが示された。
Empathetic response generation, aiming at understanding the user's situation and feelings and respond empathically, is crucial in building human-like dialogue systems. Previous methods mainly focus on using maximum likelihood estimation as the optimization objective for training response generation models, without taking into account the empathy level alignment between generated responses and target responses. To this end, we propose an empathetic response generation using reinforcement learning (EmpRL) framework. The framework designs an effective empathy reward function and generates empathetic responses by maximizing the expected reward through reinforcement learning. Given the powerful text generation capability of pre-trained language models, EmpRL utilizes the pre-trained T5 model as the generator and conducts further training to initialize the policy. To align the empathy level between generated responses and target responses in the context, an empathy reward function containing three empathy communication mechanisms, i.e., emotional reaction, interpretation, and exploration, is constructed using pre-designed and pre-trained empathy identifiers. Finally, the proximal policy optimization algorithm is used to further train the policy to produce empathetic responses. Both automatic and manual evaluations demonstrate that the proposed EmpRL framework can improve the quality of generated responses, enhance the empathy level similarity between generated and target responses, and produce empathetic responses covering both affective and cognitive aspects. | 翻訳日:2024-08-07 14:49:26 公開日:2024-08-06 |
# クロスドメイン製品検索のためのASR強化マルチモーダル表現学習
ASR-enhanced Multimodal Representation Learning for Cross-Domain Product Retrieval ( http://arxiv.org/abs/2408.02978v1 ) ライセンス: Link先を確認 | Ruixiang Zhao, Jian Jia, Yan Li, Xuehan Bai, Quan Chen, Han Li, Peng Jiang, Xirong Li, | (参考訳) 電子商取引はますますマルチメディア化され、画像やショートビデオ、ライブストリームのプロモーションなど、幅広い領域で商品が展示されている。
統一的でベクトル化されたクロスドメイン生産表現は不可欠である。
広義のシナリオでは、製品内変異が大きく、製品間類似度が高いため、視覚のみの表現は不十分である。
ショートビデオやライブストリームビデオから派生した自動音声認識(ASR)テキストは容易にアクセス可能であるが、マルチモーダル表現学習のための過度にノイズの多いテキストの消音方法はほとんど触れていない。
ASRによるマルチモーダル製品表現学習(AMPere)を提案する。
生の ASR テキストから製品固有の情報を抽出するために,AMPere は LLM ベースの ASR テキスト要約器を使用する。
LLMで要約されたテキストは、視覚データとともにマルチブランチネットワークに入力され、コンパクトなマルチモーダル埋め込みを生成する。
大規模トリドメインデータセットの大規模な実験は、ドメイン間の商品検索を明確に改善する統一されたマルチモーダル製品表現を得る上で、AMPereの有効性を検証する。
E-commerce is increasingly multimedia-enriched, with products exhibited in a broad-domain manner as images, short videos, or live stream promotions. A unified and vectorized cross-domain production representation is essential. Due to large intra-product variance and high inter-product similarity in the broad-domain scenario, a visual-only representation is inadequate. While Automatic Speech Recognition (ASR) text derived from the short or live-stream videos is readily accessible, how to de-noise the excessively noisy text for multimodal representation learning is mostly untouched. We propose ASR-enhanced Multimodal Product Representation Learning (AMPere). In order to extract product-specific information from the raw ASR text, AMPere uses an easy-to-implement LLM-based ASR text summarizer. The LLM-summarized text, together with visual data, is then fed into a multi-branch network to generate compact multimodal embeddings. Extensive experiments on a large-scale tri-domain dataset verify the effectiveness of AMPere in obtaining a unified multimodal product representation that clearly improves cross-domain product retrieval. | 翻訳日:2024-08-07 14:49:26 公開日:2024-08-06 |
# ビジョンランゲージ事前学習モデルに対するサンプル非依存的対向的摂動
Sample-agnostic Adversarial Perturbation for Vision-Language Pre-training Models ( http://arxiv.org/abs/2408.02980v1 ) ライセンス: Link先を確認 | Haonan Zheng, Wen Jiang, Xinyang Deng, Wenrui Li, | (参考訳) AIセキュリティに関する最近の研究は、画像やテキストの微妙で意図的に設計された摂動に対するビジョンランゲージ事前学習(VLP)モデルの脆弱性を強調している。
この分野では、敵攻撃によるマルチモーダルシステムの堅牢性の調査が重要である。
ほとんどのマルチモーダル攻撃はサンプル固有であり、各サンプルに対して独自の摂動を発生させ、対向的なサンプルを構成する。
私たちの知る限りでは、どんな画像にも当てはまる普遍的でサンプルに依存しない摂動の生成を探索する、マルチモーダルな決定境界による最初の研究である。
まず、線形分類器の決定境界を越えてサンプルポイントを移動させ、アルゴリズムを改良し、最上位の$k$精度の精度で攻撃を成功させる方法を検討する。
この基礎に基づいて、視覚的・テキスト的モダリティを相互のサンプル点と決定超平面として扱い、画像埋め込みをテキスト構築決定境界を横切るように誘導する。
この反復的プロセスは、常に普遍的な摂動を洗練し、最終的にはVLPモデルの検索性能を損なうことができる入力空間内の特異な方向を識別する。
提案アルゴリズムは,大域的摂動や逆パッチの作成を支援する。
総合的な実験により,本手法の有効性を検証し,様々なVLPモデルおよびデータセット間のデータ,タスク,モデル転送可能性を示す。
コード:https://github.com/LibertazZ/MUAP
Recent studies on AI security have highlighted the vulnerability of Vision-Language Pre-training (VLP) models to subtle yet intentionally designed perturbations in images and texts. Investigating multimodal systems' robustness via adversarial attacks is crucial in this field. Most multimodal attacks are sample-specific, generating a unique perturbation for each sample to construct adversarial samples. To the best of our knowledge, it is the first work through multimodal decision boundaries to explore the creation of a universal, sample-agnostic perturbation that applies to any image. Initially, we explore strategies to move sample points beyond the decision boundaries of linear classifiers, refining the algorithm to ensure successful attacks under the top $k$ accuracy metric. Based on this foundation, in visual-language tasks, we treat visual and textual modalities as reciprocal sample points and decision hyperplanes, guiding image embeddings to traverse text-constructed decision boundaries, and vice versa. This iterative process consistently refines a universal perturbation, ultimately identifying a singular direction within the input space which is exploitable to impair the retrieval performance of VLP models. The proposed algorithms support the creation of global perturbations or adversarial patches. Comprehensive experiments validate the effectiveness of our method, showcasing its data, task, and model transferability across various VLP models and datasets. Code: https://github.com/LibertazZ/MUAP | 翻訳日:2024-08-07 14:49:26 公開日:2024-08-06 |
# Diffusion Modelは、非初歩的なクラスインクリメンタルラーニングとそれを超える
Diffusion Model Meets Non-Exemplar Class-Incremental Learning and Beyond ( http://arxiv.org/abs/2408.02983v1 ) ライセンス: Link先を確認 | Jichuan Zhang, Yali Li, Xin Liu, Shengjin Wang, | (参考訳) 非典型的なクラス増分学習(Non-exemplar class-incremental learning、NECIL)は、古いクラスサンプルを保存せずに破滅的な忘れ込みに抵抗することである。
従来の方法論では、リプレイされた機能と実際の機能の間に大きな分散ギャップがあるため、リプレイ用の機能を生成するための単純なルールが一般的である。
上記の問題に対処するため、NECIL のための単純で効果的な \textbf{Diff}usion-based \textbf{F}eature \textbf{R}eplay (\textbf{DiffFR}) 法を提案する。
まず,特徴抽出器の固定による表現能力の制限を緩和するために,初期一般化可能な特徴に対して,シームズに基づく自己教師付き学習を採用する。
第2に、拡散モデルを用いて、実特徴に非常によく似たクラス表現的特徴を生成する。
第3に,拡散モデルが分布全体ではなく,特徴の分布形状を学習することに焦点を当てたプロトタイプキャリブレーションを導入する。
公開データセットに対する大規模な実験は、当社のDiffFRの大幅なパフォーマンス向上を示し、最先端のNECILメソッドを平均3.06%上回った。
コードはまもなく公開される予定だ。
Non-exemplar class-incremental learning (NECIL) is to resist catastrophic forgetting without saving old class samples. Prior methodologies generally employ simple rules to generate features for replaying, suffering from large distribution gap between replayed features and real ones. To address the aforementioned issue, we propose a simple, yet effective \textbf{Diff}usion-based \textbf{F}eature \textbf{R}eplay (\textbf{DiffFR}) method for NECIL. First, to alleviate the limited representational capacity caused by fixing the feature extractor, we employ Siamese-based self-supervised learning for initial generalizable features. Second, we devise diffusion models to generate class-representative features highly similar to real features, which provides an effective way for exemplar-free knowledge memorization. Third, we introduce prototype calibration to direct the diffusion model's focus towards learning the distribution shapes of features, rather than the entire distribution. Extensive experiments on public datasets demonstrate significant performance gains of our DiffFR, outperforming the state-of-the-art NECIL methods by 3.0\% in average. The code will be made publicly available soon. | 翻訳日:2024-08-07 14:49:26 公開日:2024-08-06 |
# 時空間信号回復のためのSmoothness-based Compact-Dynamic Graph Convolutional Network
A Differential Smoothness-based Compact-Dynamic Graph Convolutional Network for Spatiotemporal Signal Recovery ( http://arxiv.org/abs/2408.02987v1 ) ライセンス: Link先を確認 | Pengcheng Gao, Zicheng Gao, Ye Yuan, | (参考訳) 高品質な時空間信号は、エネルギー管理、交通計画、サイバーセキュリティといった実際のアプリケーションシナリオにとって極めて重要である。
突発的なセンサの故障や通信障害などの制御不能な要因のため、センサによって収集された時空間信号は常に不完全である。
動的グラフ畳み込みネットワーク(DGCN)は時空間信号回復処理に有効である。
しかし、静的GCNとシーケンスニューラルネットワークを採用して、空間的パターンと時間的パターンを別々に探索する。
このような分離された2段階処理は、疎時空間であり、複雑な内部時空間相関を捕捉できない。
そこで本研究では,時空間信号復元のためのCDGCN(Compact-Dynamic Graph Convolutional Network)を提案する。
a) テンソルM積を利用して、空間的パターンと時間的パターンを同時に考える統一テンソルグラフ畳み込みフレームワークを構築すること
ロ 時空間信号のノイズ干渉を低減するために、微分滑らか度に基づく目的関数を構築することにより、さらなる回復精度の向上を図ること。
実世界の時空間データセットの実験により、提案したCDGCNは、回復精度の点で最先端モデルよりも大幅に優れていることが示された。
High quality spatiotemporal signal is vitally important for real application scenarios like energy management, traffic planning and cyber security. Due to the uncontrollable factors like abrupt sensors breakdown or communication fault, the spatiotemporal signal collected by sensors is always incomplete. A dynamic graph convolutional network (DGCN) is effective for processing spatiotemporal signal recovery. However, it adopts a static GCN and a sequence neural network to explore the spatial and temporal patterns, separately. Such a separated two-step processing is loose spatiotemporal, thereby failing to capture the complex inner spatiotemporal correlation. To address this issue, this paper proposes a Compact-Dynamic Graph Convolutional Network (CDGCN) for spatiotemporal signal recovery with the following two-fold ideas: a) leveraging the tensor M-product to build a unified tensor graph convolution framework, which considers both spatial and temporal patterns simultaneously; and b) constructing a differential smoothness-based objective function to reduce the noise interference in spatiotemporal signal, thereby further improve the recovery accuracy. Experiments on real-world spatiotemporal datasets demonstrate that the proposed CDGCN significantly outperforms the state-of-the-art models in terms of recovery accuracy. | 翻訳日:2024-08-07 14:49:26 公開日:2024-08-06 |
# DreamLCM:潜時一貫性モデルによる高品質テキスト・ツー・3D生成を目指して
DreamLCM: Towards High-Quality Text-to-3D Generation via Latent Consistency Model ( http://arxiv.org/abs/2408.02993v1 ) ライセンス: Link先を確認 | Yiming Zhong, Xiaolin Zhang, Yao Zhao, Yunchao Wei, | (参考訳) 近年,SDS手法の出現により,テキスト・ツー・3Dタスクが急速に発達している。
しかし,SDS法は過度にスムースな問題のため,常に品質の悪い3Dオブジェクトを生成する。
この問題は2つの要因に起因している。
1) DDPM単段階推論は誘導勾配を低下させる。
2) 入力ノイズとタイムステップのランダム性は, 3次元コンテンツの詳細を平均化し, この問題に対処するために, LCM(Latent Consistency Model)を組み込んだDreamLCMを提案する。
DreamLCMはLCM固有の強力な画像生成機能を活用し、一貫した高品質なガイダンス、すなわち予測されたノイズや画像を生成することができる。
改良されたガイダンスにより,提案手法は,目標となる3次元モデルの最適化に正確かつ詳細な勾配を与えることができ,さらに,生成品質をさらに向上するための2つの戦略を提案する。
まず、Euler Solverを用いて誘導分布を校正し、3次元モデルの収束を加速する誘導校正戦略を提案する。
第2に,DreamLCMにおける2つのタイムステップ戦略を提案し,ガイダンスの整合性を高め,幾何学から外観まで3次元モデルを最適化する。
実験により、DreamLCMは、生成品質とトレーニング効率の両方で最先端の結果が得られることが示された。
コードはhttps://github.com/1YimingZhong/DreamLCM.comで公開されている。
Recently, the text-to-3D task has developed rapidly due to the appearance of the SDS method. However, the SDS method always generates 3D objects with poor quality due to the over-smooth issue. This issue is attributed to two factors: 1) the DDPM single-step inference produces poor guidance gradients; 2) the randomness from the input noises and timesteps averages the details of the 3D contents.In this paper, to address the issue, we propose DreamLCM which incorporates the Latent Consistency Model (LCM). DreamLCM leverages the powerful image generation capabilities inherent in LCM, enabling generating consistent and high-quality guidance, i.e., predicted noises or images. Powered by the improved guidance, the proposed method can provide accurate and detailed gradients to optimize the target 3D models.In addition, we propose two strategies to enhance the generation quality further. Firstly, we propose a guidance calibration strategy, utilizing Euler Solver to calibrate the guidance distribution to accelerate 3D models to converge. Secondly, we propose a dual timestep strategy, increasing the consistency of guidance and optimizing 3D models from geometry to appearance in DreamLCM. Experiments show that DreamLCM achieves state-of-the-art results in both generation quality and training efficiency. The code is available at https://github.com/1YimingZhong/DreamLCM. | 翻訳日:2024-08-07 14:49:26 公開日:2024-08-06 |
# フェデレーションラーニングアーキテクチャ:クロップ収量予測アプリケーションによる性能評価
Federated Learning Architectures: A Performance Evaluation with Crop Yield Prediction Application ( http://arxiv.org/abs/2408.02998v1 ) ライセンス: Link先を確認 | Anwesha Mukherjee, Rajkumar Buyya, | (参考訳) フェデレーション学習は、IoTアプリケーションのためのデータ分析の新たな技術になりつつある。
本稿では,長期記憶ネットワークに基づく収量予測のための集中型・分散型フェデレーション学習フレームワークを実装した。
集中型フェデレーション学習では、複数のクライアントと1つのサーバが検討され、クライアントはモデル更新をグローバルモデルを構築するためのアグリゲータとして機能するサーバと交換する。
分散化フレームワークでは、リングトポロジまたはメッシュトポロジを使用するデバイス間で協調的なネットワークが形成される。
このネットワークでは、各デバイスが隣のデバイスからモデル更新を受け取り、アグリゲーションを行い、アップグレードされたモデルを構築する。
予測精度,精度,リコール,F1スコア,トレーニング時間の観点から,集中型および分散型フェデレーション学習フレームワークの性能を評価する。
実験の結果,集中型および分散型学習ベースのフレームワークを用いて,$\geq$97%,$>97.5%の予測精度が得られた。
また、集中型フェデレーション学習を使用することで、応答時間をクラウドのみのフレームワークよりも$\sim$75%削減できることを示した。
最後に,農作物収量予測におけるフェデレート学習の今後の研究方向性について述べる。
Federated learning has become an emerging technology for data analysis for IoT applications. This paper implements centralized and decentralized federated learning frameworks for crop yield prediction based on Long Short-Term Memory Network. For centralized federated learning, multiple clients and one server is considered, where the clients exchange their model updates with the server that works as the aggregator to build the global model. For the decentralized framework, a collaborative network is formed among the devices either using ring topology or using mesh topology. In this network, each device receives model updates from the neighbour devices, and performs aggregation to build the upgraded model. The performance of the centralized and decentralized federated learning frameworks are evaluated in terms of prediction accuracy, precision, recall, F1-Score, and training time. The experimental results present that $\geq$97% and $>$97.5% prediction accuracy are achieved using the centralized and decentralized federated learning-based frameworks respectively. The results also show that the using centralized federated learning the response time can be reduced by $\sim$75% than the cloud-only framework. Finally, the future research directions of the use of federated learning in crop yield prediction are explored in this paper. | 翻訳日:2024-08-07 14:49:26 公開日:2024-08-06 |
# DFA学習における確率的最小限の教師としてのLCM
LLMs as Probabilistic Minimally Adequate Teachers for DFA Learning ( http://arxiv.org/abs/2408.02999v1 ) ライセンス: Link先を確認 | Lekai Chen, Ashutosh Trivedi, Alvaro Velasquez, | (参考訳) 大規模言語モデル(LLM)におけるインテリジェンス(インテリジェンス)の出現は、オートマチックラーニングへの統合に関する調査にインスピレーションを与えている。
本稿では,確率的最小不適切な教師(pMAT)の定式化について述べる。これは確率的オラクルを利用して,決定論的有限オートマトン学習(DFA)に対するメンバシップクエリの応答中にランダムに永続的エラーを与える。
LLMが幻覚コンテンツを生成する傾向を鑑みて、我々は回答の精度を改善し、学習されたオートマトンの正確性を確保する技術を開発した。
我々は$\matht{Discrimination}$プロンプトと$\mathtt{Verification}$プロンプトを提案し、共通のプロンプトに対するそれらのアドバンテージを探る。
さらに,TTTアルゴリズムと一般的な能動学習アルゴリズムのDFA学習性能を比較した。
持続的エラーの指数的数に対処するため,アクティブおよび受動的学習アルゴリズムを組み合わせることで競合するクエリを識別・修正する動的クエリキャッシュ改善アルゴリズムを実装した。
実験により,提案手法の堅牢性と効率性を実証し,ループ内のLLMを用いた自動学習の理論的基礎を提供する。
The emergence of intelligence in large language models (LLMs) has inspired investigations into their integration into automata learning. This paper introduces the probabilistic Minimally Adequate Teacher (pMAT) formulation, which leverages a probabilistic oracle that could give persistent errors randomly during answering the membership queries for deterministic finite automata (DFA) learning. Given the tendency of LLMs to produce hallucinatory content, we have developed techniques to improve answer accuracy and ensure the correctness of the learned automata. We propose the $\mathtt{Discrimination}$ prompt as well as the $\mathtt{Verification}$ prompt and explore their advantages over common prompts. Additionally, we compare DFA learning performance between the TTT algorithm and common active learning algorithms. To address the exponential number of persistent errors, we implement a dynamic query cache refinement algorithm that identifies and corrects conflicting queries by combining the active and passive learning algorithms. The empirical results demonstrate the robustness and efficiency of our approach, providing a theoretical foundation for automata learning with LLMs in the loop. | 翻訳日:2024-08-07 14:49:26 公開日:2024-08-06 |
# 量子カーネルモデルのための明示的量子サロゲート
Explicit quantum surrogates for quantum kernel models ( http://arxiv.org/abs/2408.03000v1 ) ライセンス: Link先を確認 | Akimoto Nakayama, Hayata Morisaki, Kosuke Mitarai, Hiroshi Ueda, Keisuke Fujii, | (参考訳) 量子機械学習(QML)は、量子状態をデータエンコーディングに利用し、パラメータ化された量子回路を使用する明示的なモデルと、量子カーネルを使用する暗黙的なモデルである。
暗黙のモデルはトレーニングエラーが低いことが多いが、過度な適合や高い予測コストといった問題に直面し、明示的なモデルは複雑なトレーニングや不規則な高原に苦しむことがある。
暗黙的モデルの明示的量子サロゲート(EQS)を作成するための量子古典ハイブリッドアルゴリズムを提案する。
これには、暗黙のモデルから観測可能なものを対角化し、拡張された自動量子回路符号化(AQCE)アルゴリズムを用いて対応する量子回路を構築することが含まれる。
EQSフレームワークは予測コストを削減し、不毛の高原問題を軽減し、両方のQMLアプローチの長所を組み合わせる。
Quantum machine learning (QML) leverages quantum states for data encoding, with key approaches being explicit models that use parameterized quantum circuits and implicit models that use quantum kernels. Implicit models often have lower training errors but face issues such as overfitting and high prediction costs, while explicit models can struggle with complex training and barren plateaus. We propose a quantum-classical hybrid algorithm to create an explicit quantum surrogate (EQS) for trained implicit models. This involves diagonalizing an observable from the implicit model and constructing a corresponding quantum circuit using an extended automatic quantum circuit encoding (AQCE) algorithm. The EQS framework reduces prediction costs, mitigates barren plateau issues, and combines the strengths of both QML approaches. | 翻訳日:2024-08-07 14:49:26 公開日:2024-08-06 |
# 大規模モデルのためのマルチタスクとマルチモーダルニューラルチューニング
Multitask and Multimodal Neural Tuning for Large Models ( http://arxiv.org/abs/2408.03001v1 ) ライセンス: Link先を確認 | Hao Sun, Yu Song, Jihong Hu, Yen-Wei Chen, Lanfen Lin, | (参考訳) 近年、大規模マルチモーダルモデルは様々な領域にまたがって印象的な機能を示している。
しかし、これらのモデルが複数のマルチモーダルタスクを同時に効果的に実行できるようにすることは大きな課題である。
そこで本研究では,セグメント化の推論,セグメンテーションの参照,画像キャプション,テキスト・ツー・イメージ生成など,多様なマルチモーダルタスクを同時に処理するニューラルチューニング手法を提案する。
ニューラルチューニングは、タスクごとにニューロンの特定のサブセットのみが活性化される、人間の脳内のスパース分散表現をエミュレートする。
さらに,各サンプルに複数のタスクラベルを付加した新しいベンチマークMMUDを提案する。
MMUDベンチマークで事前学習した大規模モデルにニューラルチューニングを適用することにより、並列処理を合理化して効率的に行うことができる。
すべてのモデル、コード、データセットは公開後公開され、この分野におけるさらなる研究と開発が促進される。
In recent years, large-scale multimodal models have demonstrated impressive capabilities across various domains. However, enabling these models to effectively perform multiple multimodal tasks simultaneously remains a significant challenge. To address this, we introduce a novel tuning method called neural tuning, designed to handle diverse multimodal tasks concurrently, including reasoning segmentation, referring segmentation, image captioning, and text-to-image generation. Neural tuning emulates sparse distributed representation in human brain, where only specific subsets of neurons are activated for each task. Additionally, we present a new benchmark, MMUD, where each sample is annotated with multiple task labels. By applying neural tuning to pretrained large models on the MMUD benchmark, we achieve simultaneous task handling in a streamlined and efficient manner. All models, code, and datasets will be publicly available after publication, facilitating further research and development in this field. | 翻訳日:2024-08-07 14:49:26 公開日:2024-08-06 |
# 歩行者集団行動の異文化的分析が自動運転車との相互作用における横断決定に及ぼす影響
Cross-cultural analysis of pedestrian group behaviour influence on crossing decisions in interactions with autonomous vehicles ( http://arxiv.org/abs/2408.03003v1 ) ライセンス: Link先を確認 | Sergio Martín Serrano, Óscar Méndez Blanco, Stewart Worrall, Miguel Ángel Sotelo, David Fernández-Llorca, | (参考訳) 文化的背景を理解することは、様々な社会的規範や行動に順応されたシステムが、様々な文化的文脈における受容と安全を高めることを保証するため、日常生活への自律運転のシームレスな統合に不可欠である。
本研究では,文化的・状況的要因を考慮した横断行動に及ぼす共同歩行者の影響について検討する。
これを実現するために、CARLAシミュレータでフルスケールのバーチャルリアリティ(VR)環境が作成され、同じ実験をスペインとオーストラリアの両方で再現できるようになった。
参加者(N=30)は、他の歩行者と共に都市横断歩道で道路を横断しようと試み、一方、自動運転車(AV)は異なる運転スタイルで接近した。
インタラクションの分析には,参加者が車線に入った瞬間のアンケートと直接測定を利用した。
本研究は,グループによる無謀な行動は信頼性を低下させ,状況がより複雑化するにもかかわらず,歩行者が同一の交通ギャップをまたぐ傾向があることを示唆する。
オーストラリア人参加者はスペイン人参加者よりもリスクを減らし、AVが利益を得るかどうか不確実な場合により慎重な行動を採った。
Understanding cultural backgrounds is crucial for the seamless integration of autonomous driving into daily life as it ensures that systems are attuned to diverse societal norms and behaviours, enhancing acceptance and safety in varied cultural contexts. In this work, we investigate the impact of co-located pedestrians on crossing behaviour, considering cultural and situational factors. To accomplish this, a full-scale virtual reality (VR) environment was created in the CARLA simulator, enabling the identical experiment to be replicated in both Spain and Australia. Participants (N=30) attempted to cross the road at an urban crosswalk alongside other pedestrians exhibiting conservative to more daring behaviours, while an autonomous vehicle (AV) approached with different driving styles. For the analysis of interactions, we utilized questionnaires and direct measures of the moment when participants entered the lane. Our findings indicate that pedestrians tend to cross the same traffic gap together, even though reckless behaviour by the group reduces confidence and makes the situation perceived as more complex. Australian participants were willing to take fewer risks than Spanish participants, adopting more cautious behaviour when it was uncertain whether the AV would yield. | 翻訳日:2024-08-07 14:37:26 公開日:2024-08-06 |
# 感情映像キャプションのためのデュアルパス協調生成ネットワーク
Dual-path Collaborative Generation Network for Emotional Video Captioning ( http://arxiv.org/abs/2408.03006v1 ) ライセンス: Link先を確認 | Cheng Ye, Weidong Chen, Jingyu Li, Lei Zhang, Zhendong Mao, | (参考訳) 感情的ビデオキャプション(Emotional Video Captioning)は、ビデオで表現される本質的な感情で事実的コンテンツを記述することを目的とした、新たなタスクである。
EVCタスクの本質は、従来のビデオキャプションでは無視されるキャプション生成において、微妙で曖昧な視覚的感情的手がかりを効果的に知覚することである。
既存の感情的ビデオキャプション手法は、まず、世界的視覚的感情的手がかりを知覚し、それらをビデオ特徴と組み合わせて感情的キャプション生成を誘導する。
まず、ビデオの本質的な感情のダイナミックな微妙な変化を無視し、多様で変化しやすい感情を持つ一般的なシーンのニーズを満たすことが困難になる。
第二に、各ステップに感情的手がかりを取り入れた手法では、感情の指導的役割が過度に強調され、世代間で事実的内容が無視される。
そこで我々は,協調学習によって感情的なキャプションを生成しながら,動的に視覚的感情的手がかりの進化を知覚する2経路協調生成ネットワークを提案する。
具体的には、動的感情知覚経路において、まず視覚的特徴と歴史的キャプションの特徴を集約し、グローバルな視覚的感情的手がかりを要約し、次に各段階で再構成するために必要な感情的手がかりを動的に選択する動的感情進化モジュールを提案する。
さらに、適応的なキャプション生成経路において、事実内容と感情的手がかりの記述のバランスをとるために、感情適応型デコーダを提案する。
そこで,本手法は必要なタイミングで感情関連語を生成することができ,キャプション生成は事実内容のガイダンスと感情的手がかりのバランスをとることができる。
3つの挑戦的なデータセットに対する大規模な実験は、我々のアプローチと提案された各モジュールの優位性を実証している。
Emotional Video Captioning is an emerging task that aims to describe factual content with the intrinsic emotions expressed in videos. The essential of the EVC task is to effectively perceive subtle and ambiguous visual emotional cues during the caption generation, which is neglected by the traditional video captioning. Existing emotional video captioning methods perceive global visual emotional cues at first, and then combine them with the video features to guide the emotional caption generation, which neglects two characteristics of the EVC task. Firstly, their methods neglect the dynamic subtle changes in the intrinsic emotions of the video, which makes it difficult to meet the needs of common scenes with diverse and changeable emotions. Secondly, as their methods incorporate emotional cues into each step, the guidance role of emotion is overemphasized, which makes factual content more or less ignored during generation. To this end, we propose a dual-path collaborative generation network, which dynamically perceives visual emotional cues evolutions while generating emotional captions by collaborative learning. Specifically, in the dynamic emotion perception path, we propose a dynamic emotion evolution module, which first aggregates visual features and historical caption features to summarize the global visual emotional cues, and then dynamically selects emotional cues required to be re-composed at each stage. Besides, in the adaptive caption generation path, to balance the description of factual content and emotional cues, we propose an emotion adaptive decoder. Thus, our methods can generate emotion-related words at the necessary time step, and our caption generation balances the guidance of factual content and emotional cues well. Extensive experiments on three challenging datasets demonstrate the superiority of our approach and each proposed module. | 翻訳日:2024-08-07 14:37:26 公開日:2024-08-06 |
# Fact Finder - 知識グラフを組み込んだ大規模言語モデルのドメインエキスパート強化
Fact Finder -- Enhancing Domain Expertise of Large Language Models by Incorporating Knowledge Graphs ( http://arxiv.org/abs/2408.03010v1 ) ライセンス: Link先を確認 | Daniel Steinigen, Roman Teucher, Timm Heine Ruland, Max Rudat, Nicolas Flores-Herr, Peter Fischer, Nikola Milosevic, Christopher Schymura, Angelo Ziletti, | (参考訳) 近年のLarge Language Models (LLM) の進歩は、自然言語クエリに応答する能力を示した。
しかし、その効果は限られたドメイン固有の知識によって妨げられ、応答の信頼性に対する懸念が高まる。
ドメイン固有知識グラフ (KGs) で LLM を拡張するハイブリッドシステムを導入し,KG に基づく検索手法を用いて事実の正当性を高めることを目的とした。
我々は,(1)前処理,(2)Cypherクエリ生成,(3)Cypherクエリ処理,(4)KG検索,(5)LLM強化応答生成などの方法論を実証する医療用KGに焦点を当てた。
そこで本研究では,69サンプルのキュレートしたデータセットを用いて,正しいKGノードの検索において,78倍の精度を実現した。
LLM-as-a-Judge 評価法で検証した結果, ハイブリッドシステムは, 精度と完全性においてスタンドアロンの LLM を超えていることが示唆された。
これは、病気の治療や作物の強化のための生物学的実体を特定するための重要なプロセスであるターゲット識別など、事実の正しさと完全性を要求するアプリケーションのための有望なツールとして位置づけられている。
さらに、直感的な検索インタフェースと、数秒以内に正確な応答を提供する能力は、時間に敏感で精度を重視した研究コンテキストに適している。
ソースコードとデータセットと使用するプロンプトテンプレートを合わせて公開します。
Recent advancements in Large Language Models (LLMs) have showcased their proficiency in answering natural language queries. However, their effectiveness is hindered by limited domain-specific knowledge, raising concerns about the reliability of their responses. We introduce a hybrid system that augments LLMs with domain-specific knowledge graphs (KGs), thereby aiming to enhance factual correctness using a KG-based retrieval approach. We focus on a medical KG to demonstrate our methodology, which includes (1) pre-processing, (2) Cypher query generation, (3) Cypher query processing, (4) KG retrieval, and (5) LLM-enhanced response generation. We evaluate our system on a curated dataset of 69 samples, achieving a precision of 78\% in retrieving correct KG nodes. Our findings indicate that the hybrid system surpasses a standalone LLM in accuracy and completeness, as verified by an LLM-as-a-Judge evaluation method. This positions the system as a promising tool for applications that demand factual correctness and completeness, such as target identification -- a critical process in pinpointing biological entities for disease treatment or crop enhancement. Moreover, its intuitive search interface and ability to provide accurate responses within seconds make it well-suited for time-sensitive, precision-focused research contexts. We publish the source code together with the dataset and the prompt templates used. | 翻訳日:2024-08-07 14:37:26 公開日:2024-08-06 |
# NeurDB: AIを活用した自律データベースの設計と実装について
NeurDB: On the Design and Implementation of an AI-powered Autonomous Database ( http://arxiv.org/abs/2408.03013v1 ) ライセンス: Link先を確認 | Zhanhao Zhao, Shaofeng Cai, Haotian Gao, Hexiang Pan, Siqi Xiang, Naili Xing, Gang Chen, Beng Chin Ooi, Yanyan Shen, Yuncheng Wu, Meihui Zhang, | (参考訳) データベースはAIを採用して、自律的なシステム最適化とインテリジェントなデータベース分析を提供し、さまざまな業界におけるエンドユーザの負担を軽減しようとしている。
それでも、既存のほとんどのアプローチでは、データベースの動的性質を考慮できないため、進化するデータとワークロードを特徴とする現実世界のアプリケーションでは効果がない。
本稿では,AIによる自律データベースNeurDBを紹介し,AIとデータベースの融合をより深め,データやワークロードのドリフトへの適応性を高める。
NeurDBは、データベース内にAIワークフローをシームレスに統合する、新たなデータベース内AIエコシステムを確立する。
この統合により、効率的なデータベース内AI分析と高速適応学習システムコンポーネントが可能になる。
実証的な評価では、NeurDBはAI分析タスクの管理において既存のソリューションを大幅に上回っており、提案した学習コンポーネントは最先端のアプローチよりも環境ダイナミズムをより効果的に処理している。
Databases are increasingly embracing AI to provide autonomous system optimization and intelligent in-database analytics, aiming to relieve end-user burdens across various industry sectors. Nonetheless, most existing approaches fail to account for the dynamic nature of databases, which renders them ineffective for real-world applications characterized by evolving data and workloads. This paper introduces NeurDB, an AI-powered autonomous database that deepens the fusion of AI and databases with adaptability to data and workload drift. NeurDB establishes a new in-database AI ecosystem that seamlessly integrates AI workflows within the database. This integration enables efficient and effective in-database AI analytics and fast-adaptive learned system components. Empirical evaluations demonstrate that NeurDB substantially outperforms existing solutions in managing AI analytics tasks, with the proposed learned components more effectively handling environmental dynamism than state-of-the-art approaches. | 翻訳日:2024-08-07 14:37:26 公開日:2024-08-06 |
# CKNN: 監視されていないビデオ異常検出のためのクリーニングされたk-Nearest隣人
CKNN: Cleansed k-Nearest Neighbor for Unsupervised Video Anomaly Detection ( http://arxiv.org/abs/2408.03014v1 ) ライセンス: Link先を確認 | Jihun Yi, Sungroh Yoon, | (参考訳) 本稿では,教師なしビデオ異常検出(UVAD)の問題に対処する。
この課題は、未ラベルの動画をトレーニングデータとして、テストビデオの異常事象を検出することを目的としている。
トレーニングデータに異常が存在することは、特に特徴空間のクラスタを形成するため、このタスクにおいて大きな課題となる。
このプロパティを"異常クラスタ"問題と呼ぶ。
これらの異常の凝縮の性質は、トレーニングセットにおける正常データと異常データの区別を困難にしている。
その結果,ラベルなしデータセットを用いた従来の異常検出手法のトレーニングは,しばしば準最適結果をもたらす。
この課題に対処するため,トレーニングデータセットをきれいにすることで,異常クラスタを明示的にフィルタするCKNN(Cleansed k-Nearest Neighbor)と呼ばれる新しい手法を提案する。
特徴空間におけるk-アネレスト隣のアルゴリズムに従えば、強力な異常検出能力が得られる。
同定された異常クラスタ問題は,UVAD に k-nearest を適用させる上で大きな課題となるが,提案手法はこの問題に効果的に対処する。
提案手法を各種ベンチマークデータセット上で評価し, CKNNが従来のUVAD法を最大8.5%(82.0から89.0)上回っていることを示す。
さらに,提案手法の性能は,異常のないデータを用いて訓練した最先端手法に匹敵するものであることも強調した。
In this paper, we address the problem of unsupervised video anomaly detection (UVAD). The task aims to detect abnormal events in test video using unlabeled videos as training data. The presence of anomalies in the training data poses a significant challenge in this task, particularly because they form clusters in the feature space. We refer to this property as the "Anomaly Cluster" issue. The condensed nature of these anomalies makes it difficult to distinguish between normal and abnormal data in the training set. Consequently, training conventional anomaly detection techniques using an unlabeled dataset often leads to sub-optimal results. To tackle this difficulty, we propose a new method called Cleansed k-Nearest Neighbor (CKNN), which explicitly filters out the Anomaly Clusters by cleansing the training dataset. Following the k-nearest neighbor algorithm in the feature space provides powerful anomaly detection capability. Although the identified Anomaly Cluster issue presents a significant challenge to applying k-nearest neighbor in UVAD, our proposed cleansing scheme effectively addresses this problem. We evaluate the proposed method on various benchmark datasets and demonstrate that CKNN outperforms the previous state-of-the-art UVAD method by up to 8.5% (from 82.0 to 89.0) in terms of AUROC. Moreover, we emphasize that the performance of the proposed method is comparable to that of the state-of-the-art method trained using anomaly-free data. | 翻訳日:2024-08-07 14:37:26 公開日:2024-08-06 |
# デモから制御可能な運動スキルを統合する
Integrating Controllable Motion Skills from Demonstrations ( http://arxiv.org/abs/2408.03018v1 ) ライセンス: Link先を確認 | Honghao Liao, Zhiheng Li, Ziyu Meng, Ran Song, Yibin Li, Wei Zhang, | (参考訳) 脚付きロボットの応用が拡大するにつれ、多目的な運動スキルの習得が求められている。
研究者たちは、複数の多様なモーションスキルをコントローラーに組み込むという課題に対処しなければならない。
既存の強化学習(RL)に基づくアプローチは、脚付きロボットのマルチスキル統合において顕著な成功を収めてきたが、これらの手法は複雑な報酬工学を必要とする場合が多い。
本稿では,CSI(Controlable Skills Integration)という,柔軟なマルチスキル統合フレームワークを紹介する。
CSIは、複雑な報酬チューニングを必要とせずに、様々なスタイルのさまざまなモーションスキルを単一のポリシーに統合することを可能にする。
さらに、階層的な制御方式では、訓練された低レベルポリシーを高レベル自然言語推論(NLI)モジュールと結合することで、予備的な言語指向スキル制御を可能にする。
我々の実験は、CSIがより総合的に多様な動きのスキルを柔軟に統合し、異なるスキル間の遷移を促進することを実証した。
さらに、CSIは、統合されるべきモーションスキルの数が大幅に増加するにつれて、優れたスケーラビリティを示す。
The expanding applications of legged robots require their mastery of versatile motion skills. Correspondingly, researchers must address the challenge of integrating multiple diverse motion skills into controllers. While existing reinforcement learning (RL)-based approaches have achieved notable success in multi-skill integration for legged robots, these methods often require intricate reward engineering or are restricted to integrating a predefined set of motion skills constrained by specific task objectives, resulting in limited flexibility. In this work, we introduce a flexible multi-skill integration framework named Controllable Skills Integration (CSI). CSI enables the integration of a diverse set of motion skills with varying styles into a single policy without the need for complex reward tuning. Furthermore, in a hierarchical control manner, the trained low-level policy can be coupled with a high-level Natural Language Inference (NLI) module to enable preliminary language-directed skill control. Our experiments demonstrate that CSI can flexibly integrate a diverse array of motion skills more comprehensively and facilitate the transitions between different skills. Additionally, CSI exhibits good scalability as the number of motion skills to be integrated increases significantly. | 翻訳日:2024-08-07 14:37:26 公開日:2024-08-06 |
# 深部展開型局所量子アニール
Deep Unfolded Local Quantum Annealing ( http://arxiv.org/abs/2408.03026v1 ) ライセンス: Link先を確認 | Shunta Arai, Satoshi Takabe, | (参考訳) 反復アルゴリズムである局所量子アニール (LQA) は組合せ最適化問題の解法として設計されている。
これは、ある対象関数の大域的最小値を決定するために断熱時間進化を利用するQAからインスピレーションを得ている。
元の LQA では、古典的ハミルトニアンは勾配降下によって最小化される。
LQAの性能はパラメータの選択に依存する。
原価関数の非凸性のため、LQAは局所ミニマに閉じ込められ、その効果が制限される。
この課題に対処するために、LQAと深い展開スキームを組み合わせることで、バックプロパゲーションを通じてトレーニングデータからパラメータをチューニングできる。
その結果, 深部展開LQAは元のLQAよりも優れており, 収束速度と性能が著しく向上していることがわかった。
トレーニングされたパラメータは未知のインスタンスや異なるシステムサイズに一般化できるため、本研究の結果は重要な実践的意味を持ち、現実世界のアプリケーションに貴重な洞察を与えてくれる。
Local quantum annealing (LQA), an iterative algorithm, is designed to solve combinatorial optimization problems. It draws inspiration from QA, which utilizes adiabatic time evolution to determine the global minimum of a given objective function. In the original LQA, the classical Hamiltonian is minimized via gradient descent. The performance of LQA depends on the choice of the parameters. Owing to the non-convex nature of the original cost function, LQA often becomes trapped in local minima, limiting its effectiveness. To address this challenge, we combine LQA with a deep unfolding scheme, which enables us to tune the parameters from the training data via back-propagation. Our findings demonstrate that deep unfolded LQA outperforms the original LQA, exhibiting remarkable convergence speed and performance improvement. As the trained parameters can be generalized to unknown instances and different system sizes, our results have significant practical implications and provide valuable insights for real-world applications. | 翻訳日:2024-08-07 14:37:26 公開日:2024-08-06 |
# 強化学習のための高能率自己適応型逆方向整形
Highly Efficient Self-Adaptive Reward Shaping for Reinforcement Learning ( http://arxiv.org/abs/2408.03029v1 ) ライセンス: Link先を確認 | Haozhe Ma, Zhengding Luo, Thanh Vinh Vo, Kuankuan Sima, Tze-Yun Leong, | (参考訳) Reward Shapingは、より高密度でより情報的な報酬信号を構築することで、強化学習におけるスパース報酬の課題に対処する。
自己適応的かつ高効率な報酬形成を実現するために,歴史的経験から得られた成功率を形状報酬に組み込む手法を提案する。
提案手法は, ベータ分布から採取した成功率を利用して, より多くのデータが収集されるにつれて, 不確実な値から信頼性のある値へと動的に進化する。
最初は、自己適応的な成功率は、探索を促進するためによりランダム性を示す。
時間が経つにつれて、彼らは搾取を強化し、探検と搾取のバランスを良くするようになる。
我々はKDE(カーネル密度推定)とRFF(ランダムフーリエ特徴量)を組み合わせてベータ分布を導出し,高次元連続状態空間における計算効率の良い実装を実現する。
この方法は、非パラメトリックで学習自由なアプローチを提供する。
提案手法は,スパースおよび遅延報酬を用いた多種多様な連続制御タスクにおいて評価され,サンプル効率および収束安定性がいくつかのベースラインと比較して著しく向上したことを示す。
Reward shaping addresses the challenge of sparse rewards in reinforcement learning by constructing denser and more informative reward signals. To achieve self-adaptive and highly efficient reward shaping, we propose a novel method that incorporates success rates derived from historical experiences into shaped rewards. Our approach utilizes success rates sampled from Beta distributions, which dynamically evolve from uncertain to reliable values as more data is collected. Initially, the self-adaptive success rates exhibit more randomness to encourage exploration. Over time, they become more certain to enhance exploitation, thus achieving a better balance between exploration and exploitation. We employ Kernel Density Estimation (KDE) combined with Random Fourier Features (RFF) to derive the Beta distributions, resulting in a computationally efficient implementation in high-dimensional continuous state spaces. This method provides a non-parametric and learning-free approach. The proposed method is evaluated on a wide range of continuous control tasks with sparse and delayed rewards, demonstrating significant improvements in sample efficiency and convergence stability compared to several baselines. | 翻訳日:2024-08-07 14:37:26 公開日:2024-08-06 |
# 前景コントラスト学習に基づく夜間歩行者検出
Nighttime Pedestrian Detection Based on Fore-Background Contrast Learning ( http://arxiv.org/abs/2408.03030v1 ) ライセンス: Link先を確認 | He Yao, Yongjun Zhang, Huachun Jian, Li Zhang, Ruzhong Cheng, | (参考訳) チャネルアテンション機構に関する現代の研究では、背景情報の重要性がしばしば見過ごされている。
本研究では,チャネルアテンション機構に背景情報を組み込むことで,低照度環境下での単一スペクトル夜間歩行者検出性能の課題に対処する。
効率的なチャネルアテンション機構の開発に焦点をあてた多くの研究にもかかわらず、背景情報の関連性はほとんど無視されている。
コントラスト学習アプローチを採用することで、夜間歩行者検出のための歩行者対象と背景情報について、チャンネルの注意を再検討し、提案したFBCA(Fore-Background Contrast Attention)を提案する。
FBCA には,(1) チャネル記述子とグローバル空間の特徴情報とのリモート依存関係,(2) 背景情報の統合により,低照度歩行者の特徴に焦点を絞ったチャネルと背景情報に焦点を絞ったチャネルの区別が促進される,という2つの主要な属性がある。
その結果、取得したチャネル記述子は、高い意味レベルと空間的精度を示す。
実験結果から、FBCAは単一スペクトル夜間歩行者検出において既存の手法よりも大幅に優れており、NightOwlsとTJU-DHD-pedestrianデータセットの最先端結果が得られた。
さらに,マルチスペクトルLLVIPデータセットの性能も向上する。
これらの結果から,チャネルアテンション機構に背景情報を組み込むことで,夜間シナリオにおける照明要因による検出性能劣化を効果的に軽減できることが示唆された。
The significance of background information is frequently overlooked in contemporary research concerning channel attention mechanisms. This study addresses the issue of suboptimal single-spectral nighttime pedestrian detection performance under low-light conditions by incorporating background information into the channel attention mechanism. Despite numerous studies focusing on the development of efficient channel attention mechanisms, the relevance of background information has been largely disregarded. By adopting a contrast learning approach, we reexamine channel attention with regard to pedestrian objects and background information for nighttime pedestrian detection, resulting in the proposed Fore-Background Contrast Attention (FBCA). FBCA possesses two primary attributes: (1) channel descriptors form remote dependencies with global spatial feature information; (2) the integration of background information enhances the distinction between channels concentrating on low-light pedestrian features and those focusing on background information. Consequently, the acquired channel descriptors exhibit a higher semantic level and spatial accuracy. Experimental outcomes demonstrate that FBCA significantly outperforms existing methods in single-spectral nighttime pedestrian detection, achieving state-of-the-art results on the NightOwls and TJU-DHD-pedestrian datasets. Furthermore, this methodology also yields performance improvements for the multispectral LLVIP dataset. These findings indicate that integrating background information into the channel attention mechanism effectively mitigates detector performance degradation caused by illumination factors in nighttime scenarios. | 翻訳日:2024-08-07 14:37:26 公開日:2024-08-06 |
# FinLLMチャレンジタスクにおけるL3iTC:ファイナンシャルテキスト分類と要約のための量子化
L3iTC at the FinLLM Challenge Task: Quantization for Financial Text Classification & Summarization ( http://arxiv.org/abs/2408.03033v1 ) ライセンス: Link先を確認 | Elvys Linhares Pontes, Carlos-Emiliano González-Gallardo, Mohamed Benjannet, Caryn Qu, Antoine Doucet, | (参考訳) 本稿では、FinLLM Challenge Task 2024における我々の参加(L3iTC)について詳述し、タスク1、財務テキスト分類、タスク2の2つの重要な分野に焦点を当てる。
これらの課題に対処するため、各タスクのパフォーマンスを最適化するために、いくつかの大規模言語モデル(LLM)を微調整した。
具体的には、4ビット量子化とLoRAを用いて、LLMのどの層を低い精度でトレーニングすべきかを判定した。
このアプローチは、オーガナイザが提供するトレーニングデータの微調整プロセスを加速するだけでなく、低GPUメモリ上でモデルの実行を可能にしました。
F1スコア0.7543で財務分類タスクの3位を獲得し、公式試験データセットの財務要約タスクの6位を確保した。
This article details our participation (L3iTC) in the FinLLM Challenge Task 2024, focusing on two key areas: Task 1, financial text classification, and Task 2, financial text summarization. To address these challenges, we fine-tuned several large language models (LLMs) to optimize performance for each task. Specifically, we used 4-bit quantization and LoRA to determine which layers of the LLMs should be trained at a lower precision. This approach not only accelerated the fine-tuning process on the training data provided by the organizers but also enabled us to run the models on low GPU memory. Our fine-tuned models achieved third place for the financial classification task with an F1-score of 0.7543 and secured sixth place in the financial summarization task on the official test datasets. | 翻訳日:2024-08-07 14:37:26 公開日:2024-08-06 |
# 単フレーム空間連続心エコー画像合成のための訓練自由条件ビデオ拡散モデル
Training-Free Condition Video Diffusion Models for single frame Spatial-Semantic Echocardiogram Synthesis ( http://arxiv.org/abs/2408.03035v1 ) ライセンス: Link先を確認 | Van Phi Nguyen, Tri Nhan Luong Ha, Huy Hieu Pham, Quoc Long Tran, | (参考訳) 条件付きビデオ拡散モデル(CDM)はビデオ合成に有望な結果を示しており、リアルな心エコー画像の生成がデータ不足の問題に対処できる可能性がある。
しかし、現在のCDMには、ペア化されたセグメンテーションマップとエコー心電図データセットが必要である。
本稿では, 心エコー法とよばれる新しい手法を提案する。
本手法は3D-Unet with Temporal Attention Layersモデルに基づいて,SDEditに基づくトレーニングフリー条件付け手法を用いてセグメンテーションマップ上で条件付けを行う。
我々は、CAMUSとEchoNet-Dynamicの2つの公開心エコーデータを用いて、本モデルの評価を行った。
本モデルでは,入力セグメンテーションマップに空間的に整合したプラウシブル心エコー図を作成でき,トレーニングベースCDMに匹敵する性能が得られることを示す。
我々の研究は、単一のセグメンテーションマップから心エコーを生成できる新たな可能性を開く。
私たちのコードは \url{https://github.com/gungui98/echo-free} で利用可能です。
Conditional video diffusion models (CDM) have shown promising results for video synthesis, potentially enabling the generation of realistic echocardiograms to address the problem of data scarcity. However, current CDMs require a paired segmentation map and echocardiogram dataset. We present a new method called Free-Echo for generating realistic echocardiograms from a single end-diastolic segmentation map without additional training data. Our method is based on the 3D-Unet with Temporal Attention Layers model and is conditioned on the segmentation map using a training-free conditioning method based on SDEdit. We evaluate our model on two public echocardiogram datasets, CAMUS and EchoNet-Dynamic. We show that our model can generate plausible echocardiograms that are spatially aligned with the input segmentation map, achieving performance comparable to training-based CDMs. Our work opens up new possibilities for generating echocardiograms from a single segmentation map, which can be used for data augmentation, domain adaptation, and other applications in medical imaging. Our code is available at \url{https://github.com/gungui98/echo-free} | 翻訳日:2024-08-07 14:37:26 公開日:2024-08-06 |
# 医用視覚質問応答のためのターゲット型視覚プロンプト
Targeted Visual Prompting for Medical Visual Question Answering ( http://arxiv.org/abs/2408.03043v1 ) ライセンス: Link先を確認 | Sergio Tascon-Morales, Pablo Márquez-Neila, Raphael Sznitman, | (参考訳) 近年、医学的な視覚的質問応答 (Med-VQA) が急速に発展し、古典的なモデルアーキテクチャの代替としてマルチモーダルな大規模言語モデル (MLLM) が出現している。
具体的には、事前学習されたLLMの入力に視覚情報を追加する能力は、画像解釈に新たな能力をもたらす。
しかし、単純な視覚的誤りは、これらのモデルの実際の視覚的理解能力に疑問を投げかけた。
これを解決するため、地域ベースの質問は、構成的評価を通じて実際の視覚的理解を評価し、強化する手段として提案されている。
本稿では,これら2つの視点を組み合わせるために,MLLMに領域ベースの質問機能を持たせるための視覚的プロンプトを提案する。
分離された領域と領域の両方を、カスタマイズされた視覚的プロンプトで表現することで、複数のデータセットにまたがる手法の有効性を示し、それを複数のベースラインモデルと比較する。
私たちのコードとデータはhttps://github.com/sergiotasconmorales/locvqallm.comで公開されています。
With growing interest in recent years, medical visual question answering (Med-VQA) has rapidly evolved, with multimodal large language models (MLLMs) emerging as an alternative to classical model architectures. Specifically, their ability to add visual information to the input of pre-trained LLMs brings new capabilities for image interpretation. However, simple visual errors cast doubt on the actual visual understanding abilities of these models. To address this, region-based questions have been proposed as a means to assess and enhance actual visual understanding through compositional evaluation. To combine these two perspectives, this paper introduces targeted visual prompting to equip MLLMs with region-based questioning capabilities. By presenting the model with both the isolated region and the region in its context in a customized visual prompt, we show the effectiveness of our method across multiple datasets while comparing it to several baseline models. Our code and data are available at https://github.com/sergiotasconmorales/locvqallm. | 翻訳日:2024-08-07 14:37:26 公開日:2024-08-06 |
# Comb, Prune, Distill: ビジョンモデル圧縮のための統一プルーニングを目指して
Comb, Prune, Distill: Towards Unified Pruning for Vision Model Compression ( http://arxiv.org/abs/2408.03046v1 ) ライセンス: Link先を確認 | Jonas Schmitt, Ruiping Liu, Junwei Zheng, Jiaming Zhang, Rainer Stiefelhagen, | (参考訳) 軽量で効果的なモデルは、インテリジェントな車のような限られた資源を持つデバイスにとって不可欠である。
構造化プルーニングはモデル圧縮と効率向上に有望なアプローチを提供する。
しかし、既存の手法はしばしばプルーニング技術と特定のモデルアーキテクチャやビジョンタスクを結びつける。
この制限に対処するため、モデル非依存とタスク非依存の両方に同時に対処する新しい統一型プルーニングフレームワークComb, Prune, Distill (CPD)を提案する。
当社のフレームワークは階層的な階層的な依存性問題を解決するための統合的なステップを採用しており、アーキテクチャの独立性を実現しています。
さらに、プルーニングパイプラインは、視覚タスクに関係なく、重要なスコアリング指標に基づいてパラメータを適応的に除去する。
学習した情報を保持するモデルを支援するため,刈り込み工程中に知識蒸留を導入する。
大規模な実験では、畳み込みニューラルネットワーク(CNN)とトランスフォーマーモデルの両方、画像分類とセグメンテーションタスクを含む、我々のフレームワークの一般化可能性を示す。
画像分類では、精度が1.8%、セマンティックセグメンテーションがx1.89、mIoUが5.1%のスピードアップを達成する。
Lightweight and effective models are essential for devices with limited resources, such as intelligent vehicles. Structured pruning offers a promising approach to model compression and efficiency enhancement. However, existing methods often tie pruning techniques to specific model architectures or vision tasks. To address this limitation, we propose a novel unified pruning framework Comb, Prune, Distill (CPD), which addresses both model-agnostic and task-agnostic concerns simultaneously. Our framework employs a combing step to resolve hierarchical layer-wise dependency issues, enabling architecture independence. Additionally, the pruning pipeline adaptively remove parameters based on the importance scoring metrics regardless of vision tasks. To support the model in retaining its learned information, we introduce knowledge distillation during the pruning step. Extensive experiments demonstrate the generalizability of our framework, encompassing both convolutional neural network (CNN) and transformer models, as well as image classification and segmentation tasks. In image classification we achieve a speedup of up to x4.3 with a accuracy loss of 1.8% and in semantic segmentation up to x1.89 with a 5.1% loss in mIoU. | 翻訳日:2024-08-07 14:37:26 公開日:2024-08-06 |
# OpenOmni: 未来のマルチモーダル対話エージェントを構築するためのコラボレーション型オープンソースツール
OpenOmni: A Collaborative Open Source Tool for Building Future-Ready Multimodal Conversational Agents ( http://arxiv.org/abs/2408.03047v1 ) ライセンス: Link先を確認 | Qiang Sun, Yuanyi Luo, Sirui Li, Wenxiao Zhang, Wei Liu, | (参考訳) マルチモーダルな会話エージェントは、自然と人間のような相互作用を提供するため、非常に望ましい。
しかし、協調開発とベンチマークをサポートする包括的なエンドツーエンドソリューションがない。
GPT-4oやGeminiのようなプロプライエタリなシステムは、200~250msの応答時間を持つオーディオ、ビデオ、テキストの素晴らしい統合を実証していますが、レイテンシ、正確性、コスト、データのプライバシのバランスには依然として課題があります。
これらの問題をより深く理解し、定量化するために、我々はOpenOmniを開発した。OpenOmniはオープンソースのエンドツーエンドのパイプラインベンチマークツールで、音声テキスト、感情検出、検索拡張生成、大規模言語モデルなどの高度な技術を統合し、カスタマイズされたモデルを統合することができる。
OpenOmniは、ローカルおよびクラウドデプロイメントをサポートし、データのプライバシを確保し、レイテンシと精度ベンチマークをサポートする。
この柔軟なフレームワークは、研究者がパイプラインをカスタマイズし、実際のボトルネックに集中し、概念実証の迅速な開発を容易にする。
OpenOmniは視覚障害者の屋内支援、人間とコンピュータの相互作用の促進など、アプリケーションを大幅に強化することができる。
デモビデオはhttps://www.youtube.com/watch?
v=zaSiT3clWqY、デモはhttps://openomni.ai4wa.comで、コードはhttps://github.com/AI4WA/OpenOmniFrameworkで入手できる。
Multimodal conversational agents are highly desirable because they offer natural and human-like interaction. However, there is a lack of comprehensive end-to-end solutions to support collaborative development and benchmarking. While proprietary systems like GPT-4o and Gemini demonstrating impressive integration of audio, video, and text with response times of 200-250ms, challenges remain in balancing latency, accuracy, cost, and data privacy. To better understand and quantify these issues, we developed OpenOmni, an open-source, end-to-end pipeline benchmarking tool that integrates advanced technologies such as Speech-to-Text, Emotion Detection, Retrieval Augmented Generation, Large Language Models, along with the ability to integrate customized models. OpenOmni supports local and cloud deployment, ensuring data privacy and supporting latency and accuracy benchmarking. This flexible framework allows researchers to customize the pipeline, focusing on real bottlenecks and facilitating rapid proof-of-concept development. OpenOmni can significantly enhance applications like indoor assistance for visually impaired individuals, advancing human-computer interaction. Our demonstration video is available https://www.youtube.com/watch?v=zaSiT3clWqY, demo is available via https://openomni.ai4wa.com, code is available via https://github.com/AI4WA/OpenOmniFramework. | 翻訳日:2024-08-07 14:37:26 公開日:2024-08-06 |
# MGF:マルチビュー画像に基づくメッシュ化のためのマスケードガウス場
MGFs: Masked Gaussian Fields for Meshing Building based on Multi-View Images ( http://arxiv.org/abs/2408.03060v1 ) ライセンス: Link先を確認 | Tengfei Wang, Zongqian Zhan, Rui Xia, Linxia Ji, Xin Wang, | (参考訳) 過去数十年間、画像による建物表面の再構築は研究の関心を集め、遺産保存や建築計画など様々な分野に応用されてきた。
従来のフォトグラム法やNeRF法と比較して、近年、ガウス場に基づく手法は、時間効率のトレーニングと詳細な3D情報保存のために表面メッシュを生成する大きな可能性を示している。
しかし、ガウス場に基づくほとんどの手法は、建物や非建設エリアを含む全ての画像画素で訓練されており、メッシュの構築や時間効率の劣化に大きなノイズをもたらす。
本稿では,建物表面の正確な再構築を時間効率で実現する新しいフレームワーク,Masked Gaussian Fields (MGFs)を提案する。
フレームワークはまずEfficientSAMとCOLMAPを使用して、ビルディングのマルチレベルマスクとそれに対応するマスクされた点雲を生成する。
その後、マスク付きガウス場は、建築領域の構築に焦点をあてた多層知覚マスク損失と、異なるマスク間の境界の詳細な詳細化を目的とした境界損失の2つの革新的な損失を統合することで訓練される。
最後に,マスク付きガウス球を用いた四面体表面メッシュ抽出法の改良を行った。
UAV画像の総合的な実験により, 従来の手法と数種類のNeRF法, ガウス法によるSOTA法と比較して, 建物表面再構成の精度と効率を著しく向上することが示された。
特筆すべきは、副産物として、建築の新規なビュー合成にさらなる利益があることである。
Over the last few decades, image-based building surface reconstruction has garnered substantial research interest and has been applied across various fields, such as heritage preservation, architectural planning, etc. Compared to the traditional photogrammetric and NeRF-based solutions, recently, Gaussian fields-based methods have exhibited significant potential in generating surface meshes due to their time-efficient training and detailed 3D information preservation. However, most gaussian fields-based methods are trained with all image pixels, encompassing building and nonbuilding areas, which results in a significant noise for building meshes and degeneration in time efficiency. This paper proposes a novel framework, Masked Gaussian Fields (MGFs), designed to generate accurate surface reconstruction for building in a time-efficient way. The framework first applies EfficientSAM and COLMAP to generate multi-level masks of building and the corresponding masked point clouds. Subsequently, the masked gaussian fields are trained by integrating two innovative losses: a multi-level perceptual masked loss focused on constructing building regions and a boundary loss aimed at enhancing the details of the boundaries between different masks. Finally, we improve the tetrahedral surface mesh extraction method based on the masked gaussian spheres. Comprehensive experiments on UAV images demonstrate that, compared to the traditional method and several NeRF-based and Gaussian-based SOTA solutions, our approach significantly improves both the accuracy and efficiency of building surface reconstruction. Notably, as a byproduct, there is an additional gain in the novel view synthesis of building. | 翻訳日:2024-08-07 14:37:26 公開日:2024-08-06 |
# ディープ・リカレント言語モデルにおける引数構造の解析
Analysis of Argument Structure Constructions in a Deep Recurrent Language Model ( http://arxiv.org/abs/2408.03062v1 ) ライセンス: Link先を確認 | Pegah Ramezani, Achim Schilling, Patrick Krauss, | (参考訳) 言語構造と言語構造が脳内でどのように処理されるかを理解することは、認知計算神経科学の基本的な問題である。
本研究では,再帰型ニューラルランゲージモデルにおけるArgument Structure Constructions(ASC)の表現と処理について検討する。
GPT-4を用いて生成した2000の文からなるカスタムメイドデータセットを用いてLSTM(Long Short-Term Memory)ネットワークをトレーニングした。
多次元スケーリング (MDS) と t-Distributed Stochastic Neighbor Embedding (t-SNE) を用いてLSTMモデルの隠れ層の内部活性化を分析し, 文表現を可視化した。
一般化識別値(GDV)を計算し、これらの表現内でのクラスタリングの度合いを定量化した。
その結果, 文表現は全層にまたがる4つのASCに対応する異なるクラスタを形成しており, 出力層の前に隠された最後の層で最も顕著なクラスタリングが観測された。
これは、脳に拘束された比較的単純なリカレントニューラルネットワークでさえ、様々な構成タイプを効果的に区別できることを示している。
これらの結果は、次の単語予測タスクで訓練された反復言語モデルにおける単語クラスと構文規則表現の出現を示す以前の研究と一致している。
今後の研究では、より大きな言語モデルを用いてこれらの結果を検証し、連続音声認識で得られたニューロイメージングデータと比較することを目的としている。
この研究は、人間の脳における言語処理を反映するリカレントニューラルネットワークモデルの可能性を強調し、言語理解の基礎となる計算的および神経メカニズムに関する貴重な洞察を提供する。
Understanding how language and linguistic constructions are processed in the brain is a fundamental question in cognitive computational neuroscience. In this study, we explore the representation and processing of Argument Structure Constructions (ASCs) in a recurrent neural language model. We trained a Long Short-Term Memory (LSTM) network on a custom-made dataset consisting of 2000 sentences, generated using GPT-4, representing four distinct ASCs: transitive, ditransitive, caused-motion, and resultative constructions. We analyzed the internal activations of the LSTM model's hidden layers using Multidimensional Scaling (MDS) and t-Distributed Stochastic Neighbor Embedding (t-SNE) to visualize the sentence representations. The Generalized Discrimination Value (GDV) was calculated to quantify the degree of clustering within these representations. Our results show that sentence representations form distinct clusters corresponding to the four ASCs across all hidden layers, with the most pronounced clustering observed in the last hidden layer before the output layer. This indicates that even a relatively simple, brain-constrained recurrent neural network can effectively differentiate between various construction types. These findings are consistent with previous studies demonstrating the emergence of word class and syntax rule representations in recurrent language models trained on next word prediction tasks. In future work, we aim to validate these results using larger language models and compare them with neuroimaging data obtained during continuous speech perception. This study highlights the potential of recurrent neural language models to mirror linguistic processing in the human brain, providing valuable insights into the computational and neural mechanisms underlying language understanding. | 翻訳日:2024-08-07 14:27:34 公開日:2024-08-06 |
# 一定深さにおける計測に基づくロングランジエンタングリングゲート
Measurement-Based Long-Range Entangling Gates in Constant Depth ( http://arxiv.org/abs/2408.03064v1 ) ライセンス: Link先を確認 | Elisa Bäumer, Stefan Woerner, | (参考訳) 量子回路の深さは、コヒーレンス時間に制限があるため、最先端の量子デバイス上でそれらを実行する際の重要な要素である。
回路深さの低減は、短期的な量子計算におけるノイズを低減し、全体的な計算時間を短縮し、フォールトトレラントな量子計算の恩恵を受ける。
ここでは, 量子ファンアウトや長距離CNOTゲートなどの量子ビット数と線形にスケールする量子サブルーチンの深さを, 1次元線トポロジーのみを必要としながら, 中間回路計測とフィードフォワード演算を用いて一定深さにする方法を示す。
当社のプロトコルと既存のプロトコルを比較して、そのメリットを強調します。
さらに、実量子ハードウェア上で測定ベースの量子ファンアウトゲートと長距離CNOTゲートを実装し、その実現可能性を検証する。
The depth of quantum circuits is a critical factor when running them on state-of-the-art quantum devices due to their limited coherence times. Reducing circuit depth decreases noise in near-term quantum computations and reduces overall computation time, thus, also benefiting fault-tolerant quantum computations. Here, we show how to reduce the depth of quantum sub-routines that typically scale linearly with the number of qubits, such as quantum fan-out and long-range CNOT gates, to a constant depth using mid-circuit measurements and feed-forward operations, while only requiring a 1D line topology. We compare our protocols with existing ones to highlight their advantages. Additionally, we verify the feasibility by implementing the measurement-based quantum fan-out gate and long-range CNOT gate on real quantum hardware, demonstrating significant improvements over their unitary implementations. | 翻訳日:2024-08-07 14:27:34 公開日:2024-08-06 |
# SCOPE:物理補正気象条件を含む集合知覚のための合成多モードデータセット
SCOPE: A Synthetic Multi-Modal Dataset for Collective Perception Including Physical-Correct Weather Conditions ( http://arxiv.org/abs/2408.03065v1 ) ライセンス: Link先を確認 | Jörg Gamerdinger, Sven Teufel, Patrick Schulz, Stephan Amann, Jan-Patrick Kirchner, Oliver Bringmann, | (参考訳) 集団認識は、自動運転車における閉塞性や限定的な感知範囲を克服するための有望なアプローチとして、かなりの注目を集めている。
新たな集団認識技術を開発し,試験するためには,適切なデータセットが必要である。
これらのデータセットは、知覚能力に強く影響を及ぼすため、異なる環境条件だけでなく、異なる道路利用者と現実的なセンサーモデルとの幅広いシナリオも含まなければならない。
そこで本研究では,Synthetic Collective PErception(SCOPE)データセットを提案する。
SCOPEは、現実的なカメラとLiDARモデル、および両方のセンサータイプのパラメータ化および物理的に正確な気象シミュレーションを組み込んだ最初の合成マルチモーダルデータセットである。
データセットには、40以上のシナリオから17,600フレームが含まれており、最大24の協調エージェント、インフラセンサー、自転車や歩行者を含む受動的トラフィックが含まれている。
また、カールスルーエとT\"ubingenの2つの新しいデジタルツインマップからの録音も収録されている。
データセットはhttps://ekut-es.github.io/scopeで公開されている。
Collective perception has received considerable attention as a promising approach to overcome occlusions and limited sensing ranges of vehicle-local perception in autonomous driving. In order to develop and test novel collective perception technologies, appropriate datasets are required. These datasets must include not only different environmental conditions, as they strongly influence the perception capabilities, but also a wide range of scenarios with different road users as well as realistic sensor models. Therefore, we propose the Synthetic COllective PErception (SCOPE) dataset. SCOPE is the first synthetic multi-modal dataset that incorporates realistic camera and LiDAR models as well as parameterized and physically accurate weather simulations for both sensor types. The dataset contains 17,600 frames from over 40 diverse scenarios with up to 24 collaborative agents, infrastructure sensors, and passive traffic, including cyclists and pedestrians. In addition, recordings from two novel digital-twin maps from Karlsruhe and T\"ubingen are included. The dataset is available at https://ekut-es.github.io/scope | 翻訳日:2024-08-07 14:27:34 公開日:2024-08-06 |
# SiN膜アレイにおける長距離光力学的相互作用
Long-range optomechanical interactions in SiN membrane arrays ( http://arxiv.org/abs/2408.03066v1 ) ライセンス: Link先を確認 | Xiong Yao, Matthijs H. J. de Jong, Jie Li, Simon Gröblacher, | (参考訳) 膜・イン・ザ・ミドル構成を用いた光学系は、原子が光学ポテンシャルで集団運動を示すのと同じように、長距離的な相互作用を示すことができる。
光子は高精細なファブリ-P\'{e}の空洞の中を前後に跳ね返り、波長よりもかなりの距離で複数の膜間の相互作用を媒介する。
近年, 膜の中心-質量モードの光結合はコヒーレントなメカニカルノイズキャンセリングを引き起こすことが示されている。
しかし、膜呼吸モードを含む長距離相互作用は、まだ実験的に実証されていない。
実験では,Fabry-P\'{e}rotキャビティ内の二重膜系が共振的にキャビティ場を増強し,放射圧の増加による光結合強度が向上することを示した。
共振条件は、まず分散関係の傾きを解析して同定する。
そして、1波長範囲の様々なチップ位置で光学的カップリングを決定する。
最適結合条件が得られ、3つの異なる反射率を持つ二重膜アレーに対して促進効果が示され、呼吸モードがR=65\%の2重膜に対してほぼ4倍に向上した。
また, 最適結合時の空洞損失を特徴付けるとともに, 単一光子強結合状態に到達する可能性についても論じる。
Optomechanical systems using a membrane-in-the-middle configuration can exhibit a long-range type of interaction similar to how atoms show collective motion in an optical potential. Photons bounce back and forth inside a high-finesse Fabry-P\'{e}rot cavity and mediate the interaction between multiple membranes over a significant distance compared to the wavelength. Recently, it has been demonstrated that light coupling the center-of-mass mode of the membranes can cause coherent mechanical noise cancellation. Long-range interactions involving the breathing mode of the membranes have to date not been experimentally demonstrated, however. In our experiment, a double-membrane system inside a Fabry-P\'{e}rot cavity resonantly enhances the cavity field, resulting in a stronger optomechanical coupling strength from the increased radiation pressure. The resonance condition is first identified by analyzing the slope of the dispersion relation. Then, the optomechanical coupling is determined at various chip positions over one wavelength range. The optimum coupling conditions are obtained and enhancement is demonstrated for double membrane arrays with three different reflectivites, reaching nearly four-fold enhancement for the breathing mode of $R=65\%$ double membranes. The cavity losses at the optimum coupling are also characterized and the potential of reaching the single-photon strong coupling regime is discussed. | 翻訳日:2024-08-07 14:27:34 公開日:2024-08-06 |
# 事前学習言語モデルにおける否定構造制約の提案
Probing structural constraints of negation in Pretrained Language Models ( http://arxiv.org/abs/2408.03070v1 ) ライセンス: Link先を確認 | David Kletz, Marie Candito, Pascal Amsili, | (参考訳) 事前学習言語モデル(PLM)における否定の意味的影響の符号化に関する比較結果。
最近 (e g Kassner and Sch{\"u}tze (2020), Gubelmann and Handschuh (2022)) が描かれた。
本稿では, 否定を符号化するPLMとその形式的影響に着目し, 負極性項目 (NPI) を英語でライセンスする現象に着目した。
より正確には、どの文脈表現が最適なエンコードであるかを特定するためにプローブを使用する。
1) 文中の否定の存在,及び
2) 隣接する仮面の極性項目の極性。
否定範囲内のトークンのコンテキスト表現が許容できることに気付きました。
一 被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被被
2) PLM と PLM の差の大きさは異なるが, マスクされた極性項目の正極性については, より良好な予測が可能である。
重要な点として、どちらの場合も距離を制御しても傾向は保たれる。
このことは、これらのモデルの埋め込みが否定範囲の概念を反映し、否定がNPIライセンスに与える影響を符号化していることを示している。
しかし、さらなる制御実験により、同じ構文節内のトークンの文脈表現を使用する場合、他の語彙項目の存在も、その外部よりもよく捉えられることが示され、PLMは単に構文節のより一般的な概念を捉えている。
Contradictory results about the encoding of the semantic impact of negation in pretrained language models (PLMs). have been drawn recently (e.g. Kassner and Sch{\"u}tze (2020); Gubelmann and Handschuh (2022)). In this paper we focus rather on the way PLMs encode negation and its formal impact, through the phenomenon of the Negative Polarity Item (NPI) licensing in English. More precisely, we use probes to identify which contextual representations best encode 1) the presence of negation in a sentence, and 2) the polarity of a neighboring masked polarity item. We find that contextual representations of tokens inside the negation scope do allow for (i) a better prediction of the presence of not compared to those outside the scope and (ii) a better prediction of the right polarity of a masked polarity item licensed by not, although the magnitude of the difference varies from PLM to PLM. Importantly, in both cases the trend holds even when controlling for distance to not. This tends to indicate that the embeddings of these models do reflect the notion of negation scope, and do encode the impact of negation on NPI licensing. Yet, further control experiments reveal that the presence of other lexical items is also better captured when using the contextual representation of a token within the same syntactic clause than outside from it, suggesting that PLMs simply capture the more general notion of syntactic clause. | 翻訳日:2024-08-07 14:27:34 公開日:2024-08-06 |
# 組合せ最適化のための変分量子アルゴリズムのベンチマーク
Benchmarking Variational Quantum Algorithms for Combinatorial Optimization in Practice ( http://arxiv.org/abs/2408.03073v1 ) ライセンス: Link先を確認 | Tim Schwägerl, Yahui Chai, Tobias Hartung, Karl Jansen, Stefan Kühn, | (参考訳) 変分量子アルゴリズム、特に変数量子固有解器の変種は組合せ最適化(CO)問題に対処するために提案されている。
浅いアンサッツ回路のみを用いることで、これらのアプローチは現在のノイズの多い中間スケール量子ハードウェアに適していると考えられる。
しかし、浅い変分量子回路のトレーニングに必要なリソースは、しばしば問題の大きさで超ポリノミカルにスケールする。
本研究では,ベンチマークとしてMax-Cutを用いてCO問題の解法を行う際に,このスケーリング結果がどのような意味を持つのかを数値的に検討する。
固定資源の場合、浅変分量子回路のトレーニング、置換によるサンプリング、および量子アルゴリズムと同じ初期点から始まるグリーディアルゴリズムの平均性能を比較する。
我々は、量子アルゴリズムがサンプリングを一貫して上回る最小の問題サイズを特定し、各問題サイズに対して、量子アルゴリズムとグリードアルゴリズムの分離を特徴付ける。
さらに,アルゴリズムの性能の相関を例によって調べ,平均ケース分析を拡張した。
本結果は,現実的な資源集合に対するCO問題に対する変分量子アルゴリズムの有意義なベンチマークに向けての一歩となる。
Variational quantum algorithms and, in particular, variants of the varational quantum eigensolver have been proposed to address combinatorial optimization (CO) problems. Using only shallow ansatz circuits, these approaches are deemed suitable for current noisy intermediate-scale quantum hardware. However, the resources required for training shallow variational quantum circuits often scale superpolynomially in problem size. In this study we numerically investigate what this scaling result means in practice for solving CO problems using Max-Cut as a benchmark. For fixed resources, we compare the average performance of training a shallow variational quantum circuit, sampling with replacement, and a greedy algorithm starting from the same initial point as the quantum algorithm. We identify a minimum problem size for which the quantum algorithm can consistently outperform sampling and, for each problem size, characterize the separation between the quantum algorithm and the greedy algorithm. Furthermore, we extend the average case analysis by investigating the correlation between the performance of the algorithms by instance. Our results provide a step towards meaningful benchmarks of variational quantum algorithms for CO problems for a realistic set of resources. | 翻訳日:2024-08-07 14:27:34 公開日:2024-08-06 |
# 大規模言語モデルの言論と対話的実践的推論能力の分析に向けて
Towards an Analysis of Discourse and Interactional Pragmatic Reasoning Capabilities of Large Language Models ( http://arxiv.org/abs/2408.03074v1 ) ライセンス: Link先を確認 | Amelie Robrecht, Judith Sieker, Clara Lachenmaier, Sina Zarieß, Stefan Kopp, | (参考訳) 本研究では,これまでのLSMにおける実用能力の検証方法と,これらのテストの実施方法について概説する。
そこで本研究ではまず,語学の分野の範囲について論じるとともに,言論語学と対話語学への細分化を提案する。
本稿では、これらの2つのサブドメインの現象と、それらを分析するために伝統的に用いられてきた方法について、非説明的概要を述べる。
その後、この結果の異種現象と方法の集合を、LLMの文脈における談話プラグマティクスと相互作用プラグマティクスの研究の出発点とみなす。
In this work, we want to give an overview on which pragmatic abilities have been tested in LLMs so far and how these tests have been carried out. To do this, we first discuss the scope of the field of pragmatics and suggest a subdivision into discourse pragmatics and interactional pragmatics. We give a non-exhaustive overview of the phenomena of those two subdomains and the methods traditionally used to analyze them. We subsequently consider the resulting heterogeneous set of phenomena and methods as a starting point for our survey of work on discourse pragmatics and interactional pragmatics in the context of LLMs. | 翻訳日:2024-08-07 14:27:34 公開日:2024-08-06 |
# Loihi 2ニューロモルフィックプロセッサ上でのQUBOの解法
Solving QUBO on the Loihi 2 Neuromorphic Processor ( http://arxiv.org/abs/2408.03076v1 ) ライセンス: Link先を確認 | Alessandro Pierro, Philipp Stratmann, Gabriel Andres Fonseca Guerra, Sumedh Risbud, Timothy Shea, Ashish Rao Mangalore, Andreas Wild, | (参考訳) 本稿では,Intel Loihi 2 のニューロモルフィックプロセッサ上での擬似非拘束バイナリ最適化問題の解法について述べる。
この解法は、Intelのニューロモルフィック研究チップLoihi 2向けに開発されたハードウェア対応の微細な並列アニールアルゴリズムに基づいている。
予備的な結果は,CPU上で動作している2つのベースラインソルバと比較して,最大1ミリ秒で実現可能な解を最大37倍のエネルギー効率で生成できることを示唆している。
これらの利点は、特にサイズ、重量、電力制約のあるエッジコンピューティングアプリケーションに関係がある。
In this article, we describe an algorithm for solving Quadratic Unconstrained Binary Optimization problems on the Intel Loihi 2 neuromorphic processor. The solver is based on a hardware-aware fine-grained parallel simulated annealing algorithm developed for Intel's neuromorphic research chip Loihi 2. Preliminary results show that our approach can generate feasible solutions in as little as 1 ms and up to 37x more energy efficient compared to two baseline solvers running on a CPU. These advantages could be especially relevant for size-, weight-, and power-constrained edge computing applications. | 翻訳日:2024-08-07 14:27:34 公開日:2024-08-06 |
# BodySLAM: 外科的応用のための汎用単眼視覚SLAMフレームワーク
BodySLAM: A Generalized Monocular Visual SLAM Framework for Surgical Applications ( http://arxiv.org/abs/2408.03078v1 ) ライセンス: Link先を確認 | G. Manni, C. Lauretti, F. Prata, R. Papalia, L. Zollo, P. Soda, | (参考訳) 内視鏡手術は、深度知覚と楽器操作において、外科医に挑戦する2次元の視点に依存している。
同時局在マッピング(SLAM)はこれらの制限に対処するための有望なソリューションとして登場したが、その内視鏡的プロシージャの実装は、モノクラーカメラの使用や計測センサーの欠如など、ハードウェアの制限による重大な課題を呈している。
本研究では,最先端モデルと新たに開発されたモデルを組み合わせた,堅牢なディープラーニングベースのSLAM手法を提案する。
このモジュールは、CycleGANアーキテクチャに基づいた新しい教師なしメソッドを導入するモノクラー・ポス推定モジュール、新しいZoeアーキテクチャを利用するモノクラー・深さ推定モジュール、以前のモデルからの情報を使用して一貫性のある手術地図を作成する3D再構成モジュールの3つの主要な部分で構成されている。
手順のパフォーマンスは、3つの公開データセット(Hamlyn、EndoSLAM、SCARED)を使用して厳格に評価され、最先端の2つのメソッドであるEndoSFMLearnerとEndoDepthに対してベンチマークされた。
MDEMにおけるZoeの統合は、内視鏡における最先端深度推定アルゴリズムよりも優れた性能を示したが、MPEMにおける新しいアプローチは、競争性能と最低推定時間を示した。
腹腔鏡検査,胃内視鏡検査,大腸内視鏡検査におけるアプローチの堅牢性について検討した。
提案したSLAMアプローチは,深度知覚と3D再構成機能を備えた外科医に内視鏡手術の精度と効率を向上する可能性がある。
Endoscopic surgery relies on two-dimensional views, posing challenges for surgeons in depth perception and instrument manipulation. While Simultaneous Localization and Mapping (SLAM) has emerged as a promising solution to address these limitations, its implementation in endoscopic procedures presents significant challenges due to hardware limitations, such as the use of a monocular camera and the absence of odometry sensors. This study presents a robust deep learning-based SLAM approach that combines state-of-the-art and newly developed models. It consists of three main parts: the Monocular Pose Estimation Module that introduces a novel unsupervised method based on the CycleGAN architecture, the Monocular Depth Estimation Module that leverages the novel Zoe architecture, and the 3D Reconstruction Module which uses information from the previous models to create a coherent surgical map. The performance of the procedure was rigorously evaluated using three publicly available datasets (Hamlyn, EndoSLAM, and SCARED) and benchmarked against two state-of-the-art methods, EndoSFMLearner and EndoDepth. The integration of Zoe in the MDEM demonstrated superior performance compared to state-of-the-art depth estimation algorithms in endoscopy, whereas the novel approach in the MPEM exhibited competitive performance and the lowest inference time. The results showcase the robustness of our approach in laparoscopy, gastroscopy, and colonoscopy, three different scenarios in endoscopic surgery. The proposed SLAM approach has the potential to improve the accuracy and efficiency of endoscopic procedures by providing surgeons with enhanced depth perception and 3D reconstruction capabilities. | 翻訳日:2024-08-07 14:27:34 公開日:2024-08-06 |
# 改良されたサブタスク相互作用と知識融合による複雑な因果抽出の促進
Enhancing Complex Causality Extraction via Improved Subtask Interaction and Knowledge Fusion ( http://arxiv.org/abs/2408.03079v1 ) ライセンス: Link先を確認 | Jinglong Gao, Chen Lu, Xiao Ding, Zhongyang Li, Ting Liu, Bing Qin, | (参考訳) イベント因果抽出(ECE)は、テキストから因果イベントペアを抽出することを目的としている。
ChatGPTの最近の成功にもかかわらず、細調整された小型モデルはECEタスクにとって最良のアプローチである。
しかし、既存の微調整ベースのECEメソッドは、ECEの3つの重要な課題に同時に対処できない。
1) 複合因果抽出では,複数の因果効果対が1文以内に発生する。
2)ECEの2つのサブタスク間の相互依存、すなわちイベントの抽出、抽出されたイベント間の因果関係の同定を含む相互作用
3)知識融合 - 知識を2つのモダリティ、すなわち表現的事前学習言語モデルと構造化知識グラフに効果的に融合させることを必要とする知識融合。
本稿では,ECE の3つの問題に同時に対処する統合 ECE フレームワーク (UniCE) を提案する。
具体的には,2つのECEサブタスク間の相互相互作用を可能にするサブタスクインタラクション機構を設計する。
さらに,2つのモードで知識を融合させる知識融合機構を設計する。
さらに、複雑な因果抽出を容易にするために、各サブタスクに個別のデコーダを用いる。
3つのベンチマークデータセットの実験により,本手法は最先端の性能を達成し,少なくとも30%のF1スコアでChatGPTを上回る性能を示した。
さらに,本モデルは,文脈内学習によるChatGPTの性能向上にも有効である。
Event Causality Extraction (ECE) aims at extracting causal event pairs from texts. Despite ChatGPT's recent success, fine-tuning small models remains the best approach for the ECE task. However, existing fine-tuning based ECE methods cannot address all three key challenges in ECE simultaneously: 1) Complex Causality Extraction, where multiple causal-effect pairs occur within a single sentence; 2) Subtask~ Interaction, which involves modeling the mutual dependence between the two subtasks of ECE, i.e., extracting events and identifying the causal relationship between extracted events; and 3) Knowledge Fusion, which requires effectively fusing the knowledge in two modalities, i.e., the expressive pretrained language models and the structured knowledge graphs. In this paper, we propose a unified ECE framework (UniCE to address all three issues in ECE simultaneously. Specifically, we design a subtask interaction mechanism to enable mutual interaction between the two ECE subtasks. Besides, we design a knowledge fusion mechanism to fuse knowledge in the two modalities. Furthermore, we employ separate decoders for each subtask to facilitate complex causality extraction. Experiments on three benchmark datasets demonstrate that our method achieves state-of-the-art performance and outperforms ChatGPT with a margin of at least 30% F1-score. More importantly, our model can also be used to effectively improve the ECE performance of ChatGPT via in-context learning. | 翻訳日:2024-08-07 14:27:34 公開日:2024-08-06 |
# 深層強化学習に基づく自律運転意思決定戦略に関する研究
Research on Autonomous Driving Decision-making Strategies based Deep Reinforcement Learning ( http://arxiv.org/abs/2408.03084v1 ) ライセンス: Link先を確認 | Zixiang Wang, Hao Yan, Changsong Wei, Junyu Wang, Shi Bo, Minheng Xiao, | (参考訳) 行動決定サブシステムは、車両と運転者の意思決定能力を反映した自律運転システムの重要な構成要素であり、車両の高レベルの知性の重要なシンボルである。
しかし,既存のルールベースの意思決定方式は設計者の事前知識によって制限されており,複雑で変更可能な交通シナリオに対処することは困難である。
本研究では,運転決定過程を強化学習問題としてモデル化することにより,複雑な交通環境下での運転戦略を自律的に学習し,最適化する,高度な強化学習モデルを採用する。
具体的には、比較実験にDeep Q-Network (DQN) と Proximal Policy Optimization (PPO) を用いた。
DQNは、政策関数を最適化して意思決定品質を向上する一方、状態-作用値関数を近似することにより、最適な行動を選択するようエージェントに誘導する。
また,実世界の運転状況におけるモデルの堅牢性と適応性を高めるために,報酬関数の設計の改善も導入する。
実験結果から, 深い強化学習に基づく意思決定戦略は, 各種運転課題における従来のルールベース手法よりも優れた性能を示した。
The behavior decision-making subsystem is a key component of the autonomous driving system, which reflects the decision-making ability of the vehicle and the driver, and is an important symbol of the high-level intelligence of the vehicle. However, the existing rule-based decision-making schemes are limited by the prior knowledge of designers, and it is difficult to cope with complex and changeable traffic scenarios. In this work, an advanced deep reinforcement learning model is adopted, which can autonomously learn and optimize driving strategies in a complex and changeable traffic environment by modeling the driving decision-making process as a reinforcement learning problem. Specifically, we used Deep Q-Network (DQN) and Proximal Policy Optimization (PPO) for comparative experiments. DQN guides the agent to choose the best action by approximating the state-action value function, while PPO improves the decision-making quality by optimizing the policy function. We also introduce improvements in the design of the reward function to promote the robustness and adaptability of the model in real-world driving situations. Experimental results show that the decision-making strategy based on deep reinforcement learning has better performance than the traditional rule-based method in a variety of driving tasks. | 翻訳日:2024-08-07 14:27:34 公開日:2024-08-06 |
# 量子コンピュータにおける行列乗算
Matrix Multiplication on Quantum Computer ( http://arxiv.org/abs/2408.03085v1 ) ライセンス: Link先を確認 | Jiaqi Yao, Ding Liu, | (参考訳) 本稿では、普遍的量子行列乗法に対する革新的で実践的なアプローチを紹介する。
我々は、量子フーリエ変換(QFT)に基づく最適化量子加算器と乗算器を設計し、古典的な加算器や乗算器と比較して使用するゲートの数を大幅に削減した。
その後、基本普遍量子行列乗法を構築し、ストラッセンアルゴリズムに拡張する。
本研究では,量子行列乗算の性能を解析し,最適化された量子加算器と乗算器によって提供される加速度を評価するための比較実験を行った。
さらに、基本量子行列乗算と比較して量子ストラッセンアルゴリズムの利点と欠点について検討する。
This paper introduces an innovative and practical approach to universal quantum matrix multiplication. We designed optimized quantum adders and multipliers based on Quantum Fourier Transform (QFT), which significantly reduced the number of gates used compared to classical adders and multipliers. Subsequently, we construct a basic universal quantum matrix multiplication and extend it to the Strassen algorithm. We conduct comparative experiments to analyze the performance of the quantum matrix multiplication and evaluate the acceleration provided by the optimized quantum adder and multiplier. Furthermore, we investigate the advantages and disadvantages of the quantum Strassen algorithm compared to basic quantum matrix multiplication. | 翻訳日:2024-08-07 14:27:34 公開日:2024-08-06 |
# チェイ同型体の一般化と開量子系への応用
A generalization of the Choi isomorphism with application to open quantum systems ( http://arxiv.org/abs/2408.03086v1 ) ライセンス: Link先を確認 | Heinz-Jürgen Schmidt, | (参考訳) 完全に正の変換は、オープン量子系の時間進化を含む量子力学における状態変化の記述において重要な役割を果たす。
それらを記述するための便利なツールの一つに、正の半定値行列に完全に正の変換を写像するいわゆるチェイ同型がある。
したがって、チェイ同型を一般化する多くの提案がある。
本稿では,1976年のゴリーニ,コサコフスキー,スダルシャンの論文(GKS)が,さらなる一般化の鍵をすでに持っていることを示し,その結果のGKS同型について検討する。
応用として、一般開放量子系の時間発展のGKS行列を時間的に2階まで計算する。
Completely positive transformations play an important role in the description of state changes in quantum mechanics, including the time evolution of open quantum systems. One useful tool to describe them is the so-called Choi isomorphism, which maps completely positive transformations to positive semi-definite matrices. Accordingly, there are numerous proposals to generalize the Choi isomorphism. In the present paper, we show that the 1976 paper of Gorini, Kossakowski and Sudarshan (GKS) already holds the key for a further generalization and study the resulting GKS isomorphism. As an application, we compute the GKS matrix of the time evolution of a general open quantum system up to second order in time. | 翻訳日:2024-08-07 14:27:34 公開日:2024-08-06 |
# QADQN:金融市場予測のための量子注意深層Qネットワーク
QADQN: Quantum Attention Deep Q-Network for Financial Market Prediction ( http://arxiv.org/abs/2408.03088v1 ) ライセンス: Link先を確認 | Siddhant Dutta, Nouhaila Innan, Alberto Marchisio, Sadok Ben Yahia, Muhammad Shafique, | (参考訳) 市場の複雑さとボラティリティのため、金融市場の予測と最適取引戦略の開発は依然として困難である。
意思決定のための量子ファイナンスと強化学習の研究は、現実の金融問題に対処するための量子古典的ハイブリッドアルゴリズムのアプローチを実証している。
この観点では、取引ごとの固定取引コストを含むことで、厳密なバックテストと協調し、現実的な市場条件下でのフレームワークのパフォーマンスを検証する。
本稿では量子注意深度Q-Network(QADQN)アプローチを導入し,量子強化学習を通じてこれらの課題に対処する。
我々のQADQNアーキテクチャは、従来のQラーニングフレームワーク内の変分量子回路を使用して、意思決定における量子上の利点を生かしている。
我々は、S&P500を含む主要市場指標の履歴データに基づいて、QADQNエージェントのパフォーマンスを評価する。
エージェントの学習過程を,報酬の蓄積と体験再生機構の有効性を検証して評価する。
実験の結果,QADQN は高い性能を示し,Soltino 比 1.28 と 1.19 をそれぞれ非重複性および重複性テスト期間で有意なリスク管理を行うことができた。
Financial market prediction and optimal trading strategy development remain challenging due to market complexity and volatility. Our research in quantum finance and reinforcement learning for decision-making demonstrates the approach of quantum-classical hybrid algorithms to tackling real-world financial challenges. In this respect, we corroborate the concept with rigorous backtesting and validate the framework's performance under realistic market conditions, by including fixed transaction cost per trade. This paper introduces a Quantum Attention Deep Q-Network (QADQN) approach to address these challenges through quantum-enhanced reinforcement learning. Our QADQN architecture uses a variational quantum circuit inside a traditional deep Q-learning framework to take advantage of possible quantum advantages in decision-making. We gauge the QADQN agent's performance on historical data from major market indices, including the S&P 500. We evaluate the agent's learning process by examining its reward accumulation and the effectiveness of its experience replay mechanism. Our empirical results demonstrate the QADQN's superior performance, achieving better risk-adjusted returns with Sortino ratios of 1.28 and 1.19 for non-overlapping and overlapping test periods respectively, indicating effective downside risk management. | 翻訳日:2024-08-07 14:27:34 公開日:2024-08-06 |
# 重みの絡み合いによる微調整型から事前訓練型大言語モデルへの拡張モデルマージ
Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement ( http://arxiv.org/abs/2408.03092v1 ) ライセンス: Link先を確認 | Le Yu, Bowen Yu, Haiyang Yu, Fei Huang, Yongbin Li, | (参考訳) Merging Large Language Models (LLMs) は、複数のホモロジー LLM を、すべての機能を持つ言語にアマルガメートすることを目的としている。
理想的には、同じバックボーンを共有する LLM は、小さなパラメータ変化を持つファインチューニング (FT) か、実質的なパラメータシフトを持つ事前訓練 (PT) に拘わらず、マージ可能であるべきである。
しかし、既存の手法では、しばしば手動でモデルの重要度を割り当て、複数のFT LLMのような同様のパラメータ変化を持つLLMに対してのみ実現可能である。
FT と PT LLM の間のパラメータの変化範囲は、最適組み合わせを経験的に決定する上で、現在のソリューションに課題をもたらす。
本稿では,FT から PT LLM への統合技術の適用性を拡大するための先駆的な取り組みを行う。
我々はまず,FTとPT LLMの融合における現在の方法の有効性について検討し,PT LLMの対応に苦慮していることを発見した。
次に,WeIght DisENtanglement (WIDEN) に基づく手法を導入し,まずモデルの重みを大や方向の成分に分解し,それぞれの寄与を考慮して適応融合を行う。
実験では,Qwen1.5-Chat(命令追従能力を持つFT LLM)とSailor(多言語能力を持つPT LLM)を7B,14Bモデルスケールで組み合わせた。
その結果,(1) 既存の解法は,(1) セイラーの合併時に失敗し,両者の能力を失ったり,あるいは指示追従能力のみを維持できなかったり,(2) WIDEN が Qwen1.5-Chat にサイラーの多言語能力の注入に成功し,東南アジア語で熟達し,基本能力の向上を実現した。
これまでの研究では、複数の13B FT LLMをマージし、WIDENが命令追従、数学的推論、コード生成のバランスの取れたアマルガメーションを達成することを観察した。
Merging Large Language Models (LLMs) aims to amalgamate multiple homologous LLMs into one with all the capabilities. Ideally, any LLMs sharing the same backbone should be mergeable, irrespective of whether they are Fine-Tuned (FT) with minor parameter changes or Pre-Trained (PT) with substantial parameter shifts. However, existing methods often manually assign the model importance, rendering them feasible only for LLMs with similar parameter alterations, such as multiple FT LLMs. The diverse parameter changed ranges between FT and PT LLMs pose challenges for current solutions in empirically determining the optimal combination. In this paper, we make a pioneering effort to broaden the applicability of merging techniques from FT to PT LLMs. We initially examine the efficacy of current methods in merging FT and PT LLMs, discovering that they struggle to deal with PT LLMs. Subsequently, we introduce an approach based on WeIght DisENtanglement (WIDEN) to effectively extend the merging scope, which first disentangles model weights into magnitude and direction components, and then performs adaptive fusion by considering their respective contributions. In the experiments, we merge Qwen1.5-Chat (an FT LLM with instruction-following skills) with Sailor (a PT LLM with multilingual abilities) across 7B and 14B model scales. Results reveal that: (1) existing solutions usually fail when merging Sailor, either losing both abilities or only retaining instruction-following skills; (2) WIDEN successfully injects the multilingual abilities of Sailor into Qwen1.5-Chat and make it proficient in Southeast Asian languages, achieving enhancements in the fundamental capabilities. In light of previous research, we also merge multiple 13B FT LLMs and observe that WIDEN achieves a balanced amalgamation of instruction following, mathematical reasoning, and code generation skills. | 翻訳日:2024-08-07 14:27:34 公開日:2024-08-06 |
# 不確実なパラメトリック環境におけるロバストなポリシーの学習
Learning Provably Robust Policies in Uncertain Parametric Environments ( http://arxiv.org/abs/2408.03093v1 ) ライセンス: Link先を確認 | Yannik Schnitzer, Alessandro Abate, David Parker, | (参考訳) 本稿では、確率的環境において、遷移確率が未知の分布を持つパラメータによって定義される、堅牢なMDPポリシーを学習するためのデータ駆動型アプローチを提案する。
我々は、未知の分布に対する新しい、目に見えない環境において、これらの学習されたポリシーの性能について、おそらくほぼ正しい(PAC)保証を作成する。
提案手法は, MDP環境の有限サンプルに基づいて, 生成した軌道の集合を探索することにより, モデルを区間 MDP として近似する。
構築された近似を用いて、サンプル環境全体にわたって(与えられた要求を)適切に実行する単一のポリシーを合成し、さらに(与えられた要求を満たさない)リスクを目に見えない環境に配置する。
弊社の手順は、学習方針の保証された性能と、その保証を目に見えない環境で満たさないリスクとのトレードオフを提供する。
提案手法は, 環境の状態空間とグラフ構造に関する知識を利用して, 学習を最適化し, より少ないサンプルからより厳密な保証を得るために, パラメトリック構造に関するさらなる知識をどのように活用できるかを示す。
さまざまな確立されたベンチマークに対するアプローチを評価し、パフォーマンスと関連するリスクを厳格に定量化する保証とともに、高いパフォーマンスと堅牢なポリシを生成できることを示します。
We present a data-driven approach for learning MDP policies that are robust across stochastic environments whose transition probabilities are defined by parameters with an unknown distribution. We produce probably approximately correct (PAC) guarantees for the performance of these learned policies in a new, unseen environment over the unknown distribution. Our approach is based on finite samples of the MDP environments, for each of which we build an approximation of the model as an interval MDP, by exploring a set of generated trajectories. We use the built approximations to synthesise a single policy that performs well (meets given requirements) across the sampled environments, and furthermore bound its risk (of not meeting the given requirements) when deployed in an unseen environment. Our procedure offers a trade-off between the guaranteed performance of the learned policy and the risk of not meeting the guarantee in an unseen environment. Our approach exploits knowledge of the environment's state space and graph structure, and we show how additional knowledge of its parametric structure can be leveraged to optimize learning and to obtain tighter guarantees from less samples. We evaluate our approach on a diverse range of established benchmarks, demonstrating that we can generate highly performing and robust policies, along with guarantees that tightly quantify their performance and the associated risk. | 翻訳日:2024-08-07 14:17:45 公開日:2024-08-06 |
# 500xCompressor: 大規模言語モデルのための一般化されたプロンプト圧縮
500xCompressor: Generalized Prompt Compression for Large Language Models ( http://arxiv.org/abs/2408.03094v1 ) ライセンス: Link先を確認 | Zongqian Li, Yixuan Su, Nigel Collier, | (参考訳) プロンプト圧縮は、推論速度の向上、コスト削減、ユーザエクスペリエンスの向上に不可欠である。
しかし、現在の手法では、圧縮率の低下や、評価中の潜在的なデータ漏洩といった課題に直面している。
これらの問題に対処するため,500xCompressorを提案する。
500xCompressorは約0.3%の追加パラメータを導入し、6xから480xまでの圧縮比を達成している。
あらゆるテキストを圧縮し、様々な種類の質問に答えるように設計されており、微調整を必要とせず、オリジナルの大言語モデル(LLM)によって利用することができる。
当初、500xCompressorはArxiv Corpusで事前訓練され、その後ArxivQAデータセットで微調整され、その後、厳密に見えない古典的な質問応答(QA)データセットで評価された。
その結果、LLMは非圧縮プロンプトと比較して62.26-72.89%の能力を保持していた。
また, 圧縮トークンはすべて等しく利用されるわけではなく, 高圧縮比での情報保存におけるKV値の埋め込みよりも大きな利点があることが示唆された。
自然言語の高度に圧縮された性質は、きめ細かい複雑な情報であっても、将来的な応用の可能性を示し、新たなLLM言語の開発について研究している。
Prompt compression is crucial for enhancing inference speed, reducing costs, and improving user experience. However, current methods face challenges such as low compression ratios and potential data leakage during evaluation. To address these issues, we propose 500xCompressor, a method that compresses extensive natural language contexts into a minimum of one single special token. The 500xCompressor introduces approximately 0.3% additional parameters and achieves compression ratios ranging from 6x to 480x. It is designed to compress any text, answer various types of questions, and could be utilized by the original large language model (LLM) without requiring fine-tuning. Initially, 500xCompressor was pretrained on the Arxiv Corpus, followed by fine-tuning on the ArxivQA dataset, and subsequently evaluated on strictly unseen and classical question answering (QA) datasets. The results demonstrate that the LLM retained 62.26-72.89% of its capabilities compared to using non-compressed prompts. This study also shows that not all the compressed tokens are equally utilized and that K V values have significant advantages over embeddings in preserving information at high compression ratios. The highly compressive nature of natural language prompts, even for fine-grained complex information, suggests promising potential for future applications and further research into developing a new LLM language. | 翻訳日:2024-08-07 14:17:45 公開日:2024-08-06 |
# TestART: 自動生成と修復の同時進化によるLCMベースのユニットテストの改善
TestART: Improving LLM-based Unit Test via Co-evolution of Automated Generation and Repair Iteration ( http://arxiv.org/abs/2408.03095v1 ) ライセンス: Link先を確認 | Siqi Gu, Chunrong Fang, Quanjun Zhang, Fangyuan Tian, Zhenyu Chen, | (参考訳) 単体テストは個々のプログラムユニットのバグを検出するのに不可欠だが、時間と労力を消費する。
既存の自動単体テスト生成方法は、主に開発者を解放するための検索ベースのソフトウェアテスト(SBST)と言語モデルに基づいている。
近年,大規模言語モデル (LLM) が顕著な推論と生成能力を示している。
しかしながら, 1) LLMは, 文脈が不十分な場合に, 不正なテストケースを生成でき, コンパイルエラーが発生し, (2) テストやカバレッジのフィードバック情報が不足すると, 実行時のエラーやカバレッジ率の低下が発生する。
(3) 反復抑制問題により, LLMは自己再生や再生の繰り返しループに陥る。
本稿では,LLMの強みを生かした新しい単体テスト生成手法であるTestARTを提案する。
TestARTは、自動生成と修復の反復の共進化を通じて、LLMベースのユニットテストを改善している。
TestARTはテンプレートベースの修復技術を活用して、LCM生成のテストケースのバグを修正し、プロンプトインジェクションを使用して、次のステップの自動生成をガイドし、繰り返しの抑制を回避する。
さらに、TestARTはパスしたテストケースからカバレッジ情報を抽出し、テストフィードバックとして利用して最終テストケースの効率を高める。
この生成と修復の相乗効果は、生成したテストケースの品質、有効性、可読性を高める。
比較実験では、TestARTの生成したテストケースのパスレートは78.55%であり、ChatGPT-4.0モデルとChatGPT-3.5ベースのChatUniTestの両方よりも約18%高い。
また、テストに合格した焦点メソッドの90.96%のラインカバレッジ率も達成し、EvoSuiteを3.4%上回った。
Unit test is crucial for detecting bugs in individual program units but consumes time and effort. The existing automated unit test generation methods are mainly based on search-based software testing (SBST) and language models to liberate developers. Recently, large language models (LLMs) have demonstrated remarkable reasoning and generation capabilities. However, several problems limit their ability to generate high-quality test cases: (1) LLMs may generate invalid test cases under insufficient context, resulting in compilation errors; (2) Lack of test and coverage feedback information may cause runtime errors and low coverage rates. (3) The repetitive suppression problem causes LLMs to get stuck into the repetition loop of self-repair or re-generation attempts. In this paper, we propose TestART, a novel unit test generation method that leverages the strengths of LLMs while overcoming the limitations mentioned. TestART improves LLM-based unit test via co-evolution of automated generation and repair iteration. TestART leverages the template-based repair technique to fix bugs in LLM-generated test cases, using prompt injection to guide the next-step automated generation and avoid repetition suppression. Furthermore, TestART extracts coverage information from the passed test cases and utilizes it as testing feedback to enhance the sufficiency of the final test case. This synergy between generation and repair elevates the quality, effectiveness, and readability of the produced test cases significantly beyond previous methods. In comparative experiments, the pass rate of TestART-generated test cases is 78.55%, which is approximately 18% higher than both the ChatGPT-4.0 model and the same ChatGPT-3.5-based method ChatUniTest. It also achieves an impressive line coverage rate of 90.96% on the focal methods that passed the test, exceeding EvoSuite by 3.4%. | 翻訳日:2024-08-07 14:17:45 公開日:2024-08-06 |
# マイクロジェスチャー分類のためのプロトタイプ学習
Prototype Learning for Micro-gesture Classification ( http://arxiv.org/abs/2408.03097v1 ) ライセンス: Link先を確認 | Guoliang Chen, Fei Wang, Kun Li, Zhiliang Wu, Hehe Fan, Yi Yang, Meng Wang, Dan Guo, | (参考訳) 本稿では,IJCAI 2024のMiGAチャレンジにおいて,マイクロ位置分類のためのHFUT-VUTというチームが開発したソリューションについて紹介する。
マイクロジェスチャー分類タスクのタスクは、あるビデオクリップのカテゴリを認識することであり、典型的なアクション認識タスクと比較して、より微細で微妙な身体の動きに焦点を当てている。
クラス内変異とクラス間差の最小化を含むマイクロ・ジェスチャー認識の本質的な複雑さを考慮し,MG特徴の識別能力を向上し,分類精度を向上させるために,クロスモーダル・フュージョン・モジュールとプロトタイプ・リファインメント・モジュールの2つのイノベーティブ・モジュールを利用する。
われわれのソリューションは大きな成功をおさめ、マイクロジェスチャー分類のトラックで第1位にランクインした。
私たちは昨年のトップチームのパフォーマンスをかなり上回り、トップ1の精度を6.13%向上させました。
In this paper, we briefly introduce the solution developed by our team, HFUT-VUT, for the track of Micro-gesture Classification in the MiGA challenge at IJCAI 2024. The task of micro-gesture classification task involves recognizing the category of a given video clip, which focuses on more fine-grained and subtle body movements compared to typical action recognition tasks. Given the inherent complexity of micro-gesture recognition, which includes large intra-class variability and minimal inter-class differences, we utilize two innovative modules, i.e., the cross-modal fusion module and prototypical refinement module, to improve the discriminative ability of MG features, thereby improving the classification accuracy. Our solution achieved significant success, ranking 1st in the track of Micro-gesture Classification. We surpassed the performance of last year's leading team by a substantial margin, improving Top-1 accuracy by 6.13%. | 翻訳日:2024-08-07 14:17:45 公開日:2024-08-06 |
# 微調整LDMと文の袋を用いたトピックモデリング
Topic Modeling with Fine-tuning LLMs and Bag of Sentences ( http://arxiv.org/abs/2408.03099v1 ) ライセンス: Link先を確認 | Johannes Schneider, | (参考訳) 大規模言語モデル(LLM)は、LDAのような古典的トピックモデルよりも優れたトピックモデリングにますます利用されている。
一般に、BERTのような事前訓練されたLLMエンコーダは、微調整がLLMを大幅に改善することが知られているにもかかわらず、最初から使われている。
課題は、微調整に適した(ラベル付き)データセットを取得することだ。
本稿では,最近のアイデアを用いて,文の袋をコンピューティングの話題の基本単位として活用する。
そこで本研究では,FT-Topicによる教師なしの微調整を,トレーニングデータセットを自動で構築する2つのステップに主に依存するアプローチを導出する。
第一に、同一または異なるトピックであると仮定される文群のペアを特定するヒューリスティックな方法である。
第2に、誤ってラベル付けされる可能性のある文ペアを削除します。
その後、データセットを使用してエンコーダLLMを微調整し、埋め込みを使用したトピックモデリングアプローチで利用することができる。
しかし,本研究では,予測最大化アルゴリズムと文群のハードアサインによる高速な推論を実現するSenCluという,新たな最先端トピックモデリング手法を考案し,ユーザに対して,トピック文書分布に関する事前知識をエンコードして,その効果を実証する。
コードは \url{https://github.com/John Tailor/FT-Topic} にある。
Large language models (LLM)'s are increasingly used for topic modeling outperforming classical topic models such as LDA. Commonly, pre-trained LLM encoders such as BERT are used out-of-the-box despite the fact that fine-tuning is known to improve LLMs considerably. The challenge lies in obtaining a suitable (labeled) dataset for fine-tuning. In this paper, we use the recent idea to use bag of sentences as the elementary unit in computing topics. In turn, we derive an approach FT-Topic to perform unsupervised fine-tuning relying primarily on two steps for constructing a training dataset in an automatic fashion. First, a heuristic method to identifies pairs of sentence groups that are either assumed to be of the same or different topics. Second, we remove sentence pairs that are likely labeled incorrectly. The dataset is then used to fine-tune an encoder LLM, which can be leveraged by any topic modeling approach using embeddings. However, in this work, we demonstrate its effectiveness by deriving a novel state-of-the-art topic modeling method called SenClu, which achieves fast inference through an expectation-maximization algorithm and hard assignments of sentence groups to a single topic, while giving users the possibility to encode prior knowledge on the topic-document distribution. Code is at \url{https://github.com/JohnTailor/FT-Topic} | 翻訳日:2024-08-07 14:17:45 公開日:2024-08-06 |
# ロギングステートメントにおける自動欠陥検出と修正
Automated Defects Detection and Fix in Logging Statement ( http://arxiv.org/abs/2408.03101v1 ) ライセンス: Link先を確認 | Renyi Zhong, Yichen Li, Jinxi Kuang, Wenwei Gu, Yintong Huo, Michael R. Lyu, | (参考訳) 開発者はロギングステートメントを使用してソフトウェアを監視するが、ログの誤解を招くことは、実際のアクティビティを隠蔽することで、メンテナンスを複雑にする可能性がある。
ログ品質に関する既存の研究は限定的であり、主に単一欠陥と手動修正に焦点を当てている。
これを解決するために,実世界のログ変更分析を用いて,ロギングステートメントの4つの欠陥タイプを同定した。
ログステートメントの自動検出と更新のための2段階フレームワークであるLogFixerを提案する。
オフラインの段階では、LogFixerは類似性ベースの分類器を合成欠陥ログに使用して欠陥を特定する。
オンラインフェーズでは、この分類器がコードスニペット内のログを評価し、必要な改善を判断し、LLMベースのレコメンデーションフレームワークが履歴ログの変更に基づいて更新を提案する。
実世界のデータセットと合成データセット、および新しい実世界のプロジェクトについてLogFixerを評価し、F1スコアの0.625を達成した。
LogFixerは静的テキストと動的変数の提案をそれぞれ48.12\%、24.90\%改善し、新しいプロジェクトの正しい更新を推奨する61.49\%の成功率を達成した。
私たちは、GitHubに40の問題のあるログを報告し、その結果、11プロジェクト間で25の確認とマージが行われた。
Developers use logging statements to monitor software, but misleading logs can complicate maintenance by obscuring actual activities. Existing research on logging quality issues is limited, mainly focusing on single defects and manual fixes. To address this, we conducted a study identifying four defect types in logging statements through real-world log changes analysis. We propose LogFixer, a two-stage framework for automatic detection and updating of logging statements. In the offline stage, LogFixer uses a similarity-based classifier on synthetic defective logs to identify defects. During the online phase, this classifier evaluates logs in code snippets to determine necessary improvements, and an LLM-based recommendation framework suggests updates based on historical log changes. We evaluated LogFixer on real-world and synthetic datasets, and new real-world projects, achieving an F1 score of 0.625. LogFixer significantly improved static text and dynamic variables suggestions by 48.12\% and 24.90\%, respectively, and achieved a 61.49\% success rate in recommending correct updates for new projects. We reported 40 problematic logs to GitHub, resulting in 25 confirmed and merged changes across 11 projects. | 翻訳日:2024-08-07 14:17:45 公開日:2024-08-06 |
# トンネル障壁下におけるベリー相の探査
Revealing the Berry phase under the tunneling barrier ( http://arxiv.org/abs/2408.03105v1 ) ライセンス: Link先を確認 | Lior Faeyrman, Eduardo B. Molinero, Roni Weiss, Vladimir Narovlansky, Omer Kneller, Talya Arusi-Parpar, Barry D. Bruner, Binghai Yan, Misha Ivanov, Olga Smirnova, Alvaro Jimenez-Galan, Riccardo Piccoli, Rui E. F. Silva, Nirit Dudovich, Ayelet J. Uzan-Narovlansky, | (参考訳) 量子力学において、量子ウェーブパケットは、パラメータ空間の循環軌道に沿って進化するにつれて幾何学的な位相を得ることができる。
凝縮物質系では、ベリー相はホール効果、軌道磁気、偏光といった基本的な現象において重要な役割を果たす。
これらのプロセスの量子的性質を解くには、一般的に、STM顕微鏡やトンネル輸送装置において支配的なメカニズムであるトンネル法のような感度の高い量子技術が必要である。
本研究では, この2つの現象, 幾何相とトンネル現象を統合し, 凝縮物質系における強磁場光物質相互作用を通して, 複雑な値のベリー相を観察する。
トンネル障壁を操作することにより、光サイクルのごく一部で蓄積された想像上のベリー相を計測する。
我々の研究は、幾何学的な位相物理学における新しい理論的および実験的方向と、凝縮物質系におけるそれらの実現を開き、位相量子現象を研究するために固体強磁場光量論を拡張した。
In quantum mechanics, a quantum wavepacket may acquire a geometrical phase as it evolves along a cyclic trajectory in parameter space. In condensed matter systems, the Berry phase plays a crucial role in fundamental phenomena such as the Hall effect, orbital magnetism, and polarization. Resolving the quantum nature of these processes commonly requires sensitive quantum techniques, as tunneling, being the dominant mechanism in STM microscopy and tunneling transport devices. In this study, we integrate these two phenomena - geometrical phases and tunneling - and observe a complex-valued Berry phase via strong field light matter interactions in condensed matter systems. By manipulating the tunneling barrier, with attoseconds precision, we measure the imaginary Berry phase accumulated as the electron tunnels during a fraction of the optical cycle. Our work opens new theoretical and experimental directions in geometrical phases physics and their realization in condensed matter systems, expanding solid state strong field light metrology to study topological quantum phenomena. | 翻訳日:2024-08-07 14:17:45 公開日:2024-08-06 |
# コールドRydberg原子気体の例外点とヒステリシス軌道
Exceptional point and hysteresis trajectories in cold Rydberg atomic gases ( http://arxiv.org/abs/2408.03109v1 ) ライセンス: Link先を確認 | Jun Zhang, En-Ze Li, Ya-Jun Wang, Bang Liu, Li-Hua Zhang, Zheng-Yuan Zhang, Shi-Yao Shao, Qing Li, Han-Chao Chen, Yu Ma, Tian-Yu Han, Qi-Feng Wang, Jia-Dou Nan, Yi-Ming Ying, Dong-Yang Zhu, Bao-Sen Shi, Dong-Sheng Ding, | (参考訳) 強い長距離相互作用とコヒーレント駆動の間の相互作用は、多体系における複雑なパターン、対称性、新しい物質相の形成に寄与する。
しかし、長距離相互作用は追加の散逸チャネルを誘導し、非エルミート多体ダイナミクスとスペクトルにおける例外点の出現をもたらす。
本稿では, コールドRydberg原子気体中の相互作用誘起特異点を実験的に観察し, 電荷共役パリティ対称性の破れを明らかにした。
プローブ強度の増大と減少の下で透過スペクトルを測定することにより、相互作用誘起ヒステリシス軌道が観察され、非エルミート力学が生じる。
ヒステリシスループで囲まれた領域を記録し,ヒステリシスループのダイナミクスについて検討した。
コールド・リドベルクの原子気体中の例外点とヒステリシス軌道は、多体系における非エルミート物理学の根底にある重要な洞察を与え、長距離相互作用と非ハーミティティーの間の相互作用を研究することができる。
The interplay between strong long-range interactions and the coherent driving contribute to the formation of complex patterns, symmetry, and novel phases of matter in many-body systems. However, long-range interactions may induce an additional dissipation channel, resulting in non-Hermitian many-body dynamics and the emergence of exceptional points in spectrum. Here, we report experimental observation of interaction-induced exceptional points in cold Rydberg atomic gases, revealing the breaking of charge-conjugation parity symmetry. By measuring the transmission spectrum under increasing and decreasing probe intensity, the interaction-induced hysteresis trajectories are observed, which give rise to non-Hermitian dynamics. We record the area enclosed by hysteresis loops and investigate the dynamics of hysteresis loops. The reported exceptional points and hysteresis trajectories in cold Rydberg atomic gases provide valuable insights into the underlying non-Hermitian physics in many-body systems, allowing us to study the interplay between long-range interactions and non-Hermiticity. | 翻訳日:2024-08-07 14:17:45 公開日:2024-08-06 |
# Euas-20に基づく大規模言語モデルの翻訳性能の評価
Evaluating the Translation Performance of Large Language Models Based on Euas-20 ( http://arxiv.org/abs/2408.03119v1 ) ライセンス: Link先を確認 | Yan Huang, Wei Liu, | (参考訳) 近年,ディープラーニング技術の急速な発展に伴い,BERTやGPTといった大規模言語モデル(LLM)が自然言語処理タスクにおいて画期的な成果を上げている。
機械翻訳(MT)は自然言語処理のコアタスクの一つであり、大きな言語モデルの開発から恩恵を受け、質的な飛躍を遂げた。
大規模な言語モデルによる翻訳性能の著しい進歩にもかかわらず、機械翻訳は多くの課題に直面している。
そこで本稿では,翻訳タスクにおける大規模言語モデルの性能評価のためのデータセットEuas-20を構築し,異なる言語における翻訳能力と,研究者や開発者のLLMの翻訳能力に対する事前学習データの影響について述べる。
In recent years, with the rapid development of deep learning technology, large language models (LLMs) such as BERT and GPT have achieved breakthrough results in natural language processing tasks. Machine translation (MT), as one of the core tasks of natural language processing, has also benefited from the development of large language models and achieved a qualitative leap. Despite the significant progress in translation performance achieved by large language models, machine translation still faces many challenges. Therefore, in this paper, we construct the dataset Euas-20 to evaluate the performance of large language models on translation tasks, the translation ability on different languages, and the effect of pre-training data on the translation ability of LLMs for researchers and developers. | 翻訳日:2024-08-07 14:17:45 公開日:2024-08-06 |
# In-the-wild Multimodal Disease RecognitionとVersatile Baselineのベンチマーク
Benchmarking In-the-wild Multimodal Disease Recognition and A Versatile Baseline ( http://arxiv.org/abs/2408.03120v1 ) ライセンス: Link先を確認 | Tianqi Wei, Zhi Chen, Zi Huang, Xin Yu, | (参考訳) 既存の植物病の分類モデルは、炎症性疾患の画像の認識において顕著な性能を発揮している。
しかし、その性能は、線内画像の分類において著しく低下することが多い。
さらに,野生植物では様々な疾患(小クラス間差)に類似した出現がみられたが,同じ疾患(大クラス内差)とは全く異なっていた(大クラス間差)。
本研究の目的は,病種数が最も多いだけでなく,病種毎のテキストによる記述も含む,病種間マルチモーダル植物病の認識データセットを提案することである。
特に、新たに提供されるテキスト記述を導入し、テキストモダリティの豊富な情報を提供し、クラス間差が小さく、クラス内ばらつきの大きい病原体分類を容易にする。
したがって,本提案データセットは実世界における疾患認識手法を評価するための理想的なテストベッドとみなすことができる。
さらに,テキスト記述や視覚データを,クラスごとに複数のプロトタイプを通じてモデル化する,強力で汎用的なベースラインも提示する。
分類におけるマルチモーダルプロトタイプの貢献を融合させることで、我々のベースラインは、クラス間の小さな相違とクラス間の大きな分散問題に効果的に対処できる。
注目すべきは、私たちのベースラインモデルは病気を分類するだけでなく、ほとんどショットやトレーニングなしのシナリオで病気を認識することができることである。
大規模ベンチマークの結果,本提案したマルチモーダルデータセットは,植物病の認識タスクに多くの新たな課題を課し,今後の課題に対して大きな改善の余地があることが示唆された。
Existing plant disease classification models have achieved remarkable performance in recognizing in-laboratory diseased images. However, their performance often significantly degrades in classifying in-the-wild images. Furthermore, we observed that in-the-wild plant images may exhibit similar appearances across various diseases (i.e., small inter-class discrepancy) while the same diseases may look quite different (i.e., large intra-class variance). Motivated by this observation, we propose an in-the-wild multimodal plant disease recognition dataset that contains the largest number of disease classes but also text-based descriptions for each disease. Particularly, the newly provided text descriptions are introduced to provide rich information in textual modality and facilitate in-the-wild disease classification with small inter-class discrepancy and large intra-class variance issues. Therefore, our proposed dataset can be regarded as an ideal testbed for evaluating disease recognition methods in the real world. In addition, we further present a strong yet versatile baseline that models text descriptions and visual data through multiple prototypes for a given class. By fusing the contributions of multimodal prototypes in classification, our baseline can effectively address the small inter-class discrepancy and large intra-class variance issues. Remarkably, our baseline model can not only classify diseases but also recognize diseases in few-shot or training-free scenarios. Extensive benchmarking results demonstrate that our proposed in-the-wild multimodal dataset sets many new challenges to the plant disease recognition task and there is a large space to improve for future works. | 翻訳日:2024-08-07 14:17:45 公開日:2024-08-06 |
# 量子回路記述言語におけるフレキシブルな型ベース資源推定
Flexible Type-Based Resource Estimation in Quantum Circuit Description Languages ( http://arxiv.org/abs/2408.03121v1 ) ライセンス: Link先を確認 | Andrea Colledan, Ugo Dal Lago, | (参考訳) 入力プログラムが生成する回路の大きさの上限を導出するクイッパー言語のための型システムを提案する。
この大きさは、幅、深さ、ゲート数など様々な測定値に基づいて測定できるが、ワイヤの種類やゲートの種類のみを考慮しても測定できる。
このレベルの柔軟性を達成するための重要な要素は効果と改良型であり、どちらも指標に依存している。
この手法は、選択された資源計量に関する合理的な仮定の下で、論理述語を通して正しいことが示されている。
このアプローチはQuRAツールを通じて実証的に評価され、多くの場合、厳密な境界を推測することは完全に自動化された方法で可能であることを示す。
We introduce a type system for the Quipper language designed to derive upper bounds on the size of the circuits produced by the typed program. This size can be measured according to various metrics, including width, depth and gate count, but also variations thereof obtained by considering only some wire types or some gate kinds. The key ingredients for achieving this level of flexibility are effects and refinement types, both relying on indices, that is, generic arithmetic expressions whose operators are interpreted differently depending on the target metric. The approach is shown to be correct through logical predicates, under reasonable assumptions about the chosen resource metric. This approach is empirically evaluated through the QuRA tool, showing that, in many cases, inferring tight bounds is possible in a fully automatic way. | 翻訳日:2024-08-07 14:17:45 公開日:2024-08-06 |
# バイアスノイズに対する高次元量子XYZ積符号
High-dimensional quantum XYZ product codes for biased noise ( http://arxiv.org/abs/2408.03123v1 ) ライセンス: Link先を確認 | Zhipeng Liang, Zhengzhong Yi, Fusheng Yang, Jiahan Chen, Zicheng Wang, Xuan Wang, | (参考訳) 量子XYZ製品は、3つの古典的なコードを使用してCSS以外のコードのクラスを構築することができる。
しかし,本研究に先立ち,その誤り訂正性能は深く研究されず,このコード構築法が高次元に一般化できるかどうかが疑問視される。
本稿では,3 つの繰り返し符号の XYZ 生成物の特殊例である 3 次元トーリック符号の非 CSS 変種と見なせる 3 次元チャモン符号の誤り訂正性能について検討する。
第2に、XYZ製品は4次元に一般化でき、4次元(4D)XYZ製品コード構築を提案し、4次元ホモロジー製品の変種と見なすことができ、4つの古典的コードまたは2つのCSSコードを用いて非CSSコードのクラスを構築する。
4Dホモロジー製品と比較して、4D XYZ製品は高次元またはコード距離の非CSSコードを構築することができることを示す。
第3に、4D Chamon コードと 4D XYZ コンカレントコードという4D XYZ 製品の特別な例を2つ検討する。
完全分離されたバイナリ信念伝搬と順序付き統計復号を併用したシミュレーションの結果,同じ2つのCSSコードを用いて4D XYZ製品は,4Dホモロジー製品によって構築されるCSSコードよりも,誤り訂正性能のよい非CSSコードを構築することができることがわかった。
Quantum XYZ product can construct a class of non-CSS codes by using three classical codes. However, before this work, their error-correcting performance is not studied in depth and whether this code construction method can be generalized to higher dimension is an open question. In this paper, we first study the error-correcting performance of the 3D Chamon code, which can be seen as a non-CSS variant of the 3D toric code and a special instance of the XYZ product of three repetition codes. Second, we show that XYZ product can be generalized to four dimension and propose four-dimensional (4D) XYZ product code construction, which can be seen as a variant of 4D homological product and constructs a class of non-CSS codes by using 4 classical codes or 2 CSS codes. Compared with 4D homological product, we show that 4D XYZ product can construct non-CSS codes with higher dimension or code distance. Third, we consider two special instances of 4D XYZ product, which we name 4D Chamon code and 4D XYZ concatenated code. Exploiting fully decoupled binary belief propagation combined with ordered statistics decoding, our simulation results show that, using the same two CSS codes, 4D XYZ product can construct non-CSS codes with better error-correcting performance for $Z$-biased noise than CSS codes constructed by 4D homological product, which is more meaningful for practice quantum computing system. | 翻訳日:2024-08-07 14:17:45 公開日:2024-08-06 |
# COMMENTATOR: コード混在型多言語テキストアノテーションフレームワーク
COMMENTATOR: A Code-mixed Multilingual Text Annotation Framework ( http://arxiv.org/abs/2408.03125v1 ) ライセンス: Link先を確認 | Rajvee Sheth, Shubh Nisar, Heenaben Prajapati, Himanshu Beniwal, Mayank Singh, | (参考訳) NLPコミュニティは、多言語性に関連する課題に対処する傾向にあるため、堅牢なアノテーションツールは、多言語データセットを効率的に扱うために不可欠である。
本稿では,コード混在型テキストアノテーションフレームワークであるCOMMENTATORについて紹介する。
このツールは、Hinglishテキストのトークンレベルおよび文レベル言語アノテーションタスクにおいて、その効果を示す。
我々は、COMMENTATORが最高のベースラインよりも5倍高速なアノテーションをもたらすことを示すために、堅牢な定性的な人間ベースの評価を行う。
私たちのコードは \url{https://github.com/lingo-iitgn/commentator} で公開されています。
デモビデオは \url{https://bit.ly/commentator_video} で公開されている。
As the NLP community increasingly addresses challenges associated with multilingualism, robust annotation tools are essential to handle multilingual datasets efficiently. In this paper, we introduce a code-mixed multilingual text annotation framework, COMMENTATOR, specifically designed for annotating code-mixed text. The tool demonstrates its effectiveness in token-level and sentence-level language annotation tasks for Hinglish text. We perform robust qualitative human-based evaluations to showcase COMMENTATOR led to 5x faster annotations than the best baseline. Our code is publicly available at \url{https://github.com/lingo-iitgn/commentator}. The demonstration video is available at \url{https://bit.ly/commentator_video}. | 翻訳日:2024-08-07 14:17:45 公開日:2024-08-06 |
# SemEval-2024 Task 2におけるリスボン計算言語学者:Mistral 7Bモデルとデータ拡張を用いて
Lisbon Computational Linguists at SemEval-2024 Task 2: Using A Mistral 7B Model and Data Augmentation ( http://arxiv.org/abs/2408.03127v1 ) ライセンス: Link先を確認 | Artur Guimarães, Bruno Martins, João Magalhães, | (参考訳) 本稿では,臨床トライアル報告(CTR)に関する記述を分類することを目的とした,安全なバイオメディカル自然言語推論(NLI4CT)タスクに対するSemEval-2024のアプローチについて述べる。
汎用オープンソースLarge Language Model (LLM) であるMistral-7Bの機能について検討した。
我々はNLI4CTタスクのプロンプトを開発し、トレーニングデータセットの強化版を用いてモデルの量子化バージョンを微調整した。
実験結果から, マクロF1スコアの観点では, 忠実度と一貫性の点で限界があり, 顕著な結果が得られることが示された。
開発済みのコードはGitHubリポジトリで公開されています
This paper describes our approach to the SemEval-2024 safe biomedical Natural Language Inference for Clinical Trials (NLI4CT) task, which concerns classifying statements about Clinical Trial Reports (CTRs). We explored the capabilities of Mistral-7B, a generalist open-source Large Language Model (LLM). We developed a prompt for the NLI4CT task, and fine-tuned a quantized version of the model using an augmented version of the training dataset. The experimental results show that this approach can produce notable results in terms of the macro F1-score, while having limitations in terms of faithfulness and consistency. All the developed code is publicly available on a GitHub repository | 翻訳日:2024-08-07 14:17:45 公開日:2024-08-06 |
# 大規模言語モデルの推論最適化:効果,課題,実践的考察
Inference Optimizations for Large Language Models: Effects, Challenges, and Practical Considerations ( http://arxiv.org/abs/2408.03130v1 ) ライセンス: Link先を確認 | Leo Donisch, Sigurd Schacht, Carsten Lanquillon, | (参考訳) 大規模な言語モデルは自然言語処理においてユビキタスである。
しかし、その厳密なスケールと複雑さは、ユニークな課題と機会を示し、研究者や実践者が新しいモデルのトレーニング、最適化、デプロイ方法を探求するよう促す。
本稿では, 資源要求の低減と, 定量化, プルーニング, 知識蒸留, アーキテクチャ最適化など, 大規模言語モデルを圧縮する様々な手法について概説する。
主な目的は、各手法を深く探求し、その固有の課題と実践的応用を強調することである。
提案手法は,最適化ランドスケープの概観を提示する分類学に分類され,研究軌跡の理解に役立てる。
Large language models are ubiquitous in natural language processing because they can adapt to new tasks without retraining. However, their sheer scale and complexity present unique challenges and opportunities, prompting researchers and practitioners to explore novel model training, optimization, and deployment methods. This literature review focuses on various techniques for reducing resource requirements and compressing large language models, including quantization, pruning, knowledge distillation, and architectural optimizations. The primary objective is to explore each method in-depth and highlight its unique challenges and practical applications. The discussed methods are categorized into a taxonomy that presents an overview of the optimization landscape and helps navigate it to understand the research trajectory better. | 翻訳日:2024-08-07 14:07:58 公開日:2024-08-06 |
# 高次元データに対する被曝ネストクロスバリデーションに基づく予測性能試験
Predictive Performance Test based on the Exhaustive Nested Cross-Validation for High-dimensional data ( http://arxiv.org/abs/2408.03138v1 ) ライセンス: Link先を確認 | Iris Ivy Gauran, Hernando Ombao, Zhaoxia Yu, | (参考訳) 実世界のシナリオ,特に高次元データ解析における実用性と妥当性を確立するためには,モデルの予測性能を評価することが重要である。
データ分割や再サンプリング手法の中で、クロスバリデーション(CV)は、予測誤差の推定、正規化パラメータのチューニング、競合する選択肢の中で最も適切な予測モデルの選択など、様々なタスクに広く使用されている。
K-foldクロスバリデーションは一般的なCV法であるが、その制限は、リスク推定がデータのパーティショニング(トレーニングとテスト)に大きく依存していることである。
ここでは、K-fold CV推定器の再現性に関する問題は、異なる分割が顕著に異なる結論をもたらす仮説テストで示される。
本研究では,2つのモデル適合アルゴリズム間の予測誤差の差を決定するために,包括ネストクロスバリデーションに基づく新たな予測性能試験と有効信頼区間を提案する。
網羅的なネスト型クロスバリデーションの実装には計算コストがかかる。
ここでは,リッジ正則化を用いたクロスバリデーション推定器に対して,計算的に抽出可能なクローズドフォーム式を考案することで,計算複雑性に関する懸念に対処する。
また,本研究は,I型誤差率を制御しながら,高次元シナリオにおける統計的パワー向上を目的とした戦略についても検討した。
本手法の実用性を説明するため,RNAシークエンシング研究に適用し,生物学的データ解析の文脈での有効性を実証する。
It is crucial to assess the predictive performance of a model in order to establish its practicality and relevance in real-world scenarios, particularly for high-dimensional data analysis. Among data splitting or resampling methods, cross-validation (CV) is extensively used for several tasks such as estimating the prediction error, tuning the regularization parameter, and selecting the most suitable predictive model among competing alternatives. The K-fold cross-validation is a popular CV method but its limitation is that the risk estimates are highly dependent on the partitioning of the data (for training and testing). Here, the issues regarding the reproducibility of the K-fold CV estimator is demonstrated in hypothesis testing wherein different partitions lead to notably disparate conclusions. This study presents an alternative novel predictive performance test and valid confidence intervals based on exhaustive nested cross-validation for determining the difference in prediction error between two model-fitting algorithms. A naive implementation of the exhaustive nested cross-validation is computationally costly. Here, we address concerns regarding computational complexity by devising a computationally tractable closed-form expression for the proposed cross-validation estimator using ridge regularization. Our study also investigates strategies aimed at enhancing statistical power within high-dimensional scenarios while controlling the Type I error rate. To illustrate the practical utility of our method, we apply it to an RNA sequencing study and demonstrate its effectiveness in the context of biological data analysis. | 翻訳日:2024-08-07 14:07:58 公開日:2024-08-06 |
# SuperSimpleNet: 高速で信頼性の高い表面欠陥検出のための教師なしおよび教師付き学習の統合
SuperSimpleNet: Unifying Unsupervised and Supervised Learning for Fast and Reliable Surface Defect Detection ( http://arxiv.org/abs/2408.03143v1 ) ライセンス: Link先を確認 | Blaž Rolih, Matic Fučka, Danijel Skočaj, | (参考訳) 表面欠陥検出の目的は、捕獲された物体の表面の異常領域を特定し、ローカライズすることである。
現在のアプローチでは、高パフォーマンス、一貫性、高速な運用を含む、これらの産業の広範な要求を満たすことができず、利用可能なトレーニングデータ全体を活用できないことが多い。
これらのギャップに対処するために、SimpleNetから進化した革新的な差別モデルであるSuperSimpleNetを紹介します。
この高度なモデルは、前任者のトレーニング一貫性、推論時間、および検出性能を大幅に向上させる。
SuperSimpleNetは、通常のトレーニングイメージのみを使用して教師なしの方法で動作します。
SuperSimpleNetは、4つの挑戦的なベンチマークデータセットで実証されたように、教師付き設定と教師なし設定の両方で最先端の結果を達成する。
コード:https://github.com/blaz-r/SuperSimpleNet。
The aim of surface defect detection is to identify and localise abnormal regions on the surfaces of captured objects, a task that's increasingly demanded across various industries. Current approaches frequently fail to fulfil the extensive demands of these industries, which encompass high performance, consistency, and fast operation, along with the capacity to leverage the entirety of the available training data. Addressing these gaps, we introduce SuperSimpleNet, an innovative discriminative model that evolved from SimpleNet. This advanced model significantly enhances its predecessor's training consistency, inference time, as well as detection performance. SuperSimpleNet operates in an unsupervised manner using only normal training images but also benefits from labelled abnormal training images when they are available. SuperSimpleNet achieves state-of-the-art results in both the supervised and the unsupervised settings, as demonstrated by experiments across four challenging benchmark datasets. Code: https://github.com/blaz-r/SuperSimpleNet . | 翻訳日:2024-08-07 14:07:58 公開日:2024-08-06 |
# ランダム化ストラドルアルゴリズムを用いたレベルセット推定のためのアクティブラーニング
Active Learning for Level Set Estimation Using Randomized Straddle Algorithms ( http://arxiv.org/abs/2408.03144v1 ) ライセンス: Link先を確認 | Yu Inatsu, Shion Takeno, Kentaro Kutsukake, Ichiro Takeuchi, | (参考訳) レベルセット推定(LSE)は、ある関数が与えられたしきい値以上の値を取る入力点の集合を識別する問題であり、実際的な応用において重要である。
関数が高価でブラックボックスである場合、ガウス過程モデルに基づくLSEの代表的なヒューリスティックである \textit{straddle} アルゴリズムが開発され、理論的保証を持つ拡張が開発された。
しかし、既存のメソッドの多くは、ユーザが指定しなければならない信頼パラメータ $\beta^{1/2}_t$ や、$\beta^{1/2}_t$ をヒューリスティックに選択したメソッドは理論的保証を提供していない。
対照的に、理論的に保証された$\beta^{1/2}_t$の値は、反復数や候補点の数によって増大する必要がある。
そこで本研究では,ストラドルアルゴリズムにおける$\beta_t$を,2自由度を持つカイ二乗分布からランダムなサンプルに置き換える,新しい手法である「textit{randomized straddle} アルゴリズム」を提案する。
提案手法の信頼性パラメータは,反復数や候補点に依存しず,保守的でないという利点がある。
さらに,提案手法は,サンプルの複雑さと反復回数に依存する理論的保証を有することを示す。
最後に,合成データと実データを用いた数値実験により,提案手法の有用性を確認した。
Level set estimation (LSE), the problem of identifying the set of input points where a function takes value above (or below) a given threshold, is important in practical applications. When the function is expensive-to-evaluate and black-box, the \textit{straddle} algorithm, which is a representative heuristic for LSE based on Gaussian process models, and its extensions having theoretical guarantees have been developed. However, many of existing methods include a confidence parameter $\beta^{1/2}_t$ that must be specified by the user, and methods that choose $\beta^{1/2}_t$ heuristically do not provide theoretical guarantees. In contrast, theoretically guaranteed values of $\beta^{1/2}_t$ need to be increased depending on the number of iterations and candidate points, and are conservative and not good for practical performance. In this study, we propose a novel method, the \textit{randomized straddle} algorithm, in which $\beta_t$ in the straddle algorithm is replaced by a random sample from the chi-squared distribution with two degrees of freedom. The confidence parameter in the proposed method has the advantages of not needing adjustment, not depending on the number of iterations and candidate points, and not being conservative. Furthermore, we show that the proposed method has theoretical guarantees that depend on the sample complexity and the number of iterations. Finally, we confirm the usefulness of the proposed method through numerical experiments using synthetic and real data. | 翻訳日:2024-08-07 14:07:58 公開日:2024-08-06 |
# 基底集合をもつ第一量子化における化学の量子シミュレーション
Quantum Simulations of Chemistry in First Quantization with any Basis Set ( http://arxiv.org/abs/2408.03145v1 ) ライセンス: Link先を確認 | Timothy N. Georges, Marius Bothe, Christoph Sünderhauf, Bjorn K. Berntson, Róbert Izsák, Aleksei V. Ivanov, | (参考訳) 分子や物質のエネルギーの量子計算は、フォールトトレラント量子コンピュータの最も有望な応用の1つである。
しかし、実際の応用にはリソース要求の少ないアルゴリズムが必要である。
それまでの研究は、主に第2量子化におけるシステムのハミルトニアンを表している。
第1量子化の既存の方法は、アクティブな空間計算を許さないグリッドベースのアプローチに限られている。
本研究では,任意の基底集合を用いたフォールトトレラント量子コンピュータ上での第一量子化における一般基底状態化学問題の解法を提案する。
これにより、現代の量子化学基底集合を用いた活性空間での計算が可能となる。
化学ハミルトニアンを第一量子化時に線形結合分解し、ハミルトニアンの空間性を利用して効率的なブロック符号化を構築する。
分子軌道基底集合を用いた能動空間計算では, 2次量子化法 (Berry, et al Quantum 3, 208 (2019)) と比較してトフォリゲート数において漸近速度が向上する。
また、物質シミュレーションのための二重平面波についても検討し、物理的に興味深い状況下では、第2量子化法と比較して量子資源の桁違いの改善が達成されていることを見出した。
いくつかの例では、我々の手法はRefsの最初の量子化平面波動アルゴリズムと比較して、類似またはより低いリソースを提供する。
[Babbush, et. al npj Quantum Inf 5(1) 92 (2019), Su et. al PRX Quantum 2(4), 040332 (2021)]
この研究は、ハミルトニアンや現代の擬ポテンシャルの分解法を用いて、量子資源を減らす可能性を開く。
さらに,本手法は化学系の振動特性など,他の応用にも適用可能である。
Quantum computation of the energy of molecules and materials is one of the most promising applications of fault-tolerant quantum computers. However, practical applications require algorithms with reduced resource requirements. Previous work has mainly represented the Hamiltonian of the system in second quantization. Existing methods in first quantization are limited to grid-based approaches that do not allow for active space calculations. In this work, we present a method to solve the generic ground-state chemistry problem in first quantization on a fault-tolerant quantum computer using any basis set. This allows for calculations in the active space using modern quantum chemistry basis sets. We derive a linear-combination-of-unitaries decomposition for a chemical Hamiltonian in first quantization and then construct an efficient block encoding, exploiting sparsity of the Hamiltonian. For active space calculations using a molecular orbital basis set, we achieve an asymptotic speed up in Toffoli-gate count compared to the equivalent method in second quantization [Berry, et. al. Quantum 3, 208 (2019)]. We also consider the dual plane waves for materials simulations and find that in physically interesting regimes we achieve orders of magnitude improvement in quantum resources compared to the second quantization counterpart. In some instances, our approach provides similar or even lower resources compared to the first quantization plane wave algorithm of Refs.[Babbush, et. al npj Quantum Inf 5(1) 92 (2019), Su et. al PRX Quantum 2(4), 040332 (2021)] that, unlike our approach, avoids loading the classical data from quantum memory. This work opens up possibilities to reduce quantum resources even further using factorization methods of a Hamiltonian or modern pseudopotentials. Furthermore, our approach can be adapted to other applications, such as the vibrational properties of chemical systems. | 翻訳日:2024-08-07 14:07:58 公開日:2024-08-06 |
# 相互モダリティ相関学習のためのエンティティ情報を活用する:エンティティガイドによるマルチモーダル要約
Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization ( http://arxiv.org/abs/2408.03149v1 ) ライセンス: Link先を確認 | Yanghai Zhang, Ye Liu, Shiwei Wu, Kai Zhang, Xukai Liu, Qi Liu, Enhong Chen, | (参考訳) マルチメディアデータの急速な増加は、テキストと関連画像を統合したマルチモーダル要約(Multimodal Summarization with Multimodal Output (MSMO))の進展を促している。
マルチモーダル入力と出力における内容の不均一性は、MSMOの実行に重大な課題をもたらす。
伝統的なアプローチは一般的に、粗い画像テキストデータや個々の視覚オブジェクトに対する全体論的視点を採用し、それらが表すオブジェクトと実体との本質的なつながりを見渡す。
詳細なエンティティ知識を統合するために,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
ゲーティング機構は、事前学習された視覚言語モデルからの知識蒸留により画像選択が洗練される一方、拡張されたテキスト要約生成のために視覚データを結合する。
公開MSMOデータセットの大規模な実験はEGMS法の優越性を検証するとともに、エンティティ情報をMSMO問題に組み込む必要性を証明している。
The rapid increase in multimedia data has spurred advancements in Multimodal Summarization with Multimodal Output (MSMO), which aims to produce a multimodal summary that integrates both text and relevant images. The inherent heterogeneity of content within multimodal inputs and outputs presents a significant challenge to the execution of MSMO. Traditional approaches typically adopt a holistic perspective on coarse image-text data or individual visual objects, overlooking the essential connections between objects and the entities they represent. To integrate the fine-grained entity knowledge, we propose an Entity-Guided Multimodal Summarization model (EGMS). Our model, building on BART, utilizes dual multimodal encoders with shared weights to process text-image and entity-image information concurrently. A gating mechanism then combines visual data for enhanced textual summary generation, while image selection is refined through knowledge distillation from a pre-trained vision-language model. Extensive experiments on public MSMO dataset validate the superiority of the EGMS method, which also prove the necessity to incorporate entity information into MSMO problem. | 翻訳日:2024-08-07 14:07:58 公開日:2024-08-06 |
# ニューラルマシン翻訳における感情を考慮した条件付きLCM
Conditioning LLMs with Emotion in Neural Machine Translation ( http://arxiv.org/abs/2408.03150v1 ) ライセンス: Link先を確認 | Charles Brazier, Jean-Luc Rouas, | (参考訳) 大規模言語モデル(LLM)は、機械翻訳(MT)を含む自然言語処理タスクにおいて顕著なパフォーマンスを示している。
本研究では,音声感情認識(SER)モデルから抽出した感情情報をLLMに統合し,翻訳品質を向上させる新しいMTパイプラインを提案する。
最初に、Libri-transデータセット上に5つの既存のLCMを微調整し、最も高性能なモデルを選択する。
次に,LLMプロンプトを異なる次元の感情で拡張し,選択したLLMをこれらの異なる構成で訓練する。
実験の結果,情動情報,特に覚醒情報の統合は,翻訳品質の顕著な改善につながることが明らかとなった。
Large Language Models (LLMs) have shown remarkable performance in Natural Language Processing tasks, including Machine Translation (MT). In this work, we propose a novel MT pipeline that integrates emotion information extracted from a Speech Emotion Recognition (SER) model into LLMs to enhance translation quality. We first fine-tune five existing LLMs on the Libri-trans dataset and select the most performant model. Subsequently, we augment LLM prompts with different dimensional emotions and train the selected LLM under these different configurations. Our experiments reveal that integrating emotion information, especially arousal, into LLM prompts leads to notable improvements in translation quality. | 翻訳日:2024-08-07 14:07:58 公開日:2024-08-06 |
# TSC: オーバースムーシングに対する単純な2次元制約
TSC: A Simple Two-Sided Constraint against Over-Smoothing ( http://arxiv.org/abs/2408.03152v1 ) ライセンス: Link先を確認 | Furong Peng, Kang Liu, Xuan Lu, Yuhua Qian, Hongren Yan, Chao Ma, | (参考訳) グラフ畳み込みニューラルネットワーク(GCN: Graph Convolutional Neural Network)は、周辺情報の集約を通じてノード識別性を高める。
通常、複数のレイヤを積み重ねることで、高次の隣人からの情報を活用することにより、GCNのパフォーマンスが向上する。
しかし、ネットワーク深度の増加は、近隣住民の質や量の変化による過度なスムース化の問題を引き起こす。
(a)隣人の品質、ノードの隣人は高い順序で重なり、集約された情報が区別不能になる。
b) 隣接量、指数関数的に増大する集約された隣人は、再帰的に演算を集約することで、ノードの初期特徴を水没させる。
現在のソリューションは主に上記の原因の1つに焦点を当てており、一度に両方を考えることはめったにない。
ランダムマスキングとコントラスト制約という2つの簡単な手法を含む,GCNに対する単純な2次元制約(TSC)を導入する。
ランダムマスキングは表現行列の列に作用し、隣人からの情報の集約の度合いを調節し、ノード表現の収束を防ぐ。
一方、表現行列の行に適用される対照的な制約は、ノードの識別可能性を高める。
プラグインモジュールとして設計されたTSCは、GCNやSGCアーキテクチャと簡単に結合できる。
各種実世界のグラフデータセットの実験的解析により,本手法がノード表現の収束とGCNの深い性能劣化を著しく低減することを確認した。
Graph Convolutional Neural Network (GCN), a widely adopted method for analyzing relational data, enhances node discriminability through the aggregation of neighboring information. Usually, stacking multiple layers can improve the performance of GCN by leveraging information from high-order neighbors. However, the increase of the network depth will induce the over-smoothing problem, which can be attributed to the quality and quantity of neighbors changing: (a) neighbor quality, node's neighbors become overlapping in high order, leading to aggregated information becoming indistinguishable, (b) neighbor quantity, the exponentially growing aggregated neighbors submerges the node's initial feature by recursively aggregating operations. Current solutions mainly focus on one of the above causes and seldom consider both at once. Aiming at tackling both causes of over-smoothing in one shot, we introduce a simple Two-Sided Constraint (TSC) for GCNs, comprising two straightforward yet potent techniques: random masking and contrastive constraint. The random masking acts on the representation matrix's columns to regulate the degree of information aggregation from neighbors, thus preventing the convergence of node representations. Meanwhile, the contrastive constraint, applied to the representation matrix's rows, enhances the discriminability of the nodes. Designed as a plug-in module, TSC can be easily coupled with GCN or SGC architectures. Experimental analyses on diverse real-world graph datasets verify that our approach markedly reduces the convergence of node's representation and the performance degradation in deeper GCN. | 翻訳日:2024-08-07 14:07:58 公開日:2024-08-06 |
# 合成・代表的集団の知恵によるフェイクニュース検出
Fake News Detection via Wisdom of Synthetic & Representative Crowds ( http://arxiv.org/abs/2408.03154v1 ) ライセンス: Link先を確認 | François t'Serstevens, Roberto Cerina, Giulia Piccillo, | (参考訳) ソーシャルメディア企業は「フェイクニュース」の民主的合法的な定義を提供するのに苦労してきた。
専門家の判断への信頼は、一般的な信頼の欠如と政治的偏見によって批判を招いている。
群衆の知恵」に依存するアプローチは、コスト効率が高く、透明で包括的な代替手段である。
本稿では,X 上の偽ニュースを「合成・代表的群集の知恵」を介して検出する,新しいエンドツーエンド手法を提案する。
我々はLucidプラットフォーム上でオンライン調査を実施し、群衆労働者によるパンデミックに関連するツイートの正確性評価を収集した。
MrPの文献から引用すると、我々は階層的ベイズモデルを訓練し、関心の人口から異なる人格の観点から各ツイートの正確性を予測する。
次に,「フェイク」ツイートに関する決定が関心の全体的ポリティを表すように,代表的階層化フレームに従って予測された妥当性評価を重み付けする。
これらのスコアに基づいて、ツイートのコーパスを分析し、第2のMrPを実行し、フェイクニュースを共有する人数の州レベルの推定値を生成する。
米国全州で偽ニュースを共有することで、小さなが統計的に意味のある異質性を見つける。
個々のレベルでは、i。
偽ニュースを共有することは一般的に稀であり、平均的な共有確率間隔[0.07,0.14]; ii。
民主党がフェイクニュースのシェアを減らし、平均的なユーザーに対して[57.3%,3.9%]のシェア確率を減らしているという強い証拠がある。iii.
偽ニュースを共和党が定義する場合、偽ニュースをシェアする機会の減少を示すのは後者である[50.8%, 2.0%]。
偽ニュースが男性より少ないという証拠もある 効果は[29.5%,4.9%]減少する
Social media companies have struggled to provide a democratically legitimate definition of "Fake News". Reliance on expert judgment has attracted criticism due to a general trust deficit and political polarisation. Approaches reliant on the ``wisdom of the crowds'' are a cost-effective, transparent and inclusive alternative. This paper provides a novel end-to-end methodology to detect fake news on X via "wisdom of the synthetic & representative crowds". We deploy an online survey on the Lucid platform to gather veracity assessments for a number of pandemic-related tweets from crowd-workers. Borrowing from the MrP literature, we train a Hierarchical Bayesian model to predict the veracity of each tweet from the perspective of different personae from the population of interest. We then weight the predicted veracity assessments according to a representative stratification frame, such that decisions about ``fake'' tweets are representative of the overall polity of interest. Based on these aggregated scores, we analyse a corpus of tweets and perform a second MrP to generate state-level estimates of the number of people who share fake news. We find small but statistically meaningful heterogeneity in fake news sharing across US states. At the individual-level: i. sharing fake news is generally rare, with an average sharing probability interval [0.07,0.14]; ii. strong evidence that Democrats share less fake news, accounting for a reduction in the sharing odds of [57.3%,3.9%] relative to the average user; iii. when Republican definitions of fake news are used, it is the latter who show a decrease in the propensity to share fake news worth [50.8%, 2.0%]; iv. some evidence that women share less fake news than men, an effect worth a [29.5%,4.9%] decrease. | 翻訳日:2024-08-07 14:07:58 公開日:2024-08-06 |
# 浅拡散モデルの潜時可変最適化による反復CT再構成
Iterative CT Reconstruction via Latent Variable Optimization of Shallow Diffusion Models ( http://arxiv.org/abs/2408.03156v1 ) ライセンス: Link先を確認 | Sho Ozaki, Shizuo Kaji, Toshikazu Imae, Kanabu Nawa, Hideomi Yamashita, Keiichi Nakagawa, | (参考訳) 画像生成AIは近年大きな注目を集めている。
特に、最近の生成AIのコアコンポーネントである拡散モデルは、豊富な多様性を持つ高品質な画像を生成する。
本研究では,拡散確率モデルと反復的CT再構成を組み合わせた新しいCT再構成法を提案する。
従来の研究とは対照的に,画像やモデルパラメータの代わりに拡散モデルの潜在変数に対してCT再構成の忠実度損失を最適化する。
拡散モデルにより生じる解剖学的構造の変化を抑制するため,拡散および逆過程を浅くし,逆過程に付加された雑音の集合を固定し,推論時に決定的となるようにした。
1/10ビュー投影データのスパースCT再構成により,提案手法の有効性を実証する。
実装の単純さにもかかわらず, 提案手法は患者の解剖学的構造を保ちながら高品質な画像の再構成能力を示し, SSIM や PSNR などの定量的指標による反復的再構成, 全変動を伴う反復的再構成, 拡散モデルなど, 既存の手法よりも優れている。
また、同じ訓練された拡散モデルを用いた1/20ビュープロジェクションデータを用いて、よりスパースなCTについても検討する。
反復回数が増えるにつれて、1/10スパースCTの再生に匹敵する画質向上が達成される。
原理として, 提案手法はCTだけでなくMRI, PET, SPECTなどの他の画像モダリティにも広く応用できる。
Image generative AI has garnered significant attention in recent years. In particular, the diffusion model, a core component of recent generative AI, produces high-quality images with rich diversity. In this study, we propose a novel CT reconstruction method by combining the denoising diffusion probabilistic model with iterative CT reconstruction. In sharp contrast to previous studies, we optimize the fidelity loss of CT reconstruction with respect to the latent variable of the diffusion model, instead of the image and model parameters. To suppress anatomical structure changes produced by the diffusion model, we shallow the diffusion and reverse processes, and fix a set of added noises in the reverse process to make it deterministic during inference. We demonstrate the effectiveness of the proposed method through sparse view CT reconstruction of 1/10 view projection data. Despite the simplicity of the implementation, the proposed method shows the capability of reconstructing high-quality images while preserving the patient's anatomical structure, and outperforms existing methods including iterative reconstruction, iterative reconstruction with total variation, and the diffusion model alone in terms of quantitative indices such as SSIM and PSNR. We also explore further sparse view CT using 1/20 view projection data with the same trained diffusion model. As the number of iterations increases, image quality improvement comparable to that of 1/10 sparse view CT reconstruction is achieved. In principle, the proposed method can be widely applied not only to CT but also to other imaging modalities such as MRI, PET, and SPECT. | 翻訳日:2024-08-07 14:07:58 公開日:2024-08-06 |
# 大学・キャンパス・教育機関におけるNarrowband-IoT(NB-IoT)とIoTユースケース:研究分析
Narrowband-IoT (NB-IoT) and IoT Use Cases in Universities, Campuses, and Educational Institutions: A Research Analysis ( http://arxiv.org/abs/2408.03157v1 ) ライセンス: Link先を確認 | Lyberius Ennio F. Taruc, Arvin R. De La Cruz, | (参考訳) 本研究の目的は,大学,キャンパス,教育機関におけるNarrowband-IoTおよびIoTの利用事例を分析することである。
IEEE Xplore, ACM Digital Library, Scopusなどの複数のデータベースを用いて文献レビューを行った。
この研究は、高等教育におけるIoT採用のメリットについて調査している。
教育機関におけるNB-IoTのさまざまなユースケースを分析し,スマートキャンパス管理,資産追跡,監視,安全およびセキュリティシステムについて検討した。
評価された6つのユースケースのうち、3つはIoT Thingsのデプロイに、3つはNB-IoT Connectivityにフォーカスした。
研究論文は、NB-IoT技術は、スマートキャンパス管理から安全・セキュリティシステムの改善に至るまで、教育機関の様々な側面を強化する大きな可能性を秘めていると結論付けている。
この研究は、効率性、セキュリティ、総合的なキャンパス管理を改善するために、教育環境におけるNB-IoT技術のさらなる探索と実装を推奨している。
この研究は、大学や教育機関におけるNB-IoTの潜在的な応用を強調し、この分野における今後の研究の道を開く。
この研究の社会的意味は、学生の総合的な学習体験の向上、キャンパスの安全性の向上、教育環境における技術進歩の促進などである。
キーワード:狭帯域IoT、Internet-of-Things、スマートキャンパス、スマート機関
The main objective of this research paper is to analyze the available use cases of Narrowband-IoT and IoT in universities, campuses, and educational institutions. A literature review was conducted using multiple databases such as IEEE Xplore, ACM Digital Library, and Scopus. The study explores the benefits of IoT adoption in higher education. Various use cases of NB-IoT in educational institutions were analyzed, including smart campus management, asset tracking, monitoring, and safety and security systems. Of the six use cases assessed, three focused on the deployment of IoT Things, while three focused on NB-IoT Connectivity. The research paper concludes that NB-IoT technology has significant potential to enhance various aspects of educational institutions, from smart campus management to improving safety and security systems. The study recommends further exploration and implementation of NB-IoT technology in educational settings to improve efficiency, security, and overall campus management. The research highlights the potential applications of NB-IoT in universities and educational institutions, paving the way for future studies in this area. The social implications of this research could involve enhancing the overall learning experience for students, improving campus safety, and promoting technological advancements in educational settings. Keywords: narrowband-IoT, Internet-of-Things, smart campus, smart institutions | 翻訳日:2024-08-07 14:07:58 公開日:2024-08-06 |
# プロジェクタ拡張波法と平面波基底セットによる電子構造の量子計算
Quantum Computation of Electronic Structure with Projector Augmented-Wave Method and Plane Wave Basis Set ( http://arxiv.org/abs/2408.03159v1 ) ライセンス: Link先を確認 | Aleksei V. Ivanov, Andrew Patterson, Marius Bothe, Christoph Sünderhauf, Bjorn K. Berntson, Jens Jørgen Mortensen, Mikael Kuisma, Earl Campbell, Róbert Izsák, | (参考訳) 物質の量子シミュレーションは量子コンピュータの有望な応用分野である。
この約束を実現するには、結果の精度を維持しながら量子資源を減らす方法を見つける必要がある。
従来のコンピュータ上での電子構造計算では、プロジェクタ拡張波法(PAW)と平面波ベースセットを用いて資源の削減を実現している。
本研究では,エネルギーの量子計算のための平面波を用いたPAWの実装を提案する。
まず、多体波動関数へのアプローチを一般化し、軌道の正則性を保存するPAWのユニタリバージョンを開発する。
次に、原子2体PAW補正を明示的に考慮し、量子位相推定に使用されるハミルトニアンの対応するブロック符号化を提供する。
次に、ダウンサンプリングを用いて結晶性固体の量子資源を推定し、全基底セット限界に対する化学的精度でエネルギーを推定し、欠陥状態の計算により適したスーパーセルアプローチを考える。
本稿では,古典的アルゴリズムの挑戦的なシステムであり,量子点欠陥の研究における重要な問題であるダイヤモンド中の窒素空孔欠陥中心のエネルギー推定のための量子資源について述べる。
Quantum simulation of materials is a promising application area of quantum computers. In order to realize this promise, finding ways to reduce quantum resources while maintaining the accuracy of results will be necessary. In electronic structure calculations on classical computer the reduction of resources has been achieved by using the projector augmented-wave method (PAW) and plane wave basis sets. In this work, we present an implementation of the PAW with plane waves for quantum computation of the energy. We first generalize the approach to many-body wavefunctions and develop the unitary version of the PAW which preserves the orthonormality of orbitals. Then, we provide a linear-combination-of-unitaries decomposition which explicitly accounts for the atomic two-body PAW correction and provide the corresponding block encodings of the Hamiltonian used in qubitized quantum phase estimation. We then estimate quantum resources for crystalline solids using down-sampling to estimate the energy within chemical accuracy with respect to the full basis set limit, and also consider a supercell approach which is more suitable for calculations of defect states. We provide the quantum resources for energy estimation of a nitrogen-vacancy defect centre in diamond which is a challenging system for classical algorithms and a quintessential problem in the studies of quantum point defects. | 翻訳日:2024-08-07 14:07:58 公開日:2024-08-06 |
# Dilated Convolution with Learnable Spacingsは、視覚モデルと人間との整合性を高める:Grad-CAMによる研究
Dilated Convolution with Learnable Spacings makes visual models more aligned with humans: a Grad-CAM study ( http://arxiv.org/abs/2408.03164v1 ) ライセンス: Link先を確認 | Rabih Chamas, Ismail Khalfaoui-Hassani, Timothee Masquelier, | (参考訳) Dilated Convolution with Learnable Spacing (DCLS)は、拡張畳み込みのようなパラメータの数を増やすことなく、通常のグリッドを挿入することなく、受容場(RF)を拡大できる最近の高度な畳み込み手法である。
DCLSは、いくつかのコンピュータビジョンベンチマークにおいて標準および拡張畳み込みよりも優れていることが示されている。
ここでは,DCLSが人間の視覚的戦略との整合性として定義されるモデルの解釈可能性を高めることを示す。
定量化するために、モデルのGradCAMヒートマップと人間の視覚的注意を反映したClickMeデータセットヒートマップとのSpearman相関を用いる。
ResNet50、ConvNeXt (T、S、B)、CAFormer、ConvFormer、FastViT (Sa 24、36)という8つの参照モデルを採用しました。
これにより、7つの解釈可能性スコアが向上した。
さらに我々は,Grad-CAMがCAFormerモデルとConvFormerモデルという2つのモデルに対してランダムなヒートマップを生成することを観察した。
私たちはThreshold-Grad-CAMを導入することでこの問題に対処しました。
この研究を再現するコードとチェックポイントは、https://github.com/rabihchamas/DCLS-GradCAM-Evalで公開されている。
Dilated Convolution with Learnable Spacing (DCLS) is a recent advanced convolution method that allows enlarging the receptive fields (RF) without increasing the number of parameters, like the dilated convolution, yet without imposing a regular grid. DCLS has been shown to outperform the standard and dilated convolutions on several computer vision benchmarks. Here, we show that, in addition, DCLS increases the models' interpretability, defined as the alignment with human visual strategies. To quantify it, we use the Spearman correlation between the models' GradCAM heatmaps and the ClickMe dataset heatmaps, which reflect human visual attention. We took eight reference models - ResNet50, ConvNeXt (T, S and B), CAFormer, ConvFormer, and FastViT (sa 24 and 36) - and drop-in replaced the standard convolution layers with DCLS ones. This improved the interpretability score in seven of them. Moreover, we observed that Grad-CAM generated random heatmaps for two models in our study: CAFormer and ConvFormer models, leading to low interpretability scores. We addressed this issue by introducing Threshold-Grad-CAM, a modification built on top of Grad-CAM that enhanced interpretability across nearly all models. The code and checkpoints to reproduce this study are available at: https://github.com/rabihchamas/DCLS-GradCAM-Eval. | 翻訳日:2024-08-07 14:07:58 公開日:2024-08-06 |
# 飛行訓練:20mW以内のナノドローンを用いたデバイス上での自己教師型学習
Training on the Fly: On-device Self-supervised Learning aboard Nano-drones within 20 mW ( http://arxiv.org/abs/2408.03168v1 ) ライセンス: Link先を確認 | Elia Cereda, Alessandro Giusti, Daniele Palossi, | (参考訳) ナノドローンのような小さな機械学習(TinyML)を利用した小型サイバー物理システム(CPS)は、ますます魅力的な技術になりつつある。
彼らの小さな形状因子(直径10cm)は、狭い災害シナリオの探索から安全な人間とロボットの相互作用まで幅広い適用性を保証する。
単純な電子回路はこれらのCPSを安価にするが、計算、メモリ、センシング資源を著しく制限する。
現実世界のアプリケーションでは、これらの制限はドメインシフトによってさらに悪化する。
この基本的な機械学習問題は、トレーニングドメインから別のデプロイメントドメインに移行すると、モデル知覚のパフォーマンスが低下することを意味する。
この一般的な問題に対処し、緩和するために、ナノドロンの限られた超低消費電力資源にのみ依存する、デバイス上での微調整手法を提案する。
そこで我々は, 自我運動の整合性に基づく自己教師型手法も導入し, 地上訓練ラベルの欠如を克服した。
私たちの仕事は、特定の現実世界の視覚に基づく人間のポーズ推定タスクの上に構築されていますが、多くのTinyMLユースケースに広く適用できます。
超低消費電力のGWT GAP9 System-on-Chipで、メモリは1MBしか必要ありません。
最後に、閉ループCPSをフィールドテストすることで、デバイス上での学習アプローチの利点を実証し、水平位置誤差を最大26%削減することを示した。
これまでにない、最も困難な環境では、デバイス上での学習手順は、ミッションを成功させるか失敗するかを区別します。
Miniaturized cyber-physical systems (CPSes) powered by tiny machine learning (TinyML), such as nano-drones, are becoming an increasingly attractive technology. Their small form factor (i.e., ~10cm diameter) ensures vast applicability, ranging from the exploration of narrow disaster scenarios to safe human-robot interaction. Simple electronics make these CPSes inexpensive, but strongly limit the computational, memory, and sensing resources available on board. In real-world applications, these limitations are further exacerbated by domain shift. This fundamental machine learning problem implies that model perception performance drops when moving from the training domain to a different deployment one. To cope with and mitigate this general problem, we present a novel on-device fine-tuning approach that relies only on the limited ultra-low power resources available aboard nano-drones. Then, to overcome the lack of ground-truth training labels aboard our CPS, we also employ a self-supervised method based on ego-motion consistency. Albeit our work builds on top of a specific real-world vision-based human pose estimation task, it is widely applicable for many embedded TinyML use cases. Our 512-image on-device training procedure is fully deployed aboard an ultra-low power GWT GAP9 System-on-Chip and requires only 1MB of memory while consuming as low as 19mW or running in just 510ms (at 38mW). Finally, we demonstrate the benefits of our on-device learning approach by field-testing our closed-loop CPS, showing a reduction in horizontal position error of up to 26% vs. a non-fine-tuned state-of-the-art baseline. In the most challenging never-seen-before environment, our on-device learning procedure makes the difference between succeeding or failing the mission. | 翻訳日:2024-08-07 13:58:07 公開日:2024-08-06 |
# 低リソーステキスト分類のためのパラメータ有効学習手法の活用:マラタイを事例として
Leveraging Parameter Efficient Training Methods for Low Resource Text Classification: A Case Study in Marathi ( http://arxiv.org/abs/2408.03172v1 ) ライセンス: Link先を確認 | Pranita Deshmukh, Nikita Kulkarni, Sanhita Kulkarni, Kareena Manghani, Raviraj Joshi, | (参考訳) 低リソース言語におけるデジタルコンテンツの増加に伴い、これらの言語に合わせた高度な自然言語処理(NLP)技術への需要が高まっている。
BERT (Bidirectional Encoder Representations from Transformers) は、多くのNLPアーキテクチャや言語モデルの基盤となるフレームワークであり、低リソースのNLPモデルの開発に利用されている。
パラメータ・エフェクト・ファイン・チューニング(PEFT)は、大規模言語モデル(LLM)を微調整し、モデルの訓練に必要な計算コストを減らし、完全に微調整されたモデルに匹敵する結果を得るための訓練パラメータをある程度削減する手法である。
本稿では,Indicの低リソース言語であるMarathiのPEFT手法について述べる。
各種単言語および多言語Marathi BERTモデルに適用したPEFT手法の包括的解析を行う。
これらのアプローチは、MahaSent、MahaHate、MahaNewsといった著名なテキスト分類データセットに基づいて評価される。
PEFT技術の導入により、モデルのトレーニング速度が大幅に向上し、モデル開発とデプロイメントの重要な側面に対処することが示されている。
本研究では,Low-Rank Adaptation of Large Language Models (LoRA)とAdapter Method for Low-Resource Text Classificationについて検討する。
これらの手法は完全微調整と競合し,精度を損なうことなく使用できることを示す。
本研究は,Marathi BERT モデルの有効性に関する貴重な知見を提供し,Marathi と類似の Indic 言語における NLP 能力の継続的な発展の基盤を提供する。
With the surge in digital content in low-resource languages, there is an escalating demand for advanced Natural Language Processing (NLP) techniques tailored to these languages. BERT (Bidirectional Encoder Representations from Transformers), serving as the foundational framework for numerous NLP architectures and language models, is increasingly employed for the development of low-resource NLP models. Parameter Efficient Fine-Tuning (PEFT) is a method for fine-tuning Large Language Models (LLMs) and reducing the training parameters to some extent to decrease the computational costs needed for training the model and achieve results comparable to a fully fine-tuned model. In this work, we present a study of PEFT methods for the Indic low-resource language Marathi. We conduct a comprehensive analysis of PEFT methods applied to various monolingual and multilingual Marathi BERT models. These approaches are evaluated on prominent text classification datasets like MahaSent, MahaHate, and MahaNews. The incorporation of PEFT techniques is demonstrated to significantly expedite the training speed of the models, addressing a critical aspect of model development and deployment. In this study, we explore Low-Rank Adaptation of Large Language Models (LoRA) and adapter methods for low-resource text classification. We show that these methods are competitive with full fine-tuning and can be used without loss in accuracy. This study contributes valuable insights into the effectiveness of Marathi BERT models, offering a foundation for the continued advancement of NLP capabilities in Marathi and similar Indic languages. | 翻訳日:2024-08-07 13:58:07 公開日:2024-08-06 |
# 超断熱的ランダウ・ツェナー転移
Superadiabatic Landau-Zener transitions ( http://arxiv.org/abs/2408.03173v1 ) ライセンス: Link先を確認 | Jonas R. F. Lima, Guido Burkard, | (参考訳) 時依存エネルギー準位を持つ二状態系の遷移力学は、最初はランドー、ゼナー、マヨラナ、セント・バックルバーグによって検討され、量子物理学の基本モデルの一つであり、様々な物理系を記述するために用いられてきた。
ここでは、Landau-Zener問題(LZ)の一般化について、LZモデルのように瞬時固有状態が時間とともに進化するのを特徴とし、瞬時固有状態は標準LZモデルと同様に保たれている。
これらの経路は、2つの状態間の遷移確率$P$において重要な役割を担い、超断熱遷移、すなわち、実質的な$P$の減少につながることが示される。
教育的な極端な場合として、系が時間内でどれだけの速さで進化しても、反交差点における2つのレベル間のエネルギーギャップによらず、無条件のアディバティックな体制を$P=0$で特定する。
一方、大きな$P$は反交差点がなくても発生する。
これらの現象は、ブロッホ球上の瞬時固有ベクトルの回転を観察することによって説明できる。
超断熱LZモデルは、半導体量子ドットにおける電荷およびスピンシャットリング中の谷転移ダイナミクスを記述することができる。
The transition dynamics of two-state systems with time-dependent energy levels, first considered by Landau, Zener, Majorana, and St\"uckelberg, is one of the basic models in quantum physics and has been used to describe various physical systems. We propose here a generalization of the Landau-Zener (LZ) problem characterized by distinct paths of the instantaneous eigenstates as the system evolves in time, while keeping the instantaneous eigenenergies exactly as in the standard LZ model. We show that these paths play an essential role in the transition probability $P$ between the two states, and can lead to superadiabatic transitions, i.e., to a substantial reduction of $P$. As an instructive extreme case, we identify an unconditionally adiabatic regime with $P=0$ no matter how fast the system evolves in time and regardless of the energy gap between the two levels at the anticrossing point. On the other hand, large $P$ occur even in the absence of any anticrossing point. These phenomena can be explained by observing the rotation of the instantaneous eigenvectors on the Bloch sphere. The superadiabatic LZ model can describe valley transition dynamics during charge and spin shuttling in semiconductor quantum dots. | 翻訳日:2024-08-07 13:58:07 公開日:2024-08-06 |
# 線形量子系の極と零について
On Poles and Zeros of Linear Quantum Systems ( http://arxiv.org/abs/2408.03177v1 ) ライセンス: Link先を確認 | Zhiyuan Dong, Guofeng Zhang, Heung-wing Joseph Lee, | (参考訳) 量子力学の非可換性は系の力学に基本的な制約を課し、線形領域では系の行列上の物理的実現可能性条件によって表される。
これらの制限により、特別な構造を持つ系行列が与えられる。
本研究の目的は、線形量子系の零点とポーズを調べることによってそのような構造を研究することである。
特に、$-s_0^\ast$ が伝送零点であることと、$s_0$ が極であることと、システムの固有値と不変零点の関係にさらに一般化されることが示される。
さらに、線形量子系に対する左可逆性と基本的トレードオフを、その零点と極の観点から検討する。
The non-commutative nature of quantum mechanics imposes fundamental constraints on system dynamics, which in the linear realm are manifested by the physical realizability conditions on system matrices. These restrictions endow system matrices with special structure. The purpose of this paper is to study such structure by investigating zeros and poses of linear quantum systems. In particular, we show that $-s_0^\ast$ is a transmission zero if and only if $s_0$ is a pole, and which is further generalized to the relationship between system eigenvalues and invariant zeros. Additionally, we study left-invertibility and fundamental tradeoff for linear quantum systems in terms of their zeros and poles. | 翻訳日:2024-08-07 13:58:07 公開日:2024-08-06 |
# オブジェクトは64x64の価値がある:画像拡散による3Dオブジェクトの生成
An Object is Worth 64x64 Pixels: Generating 3D Object via Image Diffusion ( http://arxiv.org/abs/2408.03178v1 ) ライセンス: Link先を確認 | Xingguang Yan, Han-Hung Lee, Ziyu Wan, Angel X. Chang, | (参考訳) 対象画像」という表現を通して,UVマップを用いた現実的な3次元モデルを生成する新しい手法を提案する。
このアプローチは、64x64ピクセル画像内の表面形状、外観、パッチ構造をカプセル化し、複雑な3D形状をより管理可能な2Dフォーマットに変換する。
これにより、多角形メッシュに固有の幾何学的および意味的不規則性の課題に対処する。
本手法では,Diffusion Transformers などの画像生成モデルを直接3次元形状生成に利用することができる。
パッチ構造を持つ我々の生成した形状は,最近の3次元生成モデルに匹敵する点雲FIDを実現し,PBR材料生成を自然にサポートする。
We introduce a new approach for generating realistic 3D models with UV maps through a representation termed "Object Images." This approach encapsulates surface geometry, appearance, and patch structures within a 64x64 pixel image, effectively converting complex 3D shapes into a more manageable 2D format. By doing so, we address the challenges of both geometric and semantic irregularity inherent in polygonal meshes. This method allows us to use image generation models, such as Diffusion Transformers, directly for 3D shape generation. Evaluated on the ABO dataset, our generated shapes with patch structures achieve point cloud FID comparable to recent 3D generative models, while naturally supporting PBR material generation. | 翻訳日:2024-08-07 13:58:07 公開日:2024-08-06 |
# MaskAnyone Toolkit: プライバシリスクの最小化とオーディオ・ビジュアルデータアーカイブにおけるユーザビリティの最大化のための戦略
MaskAnyone Toolkit: Offering Strategies for Minimizing Privacy Risks and Maximizing Utility in Audio-Visual Data Archiving ( http://arxiv.org/abs/2408.03185v1 ) ライセンス: Link先を確認 | Babajide Alamu Owoyele, Martin Schilling, Rohan Sawahn, Niklas Kaemer, Pavel Zherebenkov, Bhuvanesh Verma, Wim Pouw, Gerard de Melo, | (参考訳) 本稿では,研究における音声・視覚データの共有に関するプライバシーと倫理的懸念をナビゲートする新しいツールキットであるMaskAnyoneを紹介する。
MaskAnyoneは、顔のスワッピングと音声の変更によって、ビデオやオーディオコンテンツ中の個人を識別するためのスケーラブルでユーザフレンドリーなソリューションを提供する。
このツールを研究実践に統合することにより、社会科学研究におけるデータの再現性と有用性を高めることを目指す。
われわれのアプローチはDesign Science Researchに基づいており、MaskAnyoneがより安全なデータ共有を容易にし、完全に識別可能なデータの保存を減らせることを提案している。
我々は、MaskAnyoneの開発と能力について論じ、倫理研究の実践への統合を探求し、同意の問題や誤用リスクを含む、音声・視覚データマスキングの幅広い意味について考察する。
本稿は,このような研究環境におけるマスキングツールの有効性と倫理的統合を評価するための予備的評価枠組みで締めくくっている。
This paper introduces MaskAnyone, a novel toolkit designed to navigate some privacy and ethical concerns of sharing audio-visual data in research. MaskAnyone offers a scalable, user-friendly solution for de-identifying individuals in video and audio content through face-swapping and voice alteration, supporting multi-person masking and real-time bulk processing. By integrating this tool within research practices, we aim to enhance data reproducibility and utility in social science research. Our approach draws on Design Science Research, proposing that MaskAnyone can facilitate safer data sharing and potentially reduce the storage of fully identifiable data. We discuss the development and capabilities of MaskAnyone, explore its integration into ethical research practices, and consider the broader implications of audio-visual data masking, including issues of consent and the risk of misuse. The paper concludes with a preliminary evaluation framework for assessing the effectiveness and ethical integration of masking tools in such research settings. | 翻訳日:2024-08-07 13:58:07 公開日:2024-08-06 |
# 効率的なNeRF最適化 - すべてのサンプルが等しく硬く残っていない
Efficient NeRF Optimization -- Not All Samples Remain Equally Hard ( http://arxiv.org/abs/2408.03193v1 ) ライセンス: Link先を確認 | Juuso Korhonen, Goutham Rangu, Hamed R. Tavakoli, Juho Kannala, | (参考訳) ニューラルレージアンスフィールド(NeRF)の効率的なトレーニングのためのオンラインハードサンプルマイニングの応用を提案する。
NeRFモデルは、多くの3D再構成およびレンダリングタスクに対して最先端の品質を生み出すが、かなりの計算資源を必要とする。
NeRFネットワークパラメータ内のシーン情報の符号化は確率的サンプリングを必要とする。
トレーニング中、計算時間とメモリ使用量の大部分は、既に学習済みのサンプルの処理に費やされている。
確率的サンプルの後方通過を最適化時の計算ボトルネックとして同定する。
そこで我々は,ハードサンプルの比較的低コスト検索として,最初のフォワードパス推論モードを実行する。
その後、計算グラフを構築し、ハードサンプルのみを使用してNeRFネットワークパラメータを更新する。
提案手法の有効性を示すため,本手法をInstant-NGPに適用し,ベースラインに対する視線合成品質(トレーニング時間あたりの平均1dB改善,PSNRの2倍高速化)を近似とともに向上させた。
ハードサンプルのみを使用して計算グラフを構築することで、40%のメモリ節約が可能になった。
提案手法はネットワークモジュールとのインタフェースのみであるため,広く適用できると期待している。
We propose an application of online hard sample mining for efficient training of Neural Radiance Fields (NeRF). NeRF models produce state-of-the-art quality for many 3D reconstruction and rendering tasks but require substantial computational resources. The encoding of the scene information within the NeRF network parameters necessitates stochastic sampling. We observe that during the training, a major part of the compute time and memory usage is spent on processing already learnt samples, which no longer affect the model update significantly. We identify the backward pass on the stochastic samples as the computational bottleneck during the optimization. We thus perform the first forward pass in inference mode as a relatively low-cost search for hard samples. This is followed by building the computational graph and updating the NeRF network parameters using only the hard samples. To demonstrate the effectiveness of the proposed approach, we apply our method to Instant-NGP, resulting in significant improvements of the view-synthesis quality over the baseline (1 dB improvement on average per training time, or 2x speedup to reach the same PSNR level) along with approx. 40% memory savings coming from using only the hard samples to build the computational graph. As our method only interfaces with the network module, we expect it to be widely applicable. | 翻訳日:2024-08-07 13:58:07 公開日:2024-08-06 |
# SGSR:時空間共問い合わせによる構造誘導型マルチコントラストMRI超解像
SGSR: Structure-Guided Multi-Contrast MRI Super-Resolution via Spatio-Frequency Co-Query Attention ( http://arxiv.org/abs/2408.03194v1 ) ライセンス: Link先を確認 | Shaoming Zheng, Yinsong Wang, Siyi Du, Chen Qin, | (参考訳) MRI(Magnetic Resonance Imaging)は、様々な組織を特徴付けるために複数のコントラスト画像が取得される幅広い試験において、主要な診断モダリティである。
しかし、高分解能MRIの取得は通常、スキャン時間を拡張し、モーションアーティファクトを導入することができる。
したがって、MRIの超解像はこれらの課題を軽減するための有望なアプローチとして現れる。
初期の研究では、MRI超解像(MCSR)に多重コントラストを用いることが研究されているが、その大半は、リッチコントラスト不変構造情報を完全に活用していない。
マルチコントラストMRIにおけるそのような重要な事前知識をフル活用するために,我々は,新しい周波数コクエリ・アテンション(CQA)機構に基づく構造誘導MCSR(SGSR)フレームワークを提案する。
特に、CQAは、共通構造を異なるコントラストから抽出し、融合し、洗練するように設計された共有構造クエリと、複数のコントラストの特徴に注意を払っている。
さらに、より微細な構造改善を実現するために、空間領域に加え、新しい周波数領域CQAモジュールを提案する。
高速MRI膝データと低磁場脳MRIの大規模な実験により、SGSRは統計的に有意な最先端のMCSR法より優れていることが示された。
Magnetic Resonance Imaging (MRI) is a leading diagnostic modality for a wide range of exams, where multiple contrast images are often acquired for characterizing different tissues. However, acquiring high-resolution MRI typically extends scan time, which can introduce motion artifacts. Super-resolution of MRI therefore emerges as a promising approach to mitigate these challenges. Earlier studies have investigated the use of multiple contrasts for MRI super-resolution (MCSR), whereas majority of them did not fully exploit the rich contrast-invariant structural information. To fully utilize such crucial prior knowledge of multi-contrast MRI, in this work, we propose a novel structure-guided MCSR (SGSR) framework based on a new spatio-frequency co-query attention (CQA) mechanism. Specifically, CQA performs attention on features of multiple contrasts with a shared structural query, which is particularly designed to extract, fuse, and refine the common structures from different contrasts. We further propose a novel frequency-domain CQA module in addition to the spatial domain, to enable more fine-grained structural refinement. Extensive experiments on fastMRI knee data and low-field brain MRI show that SGSR outperforms state-of-the-art MCSR methods with statistical significance. | 翻訳日:2024-08-07 13:58:07 公開日:2024-08-06 |
# RELIEF: 強化学習を活用したグラフ機能プロンプトチューニング
RELIEF: Reinforcement Learning Empowered Graph Feature Prompt Tuning ( http://arxiv.org/abs/2408.03195v1 ) ライセンス: Link先を確認 | Jiapeng Zhu, Zichen Ding, Jianxiang Yu, Jiaqi Tan, Xiang Li, Weining Qian, | (参考訳) プレトレイン・プロンプト(pre-train, prompt)パラダイムの出現は、自然言語処理(NLP)の成果に続き、その一般化能力とデータ効率をグラフ表現学習に拡張した。
最初のグラフプロンプトチューニングアプローチは、エッジ予測などの特定の戦略で事前訓練されたグラフニューラルネットワーク(GNN)モデルの特殊プロンプト関数を調整し、適用性を制限する。
対照的に、別の先駆的な研究は、入力グラフの特徴空間にプロンプトを追加することで普遍的なプロンプトを探求し、それによって特定の事前学習戦略への依存を排除している。
しかしながら、すべてのノードに機能プロンプトを追加する必要性は、依然としてオープンな疑問である。
所望の動作を達成するために,高能率事前学習モデルでは条件付けの信号が少ないことを示唆するNLP領域の即時チューニング研究から得られた知見から,我々は,ダウンストリームタスク性能を向上させるために,必要かつ軽量な機能プロンプトを特定のグラフノードに戦略的に組み込むことを提唱する。
これは組合せ最適化の問題を導入し、政策を決定する必要がある。
1)どのノードをプロンプトし、どのノードをプロンプトするか
2) 特定のフィーチャがアタッチするように促すもの。
次に,提案手法であるRELIEFを提案し,その最適化に強化学習(Reinforcement Learning, RL)を採用している。
各ステップにおいて、RLエージェントは、ノード(離散アクション)を選択して、累積性能ゲインを最大化することを目的とした、プロンプト内容(連続アクション)を決定する。
我々のRELIEFは、分類性能とデータ効率において、微調整やその他のプロンプトベースのアプローチよりも優れていることを示す。
The advent of the "pre-train, prompt" paradigm has recently extended its generalization ability and data efficiency to graph representation learning, following its achievements in Natural Language Processing (NLP). Initial graph prompt tuning approaches tailored specialized prompting functions for Graph Neural Network (GNN) models pre-trained with specific strategies, such as edge prediction, thus limiting their applicability. In contrast, another pioneering line of research has explored universal prompting via adding prompts to the input graph's feature space, thereby removing the reliance on specific pre-training strategies. However, the necessity to add feature prompts to all nodes remains an open question. Motivated by findings from prompt tuning research in the NLP domain, which suggest that highly capable pre-trained models need less conditioning signal to achieve desired behaviors, we advocate for strategically incorporating necessary and lightweight feature prompts to certain graph nodes to enhance downstream task performance. This introduces a combinatorial optimization problem, requiring a policy to decide 1) which nodes to prompt and 2) what specific feature prompts to attach. We then address the problem by framing the prompt incorporation process as a sequential decision-making problem and propose our method, RELIEF, which employs Reinforcement Learning (RL) to optimize it. At each step, the RL agent selects a node (discrete action) and determines the prompt content (continuous action), aiming to maximize cumulative performance gain. Extensive experiments on graph and node-level tasks with various pre-training strategies in few-shot scenarios demonstrate that our RELIEF outperforms fine-tuning and other prompt-based approaches in classification performance and data efficiency. | 翻訳日:2024-08-07 13:58:07 公開日:2024-08-06 |
# 過度パラメータ化モデルの確率線形探索に基づく最適化のための収束条件
Convergence Conditions for Stochastic Line Search Based Optimization of Over-parametrized Models ( http://arxiv.org/abs/2408.03199v1 ) ライセンス: Link先を確認 | Matteo Lapucci, Davide Pucci, | (参考訳) 本稿では,一般に補間条件を満たす過度パラメトリケートモデルに適合する有限サム問題を解くアルゴリズムを扱う。
特に,確率線探索に基づくアプローチに着目し,一般的な探索方向を用いる。
バックトラック手順の有限終端と境界を保証する探索方向列の条件を定義する。
さらに、補間系におけるPL関数に適用した場合、一般のアルゴリズムの高速(線形)収束を証明するために必要となる方向の付加性について光を当てた。
アルゴリズム設計の観点から、提案した分析は、関連するアルゴリズムフレームワークで使用可能な保護条件を特定する。
特に、運動量、共役勾配、適応プレコンディショニング手法に確率線探索を統合することには興味があるかもしれない。
In this paper, we deal with algorithms to solve the finite-sum problems related to fitting over-parametrized models, that typically satisfy the interpolation condition. In particular, we focus on approaches based on stochastic line searches and employing general search directions. We define conditions on the sequence of search directions that guarantee finite termination and bounds for the backtracking procedure. Moreover, we shed light on the additional property of directions needed to prove fast (linear) convergence of the general class of algorithms when applied to PL functions in the interpolation regime. From the point of view of algorithms design, the proposed analysis identifies safeguarding conditions that could be employed in relevant algorithmic framework. In particular, it could be of interest to integrate stochastic line searches within momentum, conjugate gradient or adaptive preconditioning methods. | 翻訳日:2024-08-07 13:58:07 公開日:2024-08-06 |
# ナチュラル・ヒューマン・ドライビング・プライオリティを用いた対人安全批判シナリオ生成
Adversarial Safety-Critical Scenario Generation using Naturalistic Human Driving Priors ( http://arxiv.org/abs/2408.03200v1 ) ライセンス: Link先を確認 | Kunkun Hao, Yonggang Luo, Wen Cui, Yuqiao Bai, Jucheng Yang, Songyang Yan, Yuxi Pan, Zijiang Yang, | (参考訳) 自動運転車の開発には意思決定システムの評価が不可欠であり、現実的で挑戦的な安全クリティカルなテストシナリオが重要な役割を果たす。
これらのシナリオの達成は、現実世界のデータセットにおける長い尾の分布、空間性、希少性のおかげで、簡単ではない。
この問題に対処するために,本論文では,自然主義的人間運転先行と強化学習技術を用いた自然な逆シナリオ生成ソリューションを提案する。
これを行うことで、多様かつ現実的な大規模なテストシナリオが得られます。
具体的には、自然の交通相互作用のシナリオを模倣するシミュレーション環境を構築する。
この環境により、我々は2段階の手順を実装した。
第1段階では、従来のルールベースのモデル、例えば、IMM~(Intelligent Driver Model)、MOBIL~(Lane Changeによって誘導される総合ブレーキの最小化)モデルを導入し、現実世界のデータセットからキー制御パラメータを粗く、離散的にキャプチャし、校正する。
次に、GAIL~(Generative Adversarial Imitation Learning)を利用して、ドライバーの動作を継続的に表現する。
GAILは、PPO~(Proximal Policy Optimization)ベースのアクタークリティカルネットワークフレームワークを設計し、報酬関数を微調整し、自然なシナリオ生成ソリューションを最適化する。
NGSIMデータセットでは3,000台の車両の軌道を含む大規模な実験が行われた。
交通パラメータは, ベースラインモデル, 衝突速度, 加速度, ステアリング, レーン数と比較した。
提案モデルにより, 自然性と逆性の両方をカバーする現実的な安全クリティカルなテストシナリオが生成できることが, 自動運転車開発の基礎となることを実証した。
Evaluating the decision-making system is indispensable in developing autonomous vehicles, while realistic and challenging safety-critical test scenarios play a crucial role. Obtaining these scenarios is non-trivial, thanks to the long-tailed distribution, sparsity, and rarity in real-world data sets. To tackle this problem, in this paper, we introduce a natural adversarial scenario generation solution using naturalistic human driving priors and reinforcement learning techniques. By doing this, we can obtain large-scale test scenarios that are both diverse and realistic. Specifically, we build a simulation environment that mimics natural traffic interaction scenarios. Informed by this environment, we implement a two-stage procedure. The first stage incorporates conventional rule-based models, e.g., IDM~(Intelligent Driver Model) and MOBIL~(Minimizing Overall Braking Induced by Lane changes) model, to coarsely and discretely capture and calibrate key control parameters from the real-world dataset. Next, we leverage GAIL~(Generative Adversarial Imitation Learning) to represent driver behaviors continuously. The derived GAIL can be further used to design a PPO~(Proximal Policy Optimization)-based actor-critic network framework to fine-tune the reward function, and then optimizes our natural adversarial scenario generation solution. Extensive experiments have been conducted in the NGSIM dataset including the trajectory of 3,000 vehicles. Essential traffic parameters were measured in comparison with the baseline model, e.g., the collision rate, accelerations, steering, and the number of lane changes. Our findings demonstrate that the proposed model can generate realistic safety-critical test scenarios covering both naturalness and adversariality, which can be a cornerstone for the development of autonomous vehicles. | 翻訳日:2024-08-07 13:58:07 公開日:2024-08-06 |
# マルチラベルテキスト分類のための難易度近傍近傍フレームワーク
A Debiased Nearest Neighbors Framework for Multi-Label Text Classification ( http://arxiv.org/abs/2408.03202v1 ) ライセンス: Link先を確認 | Zifeng Cheng, Zhiwei Jiang, Yafeng Yin, Zhaoling Chen, Cong Wang, Shiping Ge, Qiguo Huang, Qing Gu, | (参考訳) MLTC(Multi-Label Text Classification)は、文書ごとに複数の非排他的ラベルを割り当てる作業である。
これまでの研究は主にラベルの相関を捉え、ラベルの予測を支援するために特別なラベル付け手法を導入したり、特定のモデル構造を設計したり、補助的なタスクを追加したりしていた。
最近、$k$Nearest Neighbor(k$NN)フレームワークは、埋め込みスペースにおけるマイニングラベルの共起情報を参照してラベル付きサンプルを取得することで、約束を示している。
しかし、2つの重要なバイアス、すなわち埋め込みアライメントバイアスと信頼推定バイアスは、しばしば見過ごされ、予測性能に悪影響を及ぼす。
本稿では、これらのバイアスを軽減するために特別に設計されたMLTCのためのDebiased Nearest Neighbors(DENN)フレームワークを紹介する。
組込みアライメントバイアスに対処するために,ラベル共起における近傍の一貫性を向上する,非バイアス付きコントラスト学習戦略を提案する。
信頼度推定バイアスには,$k$NNの予測と帰納的二分分類の適応的組み合わせを改善し,偏りのある信頼度推定戦略を提案する。
4つの公開ベンチマークデータセット(AAPD, RCV1-V2, Amazon-531, EUR-LEX57K)で実施された大規模な実験により,提案手法の有効性が示された。
また,本手法では余分なパラメータは導入しない。
Multi-Label Text Classification (MLTC) is a practical yet challenging task that involves assigning multiple non-exclusive labels to each document. Previous studies primarily focus on capturing label correlations to assist label prediction by introducing special labeling schemes, designing specific model structures, or adding auxiliary tasks. Recently, the $k$ Nearest Neighbor ($k$NN) framework has shown promise by retrieving labeled samples as references to mine label co-occurrence information in the embedding space. However, two critical biases, namely embedding alignment bias and confidence estimation bias, are often overlooked, adversely affecting prediction performance. In this paper, we introduce a DEbiased Nearest Neighbors (DENN) framework for MLTC, specifically designed to mitigate these biases. To address embedding alignment bias, we propose a debiased contrastive learning strategy, enhancing neighbor consistency on label co-occurrence. For confidence estimation bias, we present a debiased confidence estimation strategy, improving the adaptive combination of predictions from $k$NN and inductive binary classifications. Extensive experiments conducted on four public benchmark datasets (i.e., AAPD, RCV1-V2, Amazon-531, and EUR-LEX57K) showcase the effectiveness of our proposed method. Besides, our method does not introduce any extra parameters. | 翻訳日:2024-08-07 13:58:07 公開日:2024-08-06 |
# ロボット手術における視覚的トランジット前駆体を用いたFederated Instrument Segmentationのパーソナライズ
Personalizing Federated Instrument Segmentation with Visual Trait Priors in Robotic Surgery ( http://arxiv.org/abs/2408.03208v1 ) ライセンス: Link先を確認 | Jialang Xu, Jiacheng Wang, Lequan Yu, Danail Stoyanov, Yueming Jin, Evangelos B. Mazomenos, | (参考訳) 手術器具分割のためのPFL(Personalized Federated Learning)は有望なアプローチである。
複数の臨床サイトが、各サイトの個々の配布に合わせて、プライバシーに関する一連のモデルを協調的にトレーニングすることができる。
既存のPFL法では、多面的自己意識のパーソナライゼーションはまれであり、外観の多様性や楽器形状の類似性は考慮されていない。
そこで我々は,PFedSISを提案する。PFedSISは,PFedSISの視覚的特徴を持つ新しいPFL手法であり,GPD(Global-personalized disentanglement),外観制御パーソナライズドエンハンスメント(APE),形状相似グローバルエンハンスメント(Shape-similarity Global Entensment,SGE)を導入し,各サイトにおけるSISパフォーマンスを向上する。
GPDは、多面的自己意識のパーソナライゼーションのための頭部的割り当ての最初の試みである。
各サイトのユニークな外観表現を保存し、サイト間の差異を徐々に活用するために、APEは外観規則を導入し、各サイトのパーソナライズされたパラメータに対してハイパーネットワークを介して、カスタマイズされたレイヤワイズアグリゲーションソリューションを提供する。
機器の相互形状情報は、画像レベルでのクロススタイルな形状整合性を高め、グローバルパラメータを更新するための予測レベルにおける各部位の形状相似寄与を計算するSGEを介して維持共有される。
PFedSIS は 1.51% Dice, +2.11% IoU, -2.79 ASSD, -15.55 HD95 で最先端の手法より優れている。
対応するコードとモデルはhttps://github.com/wzjialang/PFedSISでリリースされる。
Personalized federated learning (PFL) for surgical instrument segmentation (SIS) is a promising approach. It enables multiple clinical sites to collaboratively train a series of models in privacy, with each model tailored to the individual distribution of each site. Existing PFL methods rarely consider the personalization of multi-headed self-attention, and do not account for appearance diversity and instrument shape similarity, both inherent in surgical scenes. We thus propose PFedSIS, a novel PFL method with visual trait priors for SIS, incorporating global-personalized disentanglement (GPD), appearance-regulation personalized enhancement (APE), and shape-similarity global enhancement (SGE), to boost SIS performance in each site. GPD represents the first attempt at head-wise assignment for multi-headed self-attention personalization. To preserve the unique appearance representation of each site and gradually leverage the inter-site difference, APE introduces appearance regulation and provides customized layer-wise aggregation solutions via hypernetworks for each site's personalized parameters. The mutual shape information of instruments is maintained and shared via SGE, which enhances the cross-style shape consistency on the image level and computes the shape-similarity contribution of each site on the prediction level for updating the global parameters. PFedSIS outperforms state-of-the-art methods with +1.51% Dice, +2.11% IoU, -2.79 ASSD, -15.55 HD95 performance gains. The corresponding code and models will be released at https://github.com/wzjialang/PFedSIS. | 翻訳日:2024-08-07 13:58:07 公開日:2024-08-06 |
# IPAdapter-Instruct:Instruct Promptsを用いた画像ベースコンディショニングにおける曖昧性の解消
IPAdapter-Instruct: Resolving Ambiguity in Image-based Conditioning using Instruct Prompts ( http://arxiv.org/abs/2408.03209v1 ) ライセンス: Link先を確認 | Ciara Rowles, Shimon Vainer, Dante De Nigris, Slava Elizarov, Konstantin Kutsy, Simon Donné, | (参考訳) 拡散モデルは、常に最先端の画像生成の境界を押し上げるが、その過程はいかなるニュアンスでも制御することは困難である。
ControlNetとIPAdapterは、画像に生成プロセスを条件付けすることでこの欠点に対処するが、個々のインスタンスは単一の条件付き後部モデリングに限られる。
IPAdapter-Instructは、自然像条件と ``Instruct'' プロンプトを組み合わせることで、同じ条件画像の解釈(スタイル転送、オブジェクト抽出、両方、あるいは他のもの)を交換する。
IPAdapterInstructは、タスクごとの専用モデルと比較して、品質が最小限に抑えられた複数のタスクを効率的に学習する。
Diffusion models continuously push the boundary of state-of-the-art image generation, but the process is hard to control with any nuance: practice proves that textual prompts are inadequate for accurately describing image style or fine structural details (such as faces). ControlNet and IPAdapter address this shortcoming by conditioning the generative process on imagery instead, but each individual instance is limited to modeling a single conditional posterior: for practical use-cases, where multiple different posteriors are desired within the same workflow, training and using multiple adapters is cumbersome. We propose IPAdapter-Instruct, which combines natural-image conditioning with ``Instruct'' prompts to swap between interpretations for the same conditioning image: style transfer, object extraction, both, or something else still? IPAdapterInstruct efficiently learns multiple tasks with minimal loss in quality compared to dedicated per-task models. | 翻訳日:2024-08-07 13:58:07 公開日:2024-08-06 |
# FedBAT: 学習可能なバイナリ化によるコミュニケーション効率の高いフェデレーションラーニング
FedBAT: Communication-Efficient Federated Learning via Learnable Binarization ( http://arxiv.org/abs/2408.03215v1 ) ライセンス: Link先を確認 | Shiwei Li, Wenchao Xu, Haozhao Wang, Xing Tang, Yining Qi, Shijie Xu, Weihong Luo, Yuhua Li, Xiuqiang He, Ruixuan Li, | (参考訳) フェデレーション学習は、ユーザのプライバシを公開することなく、大規模データを効果的に活用できる、有望な分散機械学習パラダイムである。
しかし、通信オーバーヘッドが大きくなり、訓練効率が低下する可能性がある。
この課題に対処するために、多くの研究がモデルの更新をバイナライズすることを推奨している。
それにもかかわらず、伝統的な手法は通常、モデルの更新を訓練後の方法で二項化し、かなりの近似誤差とモデル精度の連続的な劣化をもたらす。
この目的のために,FedBAT(Federated Binarization-Aware Training)を提案する。FedBATは,局所的なトレーニングプロセス中にバイナリモデルの更新を直接学習する新しいフレームワークで,近似誤差を本質的に低減する。
FedBATは革新的二項化演算子と巧妙に設計された導関数を組み込み、効率的な学習を容易にする。
また、FedBATの収束に関する理論的保証を確立する。
大規模な実験は4つの一般的なデータセットで行われている。
その結果,FedBATは収束を著しく加速し,ベースラインの精度を最大9倍にし,FedAvgを超越するケースもあることがわかった。
Federated learning is a promising distributed machine learning paradigm that can effectively exploit large-scale data without exposing users' privacy. However, it may incur significant communication overhead, thereby potentially impairing the training efficiency. To address this challenge, numerous studies suggest binarizing the model updates. Nonetheless, traditional methods usually binarize model updates in a post-training manner, resulting in significant approximation errors and consequent degradation in model accuracy. To this end, we propose Federated Binarization-Aware Training (FedBAT), a novel framework that directly learns binary model updates during the local training process, thus inherently reducing the approximation errors. FedBAT incorporates an innovative binarization operator, along with meticulously designed derivatives to facilitate efficient learning. In addition, we establish theoretical guarantees regarding the convergence of FedBAT. Extensive experiments are conducted on four popular datasets. The results show that FedBAT significantly accelerates the convergence and exceeds the accuracy of baselines by up to 9\%, even surpassing that of FedAvg in some cases. | 翻訳日:2024-08-07 13:58:07 公開日:2024-08-06 |
# 注意を使わずに学ぶこと
Learning to Learn without Forgetting using Attention ( http://arxiv.org/abs/2408.03219v1 ) ライセンス: Link先を確認 | Anna Vettoruzzo, Joaquin Vanschoren, Mohamed-Rafik Bouguelia, Thorsteinn Rögnvaldsson, | (参考訳) 継続学習(きゅうがく、Continuous Learning, CL)とは、学習経験を維持しつつ、新たな知識を付加することで、時間とともに継続的に学習する能力である。
この概念は人間の学習に固有のものだが、現在の機械学習手法は、以前に学んだパターンを上書きし、過去の経験を忘れやすい。
その代わり、モデルパラメータを選択的に慎重に更新し、不要な忘れを回避しつつ、学習済みのパターンを最適活用して将来の学習を加速する。
手作りの効果的な更新機構は難しいため,変圧器をベースとした最適化手法のメタラーニングを提案する。
このメタ学習オプティマイザは、タスクのストリーム全体にわたるモデルパラメータ間の複雑な関係を学習するために注意を払っており、これまで遭遇したタスクの破滅的な忘れを防ぎながら、現在のタスクに対して効果的な重み更新を生成するように設計されている。
SplitMNIST、RotatedMNIST、SplitCIFAR-100といったベンチマークデータセットの評価では、ラベル付きデータの小さなセットであっても、前と後の両方で提案されたアプローチの有効性を確認し、継続学習フレームワークにメタ学習オプティマイザを統合するというメリットを強調している。
Continual learning (CL) refers to the ability to continually learn over time by accommodating new knowledge while retaining previously learned experience. While this concept is inherent in human learning, current machine learning methods are highly prone to overwrite previously learned patterns and thus forget past experience. Instead, model parameters should be updated selectively and carefully, avoiding unnecessary forgetting while optimally leveraging previously learned patterns to accelerate future learning. Since hand-crafting effective update mechanisms is difficult, we propose meta-learning a transformer-based optimizer to enhance CL. This meta-learned optimizer uses attention to learn the complex relationships between model parameters across a stream of tasks, and is designed to generate effective weight updates for the current task while preventing catastrophic forgetting on previously encountered tasks. Evaluations on benchmark datasets like SplitMNIST, RotatedMNIST, and SplitCIFAR-100 affirm the efficacy of the proposed approach in terms of both forward and backward transfer, even on small sets of labeled data, highlighting the advantages of integrating a meta-learned optimizer within the continual learning framework. | 翻訳日:2024-08-07 13:48:07 公開日:2024-08-06 |
# コミュニケーション効率の良いフェデラレート学習のためのマスケードランダムノイズ
Masked Random Noise for Communication Efficient Federaetd Learning ( http://arxiv.org/abs/2408.03220v1 ) ライセンス: Link先を確認 | Shiwei Li, Yingyi Cheng, Haozhao Wang, Xing Tang, Shijie Xu, Weihong Luo, Yuhua Li, Dugang Liu, Xiuqiang He, and Ruixuan Li, | (参考訳) フェデレーション学習は、データプライバシを効果的に保護する、有望な分散トレーニングパラダイムである。
しかし、これは訓練の効率を損なう、かなりの通信コストを伴う可能性がある。
本稿では,新たな視点からコミュニケーション効率を向上させることを目的とする。
具体的には、事前定義されたランダムノイズの中で、グローバルモデルパラメータに対して最適なモデル更新を見つけるように、分散クライアントに要求する。
本研究では,モデルパラメータ毎に1ビットのマスクを学習し,ランダムノイズとマスクのアダマール積を用いてモデル更新を表現する新しいフレームワークであるFederated Masked Random Noise (FedMRN)を提案する。
プログレッシブ・確率マスキング(PSM)と呼ばれる高度なマスクトレーニング戦略を提案する。
ローカルトレーニングの後、各クライアントはローカルマスクとランダムシードをサーバに送信するだけでよい。
さらに、強い凸と非凸の両方の仮定の下で、FedMRNの収束に関する理論的保証を提供する。
大規模な実験は4つの一般的なデータセットで行われている。
その結果,FedMRNは,FedAvgと同等の精度で,関連するベースラインよりもコンバージェンス速度とテスト精度が優れていることがわかった。
Federated learning is a promising distributed training paradigm that effectively safeguards data privacy. However, it may involve significant communication costs, which hinders training efficiency. In this paper, we aim to enhance communication efficiency from a new perspective. Specifically, we request the distributed clients to find optimal model updates relative to global model parameters within predefined random noise. For this purpose, we propose Federated Masked Random Noise (FedMRN), a novel framework that enables clients to learn a 1-bit mask for each model parameter and apply masked random noise (i.e., the Hadamard product of random noise and masks) to represent model updates. To make FedMRN feasible, we propose an advanced mask training strategy, called progressive stochastic masking (PSM). After local training, each client only need to transmit local masks and a random seed to the server. Additionally, we provide theoretical guarantees for the convergence of FedMRN under both strongly convex and non-convex assumptions. Extensive experiments are conducted on four popular datasets. The results show that FedMRN exhibits superior convergence speed and test accuracy compared to relevant baselines, while attaining a similar level of accuracy as FedAvg. | 翻訳日:2024-08-07 13:48:07 公開日:2024-08-06 |
# CNNの効率的なオンラインストリーミング推論のための爆発的シフト不変性
Don't Think It Twice: Exploit Shift Invariance for Efficient Online Streaming Inference of CNNs ( http://arxiv.org/abs/2408.03223v1 ) ライセンス: Link先を確認 | Christodoulos Kechris, Jonathan Dan, Jose Miranda, David Atienza, | (参考訳) ディープラーニングの時系列処理は、しばしば重なり合うウィンドウを持つ畳み込みニューラルネットワークに依存している。
この重複により、ネットワークはウィンドウ長よりも早く出力を生成することができる。
しかし、追加の計算を導入している。
本研究では、畳み込みのシフト不変性を利用して、連続する重なり合うウィンドウ間の層活性化の計算を省略することで、推論中の計算効率を最適化する可能性を探る。
畳み込みはシフト不変であるが、そのようなネットワークで広く使われているゼロパディングとプール操作は効率的ではなく、効率的なストリーミング推論を複雑にしている。
本稿では,オンラインストリーミング推論のための畳み込みニューラルネットワークの展開戦略であるStreamiNNCを紹介する。
本研究は, ストリーミング推定精度に対するゼロパディングとプールの悪影響を考察し, ストリーミング中のプールに対する理論的誤差上限を導出する。
信号パディングとプールアライメントを提案し、StreamiNNCのモデルの設計とデプロイのためのガイドラインを提供する。
シミュレーションデータと実世界の3つのバイオメディカル信号処理アプリケーションを用いて本手法の有効性を検証する。
StreamiNNCは、ストリーミング出力と通常の3つのネットワーク(2.03~3.55% NRMSE)の差を低くする。
この研究は、重なり窓が重なり窓が重なり、重なり窓が典型的に発生する余分な計算を否定し、ストリーミングCNNの処理を線形に高速化できることを実証している。
Deep learning time-series processing often relies on convolutional neural networks with overlapping windows. This overlap allows the network to produce an output faster than the window length. However, it introduces additional computations. This work explores the potential to optimize computational efficiency during inference by exploiting convolution's shift-invariance properties to skip the calculation of layer activations between successive overlapping windows. Although convolutions are shift-invariant, zero-padding and pooling operations, widely used in such networks, are not efficient and complicate efficient streaming inference. We introduce StreamiNNC, a strategy to deploy Convolutional Neural Networks for online streaming inference. We explore the adverse effects of zero padding and pooling on the accuracy of streaming inference, deriving theoretical error upper bounds for pooling during streaming. We address these limitations by proposing signal padding and pooling alignment and provide guidelines for designing and deploying models for StreamiNNC. We validate our method in simulated data and on three real-world biomedical signal processing applications. StreamiNNC achieves a low deviation between streaming output and normal inference for all three networks (2.03 - 3.55% NRMSE). This work demonstrates that it is possible to linearly speed up the inference of streaming CNNs processing overlapping windows, negating the additional computation typically incurred by overlapping windows. | 翻訳日:2024-08-07 13:48:07 公開日:2024-08-06 |
# サイト依存gテンソルによるマイクロ波駆動一重項量子ビット
Microwave driven singlet-triplet qubits enabled by site-dependent g-tensors ( http://arxiv.org/abs/2408.03224v1 ) ライセンス: Link先を確認 | Jaime Saez-Mollejo, Daniel Jirovec, Yona Schell, Josip Kukucka, Stefano Calcaterra, Daniel Chrastina, Giovanni Isella, Maximilian Rimbach-Russ, Stefano Bosco, Georgios Katsaros, | (参考訳) ホールスピン量子ビットは、大きなスピン軌道相互作用のため、半導体量子プロセッサのワークホースとして急速に出現し、低消費電力での高速な全電気操作を可能にしている。
しかし、スピン軌道相互作用は装置の非均一性も引き起こし、局所的に異なるクビットエネルギーと部位依存の異方性をもたらす。
これらの異方性は単一スピンの駆動に使用できるが、適切に利用されていない場合、大規模な量子プロセッサへの道を妨げうる。
ここでは平面ゲルマニウムの量子ビットについて報告し、二重量子ドット内の2つのスピンの異方性を制御する。
マイクロ波駆動のシングルトリップレット量子ビットを特徴付けることにより、磁場方向に応じて2つの異なる動作状態を示す。
面内場の場合、2つのスピンは概ね異方性であり、利用可能な遷移を全て測定することができる。
面外場の場合、等方性応答を持つが、一重項量子ビットに対処するために必要なエネルギー差は保たれる。
この磁場方向でも、クォービット寿命は核スピンに強く影響されているため、400 nsのコヒーレンス時間が得られる。
我々の研究はスピン量子ビットの異方性を調査し、利用するための貴重なツールを追加し、あらゆる大規模NxNデバイスで実装することができ、スケーラブルな量子プロセッサへの道をたどることができる。
Hole spin qubits are rapidly emerging as the workhorse of semiconducting quantum processors because of their large spin-orbit interaction, enabling fast all-electric operations at low power. However, spin-orbit interaction also causes non-uniformities in devices, resulting in locally varying qubit energies and site-dependent anisotropies. While these anisotropies can be used to drive single-spins, if not properly harnessed, they can hinder the path toward large-scale quantum processors. Here, we report on a qubit in planar germanium, where we control the anisotropy of two spins in a double quantum dot. By characterising microwave-driven singlet-triplet qubits, we show two distinct operating regimes depending on the magnetic field direction. For in-plane fields, the two spins are largely anisotropic, enabling to measure all the available transitions; coherence times exceeding 3 $\mu$s are extracted. For out-of-plane fields, they have an isotropic response but preserve the substantial energy difference required to address the singlet-triplet qubit. Even in this field direction, where the qubit lifetime is strongly affected by nuclear spins, we find 400 ns coherence times. Our work adds a valuable tool to investigate and harness the anisotropy of spin qubits and can be implemented in any large-scale NxN device, facilitating the path towards scalable quantum processors. | 翻訳日:2024-08-07 13:48:07 公開日:2024-08-06 |
# イベントカメラによる線状6-DoFオブジェクトの位置推定と追跡
Line-based 6-DoF Object Pose Estimation and Tracking With an Event Camera ( http://arxiv.org/abs/2408.03225v1 ) ライセンス: Link先を確認 | Zibin Liu, Banglei Guan, Yang Shang, Qifeng Yu, Laurent Kneip, | (参考訳) オブジェクトのポース推定と追跡は、3次元視覚における基本的な応用である。
イベントカメラは、ハイダイナミックレンジ、低レイテンシ、モーションボケに対するレジリエンスなどの顕著な特性を有しており、挑戦的なハイダイナミックレンジシーンや高速モーションに対処することができる。
これらの特徴により、イベントカメラはオブジェクトポーズ推定のための標準カメラよりも理想的な補完となる。
本研究では,イベントカメラを用いた平面オブジェクトや非平面オブジェクトに対するラインベースロバストポーズ推定と追跡手法を提案する。
まず、イベントから直接オブジェクト線を抽出し、2D-3D線対応が事前に分かっていない世界最適分岐境界法を用いて最初のポーズを与える。
次に,2次元イベントと3次元モデルとの対応性を確立するために,イベントラインマッチングを利用する。
さらに、イベントライン距離を最小化することにより、オブジェクトのポーズを洗練し、継続的に追跡する。
イベントはこれらの距離に基づいて異なる重みが割り当てられ、ロバストな推定アルゴリズムを用いる。
オブジェクトポーズ推定と追跡における提案手法の精度を評価するため,イベントベース移動オブジェクトデータセットを考案し,確立した。
現状の手法と比較して,提案手法の堅牢性と精度は,合成実験と提案したデータセットの両方で検証されている。
ソースコードはhttps://github.com/Zibin6/LOPETで入手できる。
Pose estimation and tracking of objects is a fundamental application in 3D vision. Event cameras possess remarkable attributes such as high dynamic range, low latency, and resilience against motion blur, which enables them to address challenging high dynamic range scenes or high-speed motion. These features make event cameras an ideal complement over standard cameras for object pose estimation. In this work, we propose a line-based robust pose estimation and tracking method for planar or non-planar objects using an event camera. Firstly, we extract object lines directly from events, then provide an initial pose using a globally-optimal Branch-and-Bound approach, where 2D-3D line correspondences are not known in advance. Subsequently, we utilize event-line matching to establish correspondences between 2D events and 3D models. Furthermore, object poses are refined and continuously tracked by minimizing event-line distances. Events are assigned different weights based on these distances, employing robust estimation algorithms. To evaluate the precision of the proposed methods in object pose estimation and tracking, we have devised and established an event-based moving object dataset. Compared against state-of-the-art methods, the robustness and accuracy of our methods have been validated both on synthetic experiments and the proposed dataset. The source code is available at https://github.com/Zibin6/LOPET. | 翻訳日:2024-08-07 13:48:07 公開日:2024-08-06 |
# 画像複雑度表現のためのコントラスト学習
Contrastive Learning for Image Complexity Representation ( http://arxiv.org/abs/2408.03230v1 ) ライセンス: Link先を確認 | Shipeng Liu, Liang Zhao, Dengfeng Chen, Zhanping Song, | (参考訳) 画像の複雑さの定量化と評価は、様々なコンピュータビジョンタスクの性能向上に有効である。
教師付き学習は、よく注釈付けされたデータセットから画像の複雑さの特徴を効果的に学習することができる。
しかし、このようなデータセットを作成するには、高価な手作業によるアノテーションのコストが必要になる。
モデルは人間の主観的バイアスをそこから学習することができる。
この作業では、MoCo v2フレームワークを紹介します。
CLIC(Contrastive Learning for Image Complexity)と呼ばれる画像複雑性を表現するために,コントラスト学習を利用する。
画像の異なる局所領域間には複雑性の違いがあることが分かり、マルチスケールの局所作物からなる正のサンプルを生成するランダム・クロップ・アンド・ミックス(Random Crop and Mix, RMC)を提案する。
RCMはまた、追加データを導入することなく、列車のセットを拡張し、データの多様性を高めることができる。
我々はCLICで広範囲にわたる実験を行い、教師なし手法と教師なし手法を比較した。
結果は、CLICのパフォーマンスが最先端の教師付きメソッドに匹敵することを示した。
さらに,CLICをコンピュータビジョンタスクに適用し,その性能を効果的に向上するパイプラインを確立する。
Quantifying and evaluating image complexity can be instrumental in enhancing the performance of various computer vision tasks. Supervised learning can effectively learn image complexity features from well-annotated datasets. However, creating such datasets requires expensive manual annotation costs. The models may learn human subjective biases from it. In this work, we introduce the MoCo v2 framework. We utilize contrastive learning to represent image complexity, named CLIC (Contrastive Learning for Image Complexity). We find that there are complexity differences between different local regions of an image, and propose Random Crop and Mix (RCM), which can produce positive samples consisting of multi-scale local crops. RCM can also expand the train set and increase data diversity without introducing additional data. We conduct extensive experiments with CLIC, comparing it with both unsupervised and supervised methods. The results demonstrate that the performance of CLIC is comparable to that of state-of-the-art supervised methods. In addition, we establish the pipelines that can apply CLIC to computer vision tasks to effectively improve their performance. | 翻訳日:2024-08-07 13:48:07 公開日:2024-08-06 |
# Aubry-Andr{é}-Harper臨界によるスターク弱磁場の増強
Enhanced sensing of Stark weak field under the influence of Aubry-Andr{é}-Harper criticality ( http://arxiv.org/abs/2408.03232v1 ) ライセンス: Link先を確認 | Ayan Sahoo, Debraj Rakshit, | (参考訳) 局在化-非局在化遷移は、パラメータ推定における量子増強感度を達成するための資源として利用することができる。
局所化-非局在化遷移ポテンシャルの異なるクラスを利用することで、パラメータ推定の精度を大幅に向上できることを示す。
具体的には,Aubry-Andr{\'e}-Harper (AAH) 局所化-非局在化遷移の影響を受け, 1次元フェルミオン格子の基底状態に符号化されたスターク強度パラメータの精度測定に着目する。
単一粒子系と系を半充填とみなす。
我々の研究は、QFI(Quantum Fisher Information)が純粋なスタークの場合と比較してシステムサイズに優れたスケーリングを提供し、パラメーター推定がより優れていることを明らかにしている。
しかし、多体システムにおける忠実度に基づくQFIを実験的に測定することは大きな課題となる。
これを解決するために,Heisenberg Limit (HL) を超える精度を達成できる,あるいはQFIスケーリングを飽和させることができるような,実験的な関係のある演算子を提案する。
これらの演算子は、実用的な実験的な設定に関係し、量子強化されたパラメータ推定のために2つの異なる局所化ポテンシャルを利用することにより、局所化-非局在化遷移によって得られる利点を利用することが可能な経路を提供する。
The localization-delocalization transition can be leveraged as a resource for achieving quantum-enhanced sensitivity in parameter estimation. We demonstrate that by employing different classes of localization-delocalization transition potentials one can significantly enhance the precision of parameter estimation. Specifically, we focus on the precision measurement of the Stark strength parameter encoded in the ground state of a one-dimensional fermionic lattice under the influence of Aubry-Andr{\'e}-Harper (AAH) localization-delocalization transition. We consider the single-particle system and the system at half-filling. Our work reveals that the Quantum Fisher Information (QFI) offers a superior scaling with respect to the system size in comparison to the pure stark case, leading to a better parameter estimation. However, experimentally measuring fidelity-based QFI in a many-body system poses significant challenges. To address this, we suggest experimentally relevant operators that can be utilized to achieve precision surpassing the Heisenberg Limit (HL) or can even saturate the QFI scaling. These operators, relevant for practical experimental setups, provides a feasible pathway to harness the advantages offered by the localization-delocalization transition by exploiting two distinct localizing potentials for quantum-enhanced parameter estimation. | 翻訳日:2024-08-07 13:48:07 公開日:2024-08-06 |
# 自由度を拡張した方向検出用部分校正スパースサブアレイの解析
Analysis of Partially-Calibrated Sparse Subarrays for Direction Finding with Extended Degrees of Freedom ( http://arxiv.org/abs/2408.03236v1 ) ライセンス: Link先を確認 | W. S. Leite, R. C. de Lamare, | (参考訳) 本稿では,複数部分校正されたスパースサブアレイを用いた位置方向推定(DOA)の問題点について検討する。
特に,部分校正されたスパースサブアレイのシナリオに対して,一般カラー多重信号分類(GCA-MUSIC)のDOA推定アルゴリズムを提案する。
提案したGAA-MUSICアルゴリズムは,各サブアレイの差分コアレイを利用して,各サブアレイに関連付けられた信号部分空間の交叉に基づく,特定の擬似スペクトルマージ規則を導出する。
この規則は、サブアレイ間の相互共分散に関する事前知識は存在しないと仮定する。
このようにして、各サブアレイの2次統計のみを用いて、自由度が増大した方向を推定する。すなわち、推定手順は、粗い多重信号分類とスパースアレイ特性を保持し、各サブアレイの物理センサ数よりも多くのソースを推定する。
数値シミュレーションにより,提案したGCA-MUSICは類似の手法よりも優れた性能を示した。
This paper investigates the problem of direction-of-arrival (DOA) estimation using multiple partially-calibrated sparse subarrays. In particular, we present the Generalized Coarray Multiple Signal Classification (GCA-MUSIC) DOA estimation algorithm to scenarios with partially-calibrated sparse subarrays. The proposed GCA-MUSIC algorithm exploits the difference coarray for each subarray, followed by a specific pseudo-spectrum merging rule that is based on the intersection of the signal subspaces associated to each subarray. This rule assumes that there is no a priori knowledge about the cross-covariance between subarrays. In that way, only the second-order statistics of each subarray are used to estimate the directions with increased degrees of freedom, i.e., the estimation procedure preserves the coarray Multiple Signal Classification and sparse arrays properties to estimate more sources than the number of physical sensors in each subarray. Numerical simulations show that the proposed GCA-MUSIC has better performance than other similar strategies. | 翻訳日:2024-08-07 13:48:07 公開日:2024-08-06 |
# LAC-Net:オクルージョン下での正確なロボットグラスピングのためのリニアフュージョン注意誘導畳み込みネットワーク
LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion ( http://arxiv.org/abs/2408.03238v1 ) ライセンス: Link先を確認 | Jinyu Zhang, Yongchong Gu, Jianxiong Gao, Haitao Lin, Qiang Sun, Xinwei Sun, Xiangyang Xue, Yanwei Fu, | (参考訳) 本稿では,視覚的知覚による完全な物体形状の知覚という課題に対処する。
以前の研究では、シーン内の物体の可視部分のセグメンテーションが促進されることが示されているが、特にアモーダルセグメンテーションは、物体の隠蔽部分の推測を可能にする可能性がある。
そこで本研究では,ロボットグルーピングのためのアモーダルセグメンテーションの枠組みを新たに導入し,ロボットグルーピング能力を大幅に向上させる。
まず,従来のセグメント化アルゴリズムを用いて対象物体の可視領域を検出する。
特に,RGB画像からのセマンティックな特徴と深度画像からの幾何学的情報を活用するために,線形融合注意誘導畳み込みネットワーク(LAC-Net)を提案する。
LAC-Netはリニアフュージョン戦略を用いて、このクロスモーダルデータを効果的に融合させ、それ以前の可視マスクをアテンションマップとして使用して、ネットワークを誘導し、さらに完全なマスク回復のためにターゲット特徴位置に集中させる。
対象オブジェクトのアモーダルマスクを使用することで、目に見えるセグメントのみに依存するよりも、より正確でロバストな把握ポイントを選択することができる。
その結果,本手法が最先端の性能を達成できることが示唆された。
さらに,ロボット実験により実世界における本手法の有効性とロバスト性を検証した。
私たちのコードとデモはプロジェクトのページで公開されています。
This paper addresses the challenge of perceiving complete object shapes through visual perception. While prior studies have demonstrated encouraging outcomes in segmenting the visible parts of objects within a scene, amodal segmentation, in particular, has the potential to allow robots to infer the occluded parts of objects. To this end, this paper introduces a new framework that explores amodal segmentation for robotic grasping in cluttered scenes, thus greatly enhancing robotic grasping abilities. Initially, we use a conventional segmentation algorithm to detect the visible segments of the target object, which provides shape priors for completing the full object mask. Particularly, to explore how to utilize semantic features from RGB images and geometric information from depth images, we propose a Linear-fusion Attention-guided Convolutional Network (LAC-Net). LAC-Net utilizes the linear-fusion strategy to effectively fuse this cross-modal data, and then uses the prior visible mask as attention map to guide the network to focus on target feature locations for further complete mask recovery. Using the amodal mask of the target object provides advantages in selecting more accurate and robust grasp points compared to relying solely on the visible segments. The results on different datasets show that our method achieves state-of-the-art performance. Furthermore, the robot experiments validate the feasibility and robustness of this method in the real world. Our code and demonstrations are available on the project page: https://jrryzh.github.io/LAC-Net. | 翻訳日:2024-08-07 13:48:07 公開日:2024-08-06 |
# オープンシステムにおける量子位相の新しい枠組み:Imaginary-Time Lindbladian進化の定常状態
A New Framework for Quantum Phases in Open Systems: Steady State of Imaginary-Time Lindbladian Evolution ( http://arxiv.org/abs/2408.03239v1 ) ライセンス: Link先を確認 | Yuchen Guo, Ke Ding, Shuo Yang, | (参考訳) この研究は、開量子系の量子相の概念を掘り下げ、リンドブラディアンの定常状態に焦点を絞った既存のアプローチの欠点を調べ、主要な相転移を捉える際のそれらの限界を強調した。
これらの手法とは対照的に、代替フレームワークとして想像時間リンドブラディアン進化の概念を導入する。
この新しいアプローチは、想像上のリウヴィル超作用素のスペクトル特性を通じて、開系におけるギャップ付き量子位相を定義する。
すべての純ギャップ基底状態に加えて、任意の有限温度における安定ハミルトニアンのギブス状態も、明示的な構成によって示される我々のスキームによって特徴づけられる。
このフレームワークの有効性を説明するために、非自明な平均対称性が保護された位相順序や自発対称性の破れ順序を含む、$\mathbb{Z}_{2}^{\sigma} \times \mathbb{Z}_{2}^{\tau}$対称性を持つ開系の位相図について検討する。
本研究は, 定常観測器の非解析的挙動, 相関長のばらつき, 虚空とリウヴィルのギャップの閉じなど, 量子臨界における普遍的な性質を示すものである。
これらの結果は、オープン量子系における量子相転移の理解を促進する。
This study delves into the concept of quantum phases in open quantum systems, examining the shortcomings of existing approaches that focus on steady states of Lindbladians and highlighting their limitations in capturing key phase transitions. In contrast to these methods, we introduce the concept of imaginary-time Lindbladian evolution as an alternative framework. This new approach defines gapped quantum phases in open systems through the spectrum properties of the imaginary-Liouville superoperator. We find that, in addition to all pure gapped ground states, the Gibbs state of a stabilizer Hamiltonian at any finite temperature can also be characterized by our scheme, demonstrated through explicit construction. To illustrate the effectiveness of this framework, we apply it to investigate the phase diagram for open systems with $\mathbb{Z}_{2}^{\sigma} \times \mathbb{Z}_{2}^{\tau}$ symmetry, including cases with nontrivial average symmetry protected topological order or spontaneous symmetry breaking order. Our findings demonstrate universal properties at quantum criticality, such as nonanalytic behaviors of steady-state observables, divergence of correlation lengths, and closing of the imaginary-Liouville gap. These results advance our understanding of quantum phase transitions in open quantum systems. | 翻訳日:2024-08-07 13:48:07 公開日:2024-08-06 |
# 長期言語モデルによるマルチホップ推論の改善
Making Long-Context Language Models Better Multi-Hop Reasoners ( http://arxiv.org/abs/2408.03246v1 ) ライセンス: Link先を確認 | Yanyang Li, Shuo Liang, Michael R. Lyu, Liwei Wang, | (参考訳) 長期コンテキストモデリングの最近の進歩は、複数のNLPアプリケーションにまたがる複雑なタスクのための言語モデル(LM)を拡張している。
この進歩にもかかわらず、これらのモデルはマルチホップ推論に苦慮し、ノイズのある状況下での性能が低下していることが判明した。
本稿では,各アサーションに対するアトリビューションの供給を促す新しいアプローチであるReasoning with Attributionsを紹介する。
3つのマルチホップデータセットの実験を通じてアプローチを検証するとともに、プロプライエタリモデルとオープンソースモデルの両方を活用し、その有効性とレジリエンスを実証する。
さらに、微調整による推論能力を増強する手法を検討し、属性アノテーション付きデータセットと専門的なトレーニング戦略を提供する。
我々の微調整モデルでは,ChatGPTやClaude-Instantといった独自のLMと密接に並行して,マルチホップ推論ベンチマーク上での競合性能を実現している。
Recent advancements in long-context modeling have enhanced language models (LMs) for complex tasks across multiple NLP applications. Despite this progress, we find that these models struggle with multi-hop reasoning and exhibit decreased performance in the presence of noisy contexts. In this paper, we introduce Reasoning with Attributions, a novel approach that prompts LMs to supply attributions for each assertion during their reasoning. We validate our approach through experiments on three multi-hop datasets, employing both proprietary and open-source models, and demonstrate its efficacy and resilience. Furthermore, we explore methods to augment reasoning capabilities via fine-tuning and offer an attribution-annotated dataset and a specialized training strategy. Our fine-tuned model achieves competitive performance on multi-hop reasoning benchmarks, closely paralleling proprietary LMs such as ChatGPT and Claude-instant. | 翻訳日:2024-08-07 13:48:07 公開日:2024-08-06 |
# 知識ニューロンによる大規模言語モデルの実態的リコール行動の解明
Unveiling Factual Recall Behaviors of Large Language Models through Knowledge Neurons ( http://arxiv.org/abs/2408.03247v1 ) ライセンス: Link先を確認 | Yifei Wang, Yuheng Chen, Wanting Wen, Yu Sheng, Linjing Li, Daniel Dajun Zeng, | (参考訳) 本稿では,Large Language Models (LLMs) が推論タスクに直面すると,その内部知識のリポジトリを積極的にリコールするか,回収するかを検討する。
知識ニューロンによる各推論段階におけるLLMの内部的事実リコールの分析を通じて、LLMは特定の状況下での批判的事実関連を活用できないことが明らかとなった。
代わりに、彼らは理性的な疑問に答えるために、代替のショートカットのような経路を選択する傾向がある。
LLMにおけるパラメトリック知識のリコールプロセスを手動で操作することにより、このリコールプロセスの強化は推論性能を向上する一方、その抑制は顕著な劣化をもたらすことを示す。
さらに,複雑な推論タスクに対処する強力な手法であるChain-of-Thought(CoT)プロンプトの効果を評価する。
以上の結果から, CoT は LLM の順応的かつ信頼性の高い推論を奨励することにより, 事実的知識のリコールを促進できることが示唆された。
さらに,LLMの現実的リコール行動の包括的理解を得るために,文脈的コンフリクトが推論過程における事実の検索にどのように影響するかを考察した。
コードとデータは近く提供される。
In this paper, we investigate whether Large Language Models (LLMs) actively recall or retrieve their internal repositories of factual knowledge when faced with reasoning tasks. Through an analysis of LLMs' internal factual recall at each reasoning step via Knowledge Neurons, we reveal that LLMs fail to harness the critical factual associations under certain circumstances. Instead, they tend to opt for alternative, shortcut-like pathways to answer reasoning questions. By manually manipulating the recall process of parametric knowledge in LLMs, we demonstrate that enhancing this recall process directly improves reasoning performance whereas suppressing it leads to notable degradation. Furthermore, we assess the effect of Chain-of-Thought (CoT) prompting, a powerful technique for addressing complex reasoning tasks. Our findings indicate that CoT can intensify the recall of factual knowledge by encouraging LLMs to engage in orderly and reliable reasoning. Furthermore, we explored how contextual conflicts affect the retrieval of facts during the reasoning process to gain a comprehensive understanding of the factual recall behaviors of LLMs. Code and data will be available soon. | 翻訳日:2024-08-07 13:48:07 公開日:2024-08-06 |
# 効率的な変分基底状態生成のための時間変化の変調
Modulated time evolution for efficient variational ground-state preparation ( http://arxiv.org/abs/2408.03251v1 ) ライセンス: Link先を確認 | Zekun He, A. F. Kemper, J. K. Freericks, | (参考訳) 断熱的状態の準備は、初期ハミルトン状態から標的ハミルトン状態の準備を試みている。
進化全体を通して最初の励起状態にエネルギーギャップを常に有する時間依存ハミルトニアンに対して働くことが保証されているが、極端に遅くなる可能性がある。
プロセスのスピードアップのために、未スケールのハミルトニアンの最終エネルギーの変動原理によって制御される時間進化中にハミルトニアンを変調するスケーリング因子を導入する。
最適化された時間進化は、局所的な断熱時間進化に類似しており、スケールのさらなる急激な変調により、どちらも基底状態からのダイアバティック励起を低減し、励起状態を基底状態に戻す。
このアプローチは特に実装が簡単で、複雑な反断熱的ハミルトニアンを構築する必要はなく、システムのエネルギーギャップに関する事前知識も必要としない。
時間進化が問題とミキサー成分に分解されるとき、これは量子近似最適化アルゴリズムによく似ており、各層における角度の比と全体スケールの層依存変調から生じる振動を持つ局所的断熱場を特徴としている。
Adiabatic state preparation seeks to prepare the ground state of a target Hamiltonian from an easily prepared ground state of the initial Hamiltonian. It is guaranteed to work for time-dependent Hamiltonians that always have an energy gap to the first excited state throughout the entire evolution, but it can be excruciatingly slow. To speed up the process, we introduce a scaling factor that modulates the Hamiltonian during the time evolution, controlled by a variational principle on the final energy of the unscaled Hamiltonian. We find the optimized time evolution resembles a local adiabatic time evolution with an additional rapid modulation of the scale, which both reduces diabatic excitation from the ground state, and returns excited states back to the ground state. This approach is particularly simple to implement; it does not require constructing complicated counter-diabatic Hamiltonians nor does it need any a priori knowledge of the energy gap of the system. When the time evolution is discretized into problem and mixer components it closely resembles the quantum approximate optimization algorithm, featuring a local adiabatic field with oscillations arising from the ratio of angles at each layer and from a layer-dependent modulation of the overall scale. | 翻訳日:2024-08-07 13:48:07 公開日:2024-08-06 |
# 反復量子信号処理を用いた多変数QSPとボソニック量子シミュレーション
Multivariable QSP and Bosonic Quantum Simulation using Iterated Quantum Signal Processing ( http://arxiv.org/abs/2408.03254v1 ) ライセンス: Link先を確認 | Niladri Gomes, Hokiat Lim, Nathan Wiebe, | (参考訳) この研究は、繰り返し量子信号処理と呼ばれるモジュラ量子信号処理の一形態を提供する。
この方法は、他の量子信号処理ステップの出力に再帰的に量子信号処理を適用し、多項式が容易に達成でき、そうでなければ解析的に見つけるのが難しくなる。
具体的には、量子信号処理ルーチンを用いて、位相角の乗算を近似し、その結果、位相角の任意の有界次数多変量多項式関数を従来のQSPのアイデアを用いて実装できることを示す。
次に、これらのアイデアがどのようにしてクーロンポテンシャルのような量子シミュレーションに関連する位相関数を構築するかについて議論し、また、ボソニック・ハミルトニアンのシミュレーションに必要な平方根関数を計算するための可逆算術の必要性を避けるためにこれらのアイデアをどのように使うかについて議論する。
We provide in this work a form of Modular Quantum Signal Processing that we call iterated quantum signal processing. This method recursively applies quantum signal processing to the outputs of other quantum signal processing steps, allowing polynomials to be easily achieved that would otherwise be difficult to find analytically. We specifically show by using a squaring quantum signal processing routine, that multiplication of phase angles can be approximated and in turn that any bounded degree multi-variate polynomial function of a set of phase angles can be implemented using traditional QSP ideas. We then discuss how these ideas can be used to construct phase functions relevant for quantum simulation such as the Coulomb potential and also discuss how to use these ideas to obviate the need for reversible arithmetic to compute square-root functions needed for simulations of bosonic Hamiltonians. | 翻訳日:2024-08-07 13:48:07 公開日:2024-08-06 |
# 弱LLMと強LLMからのテキスト-SQLデータの合成
Synthesizing Text-to-SQL Data from Weak and Strong LLMs ( http://arxiv.org/abs/2408.03256v1 ) ライセンス: Link先を確認 | Jiaxi Yang, Binyuan Hui, Min Yang, Jian Yang, Junyang Lin, Chang Zhou, | (参考訳) オープンソースとクローズドソースの大規模言語モデル(LLM)の能力ギャップは、テキストからSQLタスクにおいて依然として課題である。
本稿では,より大規模で強力なモデル(強みモデル)が生成するデータと,より小型で整合性のないモデル(弱みモデル)が生成する誤り情報データを組み合わせた合成データアプローチを提案する。
この手法は、テキストからSQLモデルへのドメインの一般化を促進させるだけでなく、優先学習によるエラーデータ監視の可能性を探る。
さらに,オープンソース LLM の命令チューニングに合成データを用いた結果,SENSE は特殊テキスト-SQL モデルである。
SENSEの有効性は、SPIDERとBIRDベンチマークの最先端結果を通じて実証され、オープンソースモデルとクローズドソースモデルによるメソッドのパフォーマンスギャップを埋める。
The capability gap between open-source and closed-source large language models (LLMs) remains a challenge in text-to-SQL tasks. In this paper, we introduce a synthetic data approach that combines data produced by larger, more powerful models (strong models) with error information data generated by smaller, not well-aligned models (weak models). The method not only enhances the domain generalization of text-to-SQL models but also explores the potential of error data supervision through preference learning. Furthermore, we employ the synthetic data approach for instruction tuning on open-source LLMs, resulting SENSE, a specialized text-to-SQL model. The effectiveness of SENSE is demonstrated through state-of-the-art results on the SPIDER and BIRD benchmarks, bridging the performance gap between open-source models and methods prompted by closed-source models. | 翻訳日:2024-08-07 13:48:07 公開日:2024-08-06 |
# 8.4kmの都市大気における単一光子干渉--光子を用いた曲線時空における量子効果の検証に向けて
Single-photon interference over 8.4 km urban atmosphere: towards testing quantum effect in curved spacetime with photons ( http://arxiv.org/abs/2408.03259v1 ) ライセンス: Link先を確認 | Hui-Nan Wu, Yu-Huai Li, Bo Li, Xiang You, Run-Ze Liu, Juan Yin, Chao-Yang Lu, Yuan Cao, Cheng-Zhi Peng, Jian-Wei Pan, | (参考訳) 量子力学と一般相対性理論の出現は、我々の自然界に対する理解を大きく変えた。
しかし、これら2つの理論を統合することは大きな課題であり、それらの相互作用はいまだに実証されていない。
最近の理論的研究は、巨大な空間を覆う単一光子干渉は、量子力学と一般相対性理論の間の界面を効果的に探究することができることを示唆している。
我々は、この問題に対処するために、アンバランスなマイケルソン干渉計を用いた代替設計を開発し、8.4km自由空間チャネル上で実現可能であることを検証した。
量子ドットに基づく高輝度単一光子源を用いて、この長距離ベースラインに沿って単一光子干渉を実演した。
静止軌道における重力赤方偏移の測定条件を標準偏差の5倍に満たした16.2mdの位相測定精度を達成した。
この結果から,コレラ・オヴェルハウザー・ワーナー実験の単光子版による曲線時空における量子効果の検証の可能性が確認された。
The emergence of quantum mechanics and general relativity has transformed our understanding of the natural world significantly. However, integrating these two theories presents immense challenges, and their interplay remains untested. Recent theoretical studies suggest that the single-photon interference covering huge space can effectively probe the interface between quantum mechanics and general relativity. We developed an alternative design using unbalanced Michelson interferometers to address this and validated its feasibility over an 8.4 km free-space channel. Using a high-brightness single-photon source based on quantum dots, we demonstrated single-photon interference along this long-distance baseline. We achieved a phase measurement precision of 16.2 mrad, which satisfied the measurement requirements for a gravitational redshift at the geosynchronous orbit by five times the standard deviation. Our results confirm the feasibility of the single-photon version of the Colella-Overhauser-Werner experiment for testing the quantum effects in curved spacetime. | 翻訳日:2024-08-07 13:38:12 公開日:2024-08-06 |
# 現実のRustプログラムのパニックバグの修正に向けて
Towards Fixing Panic Bugs for Real-world Rust Programs ( http://arxiv.org/abs/2408.03262v1 ) ライセンス: Link先を確認 | Yunbo Ni, Yang Feng, Zixi Liu, Runtao Chen, Baowen Xu, | (参考訳) Rustプログラミング言語は、堅牢な安全性機能とメモリ管理機能のために、大きな注目を集めている。
メモリ安全性が保証されているにもかかわらず、Rustプログラムは依然として実行時のエラー、すなわちパニックエラーに悩まされている。
特に、Rust独自のコンパイラであるrustcのバグの半分以上は、パニックエラーに起因するクラッシュに起因するものだ。
しかしながら、根本原因を理解してこれらのパニックを解決するには、提供された限られた情報のためにかなりの労力を要することが多く、スタックのバックトレースは複雑になり、しばしば実際の故障箇所を省略する。
多くの自動プログラム修復技術が存在するが、言語メカニズムの自然な相違により、一般的な修正パターンがRustプログラムに容易に適用できないことが観察されている。
上記の課題に対処するために,Rustのパニックバグの修正を目的とした系統的研究を紹介する。
Panic4Rというデータセットは、実際のパニックのバグ102と、最もダウンロードされたオープンソースクラッドのトップ500からの修正を含むものです。
Rustの実装を分析して、パニックバグを修正するためのRust固有のパターンを特定します。
最後に、Rustのパニックバグに対する最初の自動修正ツールであるPanicKillerを設計し、実装しました。これは、現実世界の大規模データセットの正確なパッチを効果的に生成し、すでにオープンソースプロジェクトで28のパニックバグの解決を支援しています。
解決された各問題は、開発者によって検証され、各コードベースにマージされる。
The Rust programming language has garnered significant attention due to its robust safety features and memory management capabilities. Despite its guaranteed memory safety, Rust programs still suffer from runtime errors that are unmanageable, i.e., panic errors. Notably, over half of the bugs in rustc, Rust's own compiler, are attributable to crash stemming from panic errors. However, understanding root causes and resolving these panics often requires substantial effort due to the limited information provided, and the stack backtrace could be intricate, often omitting the actual fault locations. Although numerous automated program repair techniques exist, we observe that the prevailing fix patterns do not readily apply to Rust programs due to natural differences in language mechanisms. To tackle the above challenges, this paper introduces a systematic study aimed at fixing Rust panic bugs. We commence by assembling a dataset, namely Panic4R, which includes 102 real panic bugs and their fixes from the top 500 most downloaded open-source crates. By analyzing Rust's implementation, we identify Rust-specific patterns for fixing panic bugs, which can aid in understanding and providing guidance for generating patches. Finally, we design and implement the first automated fixing tool, PanicKiller, for Rust panic bugs, which effectively generates correct patches on the real-world large-scale dataset, and has already assisted in the resolution of 28 panic bugs in open-source projects. Each resolved issue has been validated by the developers and merged into the respective codebases. | 翻訳日:2024-08-07 13:38:12 公開日:2024-08-06 |
# 圧縮と比較:MLモデル圧縮実験における効率性と挙動の相互評価
Compress and Compare: Interactively Evaluating Efficiency and Behavior Across ML Model Compression Experiments ( http://arxiv.org/abs/2408.03274v1 ) ライセンス: Link先を確認 | Angie Boggust, Venkatesh Sivaraman, Yannick Assogba, Donghao Ren, Dominik Moritz, Fred Hohman, | (参考訳) デバイス上で機械学習モデルをデプロイするには、圧縮アルゴリズムを使用して、高品質なアウトプットを維持しながらモデルを縮小および高速化する。
実際の圧縮の重要な側面は、多くの圧縮実験の追跡、モデルの振る舞いの微妙な変化の特定、複雑な精度と効率のトレードオフの交渉など、モデルの比較である。
しかし、既存の圧縮ツールは比較を不十分にサポートし、退屈な結果となり、時には不完全な解析が不整合ツールに分散する。
実世界の比較ワークフローを支援するために,Compress と Compare という対話型ビジュアルシステムを開発した。
コンプレックスとコンプレックスは、圧縮されたモデル間の前兆関係を可視化し、モデルの予測、重み、アクティベーションを比較することで圧縮誘起の挙動変化を明らかにすることで、圧縮戦略を約束する。
本稿では,Compress と Compare が共通圧縮解析タスクをどのようにサポートするかを示す。2つのケーススタディ,生成言語モデルにおける圧縮のデバッギング,画像分類モデルにおける圧縮アーティファクトの識別などである。
さらに,8つの圧縮専門家によるユーザスタディにおいて,圧縮と比較について評価し,圧縮ワークフローの構造を提供する可能性を示し,圧縮に関する直観の構築を支援し,圧縮がモデル行動に与える影響を徹底的に分析する。
これらの評価を通じて、将来のビジュアル分析ツールが考慮すべき圧縮固有の課題と、より広範なモデル比較タスクに一般化する可能性のある圧縮と比較の可視化を識別する。
To deploy machine learning models on-device, practitioners use compression algorithms to shrink and speed up models while maintaining their high-quality output. A critical aspect of compression in practice is model comparison, including tracking many compression experiments, identifying subtle changes in model behavior, and negotiating complex accuracy-efficiency trade-offs. However, existing compression tools poorly support comparison, leading to tedious and, sometimes, incomplete analyses spread across disjoint tools. To support real-world comparative workflows, we develop an interactive visual system called Compress and Compare. Within a single interface, Compress and Compare surfaces promising compression strategies by visualizing provenance relationships between compressed models and reveals compression-induced behavior changes by comparing models' predictions, weights, and activations. We demonstrate how Compress and Compare supports common compression analysis tasks through two case studies, debugging failed compression on generative language models and identifying compression artifacts in image classification models. We further evaluate Compress and Compare in a user study with eight compression experts, illustrating its potential to provide structure to compression workflows, help practitioners build intuition about compression, and encourage thorough analysis of compression's effect on model behavior. Through these evaluations, we identify compression-specific challenges that future visual analytics tools should consider and Compress and Compare visualizations that may generalize to broader model comparison tasks. | 翻訳日:2024-08-07 13:38:12 公開日:2024-08-06 |
# StructEval:構造化評価による大規模言語モデル評価の深化と広化
StructEval: Deepen and Broaden Large Language Model Assessment via Structured Evaluation ( http://arxiv.org/abs/2408.03281v1 ) ライセンス: Link先を確認 | Boxi Cao, Mengjie Ren, Hongyu Lin, Xianpei Han, Feng Zhang, Junfeng Zhan, Le Sun, | (参考訳) 評価は、大きな言語モデルを開発するためのバトンである。
現在の評価では、通常、各原子テストの目標に対して単一項目の評価パラダイムが採用されている。これは、モデルが本当に必要な能力を持っているか、あるいは単に特定の質問に対する回答を覚えたり、理解したりするのに苦労している。
そこで本研究では,StructEvalと呼ばれる新しい評価フレームワークを提案する。
原子実験の目的から始めて、StructEvalは、複数の認知レベルと批判的概念にまたがって構造化された評価を行うことによって、評価をさらに深め、拡張し、LLMに対して包括的で堅牢で一貫した評価を提供する。
広く使用されている3つのベンチマークの実験では、StructEvalはデータ汚染のリスクに抵抗し、潜在的なバイアスの干渉を減らすための信頼性の高いツールとして機能し、モデル機能に関するより信頼性が高く一貫性のある結論を提供する。
我々のフレームワークはまた、将来の原則および信頼性の高いLCM評価プロトコルの設計にも光を当てています。
Evaluation is the baton for the development of large language models. Current evaluations typically employ a single-item assessment paradigm for each atomic test objective, which struggles to discern whether a model genuinely possesses the required capabilities or merely memorizes/guesses the answers to specific questions. To this end, we propose a novel evaluation framework referred to as StructEval. Starting from an atomic test objective, StructEval deepens and broadens the evaluation by conducting a structured assessment across multiple cognitive levels and critical concepts, and therefore offers a comprehensive, robust and consistent evaluation for LLMs. Experiments on three widely-used benchmarks demonstrate that StructEval serves as a reliable tool for resisting the risk of data contamination and reducing the interference of potential biases, thereby providing more reliable and consistent conclusions regarding model capabilities. Our framework also sheds light on the design of future principled and trustworthy LLM evaluation protocols. | 翻訳日:2024-08-07 13:38:12 公開日:2024-08-06 |
# AMES:インスタンスレベルの検索のための非対称かつメモリ効率の類似性推定
AMES: Asymmetric and Memory-Efficient Similarity Estimation for Instance-level Retrieval ( http://arxiv.org/abs/2408.03282v1 ) ライセンス: Link先を確認 | Pavel Suma, Giorgos Kordopatis-Zilos, Ahmet Iscen, Giorgos Tolias, | (参考訳) 本研究は、メモリ効率の制約によりインスタンスレベルの画像検索が再ランク付けされる問題について検討し、最終的にメモリ使用量を1KBに制限することを目的とした。
パフォーマンス向上に重点を置きながら、この作業はパフォーマンスとメモリ要件の間の重要なトレードオフを優先します。
提案モデルでは,画像間のインタラクションを局所記述子に基づいてキャプチャすることで,画像と画像の類似性を推定するトランスフォーマーアーキテクチャを用いている。
モデルの特徴は非対称類似性推定の能力である。
データベースイメージはクエリイメージよりも少ない数の記述子で表現され、メモリ消費を増やすことなくパフォーマンスが改善される。
異なるアプリケーション間で適応性を確保するために、テストフェーズ中に様々なローカル記述子に調整するユニバーサルモデルが導入された。
標準ベンチマークの結果は、手作りモデルと学習モデルの両方に対するアプローチの優位性を示している。
特に、現在のメモリフットプリントを見落としている最先端の手法と比較して、我々のアプローチは優れた性能を得るだけでなく、メモリフットプリントを大幅に削減する。
コードと事前訓練されたモデルは、https://github.com/pavelsuma/ames.comで公開されている。
This work investigates the problem of instance-level image retrieval re-ranking with the constraint of memory efficiency, ultimately aiming to limit memory usage to 1KB per image. Departing from the prevalent focus on performance enhancements, this work prioritizes the crucial trade-off between performance and memory requirements. The proposed model uses a transformer-based architecture designed to estimate image-to-image similarity by capturing interactions within and across images based on their local descriptors. A distinctive property of the model is the capability for asymmetric similarity estimation. Database images are represented with a smaller number of descriptors compared to query images, enabling performance improvements without increasing memory consumption. To ensure adaptability across different applications, a universal model is introduced that adjusts to a varying number of local descriptors during the testing phase. Results on standard benchmarks demonstrate the superiority of our approach over both hand-crafted and learned models. In particular, compared with current state-of-the-art methods that overlook their memory footprint, our approach not only attains superior performance but does so with a significantly reduced memory footprint. The code and pretrained models are publicly available at: https://github.com/pavelsuma/ames | 翻訳日:2024-08-07 13:38:12 公開日:2024-08-06 |
# ReSyncer:Unified Audio-Visually Synced Facial Performer用のスタイルベースジェネレータ
ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer ( http://arxiv.org/abs/2408.03284v1 ) ライセンス: Link先を確認 | Jiazhi Guan, Zhiliang Xu, Hang Zhou, Kaisiyuan Wang, Shengyi He, Zhanwang Zhang, Borong Liang, Haocheng Feng, Errui Ding, Jingtuo Liu, Jingdong Wang, Youjian Zhao, Ziwei Liu, | (参考訳) 任意のオーディオによるリップシンクビデオは、仮想プレゼンターやパフォーマーの作成を含む様々なアプリケーションの基盤となっている。
最近の研究では、異なるテクニックで高忠実度リップシンクを探索しているが、彼らのタスク指向モデルは、クリップ固有のトレーニングのために長期的なビデオを必要とするか、目に見えるアーティファクトを保持する必要がある。
本稿では、一般化された視覚的顔情報と同期する統合的で効果的なフレームワークReSyncerを提案する。
鍵となる設計は、スタイルベースのジェネレータを再訪して、原則付きスタイル注入トランスフォーマーによって予測される3D顔力学を効率的に採用することである。
ノイズとスタイル空間内の情報挿入機構を再構成するだけで、我々のフレームワークは運動と外観を統一的なトレーニングで融合させる。
大規模な実験により、ReSyncerは音声による高忠実度リップシンク動画を生成するだけでなく、高速なパーソナライズされた微調整、ビデオドリブンのリップシンク、話し言葉のスタイルの転送、顔交換など、仮想プレゼンターやパフォーマーを作成するのに適した複数の魅力的な特性もサポートしている。
リソースはhttps://guanjz20.github.io/projects/ReSyncerにある。
Lip-syncing videos with given audio is the foundation for various applications including the creation of virtual presenters or performers. While recent studies explore high-fidelity lip-sync with different techniques, their task-orientated models either require long-term videos for clip-specific training or retain visible artifacts. In this paper, we propose a unified and effective framework ReSyncer, that synchronizes generalized audio-visual facial information. The key design is revisiting and rewiring the Style-based generator to efficiently adopt 3D facial dynamics predicted by a principled style-injected Transformer. By simply re-configuring the information insertion mechanisms within the noise and style space, our framework fuses motion and appearance with unified training. Extensive experiments demonstrate that ReSyncer not only produces high-fidelity lip-synced videos according to audio, but also supports multiple appealing properties that are suitable for creating virtual presenters and performers, including fast personalized fine-tuning, video-driven lip-syncing, the transfer of speaking styles, and even face swapping. Resources can be found at https://guanjz20.github.io/projects/ReSyncer. | 翻訳日:2024-08-07 13:38:12 公開日:2024-08-06 |
# バイオメディカルSAM 2: バイオメディカルイメージとビデオのセグメンテーション
Biomedical SAM 2: Segment Anything in Biomedical Images and Videos ( http://arxiv.org/abs/2408.03286v1 ) ライセンス: Link先を確認 | Zhiling Yan, Weixiang Sun, Rong Zhou, Zhengqing Yuan, Kai Zhang, Yiwei Li, Tianming Liu, Quanzheng Li, Xiang Li, Lifang He, Lichao Sun, | (参考訳) 医用画像のセグメンテーションとビデオオブジェクトのセグメンテーションは、生物学的構造を特定して測定することにより、疾患の診断と解析に不可欠である。
自然領域の最近の進歩は、セグメンション・アセシング・モデル2(SAM2)のような基礎モデルによって推進されている。
バイオメディカル・アプリケーションにおけるSAM2の性能を検討するため,単フレーム画像のセグメンテーションと多フレームビデオセグメンテーションの2つの評価パイプラインを設計し,医療現場におけるSAM2の限界を明らかにした。
そこで本研究では,SAM 2に基づくバイオメディカルデータに最適化された基盤モデルであるBioSAM 2を開発した。
以上の結果から,BioSAM 2は既存の最先端基盤モデルに勝るだけでなく,専門モデルに匹敵し,医療領域におけるその有効性と可能性を示した。
Medical image segmentation and video object segmentation are essential for diagnosing and analyzing diseases by identifying and measuring biological structures. Recent advances in natural domain have been driven by foundation models like the Segment Anything Model 2 (SAM 2). To explore the performance of SAM 2 in biomedical applications, we designed two evaluation pipelines for single-frame image segmentation and multi-frame video segmentation with varied prompt designs, revealing SAM 2's limitations in medical contexts. Consequently, we developed BioSAM 2, an enhanced foundation model optimized for biomedical data based on SAM 2. Our experiments show that BioSAM 2 not only surpasses the performance of existing state-of-the-art foundation models but also matches or even exceeds specialist models, demonstrating its efficacy and potential in the medical domain. | 翻訳日:2024-08-07 13:38:12 公開日:2024-08-06 |
# 局所グラフ推論を用いた悪意のあるインターネットエンティティ検出
Malicious Internet Entity Detection Using Local Graph Inference ( http://arxiv.org/abs/2408.03287v1 ) ライセンス: Link先を確認 | Simon Mandlik, Tomas Pevny, Vaclav Smidl, Lukas Bajer, | (参考訳) 大規模ネットワークにおける悪意のある振る舞いの検出は、高い表現力とスケーラブルな推論を必要とするため、コンピュータセキュリティにおいて機械学習にとって難しい問題である。
既存のソリューションは、この偉業を達成するのに苦労している。現在のサイバーシークで調整されたアプローチは、まだ表現力に制限があり、他のドメインで成功したメソッドは、大量のデータに対してうまくスケールできないため、頻繁な再トレーニングは不可能である。
本研究では,ネットワークエンティティ間の相互作用を異種グラフとしてモデル化するグラフデータから学習する新たな視点を提案する。
この手法の高表現性は、ニューラルネットワークアーキテクチャのHMILnetによって達成され、このタイプのデータを自然にモデル化し、理論的保証を提供する。
このスケーラビリティは、局所グラフ推論、すなわち個々の頂点とその近傍を独立したサンプルとして分類することで達成される。
我々の実験は、最先端の確率的脅威伝播(PTP)アルゴリズムの改善を示し、PTPアルゴリズムでは不可能な追加データを使用した場合、さらに3倍の精度の向上を示し、従来見つからなかった新しいエンティティへの一般化能力を実証した。
Detection of malicious behavior in a large network is a challenging problem for machine learning in computer security, since it requires a model with high expressive power and scalable inference. Existing solutions struggle to achieve this feat -- current cybersec-tailored approaches are still limited in expressivity, and methods successful in other domains do not scale well for large volumes of data, rendering frequent retraining impossible. This work proposes a new perspective for learning from graph data that is modeling network entity interactions as a large heterogeneous graph. High expressivity of the method is achieved with neural network architecture HMILnet that naturally models this type of data and provides theoretical guarantees. The scalability is achieved by pursuing local graph inference, i.e., classifying individual vertices and their neighborhood as independent samples. Our experiments exhibit improvement over the state-of-the-art Probabilistic Threat Propagation (PTP) algorithm, show a further threefold accuracy improvement when additional data is used, which is not possible with the PTP algorithm, and demonstrate the generalization capabilities of the method to new, previously unseen entities. | 翻訳日:2024-08-07 13:38:12 公開日:2024-08-06 |
# SARA: Singular-Value based Adaptive Low-Rank Adaption
SARA: Singular-Value Based Adaptive Low-Rank Adaption ( http://arxiv.org/abs/2408.03290v1 ) ライセンス: Link先を確認 | Jihao Gu, Shuai Chen, Zelin Wang, Yibo Zhang, Ping Gong, | (参考訳) 大規模事前学習モデルにおけるパラメータの増大に伴い、パラメータ効率のよい微調整(PEFT)法としてのLoRAは、推論オーバーヘッドを加算しないために広く利用されている。
LoRA法は、微調整時の重量変化を低ランク行列で近似できると仮定する。
しかし、ランク値は、異なる下流タスクにマッチするように手動で検証する必要がある。
本研究ではまず,各層の性能とランクの関係をSVDを用いて解析する。
そこで我々は,SARA(Singular-Value Based Adaptive Low-Rank Adaption)の設計を行った。
さらに、ルータによって制御される特異値の並列セットのみを微調整することでパラメータ数を著しく削減するMixture-of-SARA(Mo-SARA)について検討する。
様々な複雑なタスクに関する大規模な実験は、我々の手法の単純さとパラメータ効率を実証している。
それぞれのモデルの各層に最も適したランクを効果的かつ適応的に見つけることができる。
With the increasing number of parameters in large pre-trained models, LoRA as a parameter-efficient fine-tuning(PEFT) method is widely used for not adding inference overhead. The LoRA method assumes that weight changes during fine-tuning can be approximated by low-rank matrices. However, the rank values need to be manually verified to match different downstream tasks, and they cannot accommodate the varying importance of different layers in the model. In this work, we first analyze the relationship between the performance of different layers and their ranks using SVD. Based on this, we design the Singular-Value Based Adaptive Low-Rank Adaption(SARA), which adaptively finds the rank during initialization by performing SVD on the pre-trained weights. Additionally, we explore the Mixture-of-SARA(Mo-SARA), which significantly reduces the number of parameters by fine-tuning only multiple parallel sets of singular values controlled by a router. Extensive experiments on various complex tasks demonstrate the simplicity and parameter efficiency of our methods. They can effectively and adaptively find the most suitable rank for each layer of each model. | 翻訳日:2024-08-07 13:38:12 公開日:2024-08-06 |
# DopQ-ViT:視覚変換器の分散親和性と外付け性を考慮したポストトレーニング量子化を目指して
DopQ-ViT: Towards Distribution-Friendly and Outlier-Aware Post-Training Quantization for Vision Transformers ( http://arxiv.org/abs/2408.03291v1 ) ライセンス: Link先を確認 | Lianwei Yang, Haisong Gong, | (参考訳) ビジョントランスフォーマー(ViT)は、ビジョンタスクのパフォーマンスに大きな注目を集めているが、高い計算コストと重大なレイテンシの問題が広く採用を妨げている。
モデル圧縮の有望な方法であるポストトレーニング量子化(PTQ)は、ViTによる精度劣化問題に直面している。
これには2つの理由がある:既存の量子化パラダイムは、ソフトマックス後のアクティベーションのゆるい分布にうまく適合せず、レイアノーム後のアクティベーションの再パラメータ化後に必然的に精度が低下する。
そこで我々は,DopQ-ViT という名前の視覚変換器のための分散フレンドリーかつアウトリー・アウェアなポストトレーニング量子化法を提案する。
DopQ-ViTは、現在の量子化器の非効率性を分析し、TanQと呼ばれる分布に優しいタン量子化器を導入する。
TanQは、Softmax後のアクティベーションのパワーロー分布をより正確に保存し、良好な結果を得るために、1付近の値に重点を置いている。
さらに、チャネルワイドから層ワイド量子化へのポストレイアノームの活性化をパラメータ化する場合、スケーリング要因のアウトレーヤの影響が主な原因である。
そこで、DopQ-ViTは、外乱の影響を補償し、量子化モデルの性能を保ったSOSFと呼ばれる最適スケーリング係数を探索する方法を提案する。
DopQ-ViTは広範囲な検証を行っており、量子化モデル、特に低ビット設定での大幅なパフォーマンス向上を示している。
Vision transformers (ViTs) have garnered significant attention for their performance in vision tasks; however, the high computational cost and significant latency issues have hinder widespread adoption. Post-training quantization (PTQ), a promising method for model compression, still faces accuracy degradation challenges with ViTs. There are two reasons for this: the existing quantization paradigm does not fit the power-law distribution of post-Softmax activations well, and accuracy inevitably decreases after reparameterizing post-LayerNorm activations. We propose a Distribution-Friendly and Outlier-Aware Post-training Quantization method for Vision Transformers, named DopQ-ViT. DopQ-ViT analyzes the inefficiencies of current quantizers and introduces a distribution-friendly Tan Quantizer called TanQ. TanQ focuses more on values near 1, more accurately preserving the power-law distribution of post-Softmax activations, and achieves favorable results. Moreover, when reparameterizing post-LayerNorm activations from channel-wise to layer-wise quantization, the accuracy degradation is mainly due to the significant impact of outliers in the scaling factors. Therefore, DopQ-ViT proposes a method to Search for the Optimal Scaling Factor, denoted as SOSF, which compensates for the influence of outliers and preserves the performance of the quantization model. DopQ-ViT has undergone extensive validation and demonstrates significant performance improvements in quantization models, particularly in low-bit settings. | 翻訳日:2024-08-07 13:38:11 公開日:2024-08-06 |
# 注意U-NetとSaliency-based Explainabilityを用いた静的IRドロップ予測
Static IR Drop Prediction with Attention U-Net and Saliency-Based Explainability ( http://arxiv.org/abs/2408.03292v1 ) ライセンス: Link先を確認 | Lizi Zhang, Azadeh Davoodi, | (参考訳) ニューラルネットワークを用いた静的IRドロップ解析の計算作業の削減、画像から画像への変換タスクとしてのモデリングなど、最近の顕著な進歩がある。
重要な問題は、これらのネットワークをトレーニングする実業界設計の十分なデータがないことである。
さらに、予測されたIRドロップ画像中の高解像度画素を特定の根起因に説明するための方法論は存在しない。
本研究ではまず,注目ゲートを持つU-Netニューラルネットワークモデルを提案し,高速かつ正確な画像ベース静的IRドロップ予測を実現する。
注意ゲートは、IRドロップマップの希少な性質のため、監視なしで入力データの関連部分に選択的に重点を置くことができる。
そこで本研究では,人工的に生成したデータと,実際の設計から得られる限られた点を混合した2相学習プロセスを提案する。
その結果、平均して18%(53%)がMAEで14%(113%)がF1スコアで、ICCAD 2023コンテストの勝者(およびU-Netのみ)が実際のデザインでテストした場合と比較して良い結果となった。
第二に、予測されたIRドロップを1滴に最も寄与する特定の入力ピクセルの観点で説明できるサリエンシマップを用いた高速な手法を提案する。
実験では, PDNの抵抗エッジの小さな部分のアップサイズを模倣することにより, 高いIRドロップピクセルを平均18%削減できることを示した。
There has been significant recent progress to reduce the computational effort of static IR drop analysis using neural networks, and modeling as an image-to-image translation task. A crucial issue is the lack of sufficient data from real industry designs to train these networks. Additionally, there is no methodology to explain a high-drop pixel in a predicted IR drop image to its specific root-causes. In this work, we first propose a U-Net neural network model with attention gates which is specifically tailored to achieve fast and accurate image-based static IR drop prediction. Attention gates allow selective emphasis on relevant parts of the input data without supervision which is desired because of the often sparse nature of the IR drop map. We propose a two-phase training process which utilizes a mix of artificially-generated data and a limited number of points from real designs. The results are, on-average, 18% (53%) better in MAE and 14% (113%) in F1 score compared to the winner of the ICCAD 2023 contest (and U-Net only) when tested on real designs. Second, we propose a fast method using saliency maps which can explain a predicted IR drop in terms of specific input pixels contributing the most to a drop. In our experiments, we show the number of high IR drop pixels can be reduced on-average by 18% by mimicking upsize of a tiny portion of PDN's resistive edges. | 翻訳日:2024-08-07 13:38:11 公開日:2024-08-06 |
# 初期の宇宙における熱状態のクリロフ複雑性
Krylov complexity of thermal state in early universe ( http://arxiv.org/abs/2408.03293v1 ) ライセンス: Link先を確認 | Tao Li, Lei-Hua Liu, | (参考訳) 本研究では、初期宇宙全体の熱状態のクリロフ複雑性を詳細に研究し、単体インフレーションであるインフレ、放射支配期間、物質支配期間を包含する。
我々は,この目的を達成するために,クローズドシステム方式とオープンシステム方式の両方を利用する。
クリロフの複雑性を正確に計算するために, 2つのモードを持つ純状態となる熱状態の浄化を行った。
両手法による分析は, クリロフの複雑性は, インフレの過程で増大するが, 放射線支配期および物質支配期において一定値で飽和し, 予熱による粒子の生成がこの進化をもたらすことを示している。
さらに, インフレは強い散逸系として振る舞うのに対し, 放射支配および物質支配の期間は弱い散逸系として振る舞うことが明らかとなった。
これらの時代のカオス的特徴は、クリロフの複雑さと同様の傾向を辿っている。
この研究は、宇宙論におけるクリロフ複雑性の探索に新たな洞察を与える可能性がある。
In our work, we perform a detailed study of the Krylov complexity of the thermal state across the entire early universe, encompassing the inflation, radiation-dominated period, and matter-dominated period, which is for the single field inflation. We utilize both the closed system's method and open system's method to achieve this goal. To accurately calculate the Krylov complexity, we purified the thermal state, resulting in a pure state with two modes. Our analysis with both methods indicates that the Krylov complexity will increase during inflation, but will saturate at constant values during the radiation-dominated and matter-dominated periods, where the generation of particles via preheating leads to this evolution. Furthermore, our findings reveal that inflation behaves as a strong dissipative system, while the radiation-dominated and matter-dominated periods act as weak dissipative systems. The chaotic feature during these periods follows a similar trend to the Krylov complexity. This research has the potential to provide new insights into the exploration of Krylov complexity in cosmology. | 翻訳日:2024-08-07 13:38:11 公開日:2024-08-06 |
# Pauli文字列を用いた$\mathfrak{su}(2^N)$の最適生成
Optimally generating $\mathfrak{su}(2^N)$ using Pauli strings ( http://arxiv.org/abs/2408.03294v1 ) ライセンス: Link先を確認 | Isaac D. Smith, Maxime Cautrès, David T. Stephen, Hendrik Poulsen Nautrup, | (参考訳) 任意の量子計算は、ハミルトニアンの有限集合によって記述されるユニタリ進化の列からなる。
この集合がパウリ作用素の積のみからなるとすると、最小限のそのような集合が$\mathfrak{su}(2^{N})$ を生成していることが示される。
このような生成集合の例を多数提供し、さらに任意のパウリ回転に対応する回転列を生成するアルゴリズムを提供する。
Any quantum computation consists of a sequence of unitary evolutions described by a finite set of Hamiltonians. When this set is taken to consist of only products of Pauli operators, we show that the minimal such set generating $\mathfrak{su}(2^{N})$ contains $2N+1$ elements. We provide a number of examples of such generating sets and furthermore provide an algorithm for producing a sequence of rotations corresponding to any given Pauli rotation, which is shown to have optimal complexity. | 翻訳日:2024-08-07 13:38:11 公開日:2024-08-06 |
# ファブの左:半導体バリューチェーンの設計と協調
Left of Fab: Securing Design and Collaboration in the Semiconductor Value Chain ( http://arxiv.org/abs/2408.03295v1 ) ライセンス: Link先を確認 | John C. Hoag, | (参考訳) 本研究の目的は、集積回路の設計・製造における現在のワークフローと新興ワークフローの一般的な理解(および学術的な精査)のギャップを埋めることである。
アプローチはIC設計のワークフローをプリント基板と比較し、脅威の分類を識別する。
ワークフローの定義とセキュリティの必要性は、半導体製造への米国の投資と、AIアプリケーションのGPU生産に影響を与える市場力の両方によって増幅されている。
この知識ギャップの起源は、ソリューション空間のプロプライエタリな性質であるが、この領域のエンジニアや技術者の教育と学習に対する需要の欠如である。
本稿では,ベンダとツールに依存しない設計ワークフローのセキュリティを理解するためのフレームワークを提案する。
The purpose of this paper is to fill a gap in the general understanding -- and academic scrutiny -- of current and emerging workflows for designing and fabricating integrated circuits. The approach is to compare the IC design workflow with that for printed circuit boards, then to discern a classification for threats. The need to define and secure workflows is amplified by both U.S. investment in the semiconductor manufacturing and market forces affecting GPU production for AI applications. The origin of this knowledge gap can be the proprietary nature of solution spaces, but it can be the lack of demand for teaching and learning for engineers and technicians in this domain. This paper presents a framework for understanding the security of design workflows in a vendor- and tool-agnostic way. | 翻訳日:2024-08-07 13:38:11 公開日:2024-08-06 |
# フォトニックムペンバ効果
Photonic Mpemba effect ( http://arxiv.org/abs/2408.03296v1 ) ライセンス: Link先を確認 | Stefano Longhi, | (参考訳) ムペンバ効果(Mpemba effect)は、統計物理学において、遠方平衡状態が平衡に近い状態よりも早く平衡に向かって緩和できる反直観現象である。
この効果は長い間大きな好奇心を増し、多くの古典系や量子系で広く研究されてきた。
ここでは、Mpemba効果が光学でも観察できることが示されている。
具体的には, 有限サイズのフォトニック格子における光拡散過程を非コヒーレント(デフォーカス)力学で検討する。
むしろ驚くべきことに、特定の高度に局所化された初期光分布は、広範囲に非局在化された初期光分布よりも早く拡散することができることが示されている。
この効果は、光ファイバー系メッシュ格子における光パルスのランダムウォーキングを考慮し、光学系におけるMpemba効果の実証のための実験的にアクセス可能なセットアップを提供する。
The Mpemba effect is the counterintuitive phenomenon in statistical physics for which a far-from-equilibrium state can relax toward equilibrium faster than a state closer to equilibrium. This effect has raised a great curiosity since long time and has been studied extensively in many classical and quantum systems. Here it is shown that the Mpemba effect can be observed in optics as well. Specifically, the process of light diffusion in finite-sized photonic lattices under incoherent (dephasing) dynamics is considered. Rather surprisingly, it is shown that certain highly-localized initial light distributions can diffuse faster than initial broadly delocalized distributions. The effect is illustrated by considering random walk of optical pulses in fiber-based temporal mesh lattices, which should provide an experimentally-accessible setup for the demonstration of the Mpemba effect in optics. | 翻訳日:2024-08-07 13:38:11 公開日:2024-08-06 |
# KaPO:検索言語モデルにおける制御可能な知識選択のための知識認識による選好最適化
KaPO: Knowledge-aware Preference Optimization for Controllable Knowledge Selection in Retrieval-Augmented Language Models ( http://arxiv.org/abs/2408.03297v1 ) ライセンス: Link先を確認 | Ruizhe Zhang, Yongxin Xu, Yuzhen Xiao, Runchuan Zhu, Xinke Jiang, Xu Chu, Junfeng Zhao, Yasha Wang, | (参考訳) 外部知識を統合することで,大規模言語モデル(LLM)が知識集約タスクに対処する際の幻覚的問題を緩和するための効果的な戦略となっている。
しかし、外部の非パラメトリック支持証拠を内部のパラメトリック知識と統合する過程で、避けられない知識の衝突が生じ、モデルの反応が混乱する可能性がある。
様々な文脈におけるLLMの知識選択を強化するために,授業チューニングによる行動パターンの洗練に重点を置いてきた研究もある。
それでも、明示的な負の信号や相対的な目的が存在しないため、この方法で微調整されたモデルは、複雑で現実的な検索シナリオにおいて依然として望ましくない振る舞いを示す可能性がある。
そこで本研究では,実際の検索シナリオにおいて,制御可能な知識選択を実現することを目的とした,知識認識型推論最適化(KaPO)を提案する。
具体的には、様々なコンテキストの組み合わせでエラータイプを探索し、シミュレーションし、優先順位最適化手法によってこれらの負の信号を避ける方法を学ぶ。
同時に、応答長と異なる行動パターンを表す嗜好データの比率のバランスを調整することで、LLMの密着性とノイズ堅牢性をバランスよく向上する。
実験結果から,KaPOは従来の知識紛争処理手法を37%以上上回り,また,様々なアウト・オブ・ディストリビューションデータセットに対して堅牢な一般化を示した。
By integrating external knowledge, Retrieval-Augmented Generation (RAG) has become an effective strategy for mitigating the hallucination problems that large language models (LLMs) encounter when dealing with knowledge-intensive tasks. However, in the process of integrating external non-parametric supporting evidence with internal parametric knowledge, inevitable knowledge conflicts may arise, leading to confusion in the model's responses. To enhance the knowledge selection of LLMs in various contexts, some research has focused on refining their behavior patterns through instruction-tuning. Nonetheless, due to the absence of explicit negative signals and comparative objectives, models fine-tuned in this manner may still exhibit undesirable behaviors in the intricate and realistic retrieval scenarios. To this end, we propose a Knowledge-aware Preference Optimization, dubbed KaPO, aimed at achieving controllable knowledge selection in real retrieval scenarios. Concretely, we explore and simulate error types across diverse context combinations and learn how to avoid these negative signals through preference optimization methods. Simultaneously, by adjusting the balance between response length and the proportion of preference data representing different behavior patterns, we enhance the adherence capabilities and noise robustness of LLMs in a balanced manner. Experimental results show that KaPO outperforms previous methods for handling knowledge conflicts by over 37%, while also exhibiting robust generalization across various out-of-distribution datasets. | 翻訳日:2024-08-07 13:28:25 公開日:2024-08-06 |
# TextIM: テキストからの対話型モーション合成
TextIM: Part-aware Interactive Motion Synthesis from Text ( http://arxiv.org/abs/2408.03302v1 ) ライセンス: Link先を確認 | Siyuan Fan, Bo Du, Xiantao Cai, Bo Peng, Longling Sun, | (参考訳) 本研究では,TEXTを駆動するヒューマン・インタラクティブ・モーションを合成する新しいフレームワークであるTextIMを提案し,パートレベルのセマンティクスの正確なアライメントに着目した。
既存の手法は、しばしば対話的な身体部分の重要な役割を見落とし、部分レベルの意味論を適切に捉えて整合させることに失敗し、不正確な結果や誤動作の結果に至る。
これらの問題に対処するために、TextIMは分離された条件拡散フレームワークを使用して、テキスト記述から対話的な動きとそれに対応する意味的意図の詳細なアライメントを強化する。
我々のアプローチは、人間の脳として機能する大きな言語モデルを活用し、相互作用する人間の身体の部分を特定し、相互作用のセマンティクスを理解することによって、複雑で微妙な対話動作を生成する。
相互作用する部分の洗練された動きに導かれ、TextIMはさらにこれらの動きをコヒーレントな全身運動へと拡張する。
本研究では,空間コヒーレンスモジュールを設計し,部分グラフ畳み込みネットワークを用いて身体部分間の一貫性と調和を維持しながら全身の動きを補完する。
トレーニングと評価のために,HUMANML3Dからインタラクティブな動きを慎重に選択し,再ラベルし,特殊なデータセットを開発した。
実験により,TextIMは意味論的に正確な人間の対話動作を生成できることを示すとともに,変形性や動的に変化する物体との相互作用を含む様々なシナリオにおいて,合成された対話動作の現実性と適用性を大幅に向上させることができた。
In this work, we propose TextIM, a novel framework for synthesizing TEXT-driven human Interactive Motions, with a focus on the precise alignment of part-level semantics. Existing methods often overlook the critical roles of interactive body parts and fail to adequately capture and align part-level semantics, resulting in inaccuracies and even erroneous movement outcomes. To address these issues, TextIM utilizes a decoupled conditional diffusion framework to enhance the detailed alignment between interactive movements and corresponding semantic intents from textual descriptions. Our approach leverages large language models, functioning as a human brain, to identify interacting human body parts and to comprehend interaction semantics to generate complicated and subtle interactive motion. Guided by the refined movements of the interacting parts, TextIM further extends these movements into a coherent whole-body motion. We design a spatial coherence module to complement the entire body movements while maintaining consistency and harmony across body parts using a part graph convolutional network. For training and evaluation, we carefully selected and re-labeled interactive motions from HUMANML3D to develop a specialized dataset. Experimental results demonstrate that TextIM produces semantically accurate human interactive motions, significantly enhancing the realism and applicability of synthesized interactive motions in diverse scenarios, even including interactions with deformable and dynamically changing objects. | 翻訳日:2024-08-07 13:28:25 公開日:2024-08-06 |
# Blindのユーザによるオブジェクト認識エラーの扱い方 - 戦略と課題
Understanding How Blind Users Handle Object Recognition Errors: Strategies and Challenges ( http://arxiv.org/abs/2408.03303v1 ) ライセンス: Link先を確認 | Jonggi Hong, Hernisa Kacorri, | (参考訳) 物体認識技術は、周囲の世界をナビゲートする盲人や低視野の人々を支援する可能性を秘めている。
しかし、ベンチマークパフォーマンスと実用的なユーザビリティのギャップは依然として大きな課題である。
本稿では,視覚障害者と物体認識システムとのインタラクションの理解を目的とした,誤りの特定と回避を目的とした研究について述べる。
既存の物体認識システムURCamを応用し,12名の視覚障害者と低ビジョン参加者を対象としたユーザスタディを行った。
カメラベースの補助技術やオブジェクト認識システムにおけるエラーを識別するためのユーザエクスペリエンス,課題,戦略について,詳細なインタビューや手動のエラー識別タスクを通じて洞察を得た。
インタビュー中、多くの参加者は独立したエラーレビューを好み、誤認識に対する理解を表明していた。
エラー識別タスクでは、参加者は画像内の視点、背景、オブジェクトサイズを変化させ、エラーを回避し、克服する。
タスクを繰り返すと、被験者はエラーの半数しか特定できず、同定されたエラーの割合は、最初の試みと大きく異なるものではなかった。
これらの知見に基づき、物体認識の誤りを識別する際、視覚障害者や低ビジョン利用者のニーズに合わせて、アクセス可能なインターフェースを設計するための意味を提供する。
Object recognition technologies hold the potential to support blind and low-vision people in navigating the world around them. However, the gap between benchmark performances and practical usability remains a significant challenge. This paper presents a study aimed at understanding blind users' interaction with object recognition systems for identifying and avoiding errors. Leveraging a pre-existing object recognition system, URCam, fine-tuned for our experiment, we conducted a user study involving 12 blind and low-vision participants. Through in-depth interviews and hands-on error identification tasks, we gained insights into users' experiences, challenges, and strategies for identifying errors in camera-based assistive technologies and object recognition systems. During interviews, many participants preferred independent error review, while expressing apprehension toward misrecognitions. In the error identification task, participants varied viewpoints, backgrounds, and object sizes in their images to avoid and overcome errors. Even after repeating the task, participants identified only half of the errors, and the proportion of errors identified did not significantly differ from their first attempts. Based on these insights, we offer implications for designing accessible interfaces tailored to the needs of blind and low-vision users in identifying object recognition errors. | 翻訳日:2024-08-07 13:28:25 公開日:2024-08-06 |
# ファンクションフォース: ディープ・ヒューマン・ガイドによるセグメンテーション・マスクの微細化
Fusing Forces: Deep-Human-Guided Refinement of Segmentation Masks ( http://arxiv.org/abs/2408.03304v1 ) ライセンス: Link先を確認 | Rafael Sterzinger, Christian Stippel, Robert Sablatnig, | (参考訳) エトルリアの鏡はエトルリアの芸術において重要なカテゴリーであり、裏面に描かれた精巧な図形が特徴である。
分析とドキュメントの面倒でコストのかかる側面は、これらのイラストを手作業でトレースする作業である。
これまでの研究では、深層ニューラルネットワークと組み合わせた測光ステレオスキャンを含む、このプロセスを自動化する方法論が提案されている。
専門家のアノテータに似た定量的な性能を達成する一方で、いくつかの結果は定性的精度に欠けており、検査や潜在的な修正のためのアノテータを必要とし、資源強度を維持している。
そこで本研究では,人間の指示に基づいて既存のアノテーションをインタラクティブに洗練するよう訓練されたディープニューラルネットワークを提案する。
私たちのHuman-in-the-loopアプローチはアノテーションを合理化し、最大75%のマニュアル入力で同等の品質を実現しています。
さらに, 改良過程において, 純粋手動ラベリングによる手法の相対的な改善がピーク値の26%に達し, 品質が大幅に向上した。
複雑な線を分割する複雑な作業、特に従来の方法と区別することで、エトルリア鏡以外の広い範囲のアプリケーションに転送可能な、有効性を大幅に改善する。
Etruscan mirrors constitute a significant category in Etruscan art, characterized by elaborate figurative illustrations featured on their backside. A laborious and costly aspect of their analysis and documentation is the task of manually tracing these illustrations. In previous work, a methodology has been proposed to automate this process, involving photometric-stereo scanning in combination with deep neural networks. While achieving quantitative performance akin to an expert annotator, some results still lack qualitative precision and, thus, require annotators for inspection and potential correction, maintaining resource intensity. In response, we propose a deep neural network trained to interactively refine existing annotations based on human guidance. Our human-in-the-loop approach streamlines annotation, achieving equal quality with up to 75% less manual input required. Moreover, during the refinement process, the relative improvement of our methodology over pure manual labeling reaches peak values of up to 26%, attaining drastically better quality quicker. By being tailored to the complex task of segmenting intricate lines, specifically distinguishing it from previous methods, our approach offers drastic improvements in efficacy, transferable to a broad spectrum of applications beyond Etruscan mirrors. | 翻訳日:2024-08-07 13:28:25 公開日:2024-08-06 |
# プレトレーニングとインコンテクスト学習 : ベイズ推定とデ・フィネッティ
Pre-training and in-context learning IS Bayesian inference a la De Finetti ( http://arxiv.org/abs/2408.03307v1 ) ライセンス: Link先を確認 | Naimeng Ye, Hanming Yang, Andrew Siah, Hongseok Namkoong, | (参考訳) 根底にある環境における正確な不確実性は、インテリジェントシステムの長年の目標である。
我々は、事前訓練されたシーケンスモデルが自然に推論できる潜在概念の特徴付けを行う。
デ・フィネッティは長い間、可観測物の交換可能な(置換不変な)配列のモデリングを提唱してきた。
この見解によれば、事前学習された自己回帰モデルは、事前の観察(「経験的ベイズ」)に基づいて情報的信念を定式化し、前方生成は環境のシミュレートされたインスタンス化(「後部推論」)である。
この接続により、予測設定を超えてコンテキスト内学習(ICL)を拡張し、明確な統計的推論を実行するシーケンスモデルの能力を強調することができる。
特に、不確実な定量化が鍵となる下流タスクにおいて、交換可能な文書に対するシーケンス予測損失が性能を制御することを示す。
本稿では,データ拡張,正規化,因果マスキングといったシーケンスモデルアーキテクチャにおける交換可能性の符号化手法を提案する。
Accurately gauging uncertainty on the underlying environment is a longstanding goal of intelligent systems. We characterize which latent concepts pre-trained sequence models are naturally able to reason with. We go back to De Finetti's predictive view of Bayesian reasoning: instead of modeling latent parameters through priors and likelihoods like topic models do, De Finetti has long advocated for modeling exchangeable (permutation invariant) sequences of observables. According to this view, pre-training autoregressive models formulates informed beliefs based on prior observations ("empirical Bayes"), and forward generation is a simulated instantiation of an environment ("posterior inference"). This connection allows extending in-context learning (ICL) beyond predictive settings, highlighting sequence models' ability to perform explicit statistical inference. In particular, we show the sequence prediction loss over exchangeable documents controls performance on downstream tasks where uncertainty quantification is key. Empirically, we propose and demonstrate several approaches for encoding exchangeability in sequence model architectures: data augmentation, regularization, and causal masking. | 翻訳日:2024-08-07 13:28:25 公開日:2024-08-06 |
# 2色イッテルビウムMOTによる小型デュアルチャンバーの試作
Two-color Ytterbium MOT in a compact dual-chamber setup ( http://arxiv.org/abs/2408.03310v1 ) ライセンス: Link先を確認 | Xin Wang, Thilina Muthu-Arachchige, Tangi Legrand, Ludwig Müller, Wolfgang Alt, Sebastian Hofferberth, Eduardo Uruñuela, | (参考訳) 本稿では,超低温イッテルビウム原子をコンパクトなデュアルチャンバー構成で生成する実験手法を提案する。
永久磁石を使用し、広い$^1S_0\to {}^1P_1$シングルト遷移で動作するディスペンサ装荷2次元(2D)磁気光学トラップ(MOT)は、微分ポンプステージを介して3次元(3D)MOTに1秒あたり10^7$原子を供給する。
2色の3D MOTは、広い一重項遷移を使って$\sim\!
2\times 10^7$ atoms of $^{174}\text{Yb}$ within $2.5~\text{s}$ and then the narrow $^1S_0\to {}^3P_1$ intercombination line to cool the atomic cloud to the 10~\mathrm {\mu K}$。
本稿では, 原子集合配列の各ステージに最適化されたパラメータを報告し, 高い転送効率を実現する。
広い遷移MOT中の三重項状態へのシェルビングは、捕獲された原子の数をほぼ2倍にすることを発見した。
We present an experimental scheme for producing ultracold Ytterbium atoms in a compact dual-chamber setup. A dispenser-loaded two-dimensional (2D) magneto-optical trap (MOT) using permanent magnets and operating on the broad $^1S_0\to {}^1P_1$ singlet transition delivers over $10^7$ atoms per second through a differential pumping stage into a three-dimensional (3D) MOT. The two-color 3D MOT uses the broad singlet transition to accumulate $\sim\!2\times 10^7$ atoms of $^{174}\text{Yb}$ within $2.5~\text{s}$ and subsequently the narrow $^1S_0\to {}^3P_1$ intercombination line to cool the atomic cloud to below $10~\mathrm{\mu K}$. We report optimized parameters for each stage of the atom collection sequence, achieving high transfer efficiency. We find that shelving into the triplet state during the broad-transition MOT almost doubles the number of trapped atoms. | 翻訳日:2024-08-07 13:28:25 公開日:2024-08-06 |
# MDT-A2G:共音声ジェスチャ生成のためのマスク付き拡散変換器の探索
MDT-A2G: Exploring Masked Diffusion Transformers for Co-Speech Gesture Generation ( http://arxiv.org/abs/2408.03312v1 ) ライセンス: Link先を確認 | Xiaofeng Mao, Zhengkai Jiang, Qilin Wang, Chencan Fu, Jiangning Zhang, Jiafu Wu, Yabiao Wang, Chengjie Wang, Wei Li, Mingmin Chi, | (参考訳) 拡散変換器の分野での最近の進歩は、高品質な2D画像、3Dビデオ、および3D形状の生成を大幅に改善している。
しかし,従来の手法では畳み込みニューラルネットワーク(CNN)や単純なトランスフォーマー層が主流であったため,共音声ジェスチャ生成領域におけるトランスフォーマーアーキテクチャの有効性は明らかになっていない。
この研究ギャップを埋めるために,MDT-A2Gと呼ばれる音声合成のための新しいMasked Diffusion Transformerを導入する。
時間的に整列した音声によるジェスチャーの文脈的推論能力を高めるために,新しいマスケッド拡散変換器を組み込んだ。
このモデルは、シーケンスジェスチャ間の時間的関係学習を強化し、学習過程を高速化し、一貫性のある現実的な動きにつながるように特別に設計されたマスクモデリングスキームを用いる。
音声以外にも、MDT-A2Gモデルでは、テキスト、感情、アイデンティティを含むマルチモーダル情報も統合している。
さらに,従来の計算結果を活用することにより,デノナイズ計算を低減し,性能劣化の少ない高速化を実現する効率的な推論手法を提案する。
MDT-A2Gはジェスチャ生成に優れており、従来の拡散変換器よりも6$\times$以上の学習速度と標準拡散モデルより5.7$\times$の推論速度を誇っている。
Recent advancements in the field of Diffusion Transformers have substantially improved the generation of high-quality 2D images, 3D videos, and 3D shapes. However, the effectiveness of the Transformer architecture in the domain of co-speech gesture generation remains relatively unexplored, as prior methodologies have predominantly employed the Convolutional Neural Network (CNNs) or simple a few transformer layers. In an attempt to bridge this research gap, we introduce a novel Masked Diffusion Transformer for co-speech gesture generation, referred to as MDT-A2G, which directly implements the denoising process on gesture sequences. To enhance the contextual reasoning capability of temporally aligned speech-driven gestures, we incorporate a novel Masked Diffusion Transformer. This model employs a mask modeling scheme specifically designed to strengthen temporal relation learning among sequence gestures, thereby expediting the learning process and leading to coherent and realistic motions. Apart from audio, Our MDT-A2G model also integrates multi-modal information, encompassing text, emotion, and identity. Furthermore, we propose an efficient inference strategy that diminishes the denoising computation by leveraging previously calculated results, thereby achieving a speedup with negligible performance degradation. Experimental results demonstrate that MDT-A2G excels in gesture generation, boasting a learning speed that is over 6$\times$ faster than traditional diffusion transformers and an inference speed that is 5.7$\times$ than the standard diffusion model. | 翻訳日:2024-08-07 13:28:25 公開日:2024-08-06 |
# LLMテスト時間計算の最適スケーリングはモデルパラメータのスケーリングよりも効果的である
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters ( http://arxiv.org/abs/2408.03314v1 ) ライセンス: Link先を確認 | Charlie Snell, Jaehoon Lee, Kelvin Xu, Aviral Kumar, | (参考訳) LLMをもっとテスト時間計算を使って出力を改善することは、オープンな自然言語で操作できる汎用的な自己改善エージェントを構築するための重要なステップである。
本稿では, LLMにおける推論時間計算のスケーリングについて検討し, LLMが固定量でも非自明量でも構わない推論時間計算を許せば, 挑戦的なプロンプトでその性能をどの程度向上できるのか,という疑問に答えることに焦点をあてる。
この疑問への答えは、LLMの達成可能な性能だけでなく、LLM事前学習の将来や、推論時間と事前学習計算のトレードオフ方法にも影響する。
その重要性にも拘わらず、様々なテストタイム推論手法のスケーリング挙動を解明しようとする研究はほとんどなかった。
さらに、現在の作業は、これらの戦略の多くに否定的な結果をもたらします。
本研究では,(1)高密度なプロセスベースの検証者報酬モデルに対する探索,(2)テスト時のプロンプトが与えられた場合の応答上のモデルの分布を適応的に更新する2つの主要なメカニズムを解析する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
この観察は、プロンプト毎のテスト時間計算を適応的に最適に割り当てる「計算最適化」スケーリング戦略の適用を動機付けている。
この計算最適戦略を用いることで、ベストオブNベースラインに比べて、テストタイムの計算スケーリングの効率を4倍以上に向上させることができる。
さらに、FLOPsマッチング評価において、より小さなベースモデルが多少の自明な成功率を達成する問題において、テスト時間計算が14倍のモデルより優れていることが判明した。
Enabling LLMs to improve their outputs by using more test-time computation is a critical step towards building generally self-improving agents that can operate on open-ended natural language. In this paper, we study the scaling of inference-time computation in LLMs, with a focus on answering the question: if an LLM is allowed to use a fixed but non-trivial amount of inference-time compute, how much can it improve its performance on a challenging prompt? Answering this question has implications not only on the achievable performance of LLMs, but also on the future of LLM pretraining and how one should tradeoff inference-time and pre-training compute. Despite its importance, little research attempted to understand the scaling behaviors of various test-time inference methods. Moreover, current work largely provides negative results for a number of these strategies. In this work, we analyze two primary mechanisms to scale test-time computation: (1) searching against dense, process-based verifier reward models; and (2) updating the model's distribution over a response adaptively, given the prompt at test time. We find that in both cases, the effectiveness of different approaches to scaling test-time compute critically varies depending on the difficulty of the prompt. This observation motivates applying a "compute-optimal" scaling strategy, which acts to most effectively allocate test-time compute adaptively per prompt. Using this compute-optimal strategy, we can improve the efficiency of test-time compute scaling by more than 4x compared to a best-of-N baseline. Additionally, in a FLOPs-matched evaluation, we find that on problems where a smaller base model attains somewhat non-trivial success rates, test-time compute can be used to outperform a 14x larger model. | 翻訳日:2024-08-07 13:28:25 公開日:2024-08-06 |
# 電子電荷シャットリングのロバスト性:アーキテクチャ、パルス、電荷欠陥、ノイズ閾値
Robustness of electron charge shuttling: Architectures, pulses, charge defects and noise thresholds ( http://arxiv.org/abs/2408.03315v1 ) ライセンス: Link先を確認 | Minjun Jeon, Simon C. Benjamin, Andrew J. Fisher, | (参考訳) 半導体ベースの量子技術では、部品間で電荷を伝達する能力は極めて有効である。
格子型分割演算法と時間依存2次元ポテンシャル(ポアソン解法から得られる)を用いて電子の波動関数を明示的にモデル化し、単純なSi/SiO2デバイスに対する様々な「コンベヤベルト」シャットリングシナリオを数値シミュレーションした。
これにより電子損失確率と励起率を完全に特徴づけることができた。
注目すべきは、パルス不完全性、近傍の電荷欠陥、ジョンソン-ニキストノイズの存在下でも、わずか3つの独立した電極でほぼ完璧な断熱性を維持することができることである。
電荷欠陥のかなりの密度、あるいは「敵」位置の欠陥だけが、電荷のシャットリングを破滅的に破壊することができる。
我々はスピンやバレーの自由度を明示的にモデル化していないが、この電荷伝播研究の結果は、コンベヤベルトのシャットリングが半導体量子デバイスにおける接続性を提供するための優れた候補である、という結論を支持している。
In semiconductor-based quantum technologies, the capability to shuttle charges between components is profoundly enabling. We numerically simulated various "conveyor-belt" shuttling scenarios for simple Si/SiO2 devices, explicitly modelling the electron's wave function using grid-based split-operator methods and a time-dependent 2D potential (obtained from a Poisson solver). This allowed us to fully characterise the electron loss probability and excitation fraction. Remarkably, with as few as three independent electrodes the process can remain near-perfectly adiabatic even in the presence of pulse imperfection, nearby charge defects, and Johnson-Nyquist noise. Only a substantial density of charge defects, or defects at 'adversarial' locations, can catastrophically disrupt the charge shuttling. While we do not explicitly model the spin or valley degrees of freedom, our results from this charge propagation study support the conclusion that conveyor-belt shuttling is an excellent candidate for providing connectivity in semiconductor quantum devices. | 翻訳日:2024-08-07 13:28:24 公開日:2024-08-06 |
# 自発的物語におけるヘッジ認識のためのLDMの訓練
Training LLMs to Recognize Hedges in Spontaneous Narratives ( http://arxiv.org/abs/2408.03319v1 ) ライセンス: Link先を確認 | Amie J. Paige, Adil Soubki, John Murzaku, Owen Rambow, Susan E. Brennan, | (参考訳) ヘッジ(Hedge)は、話者が発話を一時的なものとしてマークし、非原型性や「ファジィ(fuzziness)」に信号を送るか、発話へのコミットメントの欠如を示すか、他人に発言の責任を負うか、パートナーからのインプットを招待するか、顔管理ニーズのサービスにおける重要なフィードバックを和らげるかを許可する。
ここでは,記憶から自然に生成した63本のロードランナーの物語を,テキストに書き起こした21人の講演者を対象に,実験的にパラメータ化したコーパスのヘッジに焦点を当てる(Galati and Brennan, 2010)。
我々は、人間のコーダ(Roadrunner-Hedge corpus)に注釈付けされたヘッジのゴールドスタンダードを作成し、GPT-4oとLLaMA-3による細調整BERTとゼロおよび少数ショットプロンプトの3つのLPMベースのアプローチを比較した。
最高の性能のアプローチは細調整されたBERTモデルで、その後数発のGPT-4oが続いた。
トップパフォーマンスアプローチのエラー分析の後、私たちはLLM-in-the-Loopアプローチを使用して、ゴールドスタンダードコーディングを改善しました。
本研究は,LLMを学習し,会話において適切な,有意義に副次的信号を生成するための第一歩である。
Hedges allow speakers to mark utterances as provisional, whether to signal non-prototypicality or "fuzziness", to indicate a lack of commitment to an utterance, to attribute responsibility for a statement to someone else, to invite input from a partner, or to soften critical feedback in the service of face-management needs. Here we focus on hedges in an experimentally parameterized corpus of 63 Roadrunner cartoon narratives spontaneously produced from memory by 21 speakers for co-present addressees, transcribed to text (Galati and Brennan, 2010). We created a gold standard of hedges annotated by human coders (the Roadrunner-Hedge corpus) and compared three LLM-based approaches for hedge detection: fine-tuning BERT, and zero and few-shot prompting with GPT-4o and LLaMA-3. The best-performing approach was a fine-tuned BERT model, followed by few-shot GPT-4o. After an error analysis on the top performing approaches, we used an LLM-in-the-Loop approach to improve the gold standard coding, as well as to highlight cases in which hedges are ambiguous in linguistically interesting ways that will guide future research. This is the first step in our research program to train LLMs to interpret and generate collateral signals appropriately and meaningfully in conversation. | 翻訳日:2024-08-07 13:28:24 公開日:2024-08-06 |
# ポリモデル理論とiTransformerを用いたヘッジファンドポートフォリオ構築
Hedge Fund Portfolio Construction Using PolyModel Theory and iTransformer ( http://arxiv.org/abs/2408.03320v1 ) ライセンス: Link先を確認 | Siqiao Zhao, Zhikang Dong, Zeyu Cao, Raphael Douady, | (参考訳) ポートフォリオを構築する場合、重要な問題は、多くの金融時系列データが不足しているため、機械学習手法の適用が困難であることだ。
ポリモデル理論はこの問題を解くことができ、様々な側面からポートフォリオ構築において優位性を示すことができる。
ヘッジファンドポートフォリオを構築するためのPolyModel理論を実装するために、過去29年間に1万以上のヘッジファンドを活用して資産プールを特定します。
ポリモデル理論はまた、様々な金融指標、通貨、商品価格を含む幅広いリスク要因を選択することを含む。
この包括的な選択は、現実世界の環境の複雑さを反映している。
ポリモデル理論を応用して、長期アルファ、長期比、SVaRなどの定量的尺度を作成する。
また、シャープ比やモーニングスターのMRARといった古典的な測度も使います。
構築されたポートフォリオの性能を向上させるために、最新のディープラーニング技術(iTransformer)を使用して、上向きの傾向を捉えながら、すべての機能を使って効率よくダウンサイドを制御します。
iTransformerモデルは、高次元時系列予測の課題に対処するために特別に設計されており、戦略を大幅に改善することができる。
より正確には、私たちの戦略はシャープ比の改善と年次リターンを達成する。
このプロセスにより、さまざまなベンチマークと比較した場合、高いリターンと低いリスクを目的とした複数のポートフォリオ戦略を作成することができる。
When constructing portfolios, a key problem is that a lot of financial time series data are sparse, making it challenging to apply machine learning methods. Polymodel theory can solve this issue and demonstrate superiority in portfolio construction from various aspects. To implement the PolyModel theory for constructing a hedge fund portfolio, we begin by identifying an asset pool, utilizing over 10,000 hedge funds for the past 29 years' data. PolyModel theory also involves choosing a wide-ranging set of risk factors, which includes various financial indices, currencies, and commodity prices. This comprehensive selection mirrors the complexities of the real-world environment. Leveraging on the PolyModel theory, we create quantitative measures such as Long-term Alpha, Long-term Ratio, and SVaR. We also use more classical measures like the Sharpe ratio or Morningstar's MRAR. To enhance the performance of the constructed portfolio, we also employ the latest deep learning techniques (iTransformer) to capture the upward trend, while efficiently controlling the downside, using all the features. The iTransformer model is specifically designed to address the challenges in high-dimensional time series forecasting and could largely improve our strategies. More precisely, our strategies achieve better Sharpe ratio and annualized return. The above process enables us to create multiple portfolio strategies aiming for high returns and low risks when compared to various benchmarks. | 翻訳日:2024-08-07 13:28:24 公開日:2024-08-06 |
# 医用画像とビデオのセグメンテーション:ベンチマークとデプロイ
Segment Anything in Medical Images and Videos: Benchmark and Deployment ( http://arxiv.org/abs/2408.03322v1 ) ライセンス: Link先を確認 | Jun Ma, Sumin Kim, Feifei Li, Mohammed Baharoon, Reza Asakereh, Hongwei Lyu, Bo Wang, | (参考訳) 近年のセグメンテーション基礎モデルの進歩により、様々な自然画像やビデオの正確かつ効率的なセグメンテーションが可能になったが、医療データに対するその有用性は明らかになっていない。
本研究はまず,11の医用画像モダリティとビデオを対象としたSegment Anything Model 2 (SAM2) の総合的なベンチマークを行い,SAM1とMedSAMを比較してその強みと弱点を指摘する。
そこで我々は、転写学習パイプラインを開発し、SAM2を微調整により医療領域に迅速に適用できることを実証した。
さらに, 3DスライサプラグインとしてSAM2を実装し, 3D画像と映像のセグメンテーションを効率的に行うためのGradio APIを実装した。
コードは \url{https://github.com/bowang-lab/MedSAM} で公開されている。
Recent advances in segmentation foundation models have enabled accurate and efficient segmentation across a wide range of natural images and videos, but their utility to medical data remains unclear. In this work, we first present a comprehensive benchmarking of the Segment Anything Model 2 (SAM2) across 11 medical image modalities and videos and point out its strengths and weaknesses by comparing it to SAM1 and MedSAM. Then, we develop a transfer learning pipeline and demonstrate SAM2 can be quickly adapted to medical domain by fine-tuning. Furthermore, we implement SAM2 as a 3D slicer plugin and Gradio API for efficient 3D image and video segmentation. The code has been made publicly available at \url{https://github.com/bowang-lab/MedSAM}. | 翻訳日:2024-08-07 13:28:24 公開日:2024-08-06 |
# ClassiFIM: 位相遷移を検出する教師なしの方法
ClassiFIM: An Unsupervised Method To Detect Phase Transitions ( http://arxiv.org/abs/2408.03323v1 ) ライセンス: Link先を確認 | Victor Kasatkin, Evgeny Mozgunov, Nicholas Ezzell, Utkarsh Mishra, Itay Hen, Daniel Lidar, | (参考訳) フィジカル・インフォメーション・メトリック(FIM推定)の推定は, 位相遷移の教師なし学習において重要な課題である。
本研究は,厳密な評価指標であるdistMSE,distMSEPS,distREを定義してタスクの定義を完了し,FIM推定タスクを解決するために設計された新しい機械学習手法であるClassiFIMを導入する。
相転移を教師なしで学習する既存の方法とは異なり、ClassiFIMは明確に定義された量(FIM)を直接推定する。
ClassiFIMは、FIM推定タスクのデータセットを補助的なバイナリ分類タスクのデータセットに変換し、後者のモデルを選択して訓練する。
クラスiFIMの出力は、無限のデータセットサイズと一定の規則性条件の下で、正確なFIMに近づくことを証明した。
古典的および量子的位相遷移を記述するデータセットを含む,複数のデータセットにClassiFIMを実装した。
さらに、同じデータセット上の位相遷移位置を教師なしで推定するための2つの代替手法を独立に実装し、少なくとも他の手法と同様にClassiFIMがそれらの位置を予測することを発見した。
また,本手法の汎用性を強調するために,MNISTで訓練されたCNNの出力をパラメータの異なる選択に用いたMNIST-CNNデータセットの提案と生成を行う。
このデータセットにClassiFIMを用いることで、MNISTで訓練されたCNNに対して、画像予測ペアの分布に位相遷移が存在することが示唆され、物理以外のFIM推定の範囲が広く示されている。
Estimation of the Fisher Information Metric (FIM-estimation) is an important task that arises in unsupervised learning of phase transitions, a problem proposed by physicists. This work completes the definition of the task by defining rigorous evaluation metrics distMSE, distMSEPS, and distRE and introduces ClassiFIM, a novel machine learning method designed to solve the FIM-estimation task. Unlike existing methods for unsupervised learning of phase transitions, ClassiFIM directly estimates a well-defined quantity (the FIM), allowing it to be rigorously compared to any present and future other methods that estimate the same. ClassiFIM transforms a dataset for the FIM-estimation task into a dataset for an auxiliary binary classification task and involves selecting and training a model for the latter. We prove that the output of ClassiFIM approaches the exact FIM in the limit of infinite dataset size and under certain regularity conditions. We implement ClassiFIM on multiple datasets, including datasets describing classical and quantum phase transitions, and find that it achieves a good ground truth approximation with modest computational resources. Furthermore, we independently implement two alternative state-of-the-art methods for unsupervised estimation of phase transition locations on the same datasets and find that ClassiFIM predicts such locations at least as well as these other methods. To emphasize the generality of our method, we also propose and generate the MNIST-CNN dataset, which consists of the output of CNNs trained on MNIST for different hyperparameter choices. Using ClassiFIM on this dataset suggests there is a phase transition in the distribution of image-prediction pairs for CNNs trained on MNIST, demonstrating the broad scope of FIM-estimation beyond physics. | 翻訳日:2024-08-07 13:28:24 公開日:2024-08-06 |
# CoverBench: 複雑なクレーム検証のためのベンチマーク
CoverBench: A Challenging Benchmark for Complex Claim Verification ( http://arxiv.org/abs/2408.03325v1 ) ライセンス: Link先を確認 | Alon Jacovi, Moran Ambar, Eyal Ben-David, Uri Shaham, Amir Feder, Mor Geva, Dror Marcus, Avi Caciularu, | (参考訳) 言語モデルのアウトプットの正確性を検証する研究が増えている。
同時に、LMは推論を必要とする複雑なクエリに対処するために使われています。
CoverBenchは複雑な推論環境でのLM出力の検証に重点を置いた、挑戦的なベンチマークである。
この目的のために使用できるデータセットは、特定のユースケース(例えば財務表)をターゲットにした他の複雑な推論タスク(例えばQA)のために設計されることが多い。
CoverBenchは、さまざまなドメイン、推論の種類、比較的長い入力、利用可能なテーブルの複数の表現、一貫性のあるスキーマなど、さまざまな標準化における複雑なクレーム検証のための多様化された評価を提供する。
低レベルのラベルノイズを確実にするために、手動でデータの品質を検証します。
最後に、CoverBenchが困難であり、非常に重要なヘッドルームを持つことを示すために、さまざまな競争ベースラインの結果を報告します。
データはhttps://huggingface.co/datasets/google/coverbench で公開されている。
There is a growing line of research on verifying the correctness of language models' outputs. At the same time, LMs are being used to tackle complex queries that require reasoning. We introduce CoverBench, a challenging benchmark focused on verifying LM outputs in complex reasoning settings. Datasets that can be used for this purpose are often designed for other complex reasoning tasks (e.g., QA) targeting specific use-cases (e.g., financial tables), requiring transformations, negative sampling and selection of hard examples to collect such a benchmark. CoverBench provides a diversified evaluation for complex claim verification in a variety of domains, types of reasoning, relatively long inputs, and a variety of standardizations, such as multiple representations for tables where available, and a consistent schema. We manually vet the data for quality to ensure low levels of label noise. Finally, we report a variety of competitive baseline results to show CoverBench is challenging and has very significant headroom. The data is available at https://huggingface.co/datasets/google/coverbench . | 翻訳日:2024-08-07 13:28:24 公開日:2024-08-06 |
# LLaVA-OneVision: 簡単なビジュアルタスク転送
LLaVA-OneVision: Easy Visual Task Transfer ( http://arxiv.org/abs/2408.03326v1 ) ライセンス: Link先を確認 | Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, Chunyuan Li, | (参考訳) LLaVA-OneVisionは、LLaVA-NeXTブログシリーズにおいて、データ、モデル、視覚表現に関する洞察を集約して開発されたオープンな大規模マルチモーダルモデル(LMM)のファミリーである。
実験の結果、LLaVA-OneVisionは、オープンLMMの性能境界を3つの重要なコンピュータビジョンシナリオ(シングルイメージ、マルチイメージ、ビデオシナリオ)で同時に押し上げることができる最初の単一モデルであることがわかった。
重要なのは、LLaVA-OneVisionの設計により、さまざまなモダリティ/シナリオをまたいだ強力なトランスファー学習が可能となり、新たな能力が得られることだ。
特に、画像からビデオへのタスク転送を通じて、強力なビデオ理解とクロスシナリオ機能を示す。
We present LLaVA-OneVision, a family of open large multimodal models (LMMs) developed by consolidating our insights into data, models, and visual representations in the LLaVA-NeXT blog series. Our experimental results demonstrate that LLaVA-OneVision is the first single model that can simultaneously push the performance boundaries of open LMMs in three important computer vision scenarios: single-image, multi-image, and video scenarios. Importantly, the design of LLaVA-OneVision allows strong transfer learning across different modalities/scenarios, yielding new emerging capabilities. In particular, strong video understanding and cross-scenario capabilities are demonstrated through task transfer from images to videos. | 翻訳日:2024-08-07 13:28:24 公開日:2024-08-06 |
# FBSDiff: 高可制御性テキスト駆動画像変換のための拡散機能のプラグアンドプレイ周波数帯域置換
FBSDiff: Plug-and-Play Frequency Band Substitution of Diffusion Features for Highly Controllable Text-Driven Image Translation ( http://arxiv.org/abs/2408.00998v2 ) ライセンス: Link先を確認 | Xiang Gao, Jiaying Liu, | (参考訳) 大規模なテキストから画像への拡散モデルは、生成的AIとマルチモーダル技術の進化における画期的なマイルストーンであり、自然言語のテキストプロンプトによる素晴らしい画像生成を可能にしている。
しかし、そのようなモデルの制御性に欠ける問題は、現実のコンテンツ作成に実用的に適用可能であることを制限している。
このようにして、参照画像を利用してテキスト間合成を制御することに注意が向けられ、テキストのプロンプト、すなわちテキスト駆動型画像-画像翻訳に従って参照画像を操作(または編集)すると考えられている。
本稿では,大規模テキスト・ツー・イメージ(T2I)拡散モデルとイメージ・ツー・イメージ(I2I)パラダイムをプラグ・アンド・プレイ方式で適用し,モデルトレーニングやモデル微調整,オンライン最適化などなしに高品質で汎用的なテキスト駆動型I2I翻訳を実現する,新しい,簡潔かつ効率的なアプローチを提案する。
基準画像を用いてT2I生成を誘導するため、DCTスペクトル空間における拡散特性の異なる周波数帯域で多様な誘導因子を分解し、T2I生成結果に対する参照画像の動的制御をプラグアンドプレイで実現する新しい周波数帯域置換層を考案する。
提案手法は,周波数帯域のタイプと帯域幅を調整するだけで,基準画像の導出係数と導出強度を柔軟に制御できることを実証する。
広汎な質的,定量的実験により,I2I翻訳の視覚的品質,汎用性,制御性に対するアプローチの優位性を検証した。
コードはhttps://github.com/XiangGao1102/FBSDiffで公開されている。
Large-scale text-to-image diffusion models have been a revolutionary milestone in the evolution of generative AI and multimodal technology, allowing wonderful image generation with natural-language text prompt. However, the issue of lacking controllability of such models restricts their practical applicability for real-life content creation. Thus, attention has been focused on leveraging a reference image to control text-to-image synthesis, which is also regarded as manipulating (or editing) a reference image as per a text prompt, namely, text-driven image-to-image translation. This paper contributes a novel, concise, and efficient approach that adapts pre-trained large-scale text-to-image (T2I) diffusion model to the image-to-image (I2I) paradigm in a plug-and-play manner, realizing high-quality and versatile text-driven I2I translation without any model training, model fine-tuning, or online optimization process. To guide T2I generation with a reference image, we propose to decompose diverse guiding factors with different frequency bands of diffusion features in the DCT spectral space, and accordingly devise a novel frequency band substitution layer which realizes dynamic control of the reference image to the T2I generation result in a plug-and-play manner. We demonstrate that our method allows flexible control over both guiding factor and guiding intensity of the reference image simply by tuning the type and bandwidth of the substituted frequency band, respectively. Extensive qualitative and quantitative experiments verify superiority of our approach over related methods in I2I translation visual quality, versatility, and controllability. The code is publicly available at: https://github.com/XiangGao1102/FBSDiff. | 翻訳日:2024-08-07 13:18:40 公開日:2024-08-06 |
# 特徴時計:二次元プロットにおける高次元効果
Feature Clock: High-Dimensional Effects in Two-Dimensional Plots ( http://arxiv.org/abs/2408.01294v2 ) ライセンス: Link先を確認 | Olga Ovcharenko, Rita Sevastjanova, Valentina Boeva, | (参考訳) 人間は高次元データを知覚し解釈するのに苦労する。
したがって、高次元データは可視化のために2次元に投影されることが多い。
多くの応用は複素非線形次元減少法の恩恵を受けるが、個々の高次元特徴の影響は二次元空間では説明が難しい。
ほとんどの可視化ソリューションでは、複数の2次元プロットを使用し、それぞれが2次元に1つの高次元特徴の効果を示す。
我々のソリューションであるFeature Clockは、2次元で表現されたデータ構造に対する元の特徴の影響を把握するためにこれらのkプロットを検査する必要がない新しいアプローチを提供する。
Feature Clockは、組み込みデータの視覚化の可視性とコンパクト性を高め、オープンソースのPythonライブラリで利用できる。
Humans struggle to perceive and interpret high-dimensional data. Therefore, high-dimensional data are often projected into two dimensions for visualization. Many applications benefit from complex nonlinear dimensionality reduction techniques, but the effects of individual high-dimensional features are hard to explain in the two-dimensional space. Most visualization solutions use multiple two-dimensional plots, each showing the effect of one high-dimensional feature in two dimensions; this approach creates a need for a visual inspection of k plots for a k-dimensional input space. Our solution, Feature Clock, provides a novel approach that eliminates the need to inspect these k plots to grasp the influence of original features on the data structure depicted in two dimensions. Feature Clock enhances the explainability and compactness of visualizations of embedded data and is available in an open-source Python library. | 翻訳日:2024-08-07 13:18:40 公開日:2024-08-06 |
# UnifiedNN: クラウド上での効率的なニューラルネットワークトレーニング
UnifiedNN: Efficient Neural Network Training on the Cloud ( http://arxiv.org/abs/2408.01331v2 ) ライセンス: Link先を確認 | Sifat Ut Taki, Arthi Padmanabhan, Spyridon Mastorakis, | (参考訳) 今日では、クラウドベースのサービスは、ニューラルネットワーク(NN)モデルをローカルにトレーニングする従来のアプローチよりも、広く支持されています。
多くの場合、クラウドサービスは、複数のNNモデルを同時にトレーニングするユーザからの複数のリクエストを処理する。
しかし、NNモデルを同時にトレーニングすることは難しいプロセスであり、通常は大量の利用可能なコンピューティングリソースを必要とし、完成までに長い時間がかかる。
本稿では,クラウド上で複数のNNモデルを効果的にトレーニングするためのUnifiedNNを提案する。
UnifiedNNは、複数のNNモデルを効果的に"結合"し、トレーニングプロセスの正確性に影響を与えることなく、複数のNNモデルを同時にトレーニングするためのメモリと時間保存機構を備えている。
具体的には、UnifiedNNは複数のNNモデルをマージし、全てのモデルを効率的に訓練するために大きな特異統一モデルを生成する。
我々はPyTorchでUnifiedNNのプロトタイプを実装し、そのパフォーマンスを関連する最先端フレームワークと比較した。
実験の結果,UnifiedNNは,モデルトレーニングやテスト精度に影響を与えることなく,バニラPyTorchと比較して最大53%,トレーニング時間は最大81%削減できることがわかった。
最後に、UnifiedNNは、複数のモデルを同時にトレーニングする際の最先端フレームワークと比較して、メモリ消費を最大52%削減し、トレーニング時間を最大41%削減できることを示す。
Nowadays, cloud-based services are widely favored over the traditional approach of locally training a Neural Network (NN) model. Oftentimes, a cloud service processes multiple requests from users--thus training multiple NN models concurrently. However, training NN models concurrently is a challenging process, which typically requires significant amounts of available computing resources and takes a long time to complete. In this paper, we present UnifiedNN to effectively train multiple NN models concurrently on the cloud. UnifiedNN effectively "combines" multiple NN models and features several memory and time conservation mechanisms to train multiple NN models simultaneously without impacting the accuracy of the training process. Specifically, UnifiedNN merges multiple NN models and creates a large singular unified model in order to efficiently train all models at once. We have implemented a prototype of UnifiedNN in PyTorch and we have compared its performance with relevant state-of-the-art frameworks. Our experimental results demonstrate that UnifiedNN can reduce memory consumption by up to 53% and training time by up to 81% when compared with vanilla PyTorch without impacting the model training and testing accuracy. Finally, our results indicate that UnifiedNN can reduce memory consumption by up to 52% and training time by up to 41% when compared to state-of-the-art frameworks when training multiple models concurrently. | 翻訳日:2024-08-07 13:18:40 公開日:2024-08-06 |
# ギブスサンプリングは、O(1)$-ローカルハミルトニアンによる一定温度での量子アドバンテージを与える
Gibbs Sampling gives Quantum Advantage at Constant Temperatures with $O(1)$-Local Hamiltonians ( http://arxiv.org/abs/2408.01516v2 ) ライセンス: Link先を確認 | Joel Rajakumar, James D. Watson, | (参考訳) Gibbs の標本化 $\unicode{x2013}$ 熱平衡におけるシステムに対応する状態 $\unicode{x2013}$ は、量子コンピュータが古典的コンピュータと比較して超ポリノミカルなスピードアップを達成することを期待するタスクであることが最近示されている(Bergamaschi et al , arXiv: 2404.14639)。
これらの結果を拡張し、量子コンピュータを用いて古典的な硬さを示すことによって、O(1)-局所相互作用を持つハミルトニアンのギブス状態に対して、この量子優位性が依然として生じていることを示す。
特に、3次元格子上の5-局所ハミルトニアンに対しても、サンプリングの硬さが維持されることを示す。
さらに、不完全な測定しかできない場合、サンプルの硬さは堅牢であることを示す。
これらの硬度結果の他に、ギブス状態が古典的にハミルトンの相互作用グラフの最大度でサンプリングし易くなる温度の低い境界を示す。
Sampling from Gibbs states $\unicode{x2013}$ states corresponding to system in thermal equilibrium $\unicode{x2013}$ has recently been shown to be a task for which quantum computers are expected to achieve super-polynomial speed-up compared to classical computers, provided the locality of the Hamiltonian increases with the system size (Bergamaschi et al., arXiv: 2404.14639). We extend these results to show that this quantum advantage still occurs for Gibbs states of Hamiltonians with O(1)-local interactions at constant temperature by showing classical hardness-of-sampling and demonstrating such Gibbs states can be prepared efficiently using a quantum computer. In particular, we show hardness-of-sampling is maintained even for 5-local Hamiltonians on a 3D lattice. We additionally show that the hardness-of-sampling is robust when we are only able to make imperfect measurements. Beyond these hardness results, we present a lower bound on the temperatures that Gibbs states become easy to sample from classically in terms of the maximum degree of the Hamiltonian's interaction graph. | 翻訳日:2024-08-07 13:18:40 公開日:2024-08-06 |
# ゼロ光子検出によるメカニカル共振器のレーザー冷却
Something from Nothing: Enhanced Laser Cooling of a Mechanical Resonator via Zero-Photon Detection ( http://arxiv.org/abs/2408.01734v2 ) ライセンス: Link先を確認 | Evan A. Cryer-Jenkins, Kyle D. Major, Jack Clarke, Georg Enzian, Magdalena Szczykulska, Jinglei Zhang, Arjun Gupta, Anthony C. Leung, Harsh Rathee, Andreas Ø. Svela, Anthony K. C. Tan, Almut Beige, Klaus Mølmer, Michael R. Vanner, | (参考訳) 量子科学と技術を通して、計測は非線形演算と量子状態工学のための強力な資源として使用される。
特に、単一光子検出は量子情報応用や基礎物理学のテストに一般的に用いられる。
対照的に、そしておそらく反故意に、光子の欠如の測定もまた有用な情報を提供し、また、幅広い新しい実験方向に対して有意義な可能性をもたらしている。
本稿では,レーザー冷却された機械的占有下での機械的共振器の冷却を,反ストークス散乱光場におけるゼロ光子検出により実験的に実証し,ヘテロダイン測定により検証する。
我々の測定は確率的マスター方程式によってよく捉えられ、ここで導入された技術は、冷却、量子熱力学、量子状態工学、量子計測と制御のための新しい道を開く。
Throughout quantum science and technology, measurement is used as a powerful resource for nonlinear operations and quantum state engineering. In particular, single-photon detection is commonly employed for quantum-information applications and tests of fundamental physics. By contrast, and perhaps counter-intuitively, measurement of the absence of photons also provides useful information, and offers significant potential for a wide range of new experimental directions. Here, we propose and experimentally demonstrate cooling of a mechanical resonator below its laser-cooled mechanical occupation via zero-photon detection on the anti-Stokes scattered optical field and verify this cooling through heterodyne measurements. Our measurements are well captured by a stochastic master equation and the techniques introduced here open new avenues for cooling, quantum thermodynamics, quantum state engineering, and quantum measurement and control. | 翻訳日:2024-08-07 13:18:40 公開日:2024-08-06 |
# 機械式共振器の冷却促進・促進のための理論的枠組み : アンチストークス・ストークス相互作用とゼロ光子検出
Something from Nothing: A Theoretical Framework for Enhancing or Enabling Cooling of a Mechanical Resonator via the anti-Stokes or Stokes Interaction and Zero-Photon Detection ( http://arxiv.org/abs/2408.01735v2 ) ライセンス: Link先を確認 | Jack Clarke, Evan A. Cryer-Jenkins, Arjun Gupta, Kyle D. Major, Jinglei Zhang, Georg Enzian, Magdalena Szczykulska, Anthony C. Leung, Harsh Rathee, Andreas Ø. Svela, Anthony K. C. Tan, Almut Beige, Klaus Mølmer, Michael R. Vanner, | (参考訳) 我々は、ゼロ光子検出が反ストークス相互作用によるレーザー冷却の強化にどのように利用されるかを記述するための理論的枠組みを開発し、驚くべきことに、加熱に関連するストークス相互作用による冷却を可能にする。
我々の記述にはパルス計測と連続計測の両方、光学的検出効率と開系力学が含まれる。
いずれの場合も, 冷却が検出効率やオプティメカルコオペラティティティといったシステムパラメータにどのように依存するかを考察し, 単光子検出イベントとは対照的な連続測定誘起力学について検討する。
Stokesの場合、光学パラメトリック増幅による冷却と加熱の相互作用を探索し、ゼロ光子検出による機械発振器の冷却に必要な効率を見出した。
この研究は、最近の実験(E. A. Cryer-Jenkins, K. D. Major, et al , arXiv:2408.01734 (2024)]の補助的な記事として、反ストークス信号のゼロ光子検出による機械振動子のレーザー冷却の強化を実証した。
ここで開発されたフレームワークは、非古典的状態準備、量子熱力学、パラメトリック増幅によるしばしば望ましくない加熱効果を避けるなど、幅広い分野に適用可能な、機械共振器の冷却のための新しいアプローチを提供する。
We develop a theoretical framework to describe how zero-photon detection may be utilized to enhance laser cooling via the anti-Stokes interaction and, somewhat surprisingly, enable cooling via the Stokes interaction commonly associated with heating. Our description includes both pulsed and continuous measurements as well as optical detection efficiency and open-system dynamics. For both cases, we discuss how the cooling depends on the system parameters such as detection efficiency and optomechanical cooperativity, and we study the continuous-measurement-induced dynamics, contrasting to single-photon detection events. For the Stokes case, we explore the interplay between cooling and heating via optomechanical parametric amplification, and we find the efficiency required to cool a mechanical oscillator via zero-photon detection. This work serves as a companion article to the recent experiment [E. A. Cryer-Jenkins, K. D. Major, et al., arXiv:2408.01734 (2024)], which demonstrated enhanced laser cooling of a mechanical oscillator via zero-photon detection on the anti-Stokes signal. The framework developed here provides new approaches for cooling mechanical resonators that can be applied to a wide range of areas including nonclassical state preparation, quantum thermodynamics, and avoiding the often unwanted heating effects of parametric amplification. | 翻訳日:2024-08-07 13:18:40 公開日:2024-08-06 |
# 大気化学用ニューラルネットワークエミュレータ
Neural Network Emulator for Atmospheric Chemical ODE ( http://arxiv.org/abs/2408.01829v2 ) ライセンス: Link先を確認 | Zhi-Song Liu, Petri Clusius, Michael Boy, | (参考訳) 大気化学のモデリングは複雑で計算力に富んでいる。
近年,デジタル信号処理におけるディープニューラルネットワークの成功を踏まえ,高速な化学濃度モデリングのためのニューラルネットワークエミュレータを提案する。
大気化学を時間依存の常微分方程式とみなす。
初期状態と今後の時間進化の間の隠れた相関関係を抽出するために,大気化学をニューラルネットワークプロセスとしてモデル化可能な,注意に基づくニューラルネットワークエミュレータ(NNE)ChemNNEを提案する。
化学変化を効率的にシミュレートするために, 正弦波の時間埋め込みを提案し, 時間とともに振動傾向を推定する。
さらに重要なことは、効率的な計算のために、フーリエニューラル演算子を使用してODEプロセスをモデル化することです。
また,トレーニング最適化を監督するために,身体的インフォームド損失を3つ提案する。
本モデルを評価するために,ニューラルネットワークのトレーニングと評価に使用できる大規模ケミカルデータセットを提案する。
実験により,本手法は精度と計算速度のモデル化において最先端の性能を実現することを示す。
Modeling atmospheric chemistry is complex and computationally intense. Given the recent success of Deep neural networks in digital signal processing, we propose a Neural Network Emulator for fast chemical concentration modeling. We consider atmospheric chemistry as a time-dependent Ordinary Differential Equation. To extract the hidden correlations between initial states and future time evolution, we propose ChemNNE, an Attention based Neural Network Emulator (NNE) that can model the atmospheric chemistry as a neural ODE process. To efficiently simulate the chemical changes, we propose the sinusoidal time embedding to estimate the oscillating tendency over time. More importantly, we use the Fourier neural operator to model the ODE process for efficient computation. We also propose three physical-informed losses to supervise the training optimization. To evaluate our model, we propose a large-scale chemical dataset that can be used for neural network training and evaluation. The extensive experiments show that our approach achieves state-of-the-art performance in modeling accuracy and computational speed. | 翻訳日:2024-08-07 13:18:40 公開日:2024-08-06 |
# DiReCT:大規模言語モデルによる臨床ノートの診断的推論
DiReCT: Diagnostic Reasoning for Clinical Notes via Large Language Models ( http://arxiv.org/abs/2408.01933v2 ) ライセンス: Link先を確認 | Bowen Wang, Jiuyang Chang, Yiming Qian, Guoxin Chen, Junhao Chen, Zhouqiang Jiang, Jiahao Zhang, Yuta Nakashima, Hajime Nagahara, | (参考訳) 大規模言語モデル(LLM)は、医療領域を含む幅広いタスクやアプリケーションにまたがる、目覚ましい機能を披露している。
GPT-4のようなモデルは、医学的な質問に答える上で優れているが、実際の臨床環境で複雑なタスクを扱う際には、解釈可能性の欠如が問題となる可能性がある。
そこで本論文では,人間の医師と比較してLCMの推論能力と解釈性を評価することを目的とした,臨床ノート用診断推論データセット(DiReCT)について紹介する。
これには、511の臨床ノートが含まれており、それぞれ医師が慎重に注記し、臨床ノートの観察から最終診断まで、診断の推論過程を詳述している。
さらに、診断知識グラフが提供され、既存のLLMのトレーニングデータには含まれない推論に必要な知識を提供する。
DiReCTにおけるLLMの評価は、その推論能力と人間の医師の間に大きなギャップをもたらし、実際の臨床シナリオにおいて効果的に推論できるモデルに対する重要な必要性を強調している。
Large language models (LLMs) have recently showcased remarkable capabilities, spanning a wide range of tasks and applications, including those in the medical domain. Models like GPT-4 excel in medical question answering but may face challenges in the lack of interpretability when handling complex tasks in real clinical settings. We thus introduce the diagnostic reasoning dataset for clinical notes (DiReCT), aiming at evaluating the reasoning ability and interpretability of LLMs compared to human doctors. It contains 511 clinical notes, each meticulously annotated by physicians, detailing the diagnostic reasoning process from observations in a clinical note to the final diagnosis. Additionally, a diagnostic knowledge graph is provided to offer essential knowledge for reasoning, which may not be covered in the training data of existing LLMs. Evaluations of leading LLMs on DiReCT bring out a significant gap between their reasoning ability and that of human doctors, highlighting the critical need for models that can reason effectively in real-world clinical scenarios. | 翻訳日:2024-08-07 13:18:40 公開日:2024-08-06 |
# 物体検出のための敵攻撃の実態調査と評価
A Survey and Evaluation of Adversarial Attacks for Object Detection ( http://arxiv.org/abs/2408.01934v2 ) ライセンス: Link先を確認 | Khoi Nguyen Tiet Nguyen, Wenyu Zhang, Kangkang Lu, Yuhuan Wu, Xingjian Zheng, Hui Li Tan, Liangli Zhen, | (参考訳) ディープラーニングモデルは、様々なコンピュータビジョンタスクにおいて優れているが、誤った予測につながる入力データの逆例-サブトル摂動の影響を受けやすい。
この脆弱性は、自動運転車、セキュリティ監視、航空機の健康監視など、安全に重要なアプリケーションに重大なリスクをもたらす。
多くの調査は画像分類における敵攻撃に焦点を当てているが、対象検出におけるそのような攻撃に関する文献は限られている。
本稿では,対象検出に特有の敵攻撃の包括的分類を提供し,既存の敵ロバスト性評価指標をレビューし,オープンソースのアタック手法とモデルロバストネスを体系的に評価する。
攻撃の有効性とそれに対応する対策の理解を高めるために、重要な観測結果が提供される。
さらに,自動物体検出システムの安全性確保に向けた今後の取り組みを導く上で,重要な研究課題を明らかにした。
Deep learning models excel in various computer vision tasks but are susceptible to adversarial examples-subtle perturbations in input data that lead to incorrect predictions. This vulnerability poses significant risks in safety-critical applications such as autonomous vehicles, security surveillance, and aircraft health monitoring. While numerous surveys focus on adversarial attacks in image classification, the literature on such attacks in object detection is limited. This paper offers a comprehensive taxonomy of adversarial attacks specific to object detection, reviews existing adversarial robustness evaluation metrics, and systematically assesses open-source attack methods and model robustness. Key observations are provided to enhance the understanding of attack effectiveness and corresponding countermeasures. Additionally, we identify crucial research challenges to guide future efforts in securing automated object detection systems. | 翻訳日:2024-08-07 13:18:40 公開日:2024-08-06 |
# データ津波の力を解き明かす:言語モデルの学習指導のためのデータアセスメントと選択に関する包括的調査
Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models ( http://arxiv.org/abs/2408.02085v2 ) ライセンス: Link先を確認 | Yulei Qin, Yuncheng Yang, Pengcheng Guo, Gang Li, Hang Shao, Yuchen Shi, Zihan Xu, Yun Gu, Ke Li, Xing Sun, | (参考訳) インストラクションチューニングは、大きな言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。
膨大な量のオープンな命令データセットにもかかわらず、既存のすべての命令に対してLSMを鼻で訓練することは、最適で実用的ではないかもしれない。
最も有用なデータポイントを特定するために、自然言語処理(NLP)とディープラーニングの分野において、データアセスメントと選択法が提案されている。
しかし、命令チューニングのコンテキスト下では、どのようなデータ評価指標を使用できるか、どのように選択メカニズムに統合できるかについて、知識のギャップがまだ残っている。
このギャップを埋めるため,従来のデータアセスメントと選択に関する文献を総合的にレビューし,特にLLMの命令チューニングについて述べる。
我々は、すべての適用可能な手法を、統一されたきめ細かい分類法が構成されている品質ベース、多様性ベース、重要ベースに体系的に分類する。
各カテゴリについて、関連する研究の展望を説明するために、代表的手法を詳述する。
また, 最新の手法の比較を, 公式報告された結果に基づいて実施し, その限界について詳細な議論を行う。
最後に,オープンな課題を要約し,今後の研究の道筋を提案する。
関連コンテンツはすべてhttps://github.com/yuleiqin/fantastic-data-engineering.comで公開されている。
Instruction tuning plays a critical role in aligning large language models (LLMs) with human preference. Despite the vast amount of open instruction datasets, naively training a LLM on all existing instructions may not be optimal and practical. To pinpoint the most beneficial datapoints, data assessment and selection methods have been proposed in the fields of natural language processing (NLP) and deep learning. However, under the context of instruction tuning, there still exists a gap in knowledge on what kind of data evaluation metrics can be employed and how they can be integrated into the selection mechanism. To bridge this gap, we present a comprehensive review on existing literature of data assessment and selection especially for instruction tuning of LLMs. We systematically categorize all applicable methods into quality-based, diversity-based, and importance-based ones where a unified, fine-grained taxonomy is structured. For each category, representative methods are elaborated to describe the landscape of relevant research. In addition, comparison between latest methods is conducted on their officially reported results to provide in-depth discussions on their limitations. Finally, we summarize the open challenges and propose the promosing avenues for future studies. All related contents are available at https://github.com/yuleiqin/fantastic-data-engineering. | 翻訳日:2024-08-07 13:18:40 公開日:2024-08-06 |
# ソースフリードメイン不変性能予測
Source-Free Domain-Invariant Performance Prediction ( http://arxiv.org/abs/2408.02209v2 ) ライセンス: Link先を確認 | Ekaterina Khramtsova, Mahsa Baktashmotlagh, Guido Zuccon, Xi Wang, Mathieu Salzmann, | (参考訳) 特にソースとターゲットドメインが異なるデータ分散に従うシナリオでは、モデルのパフォーマンスを正確に見積もることが大きな課題となる。
既存のパフォーマンス予測手法の多くは、推定プロセスのソースデータに大きく依存しており、トレーニングされたモデルのみがアクセス可能なより現実的な環境での適用性を制限する。
ソースデータを必要としない数少ない方法は、かなり性能が劣っている。
本研究では,不確実性に基づく推定を主軸としたソースフリー手法を提案する。
我々は,非教師なしキャリブレーションと温度スケーリングの連携を確立する。
次に、偏差予測の正しさを評価するために勾配に基づく戦略を用いる。
オブジェクト認識データセットのベンチマーク実験により、既存のソースベースの手法は、限られたソースサンプルの可用性で不足していることが判明した。
さらに,提案手法は,現在の最先端のソースフリーおよびソースベース手法よりも優れており,ドメイン不変性能推定の有効性が確認されている。
Accurately estimating model performance poses a significant challenge, particularly in scenarios where the source and target domains follow different data distributions. Most existing performance prediction methods heavily rely on the source data in their estimation process, limiting their applicability in a more realistic setting where only the trained model is accessible. The few methods that do not require source data exhibit considerably inferior performance. In this work, we propose a source-free approach centred on uncertainty-based estimation, using a generative model for calibration in the absence of source data. We establish connections between our approach for unsupervised calibration and temperature scaling. We then employ a gradient-based strategy to evaluate the correctness of the calibrated predictions. Our experiments on benchmark object recognition datasets reveal that existing source-based methods fall short with limited source sample availability. Furthermore, our approach significantly outperforms the current state-of-the-art source-free and source-based methods, affirming its effectiveness in domain-invariant performance estimation. | 翻訳日:2024-08-07 13:18:40 公開日:2024-08-06 |
# 長期ビデオ言語接地における環境制約の注入
Infusing Environmental Captions for Long-Form Video Language Grounding ( http://arxiv.org/abs/2408.02336v2 ) ライセンス: Link先を確認 | Hyogun Lee, Soyeon Hong, Mujeen Sung, Jinwoo Choi, | (参考訳) 本研究では,長大なビデオ言語グラウンドリング(VLG)の問題に取り組む。
長文のビデオと自然言語のクエリが与えられた場合、モデルはクエリに応答する正確な瞬間を時間的にローカライズする必要がある。
人間は、経験から得られた広範囲で堅牢な知識を使って、無関係な瞬間を捨てることで、任意に長いビデオでも簡単にVLGのタスクを解ける。
人間とは異なり、既存のVLG法は、たとえ無関係なフレーム内であっても、小さなデータセットから学んだ表面的な手がかりに陥る傾向がある。
この課題を解決するために,マルチモーダル大規模言語モデル(MLLM)が提供するリッチなテキスト情報を活用するVLG手法であるEI-VLGを提案する。
提案手法の有効性を,EgoNLQベンチマークを用いた広範囲な実験により検証した。
In this work, we tackle the problem of long-form video-language grounding (VLG). Given a long-form video and a natural language query, a model should temporally localize the precise moment that answers the query. Humans can easily solve VLG tasks, even with arbitrarily long videos, by discarding irrelevant moments using extensive and robust knowledge gained from experience. Unlike humans, existing VLG methods are prone to fall into superficial cues learned from small-scale datasets, even when they are within irrelevant frames. To overcome this challenge, we propose EI-VLG, a VLG method that leverages richer textual information provided by a Multi-modal Large Language Model (MLLM) as a proxy for human experiences, helping to effectively exclude irrelevant frames. We validate the effectiveness of the proposed method via extensive experiments on a challenging EgoNLQ benchmark. | 翻訳日:2024-08-07 13:18:40 公開日:2024-08-06 |
# RECE: 大規模シーケンスレコメンダにおけるクロスエントロピー損失の低減
RECE: Reduced Cross-Entropy Loss for Large-Catalogue Sequential Recommenders ( http://arxiv.org/abs/2408.02354v2 ) ライセンス: Link先を確認 | Danil Gusak, Gleb Mezentsev, Ivan Oseledets, Evgeny Frolov, | (参考訳) スケーラビリティは現代のレコメンデータシステムにおいて大きな課題です。
シーケンシャルなレコメンデーションでは、完全なクロスエントロピー(CE)損失は最先端のレコメンデーション品質を達成するが、大量のアイテムカタログを持つ過剰なGPUメモリを消費し、実用性を制限する。
本稿では,GPUの局所性に敏感なハッシュ型アルゴリズムを用いて,新たなRECE(Reduced Cross-Entropy)ロスを提案する。
RECEは、完全なCE損失の最先端性能を享受しながら、メモリ消費を大幅に削減する。
さまざまなデータセットの実験結果から、RECEはCE損失のパフォーマンス指標を維持したり、超えたりしながら、既存の手法に比べて最大12倍のピークメモリ使用率のトレーニングを削減している。
このアプローチは、他のドメインにおける大規模アプリケーションに対する新たな可能性を開く。
Scalability is a major challenge in modern recommender systems. In sequential recommendations, full Cross-Entropy (CE) loss achieves state-of-the-art recommendation quality but consumes excessive GPU memory with large item catalogs, limiting its practicality. Using a GPU-efficient locality-sensitive hashing-like algorithm for approximating large tensor of logits, this paper introduces a novel RECE (REduced Cross-Entropy) loss. RECE significantly reduces memory consumption while allowing one to enjoy the state-of-the-art performance of full CE loss. Experimental results on various datasets show that RECE cuts training peak memory usage by up to 12 times compared to existing methods while retaining or exceeding performance metrics of CE loss. The approach also opens up new possibilities for large-scale applications in other domains. | 翻訳日:2024-08-07 13:18:40 公開日:2024-08-06 |
# コンテキスト情報によるAIベースのソフトウェアエクスプロイット生成の強化
Enhancing AI-based Generation of Software Exploits with Contextual Information ( http://arxiv.org/abs/2408.02402v2 ) ライセンス: Link先を確認 | Pietro Liguori, Cristina Improta, Roberto Natella, Bojan Cukic, Domenico Cotroneo, | (参考訳) この実践経験レポートでは、自然言語(NL)記述から攻撃的セキュリティコードを生成するニューラルネットワーク翻訳(NMT)モデルの能力について検討し、文脈理解の重要性とモデルパフォーマンスへの影響を強調している。
本研究では,情報不足,必要なコンテキスト,不要なコンテキストなど,さまざまなシナリオでモデルを評価するために,実際のシェルコードからなるデータセットを用いる。
実験は、不完全記述に対するモデルの弾力性、文脈を活用して精度を高める能力、無関係な情報を識別する能力を評価するように設計されている。
その結果,文脈データの導入は性能を著しく向上させることがわかった。
しかし、追加のコンテキストの利点は特定の点を超えて減少し、モデルトレーニングに最適な文脈情報レベルを示す。
さらに、モデルは不要なコンテキストをフィルタリングし、攻撃的セキュリティコードの生成において高いレベルの精度を維持する能力を示す。
この研究は、AI駆動コード生成におけるコンテキスト使用の最適化について、特に攻撃コード生成のような高度な技術的精度を必要とするアプリケーションについて、今後の研究の道を開くものである。
This practical experience report explores Neural Machine Translation (NMT) models' capability to generate offensive security code from natural language (NL) descriptions, highlighting the significance of contextual understanding and its impact on model performance. Our study employs a dataset comprising real shellcodes to evaluate the models across various scenarios, including missing information, necessary context, and unnecessary context. The experiments are designed to assess the models' resilience against incomplete descriptions, their proficiency in leveraging context for enhanced accuracy, and their ability to discern irrelevant information. The findings reveal that the introduction of contextual data significantly improves performance. However, the benefits of additional context diminish beyond a certain point, indicating an optimal level of contextual information for model training. Moreover, the models demonstrate an ability to filter out unnecessary context, maintaining high levels of accuracy in the generation of offensive security code. This study paves the way for future research on optimizing context use in AI-driven code generation, particularly for applications requiring a high degree of technical precision such as the generation of offensive code. | 翻訳日:2024-08-07 13:18:40 公開日:2024-08-06 |
# 強化学習の解説--非現実的共有価値アプローチ
Explaining Reinforcement Learning: A Counterfactual Shapley Values Approach ( http://arxiv.org/abs/2408.02529v2 ) ライセンス: Link先を確認 | Yiwei Shi, Qi Zhang, Kevin McAreavey, Weiru Liu, | (参考訳) 本稿では,補足価値と反事実分析を統合することで,強化学習(RL)における説明可能性を高める新しい手法を提案する。
このアプローチは、異なる状態次元のコントリビューションをさまざまなアクション選択に定量化し比較することを目的としている。
これらの影響をより正確に分析するために,新しい特徴値関数である `Counterfactual difference Characteristics Value" と `Average Counterfactal Difference Characteristics Value を導入する。
これらの関数はShapley値の計算に役立ち、最適なアクションと非最適アクションのコントリビューションの違いを評価する。
GridWorld、FrozenLake、Taxiなど、いくつかのRLドメインにわたる実験は、CSVメソッドの有効性を実証している。
その結果, この手法は複雑なRLシステムの透明性を向上するだけでなく, 様々な決定の相違を定量化する。
This paper introduces a novel approach Counterfactual Shapley Values (CSV), which enhances explainability in reinforcement learning (RL) by integrating counterfactual analysis with Shapley Values. The approach aims to quantify and compare the contributions of different state dimensions to various action choices. To more accurately analyze these impacts, we introduce new characteristic value functions, the ``Counterfactual Difference Characteristic Value" and the ``Average Counterfactual Difference Characteristic Value." These functions help calculate the Shapley values to evaluate the differences in contributions between optimal and non-optimal actions. Experiments across several RL domains, such as GridWorld, FrozenLake, and Taxi, demonstrate the effectiveness of the CSV method. The results show that this method not only improves transparency in complex RL systems but also quantifies the differences across various decisions. | 翻訳日:2024-08-07 13:18:40 公開日:2024-08-06 |